資料室のご案内
録音方法や起こし方、音声認識の動向など、お役に立ちそうな情報をご提供しています。

素朴な疑問にお答えします(その1)
Q:人や場合によって聞き取れないことがあるのはなぜですか?

うまく録音できなかった音声の修復は困難
音声は後から修復しようとしても難しいのが結論です。

録音に必要なICレコーダーの台数
席の間隔にもよりますが、確実に録音するため、当社では3人に1台を目安に置いています。

複数のワイヤレスマイク使用時にノイズが発生する
各マイクのチャンネル設定が正しくないと、複数のワイヤレスマイクのスイッチを同時に入れたときにノイズが発生します。

音声認識が得意な音声と不得意な音声
音声認識にも得意・不得意があります。最も認識率が高いのは、ニュース番組をライン録音したような明瞭な音声で、逆に最も認識率が低いのは、大人数の雑談をICレコーダー1台で録音したり、スマホをポケットに入れた隠し取りのような場合です。

Zoom等を使用したオンライン・ハイブリッド会議の開催方法
ハンドマイクのスピーカーとマイクスピーカーを離して置いていませんか?
ハウリングは起こしませんので、ハンドマイクのスピーカーの前にマイクスピーカーとICレコーダーを置いてください。
録音状態が良くない音声と良い音声を聞き比べてみる
何となくは聞こえるけれども、起こすときに細部が聞き取れない音声があります。
2本目のオリジナルは、第217回国会での首相施政方針演説の一部、20秒ほどの音声です。1本目は、同じ部分に反響やこもり、ノイズなどを付加し、録音状態が良くない典型的な音声を再現したものです。聞き比べていただくと一目瞭然(一耳瞭然?)だと思います。できれば、音声を聞いて起こしてみてください。
録音状態が良くない音声
この音声を聞いて、以下のように起こせたでしょうか。
また、沖縄振興の経済効果を十分に域内に波及させ、それを実感していただくため、地元事業者の成長や県産品の活用に配意し、沖縄経済の構造改革に向けて支援を継続いたします。
沖縄のことを言っているのは分かるのですが、例えば「域内」や「県産品」「配意」といった、あまり耳なじみのない言葉が聞き取れなかったのではないでしょうか。「それを」なのか「これを」なのかも迷うところです。「改革」はそもそもきちんと言えていないので不明瞭になっています。
オリジナルの良好な音声
次に、オリジナルの良好な音声を聞いていただいて、聞き終わりましたら、もう一度1本目を聞いてみてください。2本目を聞いてからだと、1本目で聞き取れなかったところも聞き取れることがお分かりいただけると思います。それは、頭の中で、聞き取れない部分はこうだと補って聞いているからです。とはいえ、通常は1本目しかないので、このぐらいの録音状態の音声をお預かりすると、穴が空くことの了解を得てから着手することになります。
まとめ
2本目のような録音をしないためには、マイクを使用する場合はスピーカーの近くに、マイクを使用しない場合は発言者の近くに、できるだけ音源の近くにICレコーダーを置く必要があります。ホテルの会議室やホール、講堂、公会堂、集会所など、大きな会場では、PA(音響機器)に直接つないでライン録音をする方法が有効です。
「耳を傾ける」という言い方があるように人間の耳は精巧にできていて、その場では聞き取れていても、録音した音声を聞いてみると、現場で聞いていた音声とは違って、よく聞き取れなかったという経験はないでしょうか。あるいは、マイクで拡声していればどこで録音しても同じだと思いがちなのですが、実際にはスピーカーから離れるほど音がぼやけてしまいます。ICレコーダーは人間の耳ほど精巧にはできていないからです。
リアル文字起こし【比較検証】人力起こし VS 音声認識修正
人力で起こしていくパターンと、音声認識を修正していくパターンを、同じ音声で同じ人が行って比較検証しています。
今回は無料の中でも比較的精度が良いことで有名な音声認識を使用しました。結果は1勝1引き分けで人力のほうに軍配が上がりましたが、鍛え抜かれた有料のアプリや学習を積み重ねた音声認識であれば、もう少しケバ(無機能語)が取れて後の修正作業が楽になってくるかもしれません。(2025年4月時点の検証結果)
リアル文字起こし(1)ケバ取り忠実起こし
録音状態が良く、ケバもあまりない話し方のため、ほぼ互角の結果となりました。興味深いのは、(2)のほうもそうですが、人力起こしと音声認識を修正した結果は、読点の位置や聞き取りにくいところの処理などが同じではないということです。人力起こしで聞き取りにくかったためスペースを空けておいたところを、音声認識は「各国の知ったのは」としたのでそのまま直しませんでしたが、人力起こしでは、最終的に文脈から「各国の人に言ったのは」としています。忠実起こしですので穴を空けてよいレベルではありますが、同じ音声を起こしても、人や手段によって結果が異なることがお分かりいただけると思います。
音声時間 | 0:03:14 |
---|---|
人力起こしに要した時間 | 0:11:51 |
音声認識に要した時間 | 0:11:44(音声認識時間0:00:38+修正時間0:11:06) |
上記2本の動画は、2025年1月24日に新橋で行われた玉木雄一郎氏の街頭演説を基に有限会社アルファテキストが制作したものです。
比較検証結果
サムネイルをクリックするとポップアップで拡大します。
音声認識結果は不要な半角スペースが多く、間の空いたところで改行されていたため、あらかじめそれらを削除した上で比較検証結果を出しています。
[比較検証結果のマーカー色について]青色は誤認識、緑色は句読点や助詞が異なる部分、灰色は2校で修正した箇所、黄色はケバのほか異なる部分、表記等で異なっても問題ない部分はマーカーをつけていません。
リアル文字起こし(2)ケバ取り整文起こし
録音状態は(1)と同じですが、人力のほうが約25%速い結果となりました。恐らく、音声認識のほうはケバが多く修正に時間がかかったのと、さらに整文を行ったためと思われます。音声認識修正編では、字幕の解説にも書いていますが、ケバの修正に気を取られて肝心の名前の間違いに気づけていません。この仕事をしている人は、音声を聞きながらケバを取って指定の表記で起こし、熟練者は同時に整文までしていきますので、本来は文字化する時点でできている処理を後からすることで、人力で起こすより時間がかかるだけでなく、校正の目も行き届いていないことがお分かりいただけると思います。
音声時間 | 0:03:58 |
---|---|
人力起こしに要した時間 | 0:13:09 |
音声認識に要した時間 | 0:17:37(音声認識時間0:01:26+修正時間0:16:11) |
上記2本の動画は、2025年1月24日に新橋で行われた鳩山紀一郎氏の街頭演説を基に有限会社アルファテキストが制作したものです。
比較検証結果
サムネイルをクリックするとポップアップで拡大します。
音声認識結果は不要な半角スペースが多く、間の空いたところで改行されていたため、あらかじめそれらを削除した上で比較検証結果を出しています。
[比較検証結果のマーカー色について]青色は誤認識、緑色は句読点や助詞が異なる部分、灰色は2校で修正した箇所、黄色はケバのほか異なる部分、表記等で異なっても問題ない部分はマーカーをつけていません。