AI字幕の精度を理解する：包括的ガイド

執筆者 Markus Aregger | April 13, 2023

クローズドキャプションは、プレゼンテーションやライブイベント中のアクセシビリティ、エンゲージメント、情報保持を向上させる効果的な手法です。これに加えて、動画ストリーミング領域での視聴習慣の変化が、ライブイベントやビジネスミーティングにおけるAI搭載キャプションの導入を最近加速させています。.

しかし、自分の会議やイベントのプロバイダーを選ぶ際に最も頻繁に問われる質問は、ライブ自動キャプションの精度はどれくらいか、ということです。

簡潔な答えは、理想的な条件下では、音声言語の自動字幕は単語誤り率（WER）で評価された場合、最大98％の精度を達成できるということです。.

そして、はい、長くてやや複雑な答えがあります。このこの記事では、正確さがどのように測定されるか、正確さに影響を与える要因は何か、そして正確さを新たな高みへと引き上げる方法の概要を提供したいと考えています。.

数値に入る前に、一歩引いて自動キャプションの仕組みを見てみましょう。.

自動キャプションの仕組み

自動キャプション

Automatic captions convert speech into text that shows on screen in real-time in the same language as the speech. ASR - Automated Speech Recognition - is a sort of artificial intelligence used to produce these transcripts of spoken sentences.

The technology, often known as "speech-to-text," is used to automatically recognize words in audio and transcribe the voice into text.

AI翻訳字幕

AI搭載の翻訳エンジンは、異なる言語で表示されるキャプションを自動的に翻訳します。これは機械翻訳された字幕または機械翻訳されたキャプションとしても知られています。.

次回のイベントにライブ字幕を追加すべき理由

記事を読む →

In this article, we're covering automatic captions. If you want to know about the accuracy of AI-translated captions, check this article.

優れたキャプション品質とは何か？

連邦通信委員会（FCC）は、2014年にキャプションが "優秀" であるかどうかを判断するための重要な特性を設定しました：

正確性 -キャプションは話された言葉とできるだけ一致させる必要があります
完全性 - 字幕は放送の開始から終了まで、可能な限り完全に表示されます。
配置 - 字幕は重要なビジュアルコンテンツを遮らず、読みやすいです。
同期 - キャプションは音声トラックに合わせて同期し、読みやすい速度で表示されます。

画像：ウェビナー中のAI翻訳ライブ字幕

正確性に影響を与える要因は何ですか？

選択されたAIエンジン

すべての音声認識エンジンが同一の結果を出すわけではありません。一般的に優れているものもあれば、特定の言語で優れているものもあります。同じエンジンを使用していても、アクセントやノイズレベル、トピックなどに大きく左右され、結果が大きく変わることがあります。.

このため、Interprefyでは常にトップエンジンをベンチマークし、最も正確な結果を生み出すものを特定しています。その結果、Interprefyは遅延やコストなどの要素を考慮した、特定の言語に最適なソリューションをユーザーに提供できます。理想的な設定下では、複数の言語で最大98％の一貫した精度を実現しています。.

音声入力の品質

自動音声認識技術が高品質な出力を生成するには、質の高い入力が必要です。シンプルです：音声と音の品質と明瞭さが高いほど、結果はより良くなります。.

音声品質 - 同様に会議通訳、不良な音声入力ハードウェア（内蔵マイクなど）は、負の影響を及ぼす可能性があります。
Clear speech & pronunciation - Presenters who speak loud, well-paced, and clearly, will usually be captioned with higher accuracy.
背景ノイズ - マイクで拾われる重い轟音、犬の鳴き声、または紙のかき鳴らしは、音声入力の品質を大幅に低下させる可能性があります。
アクセント - 珍しいまたは強いアクセントを持つ話者や、母語話者でない話者は、多くの音声認識システムに問題を引き起こします。
重なり合う発話 - 二人が同時に話すと、システムは正しい話者を正確に検出するのが非常に困難になります。

Zoom、Teams、Interprefy における字幕の正確性はどの程度ですか？

記事を読む →

自動字幕の精度を測定する方法

ASR の精度を測定する最も一般的な指標は単語誤り率（WER）であり、話者の実際の文字起こしと ASR 出力の結果を比較します。.

例えば、100語中4語が誤っている場合、正確度は96％になります。. 

単語誤り率（WER）を理解する

WERは、音声認識システムによって生成された文字起こしテキストと、人間（真実の基準）によって作成された参照文字起こしとの最短距離を決定します。.

WER は、参照テキストと文字起こしテキストを完全に整合させるために必要な修正（置換、削除、挿入）の総数を算出する前に、単語レベルで正しく識別された語順を整列させます。その後、WER は、参照テキスト内の単語総数に対する必要な調整回数の比率として計算されます。WER が低いほど、音声認識システムの精度が高いことを示します。.

語彙誤り率の例：正確度 91.7%

単語エラー率 8.3%（正確度 91.7%）の例を取り、スピーチの元の文字起こしと ASR によって作成されたキャプションとの差異を比較してみましょう：

元の文字起こし:

ASR字幕出力:

例えば、私行うのみ非常に限定的な使用が行われることが好きです 必需品 提供され、私は特定のポイントをより詳細に掘り下げたいと恐れています 私は呼びかけます 個々の州議会に対し、欧州裁判所の役割が明確になるまで条約を批准するよう求めることは、非常に有害な影響を及ぼす可能性があります。

例えば、私も同様にのみごく限られた使用を行うことを希望します例外提供された場合、特定の点をより詳細に検討したいと考えており、懸念していますその 呼びかけ 個別の州議会が、欧州裁判所の役割が明確になるまで条約の批准を行うことは、非常に有害な影響を及ぼす可能性があります。

この例では、キャプションが1つの単語を見逃し、4つの単語に置き換えられました：

測定値: {'matches': 55, 'deletions': 1, 'insertions': 0, 'substitutions': 4}
置換: [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
削除: ['would']

したがって、単語誤り率の計算は次のとおりです：

WER = (削除 + 置換 + 挿入) / (削除 + 置換 + 一致) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

WERはエラーの性質を見落とします

上記の例では、すべてのエラーが同等に影響を与えるわけではありません。.

WER測定は、特定のエラーがどれほど関連性・重要性を持つかを示さないため、誤解を招く可能性があります。同一単語の綴りの違い（movable / moveable）のような単純なエラーは、読者にエラーと認識されにくい一方で、置換（exemptions / essentials）のようなエラーはより大きな影響を与えることがあります。.

WER の数値は、特に高精度の音声認識システムにおいて、誤解を招く可能性があり、常に人間の正確性に対する認識と一致するわけではありません。人間にとって、90％から99％の正確性レベルの差はしばしば区別しにくいです。

認識された語彙誤差率

Interprefyは、独自かつ言語別のASRエラー指標「Perceived WER」を開発しました。この指標は、音声の人間理解に影響を与えるエラーのみをカウントし、すべてのエラーを対象としません。Perceivedエラーは通常、WERよりも低く、場合によっては最大50%も低減します。5〜8%のPerceived WERは、ユーザーにほとんど認識されません。.

以下のチャートは、非常に高精度なASRシステムにおけるWERと認知WERの違いを示しています。同一言語の異なるデータセット（S0‑S4）間のパフォーマンス差にもご注目ください。.

グラフに示すように、人間が認識するWERは統計的なWERよりもはるかに優れていることが多いです。.

以下のチャートは、特定の言語における同一音声データセットで、認知WERを用いて比較した複数のASRシステム間の精度差を示しています。. 

ライブイベント向けに驚異的に正確なクローズドキャプションを取得する

当社の独自の技術ソリューションとお客様への配慮により、自動字幕の精度が97％に達したことをご報告いたします。インタープリフィーのAIデリバリー部門責任者、アレクサンダー・ダヴィドフ

イベント中に高精度な自動字幕を実現したい場合、考慮すべき重要なポイントが3つあります：

最高水準のソリューションをご利用ください

すべての言語をカバーする汎用エンジンを選ぶのではなく、イベントごとに各言語に最適なエンジンを活用するプロバイダーを選択してください。.

最適なエンジンが提供できることを理解したいですか？記事をご覧ください：ライブキャプションの未来：Interprefy AI がアクセシビリティを支える方法

エンジンを最適化する

AIを補完するカスタム辞書を提供できるベンダーを選択し、ブランド名や特殊な名称、略語が適切に取得されることを保証します。.

高品質な音声入力を確保してください

音声入力が不良の場合、ASRシステムは出力品質を確保できません。音声が大きく、はっきりと捉えられるようにしてください。.

全文を見る