クローズドキャプションは、プレゼンテーションやライブイベント中のアクセシビリティ、エンゲージメント、情報保持を向上させる効果的な手法です。これに加えて、動画ストリーミング領域での視聴習慣の変化が、ライブイベントやビジネスミーティングにおけるAI搭載キャプションの導入を最近加速させています。.
しかし、自分の会議やイベントのプロバイダーを選ぶ際に最も頻繁に問われる質問は、ライブ自動キャプションの精度はどれくらいか、ということです。
簡潔な答えは、理想的な条件下では、音声言語の自動字幕は単語誤り率(WER)で評価された場合、最大98%の精度を達成できるということです。.
そして、はい、長くてやや複雑な答えがあります。このこの記事では、正確さがどのように測定されるか、正確さに影響を与える要因は何か、そして正確さを新たな高みへと引き上げる方法の概要を提供したいと考えています。.
数値に入る前に、一歩引いて自動キャプションの仕組みを見てみましょう。.
自動字幕は、音声をリアルタイムで画面に表示されるテキストに変換し、音声と同じ言語で表示します。ASR(自動音声認識)は、話された文の文字起こしを生成するために使用される人工知能の一種です。
この技術は、一般に "speech-to-text," と呼ばれ、音声中の単語を自動的に認識し、音声をテキストに書き起こすために使用されます。
AI搭載の翻訳エンジンは、異なる言語で表示されるキャプションを自動的に翻訳します。これは機械翻訳された字幕または機械翻訳されたキャプションとしても知られています。.
この記事では、自動キャプションについて解説しています。AI翻訳キャプションの精度について知りたい場合は、この記事。
連邦通信委員会(FCC)は、2014年にキャプションが "優秀" であるかどうかを判断するための重要な特性を設定しました:
すべての音声認識エンジンが同一の結果を出すわけではありません。一般的に優れているものもあれば、特定の言語で優れているものもあります。同じエンジンを使用していても、アクセントやノイズレベル、トピックなどに大きく左右され、結果が大きく変わることがあります。.
このため、Interprefyでは常にトップエンジンをベンチマークし、最も正確な結果を生み出すものを特定しています。その結果、Interprefyは遅延やコストなどの要素を考慮した、特定の言語に最適なソリューションをユーザーに提供できます。理想的な設定下では、複数の言語で最大98%の一貫した精度を実現しています。.
自動音声認識技術が高品質な出力を生成するには、質の高い入力が必要です。シンプルです:音声と音の品質と明瞭さが高いほど、結果はより良くなります。.
ASR の精度を測定する最も一般的な指標は単語誤り率(WER)であり、話者の実際の文字起こしと ASR 出力の結果を比較します。.
例えば、100語中4語が誤っている場合、正確度は96%になります。.
WERは、音声認識システムによって生成された文字起こしテキストと、人間(真実の基準)によって作成された参照文字起こしとの最短距離を決定します。.
WER は、参照テキストと文字起こしテキストを完全に整合させるために必要な修正(置換、削除、挿入)の総数を算出する前に、単語レベルで正しく識別された語順を整列させます。その後、WER は、参照テキスト内の単語総数に対する必要な調整回数の比率として計算されます。WER が低いほど、音声認識システムの精度が高いことを示します。.
単語エラー率 8.3%(正確度 91.7%)の例を取り、スピーチの元の文字起こしと ASR によって作成されたキャプションとの差異を比較してみましょう:
| 元の文字起こし: | ASR字幕出力: |
| 例えば、私 行う のみ非常に限定的な使用が行われることが好きです必需品 提供され、私は特定のポイントをより詳細に掘り下げたいと恐れています 私は呼びかけます 個々の州議会に対し、欧州裁判所の役割が明確になるまで条約を批准するよう求めることは、非常に有害な影響を及ぼす可能性があります。 | 例えば、私 も同様には、極めて限定的な使用のみを行うことを望んでいます 例外ただし、ある特定の点をより詳しく掘り下げたいと考えており、私は懸念しています その 呼びかけ 個別の州議会に対し、欧州司法裁判所の役割が明確になるまで条約の批准を求めることは、非常に有害な影響を及ぼす可能性があります。 |
この例では、キャプションが1つの単語を見逃し、4つの単語に置き換えられました:
したがって、単語誤り率の計算は次のとおりです:
WER = (削除 + 置換 + 挿入) / (削除 + 置換 + 一致) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
上記の例では、すべてのエラーが同等に影響を与えるわけではありません。.
WER測定は、特定のエラーがどれほど関連性・重要性を持つかを示さないため、誤解を招く可能性があります。同一単語の綴りの違い(movable / moveable)のような単純なエラーは、読者にエラーと認識されにくい一方で、置換(exemptions / essentials)のようなエラーはより大きな影響を与えることがあります。.
WER の数値は、特に高精度の音声認識システムにおいて、誤解を招く可能性があり、常に人間の正確性に対する認識と一致するわけではありません。 人間にとって、90%から99%の正確性レベルの差はしばしば区別しにくいです。
Interprefyは、独自かつ言語別のASRエラー指標「Perceived WER」を開発しました。この指標は、音声の人間理解に影響を与えるエラーのみをカウントし、すべてのエラーを対象としません。Perceivedエラーは通常、WERよりも低く、場合によっては最大50%も低減します。5〜8%のPerceived WERは、ユーザーにほとんど認識されません。.
以下のチャートは、非常に高精度なASRシステムにおけるWERと認知WERの違いを示しています。同一言語の異なるデータセット(S0‑S4)間のパフォーマンス差にもご注目ください。.
グラフに示すように、人間が認識するWERは統計的なWERよりもはるかに優れていることが多いです。.
以下のチャートは、特定の言語における同一音声データセットで、認知WERを用いて比較した複数のASRシステム間の精度差を示しています。.
当社の独自の技術ソリューションとお客様への配慮により、自動字幕の精度が97%に達したことをご報告いたします。インタープリフィーのAIデリバリー部門責任者、アレクサンダー・ダヴィドフ
イベント中に高精度な自動字幕を実現したい場合、考慮すべき重要なポイントが3つあります:
最高水準のソリューションをご利用ください
すべての言語をカバーする汎用エンジンを選ぶのではなく、イベントごとに各言語に最適なエンジンを活用するプロバイダーを選択してください。.
最適なエンジンが提供できることを理解したいですか?記事をご覧ください: ライブキャプションの未来:Interprefy AI がアクセシビリティを支える方法
エンジンを最適化する
AIを補完するカスタム辞書を提供できるベンダーを選択し、ブランド名や特殊な名称、略語が適切に取得されることを保証します。.
高品質な音声入力を確保してください
音声入力が不良の場合、ASRシステムは出力品質を確保できません。音声が大きく、はっきりと捉えられるようにしてください。.