メディア消費行動の根本的な変化とAI技術の飛躍的な進歩により、AI翻訳字幕はあらゆる形態・規模のライブイベントにおいて、人気と強力な選択肢となっています。Interprefyは2022年に導入し、Microsoft TeamsやZoomでも利用可能です。ライブ会議用の自動生成多言語字幕です。この技術により、スピーチの言語を知らなくても、内容を理解することができます
しかし、それらの精度はどれほどなのでしょうか?簡単な答えはありません。結果は、選択されたアプローチと使用されるエンジン、特定の言語の組み合わせ、そして音声の特性(話者のアクセント、音質など)に大きく依存します。そして、翻訳の精度を測る明確な方法は存在しないというのが率直な真実です。
翻訳業界では、翻訳品質を様々な方法で表現しています。客観的な基準を策定しようとした際、ある研究者グループは「翻訳品質」をどのように定義すべきかについて、自分たちの間でさえ合意に至らなかったことを認めました。
翻訳の品質を測定するのがなぜ難しいのか、そして機械翻訳された字幕の品質を測定するにはどうすればよいのかを詳しく見てみましょう。
複数言語の自動字幕の仕組み
「自動翻訳」、「機械翻訳」、「AI翻訳」キャプション、または「多言語字幕」は、異なる言語の音声と並行してリアルタイムの字幕をユーザーに提供するクローズドキャプションです。これらの字幕は、自動音声認識と機械翻訳技術を組み合わせてトランスクリプトの翻訳テキストを生成するか、AIベースのソリューションを使用してソース言語の音声をターゲット言語のテキスト(または音声)に直接変換することで、ソース音声から作成されます。
翻訳品質の測定
言語は非常に複雑なため、翻訳の品質は解釈に左右されることが多いです。品質の問題は翻訳者や機械のミスによって生じると考える人もいるかもしれません。しかし、翻訳品質の問題と見なされるものは、主観的な評価による場合がはるかに多いのです。
ある多次元品質メトリクス(MQM)フレームワークは、品質の問題を分類する「機能主義的」アプローチを提供します。
- 正確さ
- スタイル
- 流暢さ
- ロケール規則
- 用語等
そのため、組織では翻訳者にスタイル ガイドや用語集を提供し、理想的には翻訳メモリを構築して、ニーズに合った翻訳作業全体の一貫性を確保することがよくあります。
翻訳の品質を測るということは、翻訳がどれだけ役に立つか、そして翻訳が目的にどれだけ適合しているかを評価することです。
ライブキャプションの機械翻訳品質
機械翻訳は60年以上前から存在し、今日では機械と人間が共存しています。しかし、ここ20年ほどで、機械翻訳の品質が急速に向上したことにより、言語サービスプロバイダー(LSP)、翻訳会社、フリーランサーは、生産性の向上とコスト削減のために機械翻訳を導入するようになりました。
すべての機械翻訳エンジンが同じというわけではない
今日では、Google翻訳、DeepL翻訳、Microsoft Translatorといったテキスト翻訳エンジンが数多く利用可能であり、さらにルールベース、統計的、適応型、ニューラルといった様々な種類の機械翻訳も存在します。ニューラル機械翻訳は、非常に満足のいく結果を生み出し、特定の種類のテキストにおいて人間と機械の間のギャップを迅速に埋める上で強力であることが証明されているため、ほとんどのサービスはニューラル機械翻訳へと移行し始めています。
翻訳エンジンや機械翻訳の種類によって、得られる結果は異なります。あるエンジンは、ある言語の組み合わせでは非常に優れた翻訳結果を出す一方で、他の言語の組み合わせでは役に立たない結果を出すこともあります。
リアルタイム編集とポスト編集の必要性
ほとんどの翻訳はすぐに完成させる必要がないため、ウェブサイトや文書の機械翻訳出力は、公開前にプロの翻訳者によるレビューとポストエディットが行われます。そのため、最高のエンジンを使用することは確かに時間の節約になりますが、必須ではありません。
ただし、ライブ多言語字幕は、ユーザーが読む前に人間が介入することなく、リアルタイムで配信される必要があります。
そのため、最高のパフォーマンスを発揮するエンジンとエンジンの組み合わせを使用し、音声入力品質を最適化することが重要です。例えば、話者の訛りが強く、質の悪いマイクを使用している場合、最高のソリューションを用いても、多言語字幕の品質は必ずしも一定ではない可能性があります。
Interprefyのアプローチ:ソリューションのベンチマークと入力オーディオの最適化
Interprefy の AI 配信チームは、単一の機械翻訳エンジンを使用するのではなく、主要な翻訳ソリューションだけでなく、特定の言語の組み合わせに対する音声認識と機械翻訳ソリューションの組み合わせも継続的にベンチマークします。
Interprefyは、世界をリードする研究機関と連携し、ライブ多言語字幕のための独自の自動ベンチマークプロセスを開発し、継続的に改善しています。アレクサンダー・ダヴィドフ、Interprefy AIデリバリー責任者
「私たちは、多種多様な音声データの大規模なセットを使用し、さまざまな翻訳システムやシステムの組み合わせからの出力を取得し、それをプロの翻訳者が作成した翻訳と比較し、検証して、正確さによってランク付けします」とアレクサンダー氏は説明します。
下のグラフは、同じソース言語から4つの言語に翻訳されたベンチマーク結果を示しています。ご覧のとおり、4つの言語ペアすべてにおいて一貫した品質を提供する単一のソリューションは存在しません。

しかし、最も洗練されたソリューションを持っていたとしても、入力品質が低ければ、品質は低下する可能性があります。
音質は、AI出力の品質だけでなく、通訳者の健康状態やパフォーマンス能力、そして聴衆の理解度や参加度にも影響を与える重要な要素です。そのため、Interprefyでは、イベント主催者や講演者に役立つガイドライン、講演者が音質をテストするためのツールを、音声品質向上ツール「Interprefy Clarifier」の開発にも取り組んでいます。
さらに、当社の専門スタッフがお客様と協力してシステムを最適化し、ブランド名や頭字語などを適切に設定します。
独自の品質評価を実行してみませんか?


その他のダウンロードリンク



