クローズドキャプションを有効にできる魅力的な機能を備えています。このツールは、発言内容のリアルタイムの文字起こしを自動作成することで、セッションの進行を視覚的にサポートします。Teams
とZoomはどちらも、自動音声認識アルゴリズムを使用して音声をリアルタイムで文字起こしします。これらの機能は完全に自動化されており、会議主催者による準備はほとんど、あるいは全く必要ありません。
Zoom のキャプションはどれくらい正確ですか?
Zoomでは、Zoomミーティングやウェビナーにクローズドキャプションを追加する2つの方法を提供しています。ミーティングでは、ホストが統合されたサードパーティのクローズドキャプションプロバイダーを使用して、ミーティングのゲストに手動で字幕を割り当てることができます。また、Zoomには自動字幕機能もあり、ミーティングホストが追加の操作をすることなく、オン/オフを切り替えることができます。
Zoom の自動字幕の精度は約 80%。
Teams のキャプションの精度はどの程度ですか?
Microsoft Teams中にライブキャプションを有効にすることができ、ビデオフィードのすぐ下に表示されます。調査によると、このキャプションの精度は85%~90%に。
標準的な音声テキスト変換エンジンが機能しない箇所
どちらのプラットフォームも、話者の話内容を理解するのに十分な字幕品質を提供しています。しかし、ほとんどの自動音声認識システムは、話者があまり一般的ではない単語やフレーズを使用すると、正しく認識されません。例えば、特徴的なブランド名や、あまり一般的ではないが別の綴りを持つ名前などです。
AI搭載の音声テキスト変換エンジンは、本質的に予測的な性質を持っています。ある用語が標準辞書に載っておらず、日常会話ではあまり使われないか全く使われていない場合、エンジンはセッション中にその用語を予測しません。
おすすめの記事
Netflix 加入者の 80% が字幕を定期的に使用していることをご存知ですか?
エンジン最適化で品質を向上する方法
Interprefy Captionsなどのより高度な AI 搭載字幕作成システムは、通常のエンジンでは見逃されてしまう重要な珍しい単語やフレーズを含めるようにカスタマイズできます。
これは、セッションにとって重要なキーワードを含めるようにシステムをカスタマイズすることによって実現されます。
これらの用語を事前にシステムに入力しておくと、システムはそれらの存在を認識し、セッション中に発生したときにそれらを検出して正しく転記できるようになります。
以下は、音声テキスト変換システムで頻繁に見逃される用語の例です。
- 人物、講演者、組織または分野の主要人物の名前
- 技術、製品、またはサービスの名称
- ブランド名
- 頭字語と略語
- 技術用語、専門用語、業界用語などの一般的でない用語
字幕の品質比較
早速エンジンをテストしてみましょう。Teams、Zoom、Interprefyで同じ文に自動字幕を生成し、3つの手法を比較してみましょう。
「Bravocado」という会社を想像してみてください。Bravocadoは、新CEOのAleks Ritchie氏を紹介し、最新製品であるFRT 420を発表するために、全社規模のタウンホールミーティングを開催する予定です。
以下は、MS Teams、Zoom、Interprefy での開会の辞の書き起こしです。
|
オリジナル脚本 こんにちは、Bravocadoタウンホールへようこそ。後ほど、新CEOのAleks Richieとお会いし、FRT 420の近日発売予定についてもお話しさせていただきます。 |
以下は、イベントに関連するが、通常は AI エンジンによって識別されない重要な用語です。
- ブラボカド
- アレックス・リッチー
- FRT 420
次に、会議中に各プラットフォームに表示される、まったく同じ話された文章の字幕を調べてみましょう。
Microsoft Teamsのキャプション出力
まずはMicrosoft Teamsから始めましょう。上記と同じ言葉が、Microsoft Teamsの会議に参加し、自動字幕表示オプションをオンにした状態で、はっきりと読み上げられました。
結果は次のとおりです。

ご覧のとおり、Microsoft のエンジンは理解するには十分な品質を提供しましたが、3 つの重要なキーワードが欠けていました。
| 元の用語 | チームの出力 | |
| ブラボカド | → | ブラバド |
| アレックス・リッチー | → | アレックス・リッチー |
| FRT-420 | → | FT-420 |
ズームキャプション出力
それでは、Zoomの字幕機能を使ってみましょう。Zoomミーティングに参加し、字幕をオンにして、はっきりと声に出して話すという手順を踏んでみました。
結果は次のとおりです。

Zoomの結果はTeamsと若干異なっていました。句読点や文の構造が少し間違っており、また、Zoomはいくつかの重要な用語を誤って認識していました。
| 元の用語 | ズーム出力 | |
| ブラボカド | → | ブラボード |
| アレックス・リッチー | → | アレックス・リッチー |
| FRT-420 | → | 420 階 |
エンジン最適化による字幕出力の解釈
ZoomとTeamsは通常のトレーニングデータに基づいて自動的に生の出力を行いますが、Interprefyはさらに一歩進んで、音声テキスト変換エンジンを最適化します。これは、セッションに関連性の高い独自のキーワードを使用してシステムを改善することで実現されます。
結果は次の通りです:
ご覧のとおり、エンジンが最適化された後、Interprefy の字幕システムによって 3 つのキーワードすべてが正確にキャプチャされました。
要約すれば

標準的なAIエンジンは、話されている内容の概略を把握するのに役立つ字幕を提供できます。しかし、私たちの実験では、特定の用語に特別な注意を払う機能が備わっていないシステムでは、私たちが探していた3つの主要な単語をすべて見逃してしまうことが示されました。
「十分」であれば、ZoomやTeamsの字幕機能は、ユーザーが基本的な理解を深めるのに役立つツールとして有効な選択肢となるかもしれません。しかし、イベントの文脈や関連性によっては、重要なフレーズのスペルミスがほぼ確実に発生するシステムを採用することは、リスクの高い選択となる可能性があります。
Interprefy Captionsのような専門的な字幕作成システムは、標準を超える精度の向上に役立ちます。さらに素晴らしいのは、Zoomウェビナー、Teamsミーティング、その他あらゆる会議プラットフォームに追加できるため、どこでも字幕作成体験を次のレベルに引き上げることができることです。



その他のダウンロードリンク



