この記事は Interprefied ポッドキャストにアップロードされており、お好みのポッドキャスト ディレクトリで視聴できます。
以下のポッドキャストを聞いてダウンロードしてください:
ダウンロード可能:
音質は私たちにとって一日中つきものです。朝にラジオをかけて過ごしたり、夜遅くに新しいテレビシリーズを一気見したりと、良い音質はついつい当たり前のもののように思ってしまいます。音質の悪さを見分けるのは比較的簡単ですが、良い音質というのは実は非常に複雑な問題です。良い例として、レコード愛好家と他のオーディオマニアの間で10年ほど前から続いている、CDとレコードのどちらの音質が優れているかという議論が挙げられます。
遠隔通訳においては、高品質な音声の受信と送信の両方が不可欠です。情報の正確な処理と快適な音声体験の確保、そして参加者の聴覚保護が不可欠です。
スピーカーの挙動に影響を与える新しい方法の開発に常に取り組んでおり、優れた音質を確保する革新的なオーディオソリューションの実装にも取り組んでいます。よく話題になるサウンド圧縮は、正しく適用すれば、サウンド体験に非常に良い影響を与えることができます。
Interprefy のオーディオ エンジニア兼シニア プロダクト マネージャーである Richard Schiller 氏にインタビューしサウンド圧縮とは何か、RSI ではどのように使用されるのか、そして何が音質に影響を与えるのかを理解しました。
こんにちは、リチャードさん。あなたの経歴と仕事内容について少し教えてください。
こんにちは、ドラさん。またお話できて嬉しいです。Interprefyでの私の役割は、シニアプロダクトマネージャーです。製品の方向性と細部まで管理しています。また、音響エンジニアの訓練も受けています。元々は世界最大の音声ラジオ放送局であるBBCワールドサービスで働いていました。その経験から、明瞭性と一貫性にこだわるようになりました。
ラジオを大規模に成功させる鍵は一貫性であり、明瞭性こそが私たちが提供するものの本質でした。私は音楽レコーディングやテレビ業界でも働いた経験があります。プロデューサー、ディレクター、プレゼンター、脚本家など、この業界でのほとんどの仕事を経験してきました。
そうなると、あなたは「圧縮とは何ですか?」という百万ドルの価値がある質問に答えるのに適した人物です。
サウンドにおける圧縮には、互いに関連性のない2つの異なるものがあります。元々はダイナミック圧縮と呼ばれ、これは音量レベルを自動制御する回路、あるいは現在ではアルゴリズムです。これは主にダイナミックレンジ(最も弱い音と最も強い音の間のレンジ)を狭めるために使用されます。その後、ビットレート削減が登場しました。これは、保存または転送する必要があるオーディオデータの量を削減するシステムです。
動的圧縮とビットレート削減は、うまく使うことも、うまく使わないこともできます。
それで、それらは良いことでしょうか、それとも悪いことでしょうか?
どちらでもありません。ほとんどすべてのものと同様に、これら2つの技術はうまく使われることも、うまく使われないこともあります。うまく使われなければ、確かに良くありませんが、どちらの圧縮方法も本質的に悪いというわけではありません。
ダイナミック・コンプレッションは、本質的には、音量レベルを監視し、音量が大きくなりすぎるとボリュームノブを下げるデバイスのようなもので、音量が小さくなると再びボリュームノブを上げます。これにより、音量の大きい部分も小さい部分も同じように聞き取ることができます。これは、人間が音量調節器を使って音量を下げるのと本質的に変わりません。ダイナミック・コンプレッションは音量を下げることを目的としていることを強調しておきます。それがこの名前の由来です。
では、圧縮に関する懸念はどこから来るのでしょうか?
ダイナミックコンプレッションは音を小さくしますが、これは多くの場合好ましくないため、プリセットされたボリュームコントロールで音量を再び上げます。コンプレッションは信号のレベルを均一化するため、2通りの方法で調整できます。小さくして聞きやすくするか、大きくして注目を集めるようにするかです。ここで少し議論から離れて重要な点を指摘させてください。音が大きすぎると感じたら、音量を下げてください。常に自分のリスニングレベルをコントロールしてください。
レベルだけが問題になるわけではありません。コンプレッサーのいわゆる時定数も問題となります。最後に、レシオがあります。これは往々にして過度に設定され、圧縮によって音声が聞き取りにくくなる最も一般的な原因です。
最も厄介なアプリケーションの1つは、古い民生用機器や一部のPCで使用されているアルゴリズムの両方に見られる、設計の不適切な自動ゲイン制御(AGC)回路です。AGCとノイズゲートは、多くの場合、ラップトップやその他のデバイスでデフォルトでオンになっています。つまり、ダイナミクスは私たちの生活に常に存在しています。圧縮の設定が不適切な場合、破裂音や歯擦音がクリップされ、会話が聞き取りにくくなります。これは、特に文の最初の単語で、単語の先頭の硬い子音が鈍い音質として聞こえます。AGCの設定が不適切なもう1つの兆候は、大きな単語の後に静かな単語が続く場合、静かな単語の終わりは聞こえるのに、最初の単語が聞き取れないということです。
RSIについて考えてみましょう。音楽の音質は会話の音質とどう違うのでしょうか?
共通点はたくさんありますが、いずれの場合も、何が良いのかを注意深く理解する必要があります。音響処理されたスタジオで録音されたクラシック音楽の音源から音程を取り出して、それをスピーチに当てはめる人もいます。ある意味ではスピーチはオーケストラよりも簡単で、ある意味では難しいのです。
例えば、高域の帯域は、他の楽器に比べると音声にはそれほど重要ではありません。一部の打楽器では帯域が重要になるのに対し、音声では滑らかさが重要だというのは、もっともな議論です。だからこそ、レコーディングエンジニアはスネアドラムやシンバルとは別のマイクを使い、人物を録音するのです。
18kHzから20kHzの周波数は音声にとって重要だと反論する人もいるでしょうが、それは全く違います。一般的に、録音エンジニアが音声録音に使用する最高品質で高価なマイクでさえ、これらの周波数帯域では役に立ちません。なぜなら、それらの周波数帯域で録音する必要がないからです。
これは単なる偶然ではありません。例えば、森の中で数メートル離れた場所にいる人の口があなたの耳に直接向いている音を聞いているとします(そして、あなたはまだ20kHzの音を聞き取れるくらい若かったとします)。もしあなたが顔を向けて話し手が見える位置にいて、その人が横を向いたとしたら、20kHzの成分は聞こえなくなるか、少なくとも大幅に減少するでしょう。これらの非常に高い周波数は自然界ではうまく保存されていないため、私たちにとって重要ではありません。もし保存されていたら、生命は存在し得ないからです。
明確さを実現することは、人々が表現したいことよりも微妙なニュアンスを伴います。
では、同時通訳を行うためには、15,000 Hz までの周波数にアクセスできることが必須ではないでしょうか?
ここで問題になるのは、私が「次善策で十分だ」と言っているように聞こえるかもしれないということです。しかし、実のところ、明瞭さの実現は、人々が表現したいほど微妙なニュアンスを伴わないのです。例えば、音声の場合、15kHzの帯域幅は10kHzよりも優れており、10kHzは6kHzよりも優れています。
しかし、10kHzまでのより平坦(滑らか)な応答は、15kHzまでのゴツゴツとした応答よりも理解しやすい場合があります。同様に、6kHzの帯域幅でひどく圧縮されていない音声は、15kHzの帯域幅でひどく圧縮された音声よりも理解しやすい場合があります。
つまり、周波数特性を維持することはもちろん重要ですが、他の要素も重要であり、どれも単独では完璧とは言えません。特に周波数特性の問題は、音域が上がるにつれて、リターンが著しく減少することです。つまり、高音域にこだわる傾向は、それが私たちが理解し、簡単に説明できるものであるという印象を与えるだけで、バリューチェーンにおける真の位置付けを反映しているとは言えません。
15kHz 以上の帯域幅は、優れたパフォーマンスを実現するプログラム全体の一部である必要がありますが、文字通り、優れた理解しやすさに不可欠ではなく、またそれを保証するものでもありません。
RSIプラットフォームはダイナミックレンジ圧縮を適用し、音質が劣化するという主張があります。Interprefyでもそうなのでしょうか?
いいえ。通常の運用ではダイナミックレンジ圧縮は必要ありません。もちろん、全く使用しないというわけではありません。現在、私たちの研究室には、非常に興味深い圧縮技術が存在します。これは、聴衆、代表者、通訳者など、あらゆる聴衆のために設計されています。必要に応じて各人がオンにしたり、オフにしたりすることができます。
卓越性は、テクノロジーを適切な場所に適切な方法で適用することから生まれます。それは、調整を行い、各ステップで完璧さを追求し、システム全体に小さな段階的な変更を加えることなのです。
代表者について少しお話しましょう。なぜなら、講演者の話し方がひどかったという経験は、誰にでもあるからです。
はい、その通りです、ドラ。そして、私はその問題をなくすことに本当に熱心に取り組んでいます。本当に大きな問題は、多くのスピーカーが使っている質の悪い機材と、音質を確保するために何をすべきかについての理解不足です。
それをどう解決すればいいのでしょうか?
ほとんどすべてのことと同様に、解決策は様々な要因に取り組むことにあります。講演者には、より良いマイクを使い、マイクの技術に関する知識を深め、背景ノイズやエコーにもっと注意を払う必要があります。この点については、啓発活動を行う必要があります。私たちも、講演者向けのハウスキーピング動画キャンペーン。
ここでもテクノロジーを活用することができます。将来、この話題に戻って、テクノロジーがどのように人々の能力向上を支援し、自分では補えない問題を補うことができるかについてお話ししましょう。
大きな違いは、適切に構成された優れた機器と、適切に構成されていない劣悪な機器との間にあります。
では、ハード コンソールなどのハードウェア経由で受信したサウンドと Interprefy 経由で受信したサウンドを比較した場合、スピーカーが適切な機器を使用している限り、大きな違いはないのでしょうか?
そうです、ドラさん。ここでの大きな違いは、ローカルとリモートの作業の違いではなく、適切に構成された優れた機器と、適切に構成されていない劣悪な機器の違いです。ハードウェアベースのローカルシステムと音質の点で本質的な違いはありません。RSIシステムを使用している会議やイベントの参加者の多くは、会場で使用しているマイクよりも優れたマイクを使用しています。中には、劣悪な機器で参加したいという人もいます。ビジネスにおける他のあらゆることと同様に、適切な管理が必要です。
では、RSI とハードウェアベースのソリューションの違いは何でしょうか?
RSIが提供するのは選択肢です。柔軟性による選択肢です。妻が初めて妊娠した時、雇用主である男性は、彼女に「もう仕事はない」と告げました。ありがたいことに、今ではそのようなことは違法です。RSIのおかげで、出張を望まない、あるいは出張できない通訳者が、より柔軟に働けるようになったと思っています。妻が受けた対応の悪さは、私にとって大きな痛手でした。雇用主は、従業員が健康状態やライフスタイルに関わらず働けるよう、あらゆる努力をすべきだと考えるように、システムサプライヤーである私たちにも、そうした柔軟性を組み込む責任があると考えています。
RSIソリューションは組織にとっても柔軟性に優れています。会議やミーティングをどこでも開催でき、設定や変更も瞬時に行えます。最近、国際宇宙ステーションに滞在中の宇宙飛行士が世界に向けて発信するのを支援しました。もちろん、宇宙飛行士に直接参加を求めるのは馬鹿げた行為だったでしょう。
圧縮の話に戻りますが、圧縮を完全に排除することを求めている人たちには何と言いますか?
圧縮、特に圧縮形式をなくすことは、魔法の弾丸ではありません。もう一度強調しておきますが、魔法の弾丸はありません。包括的な解決策の一つは、圧縮の不適切な使用、つまり不適切なダイナミック圧縮と低ビットレート圧縮の両方を排除することです。そのためには、この技術を詳細に理解しているエンジニアを業界に雇用する必要があります。
複数の圧縮関数を連続して使用するのはどうでしょうか。それは必ずしも悪いことでしょうか?
これはカスケード圧縮と呼ばれます。いいえ、動的圧縮やビットレート圧縮のいずれの場合も、必ずしも悪いわけではありません。
カスケード圧縮には特有の問題があり、解決策を設計するには多大な労力が必要です。カスケード圧縮をうまく機能させるには多大な労力がかかるため、懸念されるのは当然ですが、有能な技術者であれば実現可能です。しかも、非常に優れた成果を上げることができます。例えばダイナミック圧縮を例に挙げると、オーディオにおける最も偉大なイノベーションのうち2つは、カスケードダイナミック圧縮の活用から生まれました。
圧縮などの要素を評価するのが特に得意な人もいるようですが、彼らの助けを借りるべきでしょうか?
音声を評価する方法は一つしかなく、それはいわゆるブラインドテストです。理想的には二重ブラインドテストです。音声の問題を聞き分けるのが得意だと言う人がいたら、それがブラインドテストだったかどうかを尋ねてみてください。ブラインドテストとは、どの音がどの音なのか分からないプログラムでテストし、評価とは関係のない人が主導するテストです。すべてのテストでは、様々な聴取者を対象に行うべきです。
多くの人、おそらくほとんどの人が、自分は優れた聴力を持っていると思っていますが、実際にそう思っているのは20人に1人程度です。まるで、誰もが自分は運転が上手だと思っているようなものです。
良い音は、細心の注意を払って総合的に取り組むことで実現します。
音質やそれを実現する方法について、非常にこだわりのある人がいるようですが、あなたはどのように答えますか?
二元論で、「しなければならない」と「してはいけない」で語る人は、経験上、間違っていると分かっています。コンプレッションやその他のオーディオツールが不当に悪評を浴びるのは見たくないのです。私が特にコンプレッションが好きだからとか、特にコンプレッションを推奨しているからとかいうのではなく、良い音は細心の注意を払い、総合的に取り組むことで得られるものだからです。真の完璧主義者は二元論にとらわれず、あらゆるツールキットを活用し、単純化するようなことはしません。
サウンド処理は、下手にも上手にもできます。上手に行うとは、適切な設定が適切に使用され、効果的な箇所に適用されることを意味します。ダイナミックコンプレッションは、下手に適用されるとひどい結果になる可能性がありますが、だからといって必ずしも間違っているわけではありません。正しく適用されれば、信じられないほどのメリットになります。





その他のダウンロードリンク



