あなたが岩の下に住んでいない限り、あなたはおそらく、今週ソーシャルメディアの “Laurel”または “Yanny”火災を発したVocabulary.comのオーディオクリップを横断しているでしょう。 たぶんあなたは体重を増やして、オペラ歌手(元のブロードウェイ・キャストのメンバー 猫 、それが判明したように)録音で。 しかし、おそらく第二の意見のために人工知能に相談しなかったでしょう。 まあ、心配しないでください: ニュアンス そして ボックスボーン あなたに問題を救った。
自然言語処理を専門とするNuance Communications社は、 ドラゴン スピーチプラットフォーム “Laurel”または “Yanny”オーディオクリップを使用して、討論を終わらせます。 Nuanceの研究のシニアディレクター、Nils Lenkeによると、「Laurel」と聞いた。
Voxboneのソフトウェアは「Laurel」を認識しませんでした または “ヤニー” – 3回連続してテストした後でさえ。 初めて、ボイスマシンの技術者はオーディオを「よく、よく、よく」「はい、はい」と転記しました。エンジニアはダイアログ設定を英語からアイルランド語、スペイン語などの言語に変更しようとしましたが、役に立たない – クリップを「よく、よく、よく」聞いた。
何が聞こえますか?! ヤニーまたはローレル pic.twitter.com/jvHhCbMc8I
– クロエ・フェルドマン(@CloeCouture) 2018年5月15日
私の非公式のテストでは、いくつかの音声アシスタントが他の人よりも優れていました。 Googleのアシスタント(Motorola Moto G5 Plusで動作している)は「Mary、Mary」、「Yeah、yeah」と解釈し、MicrosoftのCortana(PC上)はすぐに「Laurel」と認識しました。 (私は便利なiPhoneを持っていなかったので、陪審員はSiriに出ています。)
なぜプラットフォーム間の格差? 他のすべてが等しいと仮定すると、音声認識アルゴリズムの働きと関係があります。 AppleのSiri、Google Assistant、MicrosoftのCortanaなどの音声アシスタントはもちろんのこと、NuanceやVoxboneからの転写アプリは、人間の発言を音素と呼ばれる小さな一口サイズの部品に分解します。 アルゴリズムは、これらの音素の順序を分析して、あいまいな場合のそれらの単語の構文および文脈を考慮に入れて、話された単語をテキストと対にする。
十分に簡単ですね。 そんなに早くない。 一部の音声認識設定では、プログラマは単語の音声パターンをテキストと手動で接続する必要があります。 アルゴリズムは単語バンクと同じくらい良好です。ワードまたは単語の関連付けがデータベースにない場合、アルゴリズムは正しく転写されません。 (Voxboneのシステムの場合がそうだったでしょう)。
それは、人間のようなアルゴリズムが自分の偏見を持っていることを表に示すだけです。