Qualcommは、デバイス上での音声認識が95%正確であると主張しています

再作業 ディープラーニングサミット Qualcommの人工知能研究者Chris Lott氏はボストンで、新しい音声認識プログラムに関する彼のチームの作業を垣間見ました。

スマートフォンやその他のポータブルデバイスでローカルに動作するシステムは、入力を処理するために内部状態またはメモリを使用するリカレントニューラルネットワーク(RNN)と、入力を処理するための畳み込みニューラルネットワーク、ニューラルネットワーク 人間の脳内のニューロン間の接続パターンを模倣するネットワークである。 平均して95%が単語やフレーズを認識できるとロット氏は語る。

「それはあなたのデバイスの使用からパターン[と]を知る」と彼は語った。 “それはあなたの行動をパーソナライズすることができます。”

今日の音声認識システムのほとんどは、クラウドでの処理のほとんどを担当している、とLott氏は説明する。 携帯電話のマイクとチップ、Google HomeやAmazonのエコースピーカーなどのスマートホームスピーカー、MicrosoftのCortanaアシスタントが対応しているWindowsコンピュータでは、「OK Google」や「Hey Cortana」などの「ホットワード」を聞くことができます 来るべき音声命令の しかし、彼らはそれらのコマンドを分析しません。複雑なマシン学習アルゴリズムを実行する強力なリモートサーバーに不満を募らせます。

一部のユーザーにとって、音声データをクラウドに放棄すると、プライバシーに関する懸念が生じます。 アマゾンのAlexaアシスタントとGoogleアシスタントの両方が分析のためにスニペットを録音する前にスニペットを記録し、ユーザーがそれらを削除するまでスニペットを保持します。 両社は、サービスを改善し、よりパーソナライズされた応答を提供するためにオーディオ録音を使用していると言います。

しかし、いくつかのケースでは、録音は私的ではありません。 2016年、アリゾナ州の刑事が殺人を捜査した 音声データへのアクセスを求めた 最終的に共有されたAmazon Echoのスピーカーから、被告の許可を得て、

オンデバイスの音声処理には、プライバシーに加えて利点があると、Lott氏は述べています。 クラウドにデータをオフロードする必要がないため、即座にコマンドに応答し、インターネット接続を必要としないため、信頼性が大幅に向上します。

「いくつかのニューラルネット形式でエンドツーエンドのシステム全体をやりとりすることが強く求められている」と彼は語った。 「これは、デバイスとのやりとりをより自然にするためのものです。」

ロットはポイントを持っています。 2016年、Google 作成した 当時のオンラインシステムよりも7倍速いオフライン音声認識システムでした。 およそ2,000時間の音声データで訓練されたこのモデルは、20.3メガバイトのサイズで、スマートフォンで実行されている正確さは86.5%でした。

もちろん、オンデバイスの音声認識には独自の制限があります。 オフラインで作業するように設計されたアルゴリズムは、インターネットに接続して質問に対する回答を検索することはできず、より大規模で多様なデータセットを持つクラウドベースのシステムで可能になった改善が欠けています。

しかし、Lott氏は、Qualcommのソリューションが将来の道だと考えています。 「クラウド上では多くのことが起こっていますが、デバイス上で直接起こっているはずです。」

シェアする

  • このエントリーをはてなブックマークに追加

フォローする