Google I / Oのアナウンスでは、音声のみではなく音声による転送が提案されています

今年の年間I / O開発者会議 Googleは、デジタルアシスタントの野心を「自然な会話型」と「必要なときに」強調しました。しかし、ボイス駆動型会話型テクノロジーが普及するにつれて、私はちょうどこの部分を読んだのですか？ ”

ますますデジタル化された世界では、技術との会話はマルチモーダルである必要があります。そのため、次世代の会話体験は実際に画面を必要とします。 Androidとの接続により、Google Assistantはユーザーにユニークなマルチモーダル体験を提供するように設定されています。

3番目の画面

AmazonのAlexaがあなたのパーソナルアシスタントになる数年前、私たちはチャットボットを使って、キーボードとスクリーンを介して技術との会話を可能にしました。 2011年に、アップル、シリ私が声をかけるために必要なものをSiriに簡単に聞くことができると約束したiPhone（私がどこでも私と一緒に持っていたデバイス）で。しかし、問題の事実は、私はほとんどそのチャットベースの経験を使用し、私はシリを使用していないということです。

Amazonはすでに2つの視覚的に駆動されるデバイス（ショーとドット）を導入しており、今やGoogleは7月に発売予定の一連のハードウェア統合に参加している。新しく発売されたディスプレイのアップデートにより、高度にカスタマイズされた視覚体験は、Googleのエコシステムで初めて音声を増強します。ユーザーはまだ音声を主な入力方法として使用していると予想されていますが、ユーザーが音声ではなく画面からアクションにアクセスしている場合には、画面固有の機能が導入されています。

新しい行動を育む

Googleのアシスタントは、複数のリクエストを許可する更新プログラムを使用してアクセスしやすくなり、使いやすくなっています。また、これらの改善が近いうちにどのように最も大きな影響を与えるかを簡単に確認できます。

たとえば、アマゾンのAlexaは、家の周りの音楽を聴きながら愛する家族のためのインスタントヒットだった、黒い円筒形のスピーカーを通して私の家に初めて紹介されました。確かに、私は電話で音楽を演奏するようSiriに依頼することができましたが、Echo専用スピーカーはすでにキッチンカウンターの完璧な場所にありました。私たちはすぐに、技術の知識と能力の限界をテストしながら、新しい質問をしていることに気付きました。私は技術が最初にリリースされたときのようにSiriと一緒に遊んだが、最終的には、私がもはや使用していないアプリの深みでSiriが失われた（Siriはアプリではないが、）。その間、私たちのエコーは日常的に音楽を演奏しながら、キッチンに留まり、いつも部屋の中にいるだけで、毎日何かを思い出させました。 Alexaは私に新しい行動を教えました。実際は技術と話しています。

もっと興味深いところがあります：私は今もシリと話しています。これは、技術との会話がますます「自然」になるにつれて、技術との会話の振る舞いを引き継ぐことを信じるようになります。

音声デザイン2.0

Amazon Echoのスキルを構築する初期の段階では、ブランドは音声のみのエクスペリエンスから始まりましたが、主に画面に基づいたエクスペリエンスを構築するという背景から、ロードブロッキングに突入しました。業界は、ユーザーがボイスアシスタントバージョンの「タッチ」または「クリック」アクティビティとどのようにやりとりするかを知る必要がありました。企業は音声体験を全体の経験としてゼロにし、画面への依存を排除しました。

しかし、スキルの開発者は限界に打ち勝っていました。新技術はもちろん、多くのことを簡単にしましたが、画面上でよりよくフィットするタスクもありました。消費者は、実際には音声で置き換えることができなかったものを見ていました。デジタルアシスタントが最もよく選択するオプションを推奨できる場合、ユーザーはオプションのリストを聞く必要はありません。しかし、知性と声を組み合わせることは、音声体験の魔法の一部であり、それが私の注意を引いたものです。

コンテキストと情報が許す限り、私たちは開発者として知的な勧告を提供することができます。 Googleは、CES 2018でGoogle AssistantのLenovoスマートディスプレイを発表した同じユースケースのいくつかを認識しました。Google I / Oでは、この一歩を踏み出し、開発者が画面をそれはGoogle Assistantの経験になります。

画面を拡張する

画面になると、Googleはアクションデベロッパーに、デバイスがコンテンツをどのように表示するかを、フォーマットやスタイル機能を追加して完全に制御できるようにしました。従来のWebエクスペリエンスをこれらの新しいスクリーンに複製しようとするのは意味がありません。なぜなら、これは音声体験を改善しないからです。画面には、音声が声を出しているのと同じテキストを単純に表示すべきではありません。代わりに、画面は、ユーザが時間を節約することを可能にする会話に特定の制御または追加のコンテキストを提供することができる。アクションまたはスキルは、ユーザーが積極的に会話している間に画面上に何があるかを制御します。

今年I / Oのメインステージで共有された例は、Google Mapsのナビゲーションでした。あなたが運転しているときなど、音声技術はそれ自身で立っている必要がありますが、視覚的にもっと没入感が必要な場合があります。ユーザーがタッチしたり、選択したり、大声で話したりしたいかどうかにかかわらず、文脈によって同じ結果が得られます。

画面の機能は、ブランドがブランドの音声体験の議論に視覚的な外観と感触を戻す新しい機会を追加します。それはまだ音声の最初の経験ですが、画面を持つだけの機能があります。

Googleはもともと、ボイス＆チャットの体験を1つに統合するアシスタントアプリを発表し、ユーザーがさまざまなデバイス間で簡単に移行できるようにすることで倍増しています。マイクロソフトは、音声と型の両方の会話に対応できるようにCortanaを構築しました。私たちは現在、すべてのデジタルインターフェースをインテリジェントでシームレスで文脈に沿った方法でまとめることができる新しい開発軌道を経験しています。ここで本当の楽しみが始まります。

スティーブンハンセンは最高技術責任者（CTO）です雨、音声と会話AIに焦点を当てたデジタルコンサルタント。