アマゾンやグーグルなどのIT企業が製造しているバーチャルアシスタントは、ほんの数年前にテクノロジーが可能にしたレベルに比べると気味悪いほど正確に人の発した言葉を解読することができます。そのような人工知能(AI)の能力と精巧さに私たちは徐々に慣れ始めたばかりです。
ところが、実際には、はるかにもっと驚くべき画期的な技術革新がすぐそこまで来ているのです。発話認識がただのお遊びに思えるほどのこのAIシステムは、一言の発話も聞くことなく、人の脳の活動を完全な形式の文章に変換することができます。
SFのようですが、もっと現実的な話です。この数十年の間にブレイン・マシン・インターフェースは動物の実験モデルから人間の実験協力者を対象にするようになり、飛躍的に発展しました。実際にこの種の試みはすでに行われています。
まだ十分な精度には到達していないと、カリフォルニア大学サンフランシスコ校の研究チームが先頃、公表した論文には説明されています。
同大学で研究室を運営する神経外科医のエドワード・チャン氏が主導する研究チームは、精度を上げることが可能か調べるために脳波測定図を読み解く最新の手法を使いました。脳波測定図は、脳の皮質の活動時に発生する電気インパルスを脳に埋め込まれた電極が感知したものの記録です。
この研究では、4人のてんかん患者に発作をモニターする装置を取り付けて実験したのですが、多数の定型文を繰り返し読み上げてもらうという付随実験も行われました。その作業中の脳の活動が電極を通して記録されました。
次に、母音、子音、口の動きなどの特定の音声の特徴に対応する脳の活動パターンを解析する神経回路網にこの実験の音声記録に基づくデータが入力されました。
その後、別の神経回路網が、繰り返し読み上げられた30~50の文章から音声の特徴を探り出し、単語の特徴に対応する脳皮質の活動パターンにのみ基づいて、読み上げられた内容を推測するためにこのデータが使われました。
このシステムが脳の電気信号を文章に変換するプロセスで最も成功したときには、ひとりの実験協力者につき、わずか3%のワードエラー率を示しました。これは、少なくとも厳密に定められた実験条件下で、AIが人の心を読むことにおいて、おそらく最も成功した例と言えるかもしれません。
誤まることがあると言っても常に誤まるわけではないこの神経回路網が生成した「推測」とともに実験協力者が読み上げた文章の多数の例が論文には列挙されています。ただ、誤りが明白である場合には、人間による聞き間違いとは非常に異なる結果になるようです(AIに導入されたデータセットが限定的であることが副次的に影響しているのかもしれません)。
誤りの例には以下のようなものがありました。「’the museum hires musicians every evening(その博物館は毎晩、音楽家たちを雇います)」が「the museum hires musicians every expensive morning(博物館は毎日の高価な朝に音楽家たちを雇います)」と推測され、「part of the cake was eaten by the dog(そのケーキの一部がその犬によって食べられました)」は「part of the cake was the cookie(そのケーキの一部はそのクッキーでした)」となり、「tina turner is a pop singer(ティナ・ターナーはポップス歌手です)」は「did turner is a pop singer(ターナーはポップス歌手ですでしたか)」という結果になりました。
最も精度が低かったケースでは、意味の上でも音声においても読み上げられた文に実質的な関連性が何もありませんでした。「she wore warm fleecy woollen overalls(彼女は温かくてふわふわのウールのオーバーオールを着ていました)」は「the oasis was a mirage(オアシスは蜃気楼でした)」と解釈されました。
確かに明らかな誤りは奇異なものとなっていますが、概して、このシステムは脳の活動をAIに基づいて解読する技術の新しい基準になるかもしれないと研究チームは言っています。つまり、人間の専門家による発話の書き起こしのワードエラー率は5%ですが、最も成功した場合には同レベルの精度を達成するシステムがこれからの基準となるかもしれないということです。
人が話す通常の音声を扱う書き起こしの専門家は、当然、数万語に及ぶ語彙に取り組む必要があります。それとは対照的に、このAIシステムは限定された1組の短文に使用された約250種の単語に対応する脳皮質の活動パターンを学ぶのみだったので、公平な比較ではありません。
克服すべき課題はたくさんありますが、このAIシステムは話す能力を失った患者さんが再び話せるようになるための人工器官の基礎として将来役立つかもしれないと研究チームは示唆しています。もし、これが可能になれば、そのような人々に周囲と意思疎通する手立てを与えることができ、実験がこれまでに示したものをはるかに超えるような大きな意義のある技術革新となります。
「長期的に装置を脳に埋め込んで使用した場合、利用できる訓練用データの量はこの実験で使われた30分ほどの発話量より桁違いに多いものとなります」と論文には説明されています。「それは、使用される言語の語彙と適応性は大幅に拡大できるかもしれないということを意味しています」
研究結果はNature Neuroscienceに掲載されています。
reference:sciencealert