スマートフォンに人工知能宿る!?

このエントリーをはてなブックマークに追加

みなさん、こんにちは。科学コミュニケーターの志水です。

前回まで、組込みシステムの基本的な仕組みをご紹介してきました。今回からは、組込みシステムに関連する旬なトピックを、広くご紹介していこうと思います。

今回は、先日の新型iPhoneの発表会で注目を浴びた、音声認識を取り上げたいと思います。

ですが、その前に、まずはこちらのお話から。

ショックを受けました

先日、衝撃的なニュースが世界中を駆け巡りました。Apple社元CEOのスティーブ・ジョブズ氏の訃報です。そのニュースを聞いたとき、とてもショックを受けました。

ご存知の通り、ジョブズ氏は、iPod、iPhoneそしてiPadというデバイスを次々に世に生み出し、情報通信技術の世界に革命を起こしました。今や、その革命は、私たちの生活やビジネススタイルすら変えようとしています。

ジョブズ氏の訃報に関して、Googleのラリー・ペイジCEOやMicrosoftのビル・ゲイツ会長など、IT関連企業のトップがコメントを発表しています。また、IT関連企業に関わらず、ロックバンドU2のボノ氏をはじめ、アーティストなどからも数多くのコメントが発表されています。このことからも、影響力の強さを垣間見ることができます。

『私たち一人一人の世界に対する見方を変えた』

これは、アメリカ合衆国オバマ大統領のコメントの一文です。ものづくりの原点は、ここにあるような気がします。ジョブズ氏は、本当に革新的で価値あるものをつくることによって、人々に夢や希望を与えられることを示したように思います。

心よりご冥福をお祈り申し上げます。

ターミネーターの世界!?

ジョブズ氏がCEOを勤めていたApple社ですが、同社のスマートフォンiPhoneの新型の発売に先立ち、先週、その発表会が行われていました。

既にご存知の方もいらっしゃると思いますが、その発表会では新型iPhoneの紹介だけでなく、音声認識アプリケーションのデモンストレーションが行われました。

「Siri」と呼ばれるそのアプリケーション、ただの音声認識アプリケーションではありません。なんと、人が話した内容を理解して、応答してくれるのです。音声認識で動作する秘書ロボットというイメージでしょうか。その様子をニュースで見たとき、ついにターミネーターの世界が!?と一人興奮してしまいました。

例えば、「今日は、レインコートが必要かな?」と話しかけたとします。そうすると、その日の天気予報を調べて、「今日は雨が降りそうです」と教えてくれるのです。しかも、音声で。

現段階では、英語、フランス語およびドイツ語のみの対応だそうですが、かなり流暢な発音で応答していました。しかも、質問を投げかけてから回答が返ってくるまでの応答速度がかなり速い。

そんなSF映画のようなアプリケーションが、数万円の端末の上で動作する時代になったのです。これは、驚くべきことです。

音声認識とは

その音声認識ですが、一体どういう仕組みで実現しているのでしょうか。今回は、その仕組みについて少し調べてみましたので、ご紹介したいと思います。(ここでご紹介するのは、代表的な音声認識方法です。)

ここでは、「Siri」のように音声で入力された「文」を認識する場合を考えます。この場合、以下のような仕組みで音声認識が行われます。

① まず、音声が入力されると、システムは単語辞書に登録されている単語を組み合わせて、入力された文を仮定します。ここで、単語辞書は、文字通り、単語を登録している辞書のことです。

② 文を仮定したら、「言語確率」を計算します。言語確率は、仮定された文が、意味のある文として存在するかどうかを表しています。確率が高いほど、存在している文である可能性が高いことになります。この言語確率の計算には、言語モデルを使用します。言語モデルには、意味のある文がいくつも登録されています。そこに登録されている文と、仮定した文を比較することで、意味のある文かどうかを判定していく訳です。

③ 言語確率の計算と平行して、「音響確率」を計算します。音響確率は、仮定した「文」の発音と、入力された「文」の発音がどれだけ似ているかを表します。音響確率が高いほど、似ているということになります。音響確率の計算には、「音素モデル」と呼ばれるものを使用します。音素モデルとは、音素の発音を登録したデータベースです。ここで、音素とは、子音と母音を合わせたものです。例えば、「か」をローマ字で書くと、「ka」となりますよね。この場合、「k」が子音、「a」が母音となります。音素モデルには、この「k」や「a」がどのように発音されるのかといった情報が登録されています。

④ 言語確率と音響確率が計算できたら、それらをかけ合わせて、文としての確率を求めます。この確率が高いほど、仮定した文が意味のある文である可能性が高く、かつ、発音も似ているということになります。

⑤ ①~④までの手順を、文としての確率が最も高いものが見つかるまで繰り返します。そして、最終的に確率の最も高いものが、音声認識された「文」となるわけです。

以上が、音声認識の基本的な流れになります。

もうお気づきの方もいらっしゃると思いますが、計算量がかなり膨大になりそうです。スマートフォンなどの組込み機器でこの処理を実現しようとしたら、よほどの工夫をしないと、かなりの計算時間がかかってしまいそうです。せっかく声で指示を出すのなら、応答もすぐに返してもらいたいものです。

そこで、単語辞書から意味のある文だけを効率的に生成する方法や、音素モデルや言語モデルとの比較を効率的に行う方法などが開発されています。さらに高速・高精度な音声認識を目指して、今後も研究・開発が進められていくことでしょう。なかなか、奥の深い世界です。

次回は・・・

今回は、音声認識の世界について、ご紹介しました。いかがだったでしょうか。次回も、組込みシステムに関連する旬なトピックを、広くご紹介していこうと思います。楽しみにしていて下さい!

参考文献

参考までに、今回音声認識を調べるにあたって参考にした本をご紹介しておきます。

『人と対話するコンピューターを創っています -音声認識の最前線-』

(古井貞熙 著、角川学芸出版)

※コメントをする際は「ブログへのコメント投稿について」をご覧ください

※「名前」は、ハンドルネームでも構いません

コメントを残す