ホーム > 情報通信 ニュースの正鵠2009 >
情報通信 ニュースの正鵠
2009年6月掲載

音声認識技術が掘り起こす宝の山

 今から10年ほど前、パソコンの買い替えを検討していた私は、IBMの「ThinkPad i 1430」という機種を選んだ。

 その機種を選んだ一つ目の理由は、なんとなく頑丈そうに見えたこと。それまで使っていたマッキントッシュのパワーブックが嫌な音を立ててクラッシュしてしまったので、丈夫な機種が欲しかったのだ。そしてもう一つの理由は、音声入力ソフトが付いていたこと。同機種にはIBMの音声認識ソフト「ViaVoice98」が同梱されており、「キーボードを使わなくても、音声でワープロを操作できる」と聞いて試してみたくなった。

 ThinkPadを購入した私は早速音声入力にチャレンジした。...しかし、その2時間後にはインストールしたばかりのViaVoiceソフトウェアの削除作業を行っている私がいた。

 ViaVoice98を利用するためには、最初に「ならし運転」を行う必要がある。認識の精度を向上させるために、いくつかの例文を読み上げてユーザーのクセをソフトウェアが記憶するのだ。しかし、私はこの段階でつまずいた。一つの例文で何度も「認識できません」と言われ、2時間ほど頑張ったものの、結局準備作業を完了することができなかった。「音声入力を利用するには、機械が認識できるしゃべり方を身に付ける必要がある」というのがそのチャレンジの結論であった。

 ちなみに、ViaVoiceは割と評判が良く、音声認識ソフトとしてはかなり売れたらしい。それでも、人によってはほとんど認識されない場合もあった、というのが10年前の技術水準である。

 あれから10年、技術は進歩した。音声認識は現在、家庭用ゲーム機の入力デバイスや、携帯電話のナビゲーション・サービスなどで利用されているほか、パソコンOSのWindows Vistaにも搭載されている。精度も各段に向上し、不特定話者の音声であってもかなり正確に認識できる。用途にもよるが、十分実用に耐え得る水準になってきたと言えるだろう。

 精度の上がった音声認識技術にとって、次なる課題は「何にどう使うと最も有効であるのか」を考えることだ。

 代表的なアプリケーションの一つは、やはり「音声入力」だろう。キーボードなどを使わずに、音声でコンピューターをはじめとする電子機器に指示を与えて操作することは、近未来小説の典型的なワンシーンでもあり、音声認識技術のわかりやすい応用例と言える。

 しかし、別の方法で出来ることを音声に置き換えるだけではありがたみは薄い。これまで出来なかったことを実現してこそ、新技術のメリットを実感できる。

 その意味で個人的に最も期待しているのが、スクリプト作成への利用である。

 現在、インターネット上には数多くの動画が溢れている。例えば、国会や地方議会のホームページにアクセスすると、本会議の様子や委員会での質疑模様を動画で視聴できるビデオライブラリーがある。また、企業のホームページには投資家向けに業績発表の様子を伝える動画が用意されている。

 ただし、それらの動画が十分に活用されているかというと、疑問符が付く。

 質疑応答を含めて1時間程度かかる企業の業績発表や、時に4〜5時間にも及ぶ議会の委員会でのやりとりの動画を、はじめから終りまで全部観たいと考える人は多くない。自分の関心のある一部分だけを観ることができれば十分だ。しかし、動画のままでは目的の箇所を探し出すことが難しい。動画の中の音声情報をそのまま検索する技術も研究されてはいるが、実用化にはもう少し時間がかかりそうだ。

 そこで、有効になるのがスクリプトの作成である。会議や発表の内容をテキスト化してスクリプトとして用意しておけば、キーワード検索が簡単になる。またスクリプトと動画を連携させれば、テキストで検索した個所の周辺だけを視聴することができる。しかし、人手をかけてすべての動画のスクリプトを作成することは、それに要する膨大な手間とコストを考えると現実的ではない。そこで音声認識技術を用いて、テキスト化するのだ。

 似たような具体例は既にある。大手企業の中には、業績発表の動画にスクリプトを添付している会社がある。また、日本の参議院の「インターネット審議中継」には「発言検索」という機能があり、発言内容をテキストで検索して、該当箇所を視聴することができる。

 音声認識ソフトウェアを利用すれば、さほどコストをかけずに、これらと同じような機能が提供可能になる。

 インターネット上にアップされている動画の情報量は膨大だが、十分に利活用されているものはそれほど多くないであろう。多くの動画は、「情報公開しています」という情報発信者側の自己満足の域を出ていない、と言えるのではないだろうか。

 しかし、それらの動画に含まれる音声情報が、すべてテキスト検索可能になったとしたらどうだろう? インターネット上に溢れる大量の動画という宝の山を掘り起こす。音声認識技術にはその可能性が秘められている。

▲このページのトップへ
InfoComニューズレター
Copyright© 情報通信総合研究所. 当サイト内に掲載されたすべての内容について、無断転載、複製、複写、盗用を禁じます。
InfoComニューズレターを書籍・雑誌等でご紹介いただく場合は、あらかじめ編集室へご連絡ください。