松村太郎の「ケータイが語る、ミクロな魅力」

声で操るケータイの現在と未来 (2/3)

文●松村太郎/慶應義塾大学SFC研究所 上席所員

2009年01月24日 12時00分

分散型音声認識DSRの実力

鈴木氏は「ビジネスにならない」と言われ続けた音声認識技術をビジネスとして成立させたと評価されている

 鈴木氏は、もともと人工知能の世界におり、アメリカで音声認識の技術を持つパートナーとの出会いから、音声認識技術の企業をスタートし、日本語の音声認識の技術を構築してきた。このらくらくホンVでも採用されているAmiVoiceには、「日本初、世界初の機能を持っている」(鈴木氏)のだという。その機能は、人が喋った内容を正確に文字化してくれる、実にシンプルだが、今までケータイで実現されてこなかった操作方法だ。

 らくらくホンVでは、音声認識によるメールチェックや経路検索などの機能、そして「音声入力メール」のサービスを月額210円で提供している。ここで使われているのが、アドバンスト・メディアが持っている音声認識エンジンAmiVoiceで使われている、分散型音声認識Distributed Speech Recognition(DSR)という手法だ。

まず、自分の送りたい内容を普通に話す。ここでは「今、2時38分です。会議はもう少しかかりますので、次の会議を4時半からにしてもらえますか?よろしくおねがいします」と話してもらった

すると、ほぼ完全に文字として認識することに成功した。一部の間違った部分は手で直せば、入力する手間が大幅に省ける

 「この仕組みでは、音声認識を端末側ではなく、サーバーで処理します。約6.4KBのパケット通信にして送信し、サーバー上で認識させ、結果をテキストで端末に返します。その内容を確認し、間違っているところは修正できます。また1回の認識は30秒ずつですが、追加して文章を加えていくこともでき、長い文章にも対応できます。いくら長い文章を認識させるとしても、ケータイには音響認識の仕組みだけを積んでおけばよいのです。音声を圧縮して送ることもないため、精度が保証され、スピードも速くなります」(鈴木氏)

 今までの音声認識では、言語モデルを汎用化していた。つまり言葉を言葉として認識するため、なかなか精度が上がらなかったのだそうだ。一方AmiVoiceでは、音響モデルを汎用化した。そのため喋る人に寄らない不特定話者での認識精度を高めることに成功したという。

 日本ではらくらくホンから搭載され、ケータイの文字入力を簡単に行なうための1つのインターフェイスとして採用されているアドバンスト・メディアの技術だが、鈴木氏は「誰でもが音声認識を活用して便利になる世界がある」と指摘している。それは海外でのサービスの動向に裏付けられている。

 例えば、アメリカでは、運転中のケータイメールの入力から事故を引き起こすケースが後を絶たず、社会問題と化している。日本でも運転中のケータイ操作を防ぐ法規を設置するなど、対応が進んでいる。

 そこで、アメリカでは「SpinVox」という、声でメール入力が可能なサービスが始まっている。月額6ドル程度で、電話をかけて留守番電話の要領で喋った内容が、SMSメッセージなどのテキストとなって、相手に送信されていくサービスを利用できる。これらのサービスの場合、簡単な音声認識をした上で、人の手によって修正する作業が加わり、そこにタイムラグが生じるし、メッセージの内容を聞き取るオペレーターが知ることになる。

アメリカでは録音されたデータを音声認識し、不十分な点を人間の手で修正するビジネスが展開されている

 「例えば医療現場では、医者がトランスクライバーという秘書を雇い、喋ったことをドキュメントにまとめてくれるサービスが普及しています。アメリカで6000億円の市場規模であり、その半分がインドのオフショアーでまかなわれています。AmiVoiceのような音声認識の技術の正確性が磨かれてくると、1時間20ドルとも言われている秘書のコストを削減し、ドキュメントの品質を高めることにもつながります」(鈴木氏)

 このような世の中の動きの中で、鈴木氏は、音声認識をケータイから使っていくスタイルが世界的に広がっていくのではないか、と語る。

 「今までは送信者と受信者の間にオペレーターが入ることで、音声からテキストへの変換が行なわれており、場合によってはニュアンスの違うメッセージが送られることもありました。しかしAmiVoiceの手法では、認識させる文章が送信者の手元に一度返ってきて、修正を加えることもできます。喋ったままではなく、文字化された内容を確認して送信できる点も、日常で利用する際にコストダウンと確実性、という新しい価値になります」(鈴木氏)

mobileASCII.jp TOPページへ

mobile ASCII

Access Rankingアクセスランキング