PSP用の音声入力型の機械翻訳ソフトTALKMANが、話題を呼んでいる。先週末から2,3人の人にその話しを聞いた。私の感想は、「CPUって速くなったんだな」ってところ。

学会以外ではあまり知られていないけれども、世界で最初の音声入力、音声出力の機械翻訳システム、つまり音声通訳システムを作ってデモしたのは、私。1986年だったと思う。カーネギーメロン大学(CMU)の機械翻訳研究所にいたとき。MTSummitという今でも続いている、機械翻訳の学会が、カーネギーメロンであって、そこでのデモ用に音声認識システムと音声合成システムの間に、CMUで開発していた機械翻訳システムをかまして、実際に稼働させた。もちろんLispで書いた。CMU Common Lisp。まだ、Javaを作ったJames Goslingが、CMUでEmacsを作ってた頃。「頭が痛い」とマイクにしゃべると"I have a headache"とかちゃんと音声合成して通訳したのだ。結構な会話をしっかりとこなした。CNNにも報道されたし、次の年の正月には、CMUの共同研究先の企業の一つの松下が日本でも発表してNHKとかでも報道されてた。もちろん、ソフトは我々のを利用して。音声認識ハードは、松下技研のだった。音声合成ハードウェアは、規則合成のMIT製のをベースにした、当時有名だった、DECTalk。

それは、現在でも続く、日本の国家プロジェクトATRの自動翻訳電話プロジェクトが開始して間もない頃で、ATRは、CMUの研究スポンサーでもあったから、「我々がこれから15年がかりで、音声通訳システムをやろうという国家プロジェクトを立ち上げたばかりのところで、もうできたみたいな発表されたら予算をとるのに迷惑だ」と怒られた。ライバルだったATTベル研究所やIBMワトソン研究所の研究員達も、このデモには大分ショックを受けていたらしい。当時としては、画期的な成果だった。もちろん、すごく速い計算機と、専用音声認識ハードウェア、専用音声合成ハードウェアのおかげも大分あるけど。それから約20年、今では、手のひらサイズのマシンとソフトウェアで同じようなことができる。CPUはずいぶん速くなったのだな。 それにFFTというかDCTとかも、携帯電話にでも入っているようなチップでリアルタイムの時代だ。でも、翻訳そのものについては、機械翻訳の精度は、実は20年前とそれ程変わっていないというのが本音。自然言語処理、そして人工知能のブレークスルーは、まだまだこれからだ。

先週、カーネギーメロン大学の計算機科学部長が来日した時、少し一緒に時間を過ごしたので、その時言われたのだけど、「君がCMUにいた頃は、自然言語処理は、米国ではあまり社会に目を向けられていなかったけど、現在は、大変な需要だぞ」ということだった。「確かに当時は、国防省ぐらいしか興味持ってくれなくて、当時もっと注目されてもっと予算が欲しかったので寂しいなあ」というコメントしたら、「20年もたって、注目を浴びる分野にいるなんてこれは学者としてすばらしくラッキーなことなのだぞ」といってくれた。

なんと、現在のGoogle Japanのトップは、彼の教え子だそうだ。つまり、私の後輩だ。というか、現在のUSのGoogleは、CMUのPh.D.で溢れかえっているそうだ。そういえば、CMUで隠れマルコフモデル(HMM)による音声認識で有名だったKai-Fu Leeは、Microsoft の Vice President 兼Microsoft Researchのトップだったけど、現在は、Googleに移っていて、確か、Microsoftは、GoogleをKai-Fuの仕事が競合規定に違反するとかで訴えてたのだと思う。自然言語処理研究者は、MSやGoole級の企業が取り合う時代だぞ。もちろん、私のところでも、MSもGoogleも腰抜かすようなプロジェクトを進めてるから、自然言語処理を本気でやってみたい計算機科学者がいれば、是非来て欲しい。もちろん、腕に覚えのあるプログラマー、ハッカーも募集中。(クラッカーではないので念のため。)

ところで、二世代前の(私がいた頃の)計算機科学部長のRaj Reddy教授は、11月25日に本田賞を受賞するそうだ。おめでとうございます。