【音声技術の歴史と未来】スマスピやSiriにも使われる「音声認識」とは？【ボイステック解説】

音声認識とは？
音声認識の歴史
音声認識の仕組み
Voicy×音声認識の未来　あなたの好みの”声”で放送が選べるかも？
Voicyとボイステックの未来をつくりませんか？

音声認識とは？

「音声認識」とは、人間の声などをコンピューターに認識させること。音声をテキストに変換したり（Speech to Textとも言われる）、音声の特徴をとらえて、話している人を識別する機能を指します。（参照：デジタル大辞泉「音声認識」）

「OK Google！明日の天気は？」や「Hey Siri　今何時？」など、スマートフォンやスマートスピーカーに話しかける音声検索も、この音声認識によって、音声がテキストに変換され、検索に反映されています。

私たちの生活をより便利にしてくれる音声認識。
今回は、その歴史と技術についてご紹介していきます。

音声認識の歴史

実は今から70年ほど前には音声認識の研究は始まっていました。
10年ごとに区切り、その歴史を追っていきましょう。

1950年代　音声認識の研究がスタート

1950年代は、まだインターネットもなく、テレビもほとんど白黒だった時代です。日本では冷蔵庫・洗濯機・白黒テレビが「三種の神器」として憧れられていた時期でした。

そんな頃に、人間の発する声や声道の研究が行われていました。音声の特徴を分析して、数値化するようになります。

例えば、「あ」と発する時の様子をX線で撮影し、声道がどう変化するのか構造を調べて数値化。その数値に従って音を合成すれば音声合成になり、逆に、発した声がどの数値に近いかを調べれば、音声認識になるという構想のもと、こういった研究が行われていました。

そしてアメリカのベル研究所が、「Audery（オードリー）」という音声認識システムを発表。「Audery」は1〜9までの音声を認識することができるものでした。
このベル研究所は_、電話の発明者グラハム・ベルが設立した会社が前身となっており、電気通信の研究を行っていました。（参考：ベル研究所）

1960年代　世界初の音声認識計算機が誕生

1960年代、日本ではカラーテレビ・クーラー・自動車が「新・三種の神器」と呼ばれていた頃です。

アメリカでは1961年、コンピューター関連企業のIBMが、世界初の音声認識計算機「Shoebox（シューボックス）」を発表。
0〜9までの数字や、プラス、マイナスを含む16単語を認識でき、マイクでShoeboxに話しかけて声で計算を行うことができました。

1962年、ほぼ同じ時期に、日本でも京都大学が音声タイプライターを開発。単語ではなく、「あ・い・う」という単音節を認識するという音声認識のシステムでした。

1970〜80年代　Siriの原型となる技術が生まれる

1970年代、日本は高度経済成長期と言われる時代でした。この頃、アメリカではSiriの原型となる技術が生まれます。軍用の機関で音声認識の開発が進んでおり、まだ私たちにとって身近な技術ではありませんでした。

1970年代は大々的なプロダクトは発表されていませんが研究は続いていました。

例えば、「あ」という音は何Hzと何Hzの音が強いという特徴がある、「い」という音は〜という具合に”周波数特性”の分析が進み、人間の音声をより簡単な数式モデルで表せるようになりました。

そして、この頃DARPA（国防高等研究計画局）が立ち上げた「CALOプロジェクト」の研究が、現在のSiriの原型となっています。

この研究に参加していたSRIインターナショナルがSiriの技術を生み出し、現在の音声認識や人工知能の研究にも大きな影響を与えています。（参考：Siri誕生の逸話–開花した“強い人工知能”競争の行方）
ちなみに、DARPAは軍隊のための技術の研究を行うアメリカ国防総省の機関であり、Siriの他にも、インターネットやGPSの原型も開発しています。（参考：国防高等研究計画局）