Voicy Journal

今話題のボイステックとは?基本の音声技術と活用法【ボイステック解説】

今話題のボイステックとは?基本の音声技術と活用法【ボイステック解説】

ボイステックとは?(Voice Tech)

スマートスピーカー、ワイヤレスイヤホンの普及。テクノロジーの発展によって、いつでも、どこでも自分が知りたい情報を聴ける。そして誰でも音声で発信できる時代になりました。

「OK Google」でおなじみの音声検索や、Siriなどの音声対話システム。これらのサービスを支える音声技術が「ボイステック(Voice Tech)」です。今回は、おさえておきたい基本のボイステック用語をご紹介します。

今後、それぞれの用語について深掘りして解説する記事も公開予定です。お楽しみに!

Speech to Text 〜声からテキストに〜

自動音声認識

自動音声認識とは、人間の声などをコンピューターに認識させること。音声をテキストに変換したり(Speech to Textとも言われる)、音声の特徴をとらえて、話している人を識別する機能を指します。(参照:デジタル大辞泉「音声認識」
Googleの「Speech-to-Text」や、IBMの「Watson Speech to Text」など各社が自動音声認識のAPIを提供しています。

この自動音声認識を活用することで、自動文字起こしや自動翻訳など、様々なサービスが実現可能になります。

音声認識の歴史や仕組みについては、こちらの記事をご覧ください。

音声検索

「OK Google!明日の天気は?」と、スマホに向かって話しかけるだけで簡単に検索ができる音声検索。自動音声認識によって、音声がテキストに変換され、そのテキストが検索に反映されています。

自動文字起こし

自動音声認識を活用した自動文字起こしのサービスは多数あります。
Amazonの「Amazon Transcribe」やMicrosoftの「Group Transcrib‪e‬」などの他、「Googleドキュメント」の音声入力機能を使って、自動文字起こしもできます。

自動翻訳

今話した内容を、ほぼリアルタイムで翻訳するのが自動翻訳。自動音声認識で音声をテキスト化し、そのテキスト化された内容が翻訳されています。
「Google翻訳」や「ポケトーク」など、各社から自動翻訳のサービスがでています。

Text to Speech 〜テキストから声に〜

Text to Speechとは、テキストを音声に変換することです。音声合成、音声対話システムのSiriなど、様々な音声サービスはこの技術を用いてつくられています。

音声合成

音声合成とは、人間の声を人工的に作り出すことです。(参照:Wikipedia「音声合成」
スマートスピーカーによるニュースの読み上げ、スマートフォンのメッセージの読み上げなどは、音声合成技術が用いられています。

音声対話システム

音声対話システムとは、私たちが話した言葉を理解し、適切に応答するシステムのことです。(参照:河原 達也「話し言葉による音声対話システム」)

私たちの身近にある音声対話システムの一つが、iPhoneのSiri。

「Hey Siri アラームをかけて」と話しかければiPhoneのアラームを設定、
「Hey Siri ものまねして」と話しかけると、ものまねをする。

検索したり機械を操作することはもちろん、ちょっとした会話も成り立つように、そして自然な話し言葉になるように日々研究が進んでいます。

話者認識 〜話している人が誰なのかを認識する〜

事前に音声を学習させることで、話している人が誰なのかを特定したり、何人かで話しているときに、誰がどの発言をしたのかを識別することができます。

話者認識を用いれば、自動書き起こしで議事録を作成する際に、誰の発言かまでを記録できたり、個人によって音声対話システムの応答を変えたりすることができます。
(参考:「いま誰が話したの?」ロボットや議事メモ等の音声認識で話者識別できる「mimi SRS」フェアリーデバイセズが正式リリース

感情分析 〜声の喜怒哀楽を知る〜

感情分析とは、テキストや声から感情の機微を読み取ることを言います。
音声の感情分析は、声の高さや大きさ、速さなどから、喜び・怒り・悲しみなどの感情を推測します。

コールセンターで感情分析システムを導入し、お客さんの感情を数値化して業務改善に役立てている企業もあります。

音声加工 〜声を変える〜

音声加工とは、元の音声を加工して、聴きやすくしたり、エフェクトをかけて声を変えることを言います。
最近はリアルタイムで音声の加工ができるようになり、VTuberやゲーム実況者がよく活用するようになりました。

ボイスメディアVoicyでも、リスナーに快適な音声を届けるために、音声加工の技術を取り入れています。「ノーマライズ」という処理を加え、雑音を小さく、パーソナリティの声の音量を整えるなど、聴きやすくなるように調整をしています。

合わせて聴きたい「音って何ですか?」

そもそも、音って何?音声処理って何をしているの?
Voicyのプロダクトマネージャー兼レコーディングエンジニアのメンバーが、「音」について解説しています。
音声について基礎から知りたい方、音にこだわってVoicyを聴きたい方におすすめの放送です◎

Voicyエンジニアが、今回のようなボイステックやエンジニアリングについて語るチャンネル「voi-chord」
Voicyのプロダクトの裏側や、音声についてディープな話を毎週お届けしています!

voi-chord
テックを愛するVoicy社員が中心になって、テクノロジーやエンジニアリングといったテーマを中心に自由に語ります!

ぜひ、アプリをダウンロードして、聴いてみてください。

Voicyとボイステックの未来をつくりませんか?

Voicyは、音声技術を使って、未来の社会を担う新しい事業をつくっていきます。
音声で何か面白いことをしたい!音声コンテンツを制作してみたい!と考えている方、ぜひVoicyと一緒に音声の世界をつくりませんか?
お気軽にお問い合わせください。

Voice Contents Studio

音声メディアの運営を通して獲得したノウハウやテクノロジーを活かして、従来型のPR・マーケティングとは異なる、企業の想いを込めた音声発信をプロデュースします。

声のオウンドメディアVoicy Biz

VoicyBizは、企業が本音や世界観を深く届ける、声のオウンドメディアです。ブランドとしての想いや価値観を、声で発信してみませんか?

Return Top