音声合成

facebook x In

音声合成とは、コンピューターを用いて人間の声を人工的に作り出す技術を指す。この技術により任意の文章(テキスト)を音声に変換することができ、コンピューター上でさまざまな発話が可能となる。
AIの発展に伴い、合成した音声が従来の機械音のような印象から人間の声に近づいてきており、より自然なコミュニケーションツールとして進化し続けている。

現在、音声合成は以下のようにさまざまなサービスで利用されている。

【音声合成を利用している主なサービス】
 ●コールセンターの自動応答
 ●ATMや家電・スマートフォン等の電子機器の案内
 ●駅・空港・商業施設・エレベーター・カーナビゲーション等の案内放送

音声合成は生活者のタッチポイントの各所において利用されており、その種類はデジタルデバイスの発展と共に拡充してきている。

2000年代に『初音ミク』に代表される「歌声合成技術」がローンチされると、メディアにも取り上げられ一般に広く知られるようになった。近年では、特定の人間の声の特徴を学習することで本人に似た声を合成する技術の開発が進んでいる。この技術を用いることで、著名人から家族まで多種多様な声の合成音声をデータベース化することが可能になり、エンターテインメントから家庭内利用まで、新しいITコミュニケーションの形としてフィーチャーされはじめている。
通信系・AI系各社がそれぞれ開発に乗り出しており、なかでも東芝デジタルソリューションズとエイベックスの合弁会社であるコエステ株式会社の音声合成サービス「コエステーション」は、音声プラットフォームとしての実績を着実に積み上げている。