2011年03月02日
アイデアよもやま話 No.1761 脅威の歌声合成ソフトがボーカル革命をもたらす!?
 2月5日(土)放送のサイエンスZERO(NHK教育テレビ)で最新の歌声合成ソフトを取り上げていましたのでご紹介します。

今、コンピューターで合成された声で歌うCGキャラクターの歌声が大人気で、
国内のヒットチャートで1位を獲得したアルバムまであります。
その裏にあるのは、最新の歌声合成技術です。
人間の脳の特徴を捉えて、自然に聞こえる情感たっぷりの歌声を再現しています。
歌声合成の人気は、カラオケの世界にも波及しています。
大手カラオケメーカーの調べでは、去年のランキングベストテンになんと7曲も入りました。

これはスゴイことです。
ちょっと前までは、合成された音声は明らかに合成されたものとして判断できましたが、今や人の歌声と識別出来ないほどまで進化しているのです。

この歌声合成ソフトを10年間かけて生み出したのは、楽器メーカーで7年開発研究に携わってきた剣持 秀紀さんです。
剣持さんは、番組の中で次のようにおっしゃっていました。
「今まで、コンピューターによって楽器の音はそれなりの納得出来る音に合成・再現出来るようになっていたんですが、人の声に関しては納得出来る品質で合成するのが出来なかったところで、今後歌声もコンピューターによって合成される世界が来る、ということで開発を始めました。」

剣持さんの開発した歌声合成ソフトでは、歌詞を一文字ずつ音の高さに合わせて入力するとあらかじめ録音してある声を合成して歌が作られます。
そして、このソフトには高度な技術が隠されています。
例えば、「あさ」という言葉を考えます。
「あさ」は、日本語では「あ」と「さ」の2つの音で表されます。
ところが、このソフトでは音と音の変わり目も含めた5つの音を使って表現します。

これについて、剣持さんは、番組の中で次のようにおっしゃっていました。
「人間の耳は変化する部分を聴いているようなんですね。」
「例えば、「あさ」なんていうと、「ス」という音から「ア」に変化する部分ですね。」
「そこの部分を滑らかにつながるようにすることが一番のポイントだと思います。」

剣持さんは、日本語を音が変化する部分を含む500個の音に分類しました。
これをつなげれば、どんな歌詞でも歌わせることが出来る、といいます。
この技術をもとに、多くの歌声合成ソフトが誕生しています。
日本語に比べて音の種類が格段に多い英語のソフトもあります。
ここから、新しい歌が次々と生み出されているのです。

とても面白かったのは、番組で紹介されていた、人間には到底無理な言葉の速さで歌う曲でした。
ある一定以上の速さで歌われる曲では、歌詞は単なる記号で楽器の一部とも言える存在に感じられます。
また、歌声合成ソフトでは人のように出せる声域の限界はないので、どんなに高い、あるいは低い音程でも歌うことが出来ます。
更に、声を伸ばす長さも無限、と言えますし、声の大小の幅も自在にコントロール出来てしまいます。
そして、その先には、声質も太い声や細い声、そして明るい声やハスキーな声などいろいろと作り出されると思います。
今すぐにでも、歌声合成ソフト用楽曲が登場する可能性が大いにあります。
ですから、歌声合成ソフトを使うことによって、新たな音楽の世界が切り開かれるのです。
この現象は、ボーカル革命と言ってもいいのではないかと思います。
そして、ここで言うところのボーカルは単に人の声を真似る、というのではなく、どちらかと言えば楽器に近いように思います。
なぜならば、一見人の声に似ているようにみえますが、人工的に作られた歌声だからです。

それでも歌声合成ソフトが人の微妙な感情表現や息遣いまで人と同じように表現出来るようになるのは当分先の話だと思いました。
また、演歌での微妙な節回しなども同様です。
ところが、産業技術総合研究所の後藤 真孝さんは、合成ソフトの歌声と人間の歌声を比較することで人間らしさがどこにあるか調べました。
すると、人間の歌は楽譜どおりではなく音の高さが微妙に変化していたのです。
そこには、3つの特徴があります。
1.プレパレーション
  音の高さを上げる直前、勢いをつけるためわずかに音を下げている
2.オーバーシュート
  音の高さを上げる時、楽譜の音より上げ過ぎる
3.ビブラート
  声楽のテクニックとしても知られる、音を伸ばす部分で細かく声を震わせる

更に、人間は音の大きさも細かく変化させていることに後藤さんは注目しています。
後藤さんは、このような実際に人間が歌っている時の音の変化を組み込んで新型の歌声合成ソフトを作りました。
その結果、コブシもしっかり効いて人間の歌声にグッと近づきました。
それでも、やはり人間の歌声には歌声合成ソフトにはない豊かな表現を含んでいる、と後藤さんはおっしゃいます。

後藤さんは、更に別の側面から人間の歌声に迫る研究も進めています。
表情が動くロボットに歌わせることで、歌の印象がどう変わるか、という研究です。
「HRP−4C 未夢(ミーム)」という若い女性の姿をしたロボットは、歌う時の人間と同じような表情を真似させました。
このようなロボットの歌声に対しては、感情のないロボットの歌声が人の歌声に似過ぎて不気味さを感じていしまう、という反応さえあるくらいにリアルさにあふれているのです。

さて、音声合成技術の専門家である名古屋工業大学・情報工学科の徳田 恵一教授はカーナビなどに使われるソフトウェアを開発してきました。
そして、名古屋工業大学の案内をする音声情報案内端末のキャンパスガイド(通称:メイちゃん)は、喜び、悲しみ、怒り、照れ、という4つの感情を込めて話すことが出来ます。

その仕組みは、それぞれの感情を込めて声優さんに読んでもらい、それぞれの感情について75個のセリフを収録し、確率モデルに当てはめることで元のセリフにないあらゆる言葉を作り出す音声合成ソフトを開発しました。

徳田さんは、この技術を応用して更に面白いシステムを作りました。
司会の安めぐみさんに6曲の童謡を歌ってもらい、この録音データを元にどんな歌でも安さんの声で歌わすことが出来るのです。

このように、音声合成技術が進んでいくと、話し言葉も自在にあやつれるようになるはずです。
例えば、ある人の話し言葉の録音データを元に、その人の言葉遣いであらゆる言葉を発することが出来るのです。
こうなると、外国映画の吹き替えやアニメの声優もいずれ音声合成ソフトに入れ替わってしまうことになるかもしれません。
そして、このような時代を迎えると、音声の著作権や所有権などが大きな問題として上がってくる可能性があります。

 
TrackBackURL : ボットからトラックバックURLを保護しています