2020年1月6日月曜日

「AI美空ひばり」紅白出場 ~人工知能搭載型ボーカロイド「初音ミクAI」への道 その4~

「AI美空ひばり」NHK紅白歌合戦出場


昨年末の紅白歌合戦は、だいぶ地味な印象を受けた。
まあ、前回と前々回がインパクト有りまくりだったから、余計にそう感じるのだろう。

で、いつものように批評や批判の投稿もたくさん出ているが、
中でも「AI美空ひばり」の評判が芳しくない。
そりゃぁそうだろう。
本物より良い贋物なんて有るわけ無いからだ。
だから、ニセモノは似せ者どうしで比べなければアンフェアである。
例えば、島津亜矢さんが歌う「柔」より劣っているが、
忘年会で上司が歌う「川の流れのように」よりはマシといった具合にだ。

ただ、安直にコンピューターなどで再現させるものでは無い、という意見には賛同できない。
コンピューターにこれだけのことをさせるための技術や労力は、生半可なものではないからだ。
安直な気持ちでは、コンピューターに再現させることなどデキやしない。
どうやら世間は、ボタン一つ押せば、AIが美空ひばりを簡単に再現してくれると思っているらしい。
昨年、「美空ひばり」の歌を誰よりも聴き込んだのは、YAMAHAのエンジニアなのだ。
頑張ってる姿が世間に直に伝わらないのが、エンジニアの悲しさと云えよう。

このプロジェクトがNHKスペシャルで放送されたときは、興味深く視聴させていただいた。
「AI歌唱」は「ボーカロイド」とは全く異なるシステムではあるが、
コンピューターによる歌唱という点では同じだし、
どちらも開発したのがYAHAMAのエンジニアたちということもある。
カバーでなくって、新曲を歌わせるという演出も面白かったし、
秋元氏の起用も、作品に箔を付けるためにはどうしても必要だったのだろう。

でも、天童よしみさんに美空ひばりさんの振り付けを真似てもらい、
モーションキャプチャーして、CGを被せて、コンピューターの歌唱に合わせて、
オーケストラの生伴奏で、4K・3Dホログラムで映し出す?・・・って、

ほぼ初音ミクのライブぢゃないか!!!

こんなことは、初音ミクのライブでは10年も前からやっていることである。
で、ミクがやると、オタクだのキモいだの云われるのに、この扱いの差は何だ!!!
まあ、NHKさんは、ボーカロイドにいろいろと良くしてくれてるので、文句をいうのはやめておこう。

ただ、番組は面白かったけど、美空ひばりのCGは酷すぎであった。
最大の敗因は、4Kなんかで作ったからだと思う。
中途半端に似せるのでは無くって、ザックリ作って足りない部分を見ている側に想像させた方が、
受け入られたように思う。

で、そのAI美空ひばりが紅白で披露されると知って、僕はすごーーくイヤな予感がした。
興味を持ったヤツだけが見るNHK特集と違って、
不特定多数が視聴するNHK紅白歌合戦での披露はキケン過ぎるからだ。
結果は、ご承知の通り。
違和感があるだとか、嫌悪感を感じるだとか、散々な云われようである。
まあ、あのCGなんだから致し方ないけど・・・。
だから「皆さん目をつむって聴いてください」って云えば良かったと思う。
歌だけ聴かせて、あとは聴き手に想像させれば・・・って紅白ではそういうわけにはいかないか。

「ボーカロイド」も今回の「VOCALOID:AI」もコンピューターに歌唱させる技術である。
人の歌唱を人工的に再現することがどれだけ大変か、
逆に云えば、美空ひばりの歌唱は・・・もっと云うと、人が歌うという行為が如何に素晴らしいか。
そのことについて評価すべきなのに、キャラクターの部分が強調されて、
初音ミクと同じことになってしまったのは残念極まりない。


さて、「VOCALOID:AI」は、AI技術を美空ひばりに似せることに使っているが、
これは人工知能搭載型ボーカロイド「初音ミクAI」開発の第一歩だ。
言語習得だって、芸術表現だって、全てはモノマネから始まる。
これを出発点として、真のコンピューター歌唱の実現を目指して進んで欲しいもので或る。

何故、コンピューターで再現するのか。それは、本物が掛け替えのないものだからである。


以下は、二年前の投稿記事で或る。
「AI美空ひばり」には、本物という評価対象が存在するが、
「初音ミクAI」が目指すものは聴き手を感動させる歌唱で或る。
この二年間だけでも、AI技術の進歩はめざましいモノがあるから、
人工知能搭載型ボーカロイド「初音ミクAI」の実現も遠い未来の話ではなくなってきたように思う。



人工知能搭載型ボーカロイド「初音ミクAI」への道


ボーカロイドにおける人工知能の役割とは如何なるものでしょうか。
 
ボーカロイドとは、音符と歌詞を入力すれば、それなりに歌うことのできるソフトです。
ただし、厳密に云うと、そこに「歌う」という行為は存在しません。
正確には「言葉を使って演奏している」と言うべきでしょうか。
聴き手は、その「言葉」の存在によって「演奏」の向こう側に「歌う」という行為をイメージします。
それは、欺されているというよりは、人間が持つ感性によるものです。

ボカロPの役割は、その「言葉を使った演奏」を、あるときは人間の歌唱に近づけて、
また、あるときは機械らしさを前面に出して、作品を完成させることでした。
彼らが「P」を名乗るのは、音楽プロデューサー的役割を果たしていることを自認しているからです。

人工知能搭載型ボーカロイド「初音ミクAI」とは、
ボカロPの関与を必要としない、自立型のボーカロイドと定義できそうです。

「初音ミクAI」が最初にすべきことは、歌詞の内容を理解することです。
「東ロボ君」の記事でふれたように、AIにとって文章理解は最大の難関で、
現在の技術的アプローチでは、真の意味での読解は不可能とされています。
ただ、歌詞というのは、特殊で限定された文章です。
一青窈の「ハナミズキ」が9.11テロを鎮魂しているなんて読解は問題外ですが、
歌唱に反映させる程度の読解はそう難しいものでは無いように思います。

歌詞の内容を理解した「初音ミクAI」は、その結果を歌唱に反映させます。
従来の「調教」は、ボーカロイド歌唱の不自然さを修正するのが主目的でしたが、
それについては、ソフトウェアの改良によってクリアーできようになってきています。
ですから、「初音ミクAI」の最初の課題は、限りなく人間の歌唱に近づく、
つまり、悲しい歌を悲しそうに歌うことを可能にする、ということになります。

AIに期待するのは、息成分や声質などの様々なパラーメーターを自らコントロールすることで、
与えられた楽曲に相応しい歌唱を作り上げることにあります。
ネット上に存在する、無数の歌唱から歌唱テクニックを獲得するのも勿論ですが、
重要なのは、強化学習によって、自らの歌唱の中から最適な歌唱を決定させることにあります。
人間だって、レコーディングの時は、何テイクも録って、最良のものを求めるわけですが、
「初音ミクAI」は、そのテイク数が何千万通りも可能であるわけです。

「初音ミクAI」は、各パラメーターの気の遠くなるような組み合わせから、最適な歌唱を決定します。
この場合の最適な歌唱とは、人間のような自然な歌唱です。
例えば、松浦亜弥的歌唱法をAIによって再現させると云うことも可能になります。
本人の音声データを使えば、区別できないくらい似せることも可能になるわけです。

しかし、ここに評価という最大の問題があります。
人間のレコーディングでしたら、コントロール・ルームにいる「P」さんが、
「それじゃあ伝わらないなぁ」なんて1つ1つダメ出しするんでしょうけど、
AIの強化学習は、何百万、何千万通りという歌唱パターンを評価していくわけですから、
AI自身による自己評価が可能なシステムを構築しなければなりません。
ゲーム分野、例えば将棋の評価規準は、勝敗や駒の損得率などから構築することができますし、
車の自動運転だって、安全で効率的なルート設定という明確な目的があります。
それと比べて、歌唱の優劣についての評価規準の構築は、そう簡単なものではありません。
そもそも、歌唱に優劣など存在するのかという問題もあります。

どんな歌唱に感動するのかなど個人の好みの問題で、規準など存在しない、
という考えもあると思います。
しかし、私たちは歌唱に関して、何かしらの共通した認識を持っていることも確かです。
この共通した認識を解明し、歌唱における評価関数を構築することこそ、
「初音ミクAI」を成功させる最重要な課題と云えます。

では、歌手の皆さんはどのようにして自己の歌唱を評価しているのでしょう。
今日のライブは上手く歌えたという印象は、どのようなときに持てるものなんでしょうか。
声が出ていたとか、音を外さなかったというレベルなら、現状のボーカロイドでも自己評価可能です。
今日は気持ちよく歌えたとか、観客と一体になれたなどと云う場合は、
その根拠を探らなくてはなりません。

一方、私たち聴き手は、どのような歌唱に出会ったときに、感動するのでしょうか。
歌に心がこもっているとき・・・よく耳にする言葉です。
しかし、歌といえども音です。
空気の振動という物理現象です。
物理現象ならば、心がこもっている歌唱と、そうでない歌唱には、解析可能な違いがあるはずです。

人の歌唱というのは、大変不安定なもので、揺らぎまくっています。
また、感情が高まれば、心の動揺が歌唱に反映されていきます。
それらには、意図的なもの(テクニック)もありますが、
そういった歌の揺らぎが、聴き手の心の襞に作用することによって、感動が伝わるのです。
この揺らぎこそ、従来のボーカロイドが再現できていない部分であり、
聴いたときに、違和感をもたれる最大の原因です。

しかし、人間の歌唱であっても、YouTube動画やCDで聴いている時点で、
それらは既にデジタル化され人工的に再現されたものです。
生のライブでも、マイクを通して、スピーカーから聞えてくる歌声は、
厳密な意味で、もはや肉声とは云えません。
音という物理現象で考える限り、発生源が人間であれ、機械であれ同等なのです。
それでも、人間の歌唱と人工的に作り出したボーカロイドの演奏が同じでないと云うのなら、
それは違うのでなく、足りないにすぎません。

「初音ミクAI」は、その(膨大な)足りないモノを、評価関数による解析を基に補うのです。

しかし、これは、「初音ミクAI」の最終目的ではありません。

将棋の対戦で、AIは人間だったら絶対に指さない、悪手を平気で指してくると云います。
AIは、恐れを知りません。
人間のように先入観や固定観念に縛られない非常識な発想が、新たな手法を生み出し、
それらは人間にフィードバックされていくわけです。
 
「初音ミクAI」に、真に期待するもの。
それは人間の真似ではない、全く新しい歌唱法です。
歌唱における評価関数が構築されたとき、
「初音ミクAI」は、僕らをどんな世界へ連れて行ってくれるのでしょうか。


0 件のコメント: