2018年1月26日金曜日

人工知能搭載型ボーカロイド「初音ミクAI」への道

ミクは、タクシーを止めると崩れるように乗り込み、無人の運転席に向かって言った。
「出してちょうだい。」
「お客さん。どちらまで。」
人工会話システム「トークロイド」の声が響いた。
「・・・どこでもいいわ。」

タクシーがAI搭載の自動運転になって久しい。
以前は人間が運転していたとのことだが、無人となっても特に不自由することは無い。
搭載されたAIは、交通情報を分析して、最適なルートを選択してくれるし、
話しかければ世間話にも付き合ってくれる。
車内に設置されているカメラによって、乗客の感情分析もしているのだが、
まあ、これは余計なお世話になることもある。

「今ね、彼と別れてきたところなの・・・。」
わずかな沈黙、搭載されたAIの思考。
再びトークロイドの声が響いた。
「かしこまりました。」
AIはミクを乗せて街を走り出した。
何処へ・・・?


近未来の人工知能社会ということで、「星新一」っぽくショートショートで始めてみました。

人工知能搭載型ボーカロイド「初音ミクAI」。
このテーマは、昨年の夏にいただいたコメントを受けて、取りかかっていたものでした。
「でした」というのは、記事を書いている途中でパソコンが壊れてしまって、
全てが消えてしまったからです。
その時は、簡単に書き直せるって思ったんですが、進まないうちに時期を逸してしまって・・・、
そのうちにAIの新しい知見がドンドン登場してきて、お手上げ状態になっていたものなんです。
で、今回、お手上げ状態には変わりませんが、ずらずらと妄想してみました。


人工知能と云って、まず思い浮かべるのは、
囲碁において、ついに名人に勝ったという「アルファ碁」でしょうか。
AIは、オセロ、チェス、将棋に続いて囲碁でも人間を超え、
ゲームの世界では、既にAIに敵うのはAIという時代になっています。

これらのゲームソフトで重要な役割を果たしているのは、
「評価関数」と呼ばれているプログラムです。
「評価関数」は、局面の有利不利を数値化して判定するもので、
優れた評価関数を持つことが、ソフトの強さにつながりますから、プログラマーの腕の見せ処でした。
しかし、終局までの全ての指し手を解析することは不可能です。
探索に限界がある以上、目先の効果(と云っても20手先とかですが)で決定するしかなく、
コンピューターでは大局観を持つことが出来ないという課題がありました。

人工知能の手法によって改良された「アルファ碁」が従来のソフトと大きく違っているところは、
「機械学習」によって、膨大な棋譜データや自身との対戦で「勝手」に上達するところにあります。
「ディープラーニング」を取り入れたソフトの指し手は、完全に「ブラックボックス」となっていて、
何故そういう指し手に決定したのか、制作者でさえも説明できないと云います。
人工知能は、擬似的な大局観を持ち、
目的を達成するためには、自らを動かしているプログラムさえ書き換えてしまう、
という段階にあるのです。

さらに、最新の「アルファ碁ゼロ」や将棋やチェスにも対応できる汎用型の「アルファ・ゼロ」は、
既存の棋譜データに頼らず、何千万局というAI同士の対戦による強化学習だけで、
自らの力で定石を編み出しながら上達し、
李九段に勝った旧式AIソフトと対局して、100戦100勝という成績をあげているそうです。
人間が教えない方が強い(但しハードウェアのコストを度外視した場合)というのは、
人間の智の遺産である「定石」が凌駕されたことになりますから、画期的な出来事といえます。
 
音楽の分野では、AIによる作詞や作曲が現実になりつつあります。
いずれもいくつかの条件を指定すると、それに応じて詞や曲を作成するというものです。
作詞については、それらしい言葉を適当に選んで組み合わせれば、それなりのモノになりますし、
作曲については、音楽理論なるものが既に構築されていますから、
王道の循環コードにメロディーをそれなりに付けていけば、それっぽい曲を作ることができます。
コードに合わせてコンピューターがベースラインを自動で付けるなんてのは、
AIがどうという前から、作曲支援ソフトなどで既に実現している技術です。
作詞も作曲も定型化されたものですから、作品のデキを高く求めない、それっぽいレベルであれば、
コンピューターによる作成も可能な時代になっています。

では、ボーカロイドにおける人工知能の役割とは如何なるものなんでしょう。
 
ボーカロイドとは、音符と歌詞を入力すれば、それなりに歌うことのできるソフトです。
ただし、そこには「歌う」という行為は存在しません。
ですから「言葉を使って演奏している」と言った方が正確かもしれません。
しかし、「言葉」の存在によって、人は「演奏」の向こう側に「歌う」という行為をイメージします。
それは、欺されているというよりは、人間が持つ感性によるものです。

ボカロPの役割は、その「言葉を使った演奏」を、あるときは人間の歌唱に近づけて、
また、あるときは機械らしさを前面に出して、作品を完成させることでした。
彼らが「P」を名乗るのは、音楽プロデューサー的役割を果たしていることを自認しているからです。

人工知能搭載型ボーカロイド「初音ミクAI」とは、
ボカロPの関与を必要としない、自立型のボーカロイドと定義できそうです。

「初音ミクAI」が最初にすべきことは、歌詞の内容を理解することです。
「東ロボ君」の記事でふれたように、AIにとって文章理解は最大の難関で、
現在の技術的アプローチでは、真の意味での読解は不可能とされています。
ただ、歌詞というのは、特殊で限定された文章です。
一青窈の「ハナミズキ」が9.11テロを鎮魂しているなんて読解は問題外ですが、
歌唱に反映させる程度の読解はそう難しいものでは無いように思います。

歌詞の内容を理解した「初音ミクAI」は、その結果を歌唱に反映させます。
従来の「調教」は、ボーカロイド歌唱の不自然さを修正するのが主目的でしたが、
それについては、ソフトウェアの改良によってクリアーできようになってきています。
ですから、「初音ミクAI」の最初の課題は、限りなく人間の歌唱に近づく、
つまり、悲しい歌を悲しそうに歌うことを可能にする、ということになります。

AIに期待するのは、息成分や声質などの様々なパラーメーターを自らコントロールすることで、
与えられた楽曲に相応しい歌唱を作り上げることにあります。
ネット上に存在する、無数の歌唱から歌唱テクニックを獲得するのも勿論ですが、
重要なのは、強化学習によって、自らの歌唱の中から最適な歌唱を決定させることにあります。
人間だって、レコーディングの時は、何テイクも録って、最良のものを求めるわけですが、
「初音ミクAI」は、そのテイク数が何千万通りも可能であるわけです。

「初音ミクAI」は、各パラメーターの気の遠くなるような組み合わせから、最適な歌唱を決定します。
この場合の最適な歌唱とは、人間のような自然な歌唱です。
例えば、松浦亜弥的歌唱法をAIによって再現させると云うことも可能になります。
本人の音声データを使えば、区別できないくらい似せることも可能になるわけです。

しかし、ここに評価という最大の問題があります。
人間のレコーディングでしたら、コントロール・ルームにいる「P」さんが、
「それじゃあ伝わらないなぁ」なんて1つ1つダメ出しするんでしょうけど、
AIの強化学習は、何百万、何千万通りという歌唱パターンを評価していくわけですから、
AI自身による自己評価が可能なシステムを構築しなければなりません。
ゲーム分野、例えば将棋の評価規準は、勝敗や駒の損得率などから構築することができますし、
車の自動運転だって、安全で効率的なルート設定という明確な目的があります。
それと比べて、歌唱の優劣についての評価規準の構築は、そう簡単なものではありません。
そもそも、歌唱に優劣など存在するのかという問題もあります。

どんな歌唱に感動するのかなど個人の好みの問題で、規準など存在しない、
という考えもあると思います。
しかし、私たちは歌唱に関して、何かしらの共通した認識を持っていることも確かです。
この共通した認識を解明し、歌唱における評価関数を構築することこそ、
「初音ミクAI」を成功させる最重要な課題と云えます。

では、歌手の皆さんはどのようにして自己の歌唱を評価しているのでしょう。
今日のライブは上手く歌えたという印象は、どのようなときに持てるものなんでしょうか。
声が出ていたとか、音を外さなかったというレベルなら、現状のボーカロイドでも自己評価可能です。
今日は気持ちよく歌えたとか、観客と一体になれたなどと云う場合は、
その根拠を探らなくてはなりません。

一方、私たち聴き手は、どのような歌唱に出会ったときに、感動するのでしょうか。
歌に心がこもっているとき・・・よく耳にする言葉です。
しかし、歌といえども音です。
空気の振動という物理現象です。
物理現象ならば、心がこもっている歌唱と、そうでない歌唱には、解析可能な違いがあるはずです。

人の歌唱というのは、大変不安定なもので、揺らぎまくっています。
また、感情が高まれば、心の動揺が歌唱に反映されていきます。
それらには、意図的なもの(テクニック)もありますが、
そういった歌の揺らぎが、聴き手の心の襞に作用することによって、感動が伝わるのです。
この揺らぎこそ、従来のボーカロイドが再現できていない部分であり、
聴いたときに、違和感をもたれる最大の原因です。

しかし、人間の歌唱であっても、YouTube動画やCDで聴いている時点で、
それらは既にデジタル化され人工的に再現されたものです。
生のライブでも、マイクを通して、スピーカーから聞えてくる歌声は、
厳密な意味で、もはや肉声とは云えません。
音という観点で考える限り、発生源が人間であれ、機械であれ同等なのです。
それでも、人間の歌唱と人工的に作り出したボーカロイドの演奏が同じでないと云うのなら、
それは違うのでなく、足りないにすぎません。

「初音ミクAI」は、その膨大な足りないモノを、評価関数による解析を基に補うのです。

しかし、これは、「初音ミクAI」の最終目的ではありません。

将棋の対戦で、AIは人間だったら絶対に指さない、悪手を平気で指してくると云います。
AIは、恐れを知りません。
人間のように先入観や固定観念に縛られない非常識な発想が、新たな手法を生み出し、
それらは人間にフィードバックされていくわけです。
 
「初音ミクAI」に、真に期待するもの。
それは人間の真似ではない、全く新しい歌唱法です。
歌唱における評価関数が構築されたとき、
「初音ミクAI」は、僕らをどんな世界へ連れて行ってくれるのでしょうか。

2 件のコメント:

korou さんのコメント...

見事ですね。
最近の人工知能のことについて
かろうじて理解できてはいても
自分にはとても言葉で言い表せないなと
思っていたことが
きっちり書かれていて感嘆しました。

将棋の羽生善冶さんが
「今現在の人工知能について言えば、まだ人工知能には
 人間が持っている美意識といったものがないような気がする」
と言っていますが
そのうち、人間が思いつかないような「美意識」を提示してくるのかも
しれません。

ただ、言われるとおり
「評価」という大きな問題が存在しますから
今の段階では
あくまでもAIは人間に評価されるだけの存在にとどまるのでしょうね。
でも、もっと複雑な展開になって
予想外な未来が始まるような可能性もあるのでしょう。
それはちょっと怖い(笑)

(まあ、今のところは、ごくシンプルに思考すれば)
AIが提示する新しい美意識によって
美術、音楽、文学などのアートが革新されることになれば
興味深いことです。

「初音ミクAI」が一気に定着して
この大sansanさんのブログが
それらを評価する場所になることも
あり得ますね。

大 sansan さんのコメント...

コメントいただき、恥ずかしい限りです。
僕は、専門家でも、学者でもありませんから、お分かりの通り、全部が妄想、作り話ですのでw

AIには「美意識」が欠けているとの指摘はもっともに思います。
もう1つ云うと、AIには「常識」もありませんからね。
核兵器のボタンなんてAIに管理させたら、立ち所に押してしまいそうです。

AIの能力は、まだまだ人間には及びませんから、
当面の目標は、「まるで人間のように○○する能力」を身につけることになると思います。
「初音ミクAI」も「人間のように歌う」のが当面の目標になるでしょうね。

そのうち、AIも擬似的な「美意識」を持つことができるようになると思います。
よく、芸術の分野には、AIは進出できないなどと云われますが、
そういう、凝り固まった美意識に支配されている分野にこそ、
AIショックを与えるべきだと思いますよ。

AIの能力が人間を超えた「ゲーム」などの分野では、「人間のように将棋を指す」では無く、
「人間の思いもしないような手を指す」になっています。
「初音ミクAI」がその域にまで達する日は、まだまだ、遠い未来のこと・・・・?
案外、もう近くに来ているのかもしれませんね。