adtech studio

音楽と機械学習ゼミ #2

By hiroki

ゼミ データサイエンス

連載です.これまでの記事はこちらです.

音楽と機械学習ゼミ#1

感動できない問題

どうも、みずかみ@AILabです。前回に引き続き音楽と機械学習ゼミ(以下MMLゼミ)の活動についてご紹介したいと思います。
とくに今回は単に機械学習を使うだけで感動的な芸術は生成出来そうに無いという話と,それを突破口となりうる技術・キーワードをご紹介します.

弊ゼミでは現在様々な「生成モデル」に関する既存の結果の追実験を行っています。
ここでいう生成モデルとは、得られたデータの裏側にある構造を学習、推定するモデルのことを指しています。例えば得られたデータが写真なら裏側にある構造は被写体、光源、撮影機材の配置などで、自然言語ならば文法や方言、そして音楽ならば和声や音色ということになります。
一方で我々は音楽を生成する事を目指しているので、和声やスケール、音色といった音楽構造を獲得する事は重要な要素技術という事になり,また既にこういった生成モデルを活用した音楽の生成実験の例もあります.

なのでこれらの技術が私達のグラミー賞取るという目的に沿うものなのかを確かめるために,既存の生成モデルのつい実験画像や文章を生成する実験を行ってみました.

追実験その1:自然言語の生成モデル

再帰的ニューラルネットワーク(RNN)というモデルで青空文庫の文章を学習しました.

そのモデルが生成した文章が以下です.

メロスは激怒した。人も、所謂「数学」として、こつそり熱快に焦つてゐた。僕も昔の、疑はむと、やはり拝笑せぬ足音も、したため味を伺つてみようと思つた。何が違つてゐる。私は中学天使の喝采を与へ、わが身の文壇にあるといふことをざなんだのではありません、私にも人一倍ともあらうにつらいで蔵衆を矢鱈に頼む事も無い事であつた。ここの、みちん同化の極歴に応はされてゐる他にもできない筈です。ああ、あげるなんて元気でないですね。とんでもない話さけれど、敢へて、血をすすめる油漢も困つた。家団へ来ればし、お前のところに、ああ、留置収床の時間です。自由思想でもありません」それだけは、シヤツにした原因だつたのです。とても、とろさびるのでした。
私は、自身の意地悪説を深め愉んで心配して置いたので、乗り完対に自身は成出せず、しなかつたやうに、少しも気をつけ、得意満面した。
二人の身にかけて、「いや、帰る鯛といふ珍所な男性です。」
それは、つい日から夏の小空を降ると、老婆は、赤面の巣みたいに現実の悲鼻の軽侮な袋は、芝居の知らなかつた。
「もう自分でそんなで置くんだ。あたしの日もわかるまいけど、今夜は、ずゐぶん張り合つてゐる人間の、ちがふのではないんです。人間とは見てゐない。外田幕のわびのものを読んでゐる奴は、この子の居らに、自動車の両方親つからの自殺になるかも知れない。」
「未だごろ、ね、あれだか、さいお。ほります。」

おう...

追実験その2:手書き数字の生成モデル

深層畳み込み敵対的生成ネットワークにより手書き数字画像のデータセットを学習させました.

そのモデルが生成した手書き数字が以下です.
imageg_1860_160imageg_2240_160imageg_2320_160

おう...

雑感と対策

とちらも,実際の小説や,手書き数字の画像を学習しているわけですが結局は学習データがツギハギになって出てくる事がわかりました.
もちろんDeepDreamのように,混ぜあわせることによる美しさのようなものも多少はあるのかもしれませんが,
人間らしい・創発的な・念がこもった!・感動的な!音楽や芸術を生成するにはまだまだ別のパラダイムが必要そうです.
いま我々に必要なのは「聞いていて心地が良い」もしくは「みんなで盛り上がれる」という要素の本質をいかに計算機に獲得させるかということなのでしょう.

一方で最近私たちはHuman-In-The-Loopという考え方に注目しています.
通常の機械学習がデータのみを学習するのに対して,この考え方は人間からのフィードバックをモデルに組み込むもので
飛行機や自動車などの自動運転の分野で少しずつ実用化が始まっています.
これは人間の感情を学習結果に反映させる余地があることから,私たちは音楽などの芸術に対しても活用出来る事を期待しています.

手短にはなりましたが今回は以上です.次回は上記で紹介したHuman-In-The-Loopに関連して以下のトピックのどれかをご紹介します

  • 生体反応をトラッキングしている話.
  • 強化学習/逆教科学習の調査と応用の話
  • グラミー賞を取るためにはプロモーションビデオが重要だという話

 

これまでの記事はこちらです.