Dawn Patrol EP—AI音楽生成モデルとのサーフィン

2022 BLOG AI MUSIC

Dawn Patrol EP
Dawn Patrol EP

ここ数年の私のAIを用いた音楽制作の試みをまとめた作品として、12インチのレコード、Dawn Patrol EPが発売になりました!以前そのリリースをアナウンスして、プレオーダーを開始し始めてから一年近くが経過した今日…ようやくレコードが手元に届きました。コロナ禍によるプレス工場の作業の遅れと予想外のレコード需要の高まり、ウクライナ情勢の悪化による原材料などのロジスティクスの問題。さらにはレコードのプレスの手配を頼んでいた仲介会社の倒産(!!)と度重なる不運に見舞われ、遅れに遅れてしまった今回のリリース。いち早くオーダーしていただいた方にはご迷惑とご心配をおかけして大変申し訳ありませんでした(一時は返金手続きの開始をアナウンスしたほどでした)。気長に待っていただいたことに心より感謝いたします。

Bandcampで発売中!!  https://naotokui.bandcamp.com/album/dawn-patrol-ep

本来であれば、作品をもって語らしむべし、と言いたいところですが、拙著『創るためのAI』の音楽における実践編という位置づけでもある本作に関して、収録曲のいくつかを取り上げ、それらがどのような意図で、どういったAIテクノロジーを用いて制作されたのか、簡単に解説しようというのが、今回の記事の意図になります。

「Vox Yt-populi」は、機械学習を用いたサンプリングを試した作品です。YouTube上のミュージックビデオのデータセットをダウンロードし、人の声が入っている箇所のみをCNN(畳込みニューラルネットワーク)を用いた音の識別モデルで取り出しました。音のアタックでセグメンテーションを行った後に別のCNNでピッチ(音程)の識別を行っています。こうして、鍵盤上の低いキーから高いキーまで、ずらっと人の声でできた音階が、自動的に構築される仕組みを構築しました。鍵盤を押すたびに同じ音程の異なる音が鳴るようにしています。このシステムについては、こちらの記事でより詳しく説明しています。

また同じアイデアをリズムパターンの生成に利用して作ったのが Neural Beatboxというサイトです。

Neural Beatbox — Early experiment of machine learning-based sampling

リズムに関してはVariational Autoencoderを用いたリズム生成AIモデルを用いて生成したリズムを用いています。このAIモデルは、学習したいMIDIファイルをドラッグ&ドロップするだけで、誰もが簡単に自分専用のAIモデルを学習し、音楽制作に使えるようにという意図でMax for Liveデバイスとしてまとめて公開しています(誰かが作ったAIモデルではなく、自分なりのモデルを自作すること・自作できるようにすることの意味はいろいろなところで話してきました)。ぜひ試してみてください。曲のタイトルはいろいろな声をサンプリングしたという意味で、民衆の声といった意味のラテン語、Vox Populiからとっています。


二つ目の作品『A Mission』は、同じリズム生成でも、GAN(敵対的生成ネットワーク、Generative Adversarial Networks)をベースにしたAIモデルを利用した作品です。GANは学習データそっくりのデータを生成しようとする生成器Generatorと生成データと学習データを区別する識別器Discriminatorを敵対的に学習させる枠組みです(よく贋作者と鑑定士のだまし合いに例えられます)。本物そっくりの顔写真などを生成できることで話題になり、いまのStable DiffusionやDALL-EなどのAI画像生成モデルの隆盛につながる流れを生み出した画期的なフレームワークです。

本作ではこのフレームワークをすこしだけ改変して、単に本物そっくりなデータ(この場合はリズム)を生み出すだけでなく、既存のジャンルから少しだけ逸脱するようなリズムを生成することを試みました。具体的には本物かどうかを見分ける識別モデルだけでなく、生成されたリズムのジャンルを識別する識別器を新たに追加、このジャンル識別器をも「混乱」させるように生成器を学習するということを試みています。このフレームワークに関しては、以下のビデオがわかりやすいかと思います。

『Mono-oto 2006』は、2006年、僕がパリに住んでいた頃にAKAI MPC2000で作った曲で、唯一AIを使っていない作品です。滞在先のヘヤードライヤーなどの身の回りのものの音をサンプリングしたウワ物と、MPC内蔵のサイン波で作った太いベースが気に入っているシンプルなミニマルテクノです。どうしてもDJで使ってみたいという想いで今回収録曲に追加しました。


現在、Stable DiffusionやMidjourneyのような、テキストから画像を生成するモデルが話題を呼んでいます。その精度の高さや使い勝手の良さ(Webで気軽に試せる)から、これまでとは比較にならないくらい多くの方がAIが表現や創造性の領域に与える影響について考え始めるきっかけになってます。こうしたモデルがこれまで創作に縁のなかった人たちに門戸を開いたり、創作行為の効率化に役に立つといったポジティブな影響を持ちうることは間違いないでしょう。一方で、無断で学習データとして作品を使われた画家やイラストレータたちの権利の問題など、考えなければいけない点も山積しています。
こうした点についての考察は別の機会に譲るとして、この記事で指摘しておきこととしては、既存の表現の組み合わせとしてそれらしい、クオリティの高いものを効率的に生成することを目指すこれらのモデルとは異なり、私の試みは既存の表現から少しでもはみ出すようなものをAIの力を借りて生み出そうとする試みだったという点です。

『創るためのAI』で書いたように、私は表現の領域におけるAIとの理想的な付き合い方を「サーフィン」に例えています。波に流されるという受け身な行為と主体的に波を選び適切なタイミングでターンするとう主体的な行為、その絶妙なバランスの上に成り立っているのが、サーフィンというスポーツです(スポーツを超えた何かだと個人的には思っていますが)。今回のEPはまさに僕のAIとのサーフィンの軌跡をまとめたものといえるでしょう。AIが提示するリズムやサンプリングされた音色、それらは意外性があり、異質で、時に自分の創造性の埒外にあるものでした。そうした自分一人で思いつけなかったなにかを取捨選択し、受け入れ(流される)、AIのアウトプットに手を加えながら、創った作品です。

この辺りの試行錯誤に関しては、先日のAIMC (AI Music Creativity Conference) 2022の基調講演で詳しくお話しさせていただきました。

My keynote speech at AI Music Creativity Conference 2022

EP名にある「Dawn Patrol」は、毎日明け方にサーファーたちが海岸に赴いて、その日の波のコンディションをチェックする行為を指しています。今日こそはという期待感(と外したときの徒労感)や予想外にいい波に巡り会ったときの興奮などのニュアンスをうっすらと想起させる、そんな言葉です。AIという波が自分をどこに連れて行ってくれるのか、期待感とともに自らの創作活動の中でDawn Patrolを続けた日々の記録。ぜひお手にとってみてください。

なおアルバムカバーの写真も、自分の顔写真をシンプルなAIで学習したモデルの一部を意図的に破壊(Bending)することで制作しました (詳しくはこちら)。ジャケットのデザインを手がけてくれたNaoki Iseさんにも感謝いたします。