モネの「睡蓮」を聞く? ディープラーニングで絵画に音をあててみる.

2018 BLOG

Recent Posts

2025.11.22 BLOG AI MUSIC
Project LYDIA - Neutone leaps into the hardware world!
2025.02.01 BLOG AI EVENT
Invited Talk at the inaugural Tokyo Music AI Gathering
2024.12.08 BLOG AI MUSIC TALK
[YouTube] Talk at Ableton Meetup Tokyo 2023

すでにいろんなところで書いているのですが、昨年のNIPS 2017で発表したショートペーパーを元に、Google StreetViewに環境をつけるというプロジェクト、Imaginary Soundscapeを発表しました。Webサイトを訪れた人は、ディープラーニングのモデルが空想する架空のサウンドスケープ (音の風景) のなかを自由に歩き回ることができます。

基本的な考え方は MITの研究チームが公開している音と映像のクロスモーダルな(=複数の知覚にまたがった)特徴抽出用のモデルSoundNetの研究に基づいています。プロジェクトのコンセプトと技術的な詳細はこちらの記事を参考にしてください。 Imaginary Soundscape — AIが「想像」するサウンドスケープ on Medium

さてここまでは風景の写真に音をあてるということをやっていたわけですが、この実験をやっている時にふと思ったのが、同じ仕組みを絵画に当てはめたらどうなるだろうかということです。

絵画を見ていて、「人物の会話が聞こえてきそう」「小川のせせらぎが聞こえてきそう」といった感想を持ったことは誰しもあると思います。

モネの睡蓮、ムンクの叫び、北斎の富嶽三十六景、ゴッホの星月夜といった有名な絵画に、同様の仕組みで音を当てたらどうなるか…. 実際にやって見ました。

ルノアールの楽しそうなお祭り?の様子やゴッホの星月夜の寝静まった街に響く教会の鐘、ターナー(?)の港で聞こえるさざ波など、それぞれなるほどという感じがしますね。24秒あたりの荘厳な感じの教会の音は建物のなかのリバーブまで再現されているように感じます。

意外だったのが、抽象的な表現に対してあてられた音です。カンジンスキーのアブストラクトな絵に対するオルゴール、ウォーホールの8ビット的な音、ロスコーのノイズなど。元の学習データはFlickrが公開しているビデオなのですが、絵画に対してもある程度うまくその特徴をつかんでいるようです。(畳み込みニューラルネットワークの汎用性の高さを改めて感じます) 音源はFreesound.orgで公開されている環境音になります。

ビデオの中で取り上げていませんが、逆にうまくいかなかったのは、北斎の浮世絵やミロの種蒔く人、ゴッホのひまわりなどです。北斎やゴッホは(少なくとも人間の目には)ある程度写実的に見える絵なのに対して、ディープラーニングのモデルにはそうは見えなかった様子。ゴッホも波の音(テーブルが水平線に見えたのでしょうか.)、北斎は鐘の音がしました。表現の抽象化の度合いという意味で非常に面白い結果だと感じています。ミロの赤茶けた大地が海岸と認識されてしまい、波の音が聞こえてきました。

ここまでがおまけで本題は… 先週末から開催されているMedia Ambtion Tokyo 2018です。最新のテクノロジーとアート、デザインをつなぐさまざまなプログラム、展示が2月25日まで都内各所で行われています。そんな中、今回Qosmoとして新作のサウンドインスタレーション“Imaginary Soundwalk”を六本木ヒルズ52階のメイン会場で展示させていただいています。名前からすぐにわかるように上記のImaginary Soundscapeのシステムをベースにしたものです。

(Photo by Koki Nagahama/Media Ambition Tokyo)

印象的な12面体のスピーカーは、sonihouseさんのご好意でお借りしています。鑑賞者が触っていないときに自由に地図上を散歩させたいという僕のアイデアを2bitくんがまとめてくれました。ありがとうございました！ Qosmo以外にもライゾマティクスさん、TASKOさんら個人的にもつながりの深い方々の作品も多いのでぜひ足を運んで見てください。

Twitter

Facebook