[日誌] AI DJプロジェクト — ヨーロッパツアー

21688202_1546455662081814_4591744079013512683_o

Photo: (c) David Gallard – Scopitone 2017

2015年から続けているAI DJプロジェクトが、ヨーロッパのフェスティバルに招待を受け、9月中旬の約二週間、ヨーロッパを旅してきました。


AI DJプロジェクトは、人間のDJと機械学習に基づく「AI DJ」が一曲づつかけあう、Back to Backと呼ばれるスタイルでDJを行うという実験的なDJセット。リアルな昔ながらのレコードとターンテーブル(カスタムされてます)を使うというのがキモで、現在はレコードの選曲とターンテーブルのスピードをコントロールしてのビート合わせの部分に、Deep Learningの技術が使われています (くわしくはこちら)。

今回、ビジュアルを担当する堂園翔矢(Qosmo)とTASKOさんに作っていただいた小型ロボットとともに、まわったフェスは次の二つです.

  1. Speculum Artium (スロベニア、トルボヴリェ)

2. Scopitone 2017 (フランス、ナント)

[サーフィン × 人工知能] 海岸線の衛星写真からサーフポイントを検索 – Deep Surfari – Quest for untouched surf points using Deep Learning on satellite imagery.

13925838_10155096476088452_7128053996750221992_o

いまからちょうど一年前. 2016年の9月に10日ほどの休みを取って、南米チリに行ってきました。チリの友人たちとサーフィンをするのが目的の旅でした。ちょうどそのころにやった実験の記録です。


Deep Surfari – Quest for untouched surf points using Deep Learning on satellite imagery.

サーフポイントとして認識された衛星写真

サーフポイントとして認識された衛星写真 – モロッコ

このプロジェクトの直接のきっかけはその直前の8月のWIRED LABでのトークセッションです。世界のサーフポイントの波のデータ可視化に取組んでいる山崎みどりさん、サーファー向けの写真アプリ SurfPicを運営する電通の秋元健さんとの対談をする機会をいただきました。

初めてのお二人との顔合わせの席でもやはり話題は海外のサーフスポットについて. 「あそこに行きたい」「どこそこは波を当てるのが難しい」などなど話題はつきませんでした.  山崎さんは僕の憧れの地、モロッコにも行かれたことがあるとか.  長い長い海岸線を持つ彼の地には、未知のサーススポットも数多く残されている… といった話で盛り上がりました。

サーフポイントの緯度経度情報を登録するために、Google Mapsで衛星写真を眺めるのを日課にしているという秋元さんの話を聞いているときにひらめきました。

「もしかしたら海岸線の衛星写真を解析することで、新しいサーフスポットを見つけられるのではないか… 」 会社に戻ってすぐにサーフスポットの情報を集めはじめました。

ということで、題して Deep Surfari (SurfariはSurfingとSafariをあわせた造語で、未開のサーフスポットを探す探検を意味してます). 画像解析にはもちろんDeep Learningのモデルを利用します。

今回のテストは以下のようなステップで行いました.

  1. 世界のサーフスポットの衛星写真を集める.
  2. サーフスポットではないランダムな海岸線の衛星写真を集める
  3. 畳み込みニューラルネットワーク(CNN)で、サーフスポットとそれ以外を識別するモデルを作る.
  4. 対象とする地域の海岸線に沿って集めた衛星写真を、3のモデルにかけて「サーフスポットらしい」場所を探す

順に説明します。

Continue reading

“Sonic Pendulum” with Yuri Suzukiの舞台裏 – ミラノデザインウィーク

Milano 4 aprile 2017
Corso Venezia, 11
Audi City Lab

先日のミラノデザインウィークで発表したSonic Pendulumについてまとめました.

Yuri Suzukiくんが主体となったインスタレーションに、主にサウンド生成のアルゴリズムの部分で参加しました。

一番最初にYuriくんからこのプロジェクトの話を持ちかけられたときに、「振り子型のスピーカーを並べた音響作品」という大枠のアイデアと「AI」「環境」「人と自然、歴史と先進性のバランス」といった作品を表現するキーワードがいくつかありました.

そんな中、わりとすぐに Autoencoderを使ったらどうかと思いついたのを覚えています.

Autoencoderはニューラルネットワークの一種で、入力したデータをより少ない次元で表現した上で、入力に近いデータを出力するように学習を進めるモデルです. 入力したデータをそのまま出力することにどういう意味があるのかと思われると思いますが、入力したデータをより少ない次元で表現することを学ぶことで、データの中に隠れた構造を学習することが期待できます。
Continue reading

Qosmo AI-DJプロジェクト – 詳細をまとめました.

aidj11

人工知能DJイベント「2045」から派生したAI DJプロジェクト. レコードを使いつつ、人とAIでBack 2 BackでDJをするというスタイルで少しずつ更新を続けてきました。

2017年2月17日の渋谷WWWの模様をまとめた動画 を中心に、本プロジェクトの骨子をまとめました (Yansu Kimさん、ありがとうございました! )

AI DJ PROJECT – A dialogue between AI and a human

http://qosmo.jp/aidj/

AI DJ Project – A dialogue between AI and a human” is a live performance featuring an Artificial Intelligence (AI) DJ playing alongside a human DJ. Utilizing deep neural network technology, the AI system selects and mixes songs and performs other musical tasks. Playing back to back, each DJ selects one song at a time, embodying a dialogue between the human and AI through music.

AIと表現の今を伝えるWebサイト – “Create with AI”を始めました!

creaete_ic_0327

AIと「表現」、人間の「創造性」の未来を考える上で興味深い「論文」「デモ」「作品」「記事」などを紹介するサイト、Create with AIをローンチしました!   AIによる表現に興味のあるクリエイター、アーティスト、あるいはAI研究者を主な対象とし、今、何が起きているかを毎日少しずつ伝えるリンク集を目指しています.

http://createwith.ai/

もともとは普段自分が調べている論文をそのままにしておくのはもったいない! というわりと単純な理由が動機になっています.   ローンチから一週間でライターも7名以上に増えました.  やはりこの分野に対する興味の広がりを感じます.

createwithAIfull

スクリーンショット 2017-04-03 17.20.48 スクリーンショット 2017-04-03 17.20.22

 

サイトの概要についてはこちらをごらんください.
http://createwith.ai/about/

TwitterアカウントFacebookページも合わせてよろしくお願いします.

 

尊敬するJohn Maedaさんにツイートしてもらえたのも個人的にはすごく嬉しいです!

 

発表されました! – BRIAN ENO’S “THE SHIP” – A GENERATIVE FILM

以前このサイトでも予告したプロジェクト(The Ship Project with Brian Eno – Cannes Creative Lions 2016) がリリースされました!

BRIAN ENO’S “THE SHIP” – A GENERATIVE FILM
http://theship.ai/

Continue reading

AI DJ 技術解説 – 9/4「2045」at OKAZAKI LOOPS #2

LOOPS_P3460714

ありがとうございました!

人工知能時代のDJ, VJ表現を考えるイベント 「2045 」を、OKAZAKI LOOPSのプログラムの一つとして、京都国立近代美術館で先の9月4日に行いました。 200名を超える方にご参加いただきました。お越しいただいた皆さま、ありがとうございました! 前回のブログの記事で告知した技術解説を(事後になってしまいましたが)書きます。

photo (c) OKAZAKI LOOPS 実行委員会

LOOPS_P3290348 LOOPS_P3320568 LOOPS_P3270205

Continue reading

The Ship Project with Brian Eno – Cannes Creative Lions 2016

IMG 0662

昨年からお手伝いしているDentsu Lab Tokyoさん主催のセミナーに参加するためにカンヌライオンズ 2016に来てます.  今年の年明けから取り組んできたBrian Eno氏とのコラボレーション、彼の新作アルバムのタイトル曲 The Shipのためのミュージックビデオ(The Ship Project) の発表を兼ねたセミナーです.  The Ship Projectのなかで私はDeep Learningを用いた画像解析の部分と全体のテクニカルディレクションを担当しています。 MVの詳細についてはまた改めて書くとして… イーノ氏のトークの中で面白かったことをざっとまとめておきます。

「テクノロジーという言葉は「設計者の期待通りに動いてくれないもの」を指す.  期待通りに動くものはテクノロジーとみなされなくなる。たとえばピアノがいい例だ。」

 「アーティストが興味があるのは、テクノロジーの誤用。自分はArtificial IntelligenceとともにArtificial Stupidityに興味がある。」

 (マルコフ連鎖を使った作品について聞かれて) 「機械知能はブライアン・イーノという人間が思いつかない組み合わせに思いつく。生成するアウトプットの95%がゴミだったとしても、残りの興味深い5%を自分で選ぶことができればよい。機械知能は人の介入があってはじめて、クリエイティブに使える。」

セミナー後の食事の際には隣に座らせていただいて 2時間ほどじっくりお話を伺いました。(もっとも僕はひたすら緊張してましたが…)。

「 ソフトシンセは大好きだ。ただ音の合成方法ではなくそのUIに大きな問題がある。ほんとに微妙な つまみの誤差のようなところに豊穣な音の世界が広がっている。飛行機の中ではつまみの誤差のような範囲で微妙にパラメータをいじっていつも実験しているよ(笑」

「Maxは難しすぎる(笑。それよりもLogicでつまみをいじってじっくり音色の実験をしているほうがいい。」

「実は新しいUIのアイデアがあるんだ! 」そのあとノートを持ち出してUIのスケッチを見せてくれました (ここに書くのは控えておきます)。 

「歴史の本や哲学からインスピレーションを得ている。先日も中世の富裕層の生活を綴った本を読んだことで、スタジオに入った時の音楽に向かう姿勢が変わった。」

本人はとにかくジェントルマン.  僕が高級レストランのメニューで苦戦してるのを見て(笑、助け舟を出してくれたり…  謙虚に子供のような好奇心を保ち続けている姿勢がまず素晴らしいですね。チャーミングな目と優しく語りかけてくるような声が印象的でした。イーノ氏のSurf on Entropyという言葉をこのブログのタイトルにしていたくらいイーノ氏のファンであり、考え方に影響を受けている僕としては記憶に残る1日になりました(東大の理系の博士論文でイーノ氏のプロジェクトに何度も言及しているの僕くらいなんじゃないでしょうか)。

このプロジェクトに誘ってくれたDentsu Lab Tokyoの菅野くんほかみなさま、ビジュアル表現を担当してくれた比嘉くん(ほんとにおつかれさまです!)、サーバ構築でお世話になったマウントポジションのみなさま、ありがとうございました! プロジェクト自体に関しては公開後にまたまとめたいと思います。

 カンヌ 2016  220

カンヌ 2016  2776

DSC01450

DSC01447  1

 

Continue reading

Deep Learning × 表現 – 参考リンク集

いわゆる人工知能、特にDeep Learningと表現/クリエイティブに関して、普段自分が定期的に読んでいるサイトを紹介します.

界隈で人気のスタンフォードの授業 CS231n Convolutional Neural Networks for Visual Recognitionの今学期の講義を見ていても、「今日の授業は⚪︎⚪︎⚪︎について扱います。これは先月△で発表された考え方で… 」というのがしょっちゅう  (この授業は、畳み込みニューラルネットワーク、画像認識あたりを勉強する上で非常にオススメです. YouTubeにほぼリアルタイムで講義の内容が上がっています ). なかなかキャッチアップしていくのが大変ですが、このあたりの情報をチェックしておけば最低限良さそうです.

ほかによいサイトがあればぜひコメントください! よろしくお願いします.

 

GitXiv
http://gitxiv.com

github.com + arXiv.org を標榜するサイト.  githubはプログラマなら誰もが知っているソースコードの共有、バージョン管理のサイト. arXiv (アーカイブと読むはず)は、アカデミックな論文を共有するためのサイトです. これまで、論文誌というと非常に高価で、アカデミックな世界(もっというと税金を使える大学のなかの人たち)に生産と消費が閉じていたのに対して、もっと世の中に対してオープンにしよう!という流れでできたサイト. この二つを組み合わせた GitXivは、「最新の学術的な成果」が「すぐに使える」かたちで公開されているものを集めたポータルサイト、ということになります. 日々更新されているので、このサイトのニュースレターに登録するだけでもかなりの情報通になれます. ただし、公開されているのはあくまでも論文ですので、読み解くにはそれなりの知識が必要になるかと.  なんとなく最先端の研究の動向を知るのにはオススメですー

情報の鮮度   ⭐️⭐️⭐️⭐️
実用性       ⭐️⭐️⭐️⭐️⭐️
難易度        ⭐️⭐️⭐️⭐️⭐️
 
GitXivのトップ. ニュースレターに登録できます.
Screen Shot 2016-04-22 at 5.37.25 PM.png
各プロジェクトのページ. 論文のアブストラクトとgithubの概要がまとめられています.
Screen Shot 2016-04-22 at 5.37.33 PM.png

 

Continue reading

[テスト] 人工知能(無能?)カラオケ!! – 畳み込みニューラルネットワークによる動画の情景解析に基づく歌詞の自動生成

karaoke_loading_720

そういえば… 年末にWIREDさんの忘年会にDJとして参加しました. 僕がいつものようにレコードを使ってDJしていたところ、レコードを裏返して針を落とした瞬間、かぶりつきで見ていた学生と思しき女性に驚かれました.「裏があるなんてすごいですね!」と声をかけてきたので、「カセットとかレーザーディスクとかにも裏があったでしょ. あれといっしょだよ」と返したところ、「レーザーディスクってなんですか??」 と真顔で聞かれました. そこか…..

閑話休題

 

少し前に告知しましたが、1月末にeAT金沢に参加してきました. 今日はその夜の余興での発表について書きます. 題して、

昭和後期の民俗学的映像データ再活用をめぐって – 畳み込みニューラルネットワークによる情景分析とその応用」Nao Tokui, et al

小難しく書いてますが、要するに人工知能(ニューラルネットワーク)に昔のレーザーディスクカラオケのベタな映像の情景を分析させて、映像に写っているものから歌詞を(なんとなく)自動生成. 人間ががんばって歌う… という実験です. 当然生成される歌詞は毎回違います. メロディーは知っているとはいえ初見で見せられた歌詞を歌わないといけないという、なんとも歌い手泣かせな無茶振り企画. くどいですが、あくまで余興です! (でも、そちらがむしろそっちが本番?)

eATのイベント自体に誘ってくれた電通の菅野くん(@suganokaoru)と、夜の部でなにかやろっかという話になったときに、映像データを学習してなにかできたらいいよねという話をしていたところから始まりました。直接的に影響を受けたプロジェクトはこちらです. 先日ライゾマの機械学習ワークショップでも来日していたKyle McDonaldくんの実験.


NeuralTalk and Walk from Kyle McDonald on Vimeo.

ご存知の通り、Deep Learning特に畳み込みニューラルネットワーク(CNN)を使った画像解析技術の進歩には目覚しいものがあります. 特に昨年話題になったのは、CNNを使って画像を解析し何が写っているかを判別するだけでなく、さらにその情景を自然言語で記述する、という論文、システムです.

Deep Visual-Semantic Alignments for Generating Image Descriptions – Andrej Karpathy, Li Fei-Fei
http://cs.stanford.edu/people/karpathy/deepimagesent/

 

Screen Shot 2016-02-10 at 9.23.31 AM

サンプルのコードがNeuralTalkとしてgithubで公開されてます.

NeuralTalk2 by Andrej Karpathy
https://github.com/karpathy/neuraltalk2

このNeuralTalkのモデルをラップトップコンピュータで動かしてWebカメラと繋ぐと、カメラで見ている町中の光景をニューラルネットワークでリアルタイムに記述するシステムができます.

それが上の動画です. また、Kyleくんの機械学習ワークショップでは ライゾマの登本さんが日本語のキャプションをつけるopenFrameworksのサンプルを公開されています.

精度の高さ(“ホットドックを食べる人”というキャプションが出た時の本人の驚き方が最高!) もさることながら、MacBook Proでリアルタイムに動くということも衝撃でした(あくまで学習済みのモデルを使う場合で学習自体には相当時間がかかります)。

また、どのような情景がCNNにとって認識しやすいのかというところに興味を惹かれました。学習時につかったサンプル写真に含まれている対象を認識しやすいのは、容易に想像がつきます. さらに、認識した光景から、コンピュータが勝手にストーリーを想像したらどうなるだろうか…

「ストーリー性と映像の関係がある程度ルースで、解釈の余地が残されている、それでいて人が見たときに共通理解としてのストーリーが簡単に見えてくるような映像ってなんだ??」…と考えてきたところで、冒頭のレーザーディスクの話とつながりました。そうだ、昔のコテコテ、ベタなカラオケの映像をコンピュータに見せてみよう!!

ということで作ったのが今回のシステムです.

diagram

  1. NeuralTalkで映像にキャプションをつける -「ギターを弾く男性」
  2. キャプションの文章から特徴的な単語を抽出 -「ギター」
  3. 関連語/類義語をランダムに選ぶ(WordNet) – 「メロディー」「バンド」「音楽」など
  4. 3の単語を含む歌詞の断片をJ-POPの歌詞DBからランダムに選ぶ – 「愛のメロディー♫」
  5. 4のフレーズと音韻的に同じ長さで韻をふむ歌詞を同じデータベースから選ぶ – 「雨のキャンディー♪」
  6. 4と5のフレーズをつなげる -「愛のメロディー♫ 雨のキャンディー♪」

とまぁこんな流れです. 歌詞をつくる部分はまだまだ荒削りで、生成というよりは検索に近いですね. (RNNで歌詞のDBの文字列の並びを解析させて、文字列を生成するというのもやってみました。日本語っぽいフレーズが生成されることはされるのですが、日本語にはない単語を吐きだすことがあり、かなり歌いにくい、ということで今回は見送りました. 辞書をつかってフィルタをかけるなどの処理をすれば、RNNからの生成も使えるようになるかもしれません。)

文字数はなんとなくこのくらいかなという範囲で決めているだけで、音楽的な解析をやってるわけではありません. 映像の色のヒストグラムが大きく変化した=新しい場面に切り替わったと判断して、歌詞を生成するタイミングとしています.

そしていよいよ… 実際のカラオケの模様です. 左上に出ているのがNeuralTalkで生成した映像のキャプションです. これだけ荒っぽい実装でも、見ての通り、大盛り上がりでした! eATに来ている大人たちが遊び方をよく知ってる人たちだった…というのもありますが(eATの楽しさについてはまた記事を書きたいところです)、人間の適応力ってすごいですね。見たことがない歌詞でもそれなりに歌えてしまいます. Yesterdayの映像から歌詞を生成して日本語で歌うといったこともできました.

 

別の例. このときは左上に歌詞を表示しています. ところどころに絶妙な歌詞が生まれてます.
(泣き崩れる女性の絵に”泣いていい、泣いていたよ、巻き戻す、愛の中に”)

 

人間はカラオケのベタな映像をみたときに、なんてわかりやすい映像なんだろうと思います. この人間が思うコテコテ感、ベタ感. じつはかなりハイコンテクストでコンピュータにはぜんぜんわからない… AIがストーリーを理解するためには何が必要なのか、まだまだ先は長いですね.

(とはいえ、改めて昔のレーザーカラオケの映像を見返してみると、歌詞の内容とはまったく関係のないものが多いことにきづきました. バブルの名残の時代だったからでしょうか、制作チームが海外ロケに行きたかっただけなのではないかというものも少なくありません(笑)

先日のCNNによる白黒映像の自動着色は、ある種の想像力をコンピュータに与えることなのではないかと思っているのですが、今回のプロジェクトはもう一歩進めて、空想力を与える試みといってもいいかもしれません。適度な飛躍が起きる仕組みをどのように組み込んでいくかに面白みがありそうです。

AIの真面目な研究をやっている方には遊びのようにしかみえないかもしれませんが、意外とこういう遊びの中に、人工知能のような人間以外の新しい知性のかたちとの付き合い方のヒントが隠されているように思います. 今後もいろいろと遊んで行きたいと思ってます!

最後に… 発表の場を与えてくれた電通の菅野くん、こころよくカラオケに参加してくださったみなさま、ありがとうございました! 来年もまたバージョンアップしたカラオケとともに、eATでお会いしましょう!

CREDIT:

NeuralTalk2の実装:  ml-notebook https://github.com/kylemcdonald/ml-examples

歌詞生成システム: 山田興生

関連リンク:

Generating Stories about Images – Recurrent neural network for generating stories about images
https://medium.com/@samim/generating-stories-about-images-d163ba41e4ed
[テスト] 畳み込みニューラルネットワークを用いたモノクロ動画の自動彩色
http://naotokui.net/2016/01/auto-color-cnn-jp/