発表されました! – BRIAN ENO’S “THE SHIP” – A GENERATIVE FILM

以前このサイトでも予告したプロジェクト(The Ship Project with Brian Eno – Cannes Creative Lions 2016) がリリースされました!

BRIAN ENO’S “THE SHIP” – A GENERATIVE FILM
http://theship.ai/

Continue reading

AI DJ 技術解説 – 9/4「2045」at OKAZAKI LOOPS #2

LOOPS_P3460714

ありがとうございました!

人工知能時代のDJ, VJ表現を考えるイベント 「2045 」を、OKAZAKI LOOPSのプログラムの一つとして、京都国立近代美術館で先の9月4日に行いました。 200名を超える方にご参加いただきました。お越しいただいた皆さま、ありがとうございました! 前回のブログの記事で告知した技術解説を(事後になってしまいましたが)書きます。

photo (c) OKAZAKI LOOPS 実行委員会

LOOPS_P3290348 LOOPS_P3320568 LOOPS_P3270205

Continue reading

The Ship Project with Brian Eno – Cannes Creative Lions 2016

IMG 0662

昨年からお手伝いしているDentsu Lab Tokyoさん主催のセミナーに参加するためにカンヌライオンズ 2016に来てます.  今年の年明けから取り組んできたBrian Eno氏とのコラボレーション、彼の新作アルバムのタイトル曲 The Shipのためのミュージックビデオ(The Ship Project) の発表を兼ねたセミナーです.  The Ship Projectのなかで私はDeep Learningを用いた画像解析の部分と全体のテクニカルディレクションを担当しています。 MVの詳細についてはまた改めて書くとして… イーノ氏のトークの中で面白かったことをざっとまとめておきます。

「テクノロジーという言葉は「設計者の期待通りに動いてくれないもの」を指す.  期待通りに動くものはテクノロジーとみなされなくなる。たとえばピアノがいい例だ。」

 「アーティストが興味があるのは、テクノロジーの誤用。自分はArtificial IntelligenceとともにArtificial Stupidityに興味がある。」

 (マルコフ連鎖を使った作品について聞かれて) 「機械知能はブライアン・イーノという人間が思いつかない組み合わせに思いつく。生成するアウトプットの95%がゴミだったとしても、残りの興味深い5%を自分で選ぶことができればよい。機械知能は人の介入があってはじめて、クリエイティブに使える。」

セミナー後の食事の際には隣に座らせていただいて 2時間ほどじっくりお話を伺いました。(もっとも僕はひたすら緊張してましたが…)。

「 ソフトシンセは大好きだ。ただ音の合成方法ではなくそのUIに大きな問題がある。ほんとに微妙な つまみの誤差のようなところに豊穣な音の世界が広がっている。飛行機の中ではつまみの誤差のような範囲で微妙にパラメータをいじっていつも実験しているよ(笑」

「Maxは難しすぎる(笑。それよりもLogicでつまみをいじってじっくり音色の実験をしているほうがいい。」

「実は新しいUIのアイデアがあるんだ! 」そのあとノートを持ち出してUIのスケッチを見せてくれました (ここに書くのは控えておきます)。 

「歴史の本や哲学からインスピレーションを得ている。先日も中世の富裕層の生活を綴った本を読んだことで、スタジオに入った時の音楽に向かう姿勢が変わった。」

本人はとにかくジェントルマン.  僕が高級レストランのメニューで苦戦してるのを見て(笑、助け舟を出してくれたり…  謙虚に子供のような好奇心を保ち続けている姿勢がまず素晴らしいですね。チャーミングな目と優しく語りかけてくるような声が印象的でした。イーノ氏のSurf on Entropyという言葉をこのブログのタイトルにしていたくらいイーノ氏のファンであり、考え方に影響を受けている僕としては記憶に残る1日になりました(東大の理系の博士論文でイーノ氏のプロジェクトに何度も言及しているの僕くらいなんじゃないでしょうか)。

このプロジェクトに誘ってくれたDentsu Lab Tokyoの菅野くんほかみなさま、ビジュアル表現を担当してくれた比嘉くん(ほんとにおつかれさまです!)、サーバ構築でお世話になったマウントポジションのみなさま、ありがとうございました! プロジェクト自体に関しては公開後にまたまとめたいと思います。

 カンヌ 2016  220

カンヌ 2016  2776

DSC01450

DSC01447  1

 

Continue reading

Deep Learning × 表現 – 参考リンク集

いわゆる人工知能、特にDeep Learningと表現/クリエイティブに関して、普段自分が定期的に読んでいるサイトを紹介します.

界隈で人気のスタンフォードの授業 CS231n Convolutional Neural Networks for Visual Recognitionの今学期の講義を見ていても、「今日の授業は⚪︎⚪︎⚪︎について扱います。これは先月△で発表された考え方で… 」というのがしょっちゅう  (この授業は、畳み込みニューラルネットワーク、画像認識あたりを勉強する上で非常にオススメです. YouTubeにほぼリアルタイムで講義の内容が上がっています ). なかなかキャッチアップしていくのが大変ですが、このあたりの情報をチェックしておけば最低限良さそうです.

ほかによいサイトがあればぜひコメントください! よろしくお願いします.

 

GitXiv
http://gitxiv.com

github.com + arXiv.org を標榜するサイト.  githubはプログラマなら誰もが知っているソースコードの共有、バージョン管理のサイト. arXiv (アーカイブと読むはず)は、アカデミックな論文を共有するためのサイトです. これまで、論文誌というと非常に高価で、アカデミックな世界(もっというと税金を使える大学のなかの人たち)に生産と消費が閉じていたのに対して、もっと世の中に対してオープンにしよう!という流れでできたサイト. この二つを組み合わせた GitXivは、「最新の学術的な成果」が「すぐに使える」かたちで公開されているものを集めたポータルサイト、ということになります. 日々更新されているので、このサイトのニュースレターに登録するだけでもかなりの情報通になれます. ただし、公開されているのはあくまでも論文ですので、読み解くにはそれなりの知識が必要になるかと.  なんとなく最先端の研究の動向を知るのにはオススメですー

情報の鮮度   ⭐️⭐️⭐️⭐️
実用性       ⭐️⭐️⭐️⭐️⭐️
難易度        ⭐️⭐️⭐️⭐️⭐️
 
GitXivのトップ. ニュースレターに登録できます.
Screen Shot 2016-04-22 at 5.37.25 PM.png
各プロジェクトのページ. 論文のアブストラクトとgithubの概要がまとめられています.
Screen Shot 2016-04-22 at 5.37.33 PM.png

 

Continue reading

[テスト] 人工知能(無能?)カラオケ!! – 畳み込みニューラルネットワークによる動画の情景解析に基づく歌詞の自動生成

karaoke_loading_720

そういえば… 年末にWIREDさんの忘年会にDJとして参加しました. 僕がいつものようにレコードを使ってDJしていたところ、レコードを裏返して針を落とした瞬間、かぶりつきで見ていた学生と思しき女性に驚かれました.「裏があるなんてすごいですね!」と声をかけてきたので、「カセットとかレーザーディスクとかにも裏があったでしょ. あれといっしょだよ」と返したところ、「レーザーディスクってなんですか??」 と真顔で聞かれました. そこか…..

閑話休題

 

少し前に告知しましたが、1月末にeAT金沢に参加してきました. 今日はその夜の余興での発表について書きます. 題して、

昭和後期の民俗学的映像データ再活用をめぐって – 畳み込みニューラルネットワークによる情景分析とその応用」Nao Tokui, et al

小難しく書いてますが、要するに人工知能(ニューラルネットワーク)に昔のレーザーディスクカラオケのベタな映像の情景を分析させて、映像に写っているものから歌詞を(なんとなく)自動生成. 人間ががんばって歌う… という実験です. 当然生成される歌詞は毎回違います. メロディーは知っているとはいえ初見で見せられた歌詞を歌わないといけないという、なんとも歌い手泣かせな無茶振り企画. くどいですが、あくまで余興です! (でも、そちらがむしろそっちが本番?)

eATのイベント自体に誘ってくれた電通の菅野くん(@suganokaoru)と、夜の部でなにかやろっかという話になったときに、映像データを学習してなにかできたらいいよねという話をしていたところから始まりました。直接的に影響を受けたプロジェクトはこちらです. 先日ライゾマの機械学習ワークショップでも来日していたKyle McDonaldくんの実験.


NeuralTalk and Walk from Kyle McDonald on Vimeo.

ご存知の通り、Deep Learning特に畳み込みニューラルネットワーク(CNN)を使った画像解析技術の進歩には目覚しいものがあります. 特に昨年話題になったのは、CNNを使って画像を解析し何が写っているかを判別するだけでなく、さらにその情景を自然言語で記述する、という論文、システムです.

Deep Visual-Semantic Alignments for Generating Image Descriptions – Andrej Karpathy, Li Fei-Fei
http://cs.stanford.edu/people/karpathy/deepimagesent/

 

Screen Shot 2016-02-10 at 9.23.31 AM

サンプルのコードがNeuralTalkとしてgithubで公開されてます.

NeuralTalk2 by Andrej Karpathy
https://github.com/karpathy/neuraltalk2

このNeuralTalkのモデルをラップトップコンピュータで動かしてWebカメラと繋ぐと、カメラで見ている町中の光景をニューラルネットワークでリアルタイムに記述するシステムができます.

それが上の動画です. また、Kyleくんの機械学習ワークショップでは ライゾマの登本さんが日本語のキャプションをつけるopenFrameworksのサンプルを公開されています.

精度の高さ(“ホットドックを食べる人”というキャプションが出た時の本人の驚き方が最高!) もさることながら、MacBook Proでリアルタイムに動くということも衝撃でした(あくまで学習済みのモデルを使う場合で学習自体には相当時間がかかります)。

また、どのような情景がCNNにとって認識しやすいのかというところに興味を惹かれました。学習時につかったサンプル写真に含まれている対象を認識しやすいのは、容易に想像がつきます. さらに、認識した光景から、コンピュータが勝手にストーリーを想像したらどうなるだろうか…

「ストーリー性と映像の関係がある程度ルースで、解釈の余地が残されている、それでいて人が見たときに共通理解としてのストーリーが簡単に見えてくるような映像ってなんだ??」…と考えてきたところで、冒頭のレーザーディスクの話とつながりました。そうだ、昔のコテコテ、ベタなカラオケの映像をコンピュータに見せてみよう!!

ということで作ったのが今回のシステムです.

diagram

  1. NeuralTalkで映像にキャプションをつける -「ギターを弾く男性」
  2. キャプションの文章から特徴的な単語を抽出 -「ギター」
  3. 関連語/類義語をランダムに選ぶ(WordNet) – 「メロディー」「バンド」「音楽」など
  4. 3の単語を含む歌詞の断片をJ-POPの歌詞DBからランダムに選ぶ – 「愛のメロディー♫」
  5. 4のフレーズと音韻的に同じ長さで韻をふむ歌詞を同じデータベースから選ぶ – 「雨のキャンディー♪」
  6. 4と5のフレーズをつなげる -「愛のメロディー♫ 雨のキャンディー♪」

とまぁこんな流れです. 歌詞をつくる部分はまだまだ荒削りで、生成というよりは検索に近いですね. (RNNで歌詞のDBの文字列の並びを解析させて、文字列を生成するというのもやってみました。日本語っぽいフレーズが生成されることはされるのですが、日本語にはない単語を吐きだすことがあり、かなり歌いにくい、ということで今回は見送りました. 辞書をつかってフィルタをかけるなどの処理をすれば、RNNからの生成も使えるようになるかもしれません。)

文字数はなんとなくこのくらいかなという範囲で決めているだけで、音楽的な解析をやってるわけではありません. 映像の色のヒストグラムが大きく変化した=新しい場面に切り替わったと判断して、歌詞を生成するタイミングとしています.

そしていよいよ… 実際のカラオケの模様です. 左上に出ているのがNeuralTalkで生成した映像のキャプションです. これだけ荒っぽい実装でも、見ての通り、大盛り上がりでした! eATに来ている大人たちが遊び方をよく知ってる人たちだった…というのもありますが(eATの楽しさについてはまた記事を書きたいところです)、人間の適応力ってすごいですね。見たことがない歌詞でもそれなりに歌えてしまいます. Yesterdayの映像から歌詞を生成して日本語で歌うといったこともできました.

 

別の例. このときは左上に歌詞を表示しています. ところどころに絶妙な歌詞が生まれてます.
(泣き崩れる女性の絵に”泣いていい、泣いていたよ、巻き戻す、愛の中に”)

 

人間はカラオケのベタな映像をみたときに、なんてわかりやすい映像なんだろうと思います. この人間が思うコテコテ感、ベタ感. じつはかなりハイコンテクストでコンピュータにはぜんぜんわからない… AIがストーリーを理解するためには何が必要なのか、まだまだ先は長いですね.

(とはいえ、改めて昔のレーザーカラオケの映像を見返してみると、歌詞の内容とはまったく関係のないものが多いことにきづきました. バブルの名残の時代だったからでしょうか、制作チームが海外ロケに行きたかっただけなのではないかというものも少なくありません(笑)

先日のCNNによる白黒映像の自動着色は、ある種の想像力をコンピュータに与えることなのではないかと思っているのですが、今回のプロジェクトはもう一歩進めて、空想力を与える試みといってもいいかもしれません。適度な飛躍が起きる仕組みをどのように組み込んでいくかに面白みがありそうです。

AIの真面目な研究をやっている方には遊びのようにしかみえないかもしれませんが、意外とこういう遊びの中に、人工知能のような人間以外の新しい知性のかたちとの付き合い方のヒントが隠されているように思います. 今後もいろいろと遊んで行きたいと思ってます!

最後に… 発表の場を与えてくれた電通の菅野くん、こころよくカラオケに参加してくださったみなさま、ありがとうございました! 来年もまたバージョンアップしたカラオケとともに、eATでお会いしましょう!

CREDIT:

NeuralTalk2の実装:  ml-notebook https://github.com/kylemcdonald/ml-examples

歌詞生成システム: 山田興生

関連リンク:

Generating Stories about Images – Recurrent neural network for generating stories about images
https://medium.com/@samim/generating-stories-about-images-d163ba41e4ed
[テスト] 畳み込みニューラルネットワークを用いたモノクロ動画の自動彩色
http://naotokui.net/2016/01/auto-color-cnn-jp/

360度動画のためのAmbisonicsマイクを開発中! 「百見は一聞に如かず」

IMG_3772-786x429

あれは90年代末。

「うぉー、ぐりぐり動かせる!」

QuickTime VRのプラグインをインストールするのに一苦労しつつ、雑誌の付録のCD-ROMに入っていたどこかの砂漠のパノラマ写真を、飽きもせずにぐりぐりしていた大学生の僕。次にぐりぐりに興奮したのはGoogle Street Viewでしょうか。そんなパノラマ写真との出会いから15年近い日々が経ち、今や動画でも同じようなことができるようになっているのはご承知の通りです。

360度全天球パノラマ動画(以下360度動画)をちゃんと使ったコンテンツに最初に出会ったのは、Red Bullのサーフィン動画だったと思います。チューブに入ったサーファーの視点を自由に動かして、覆いかぶさってくる波を見上げたり、背後で波がクローズしていく様子を振り返ったり… 一度はチューブに入ってみたいと思っている僕にとっては、その体験を疑似体験できたという意味でも強い印象を受けました。

それ以来、360度パノラマ動画には興味があり、SONYのBloggieiPhone用のアタッチメントなど、こうした動画が撮れるガジェットが出るたびについつい買ってきました(2010年のポスト SONY bloggieの360度カメラが面白い)。 Ricoh Thetaも動画に対応したと聞いて、さっそく購入したクチです。

僕を含めて “マルチメディア”世代にはどことなく懐かしい感じもする360度動画ですが、ここに来て徐々に注目を集めはじめているようです。理由としては、Oculus VRやGoogle Cardboard, ハコスコなどの誕生によって、VR熱が再燃しているというのが大きいのでしょう。最近ではYouTubeが360度動画に対応、同時にRicoh Thetaのように手軽に360度動画が撮影できるデバイスが市場に出回り始めたこと、これらが相互に生のフィードバックを生んでいるようです。

特にYouTubeが対応したことによるインパクトは絶大です。BjorkやSquarepusherといったアーティストがミュージックビデオを発表したり、サスペンスドラマの予告編が発表されたりとその動きが加速しているように感じます。(以下の動画の視聴にはGoogle ChromeもしくはAndroid/iOSのYouTubeアプリが必要)

ただ、こうした360°動画を視聴した時に、どうしても「のっぺり」しているような印象を受けてしまうのは僕だけでしょうか。視点は自由に動かせるし、好きな方向を見ることができるのに、なぜかその場にいるような/映像に包まれているような印象がしない… もちろん、解像度がそこまで高くないという問題やそもそもYouTubeの小さな画面で見ているからというのはあるのだと思いますが、もう一つの大きな理由に「音」があるように感じました。視点は自由に動かせるのに対して、視点の変化に対して音像はまったく変化しない、画面に見えている音源も背後にある音源も同一に扱われている… 音がおざなりになってしまっている現状があります。

3Dゲームでは当たり前になった立体音響の仕組みのように、視点の方向に対応して音像が変化する、音が聞こえて来る方向を向くと、音源の正体が見える、というふうにできないか…

そんなことを考えて、360°動画用に360度の周囲の音を記録するマルチチャンネル・サラウンドマイクと、再生用の専用動画プレイヤーを開発しました。

IMG_3772-786x429

IMG_3773-818x447

 

このマイクは、正四面体の各頂点方向を向いた4つの指向性マイクから構成されます(Ricoh Thetaの上に簡単に取り付けられるようなアタッチメント付き)。

動画の撮影と同時に、この4チャンネルの音をそれぞれ独立してポータブルレコーダーで録音。再生時には、視点方向の情報から、4チャンネルの音をミックスすることでヘッドホンで再生されるべき2チャンネルの音を再合成しています(今回開発した専用プレイヤーの利用が必須)。

以下は渋谷のスクランブル交差点で試しにとってみた動画です。風のノイズ(吹かれ)が強く入ってしまっていますが、雰囲気は伝わると思います (この後、風防を取り付けられるように改良しました)

 

ヘッドホンの利用を推奨.
マウスで視点を動かしてみてください!

Google Chrome推奨. iOS/Androidのブラウザには非対応. 

 

 

Sample1: 渋谷スクランブル交差点

製作中のマイクを使った動画

 

Thetaのステレオマイクを使った動画


Sample2: 氷川神社

製作中のマイクを使った動画

 

Thetaのステレオマイクを使った動画

どうです? 没入感に大きな違いがあると思いませんか?

この仕組みは、1970年代に確立されたサラウンド音響の技術、Ambisonicsの考え方に基づいています。5.1チャンネルなどの一般的なサラウンドのフォーマットとは異なり、Ambisonicsのサラウンド音源は再生するスピーカーの位置に依存しません。再生環境に合わせて、録音された音から再生される音が再合成される点に優位性があるのですが、技術的制約と市場の需要の薄さから、日の目をみることなく埋もれてしまいました (その後、Soundfieldマイクとして一部では発売されているものの、市場がニッチなためか非常に高価で限定された世界でしか使われていないようです。Ambisonicsと類似するサラウンドのフォーマットについては Sound on Soundのこの記事が詳しいです)。

Oculus Riftの登場などによってVR技術に注目が集まる昨今ですが、話題の多くは視覚表現に集中しています。今回の試みは、Ambisonicsのような古い技術を掘り起こすことで、視覚偏重の陰で忘れ去られがちな聴覚に光を当てるというチャレンジでもあります。

自分が生まれ育った街の雑踏のざわめき、通った学校のチャイム、お寺の鐘の音。懐かしい音によって記憶を喚起されたという経験は誰しもが体験しているはず。360°で映像が撮れるからこと、見えないものの気配を感じるためのシステムを提案できたらと考えています。

「百聞は一見に如かず」の一方で、実は「百見は一聞に如かず」もまた真なのではないでしょうか。

なお、このプロジェクトはライゾマの西本さんとQosmo細井さんの大学生コンビががんばってくれてます。3Dプリンタをつかってアタッチメントを綺麗につくってくれた西本さんには驚かされました。細井さんにはWebサイトの制作をお願いしてます。そちらも楽しみ!

 


 

おまけ – 撮影の様子

DSC00741

DSC00753

 

 

2045 Generation #2

Visualization of DJ Playslist

2月13日の第一回目からはや1ヶ月半 (第一回の模様 via @miyuhosoi).  4月3日金曜日に「2045」 vol.2を開催します.  今回は場所を表参道 IDOL (骨董通りの無印良品の地下. ライゾマさんの忘年会をやったスペースです) に移し、キャパシティを数倍に広げて万全の体制でお送りします.

2045_logo

Facebookのイベントページ

 

今回のゲストは evala くん.

“ELEVENPLAY、Perfume、YourCosmosなどのプロジェクトで書き下ろしたアルバム未発表のダンストラックによる2045スペシャルセットをプレイ予定だ。”

だそうです!

僕と浦川のDJ/VJユニットThe Modern Timesはデータ駆動型のDJData-driven DJというコンセプトを掲げて、さらにアルゴリズムを洗練させる方向で進めています. 前回は過去のプレイリストのネットワークをたどっていくかたちでDJをしましたが、今回はもう一歩踏み込んで楽曲の解析を行いました.

DBに入っている60数万曲を解析には、まるまる一週間もの時間がかかりました (非力なiMacでやってたというのもありますが…). テンポや音量、スケールなどはもちろん、推定されるアコースティック⇄電子楽器の割合、ボーカルの割合などなどといった12個の指標を各曲に対して割当て、これらをもとに12次元のデータとしてクラスタリングを行いました. 各クラスタには似たような性格の音を持った曲が入っているはず…という目算です.  以下のプレイリストは 実際にできあがったクラスタのひとつに含まれている曲です. いかがでしょうか?

 

また、DJプレイリスト(約5万のDJセット、計60万曲)のアーカイブ・データの可視化にもチャレンジしてみました. プレイリストデータ内で前後して使われいるアーティストの間をつないでいくと、見事に三つの大きなかたまりが現れました.  曲が連続する回数が多いアーティストほど近くに、頻繁に使われるアーティストほど大きく表示されています.

djnetwork

 

右下の一番大きなグループがテクノ、ハウス(Slam、Carl Craig…) 左上がEDM系(Tiesto, Avicii) 左下がドラムンベース(Noisia )など.

同じ四つ打ちでもハウス・テクノ系のDJとEDM系で選曲に大きなギャップがあるのがよくわかります。 EDMクラスターとハウス・テクノクラスターの間にFat Boy SlimやDaft Punkなどが位置しているのも面白いですね。SkrillexはEDMクラスターとD&Bクラスター、両方で使われてます. よく見ると右下にデトロイトテクノクラスター、その上にスウェディッシュテクノのクラスターがあるのがわかります.

一番真ん中は King of Pop. Michael Jackson!!

スクリーンショット 2015-04-02 12.39.04 PM

 

Google Map的にこのグラフをブラウズできるページも作成
http://naotokui.net/upload/2045_gmap/index.html

スクリーンショット 2015-04-02 3.07.36 PM

 

今回はクラスタの情報と前回使ったプレイリストの情報. 2つのレイヤーで曲をつないでいきます.

またフロアの状況をデータとしてDJにフィードバックする仕組みにもアップデートを加えてます. iBeaconをつかってフロアのどの位置(フロア、ラウンジ、バー etc)にお客さん集まっているかといったデータも取得します(Kenta Watashimaくん担当). (たとえば、自分のDJのときにどんどんバーに人が流れて行ってるというもの数字で可視化されることになるのでDJとしてはちょっと怖いですね… )

 

Daito Manabe率いるライゾマチームもなにか新しいことを企んでいることでしょう!もちろんレジデントの人間DJ代表、Setuya Kurotakiのおしゃれなプレイもお見逃しなく.

今週の金曜日はお花見からの2045で!! お待ちしております。

Facebookのイベントページ

人工知能DJイベント「2045」にThe Modern Timesとして参加

Annex-ChaplinCharlieModernTimes_01.png

2045_logo

「2045」、いよいよ本日開催です!

 

今回僕は、DJユニット「The Modern Times」として、Qosmoの浦川通(@torutoru)とともに参加します.

The Modern Timesでは、ソフトウェアが半自動的に選曲し、人間のDJ=徳井がソフトウェアの薦める曲をミックスしています. 浦川はソフトウェア内での選曲プロセスの可視化を試みます。

 

もともと、今回のイベントを企画するにあたって、僕自身の念頭にあった問題意識は次のようなものでした:

 

  • 「ネットワークを介して世界中のありとあらゆる音楽に自由にアクセスできるようになったとき、DJやVJといった表現はどう変わるのか? 」
  • 「数に際限のないレコード箱を手にしたときに、DJは果たして選曲できるのだろうか?」

 

アメリカ滞在中にSpotifyを使った際に、あまりに選択肢が多すぎて戸惑ってしまった経験もベースになっています。

 

準備をはじめるにあたって、まずは有名DJのプレイリストのデータをひたすら集めるところから始めました。現時点で、約150万曲を含む15万件のDJセットのデータが集まっています。このデータをもとに、DJが現在かけている曲の後によくかけられている曲を、次の曲の候補として算出し、DJに提示します. プレイリストからプレイリストへとジャンプしながらたどって行くようなイメージです. 候補を提示されたDJは、オンライン上のストリーム音源をその場でダウンロードしてミックスして行きます. その中にはたくさんの知らなかった曲が含まれていることでしょう.

現状では、データ量がそれなりに大きいだけで、過去にだれかがやった選曲の範疇を超えるものではないのですが、今後は各楽曲を解析し(テンポ、スケール、パワー、生楽器かどうか、歌の有無 etc)、選曲・曲の並べ方のパターンの機械学習する方向に発展させて行きたいと思っています. ただ単純に統計的な処理をするだけでは、凡庸で平均的な選曲で終わってしまう可能性もあります. データを使いつつ、選曲に個性を持たせるにはどうしたらよいか… 今後の鍵になりそうです.

 

人間のDJが思いもつかなかった選曲を人工知能が提示する、セレンディピティがうまれ、それがフロアにも伝わっていく…  そんな機械と人間の共生関係の実現可能性を探るユニットです! 乞うご期待!!

 

参考:「バベルのタワーレコード」

 

Qosmoオフィスにて絶賛開発中

 

 

 

 

 

 

 

活動のデザイン展 at 21_21

NewImage

21_21で10/24からスタートする「活動のデザイン展」にQosmoとして参加します.
http://www.2121designsight.jp

関連記事: “国立天文台 + PARTY + Qosmo + エピファニーワークス。気鋭のクリエイターたちが、アルマ望遠鏡が捉えた不可視の電波データを元にコンテンツを制作するプロジェクトを始動。第1弾は音と映像で体感できるインスタレーション作品。

“南米チリの標高5000mの砂漠に建設された「アルマ望遠鏡」は、世界21か国が共同で作り上げた史上最大規模 の高性能電波望遠鏡だ。光学望遠鏡では捉えられない短い波長の電波を捉えることができ、すばる望遠鏡やハッブ ル宇宙望遠鏡の10倍となる「視力6000」を誇る。126億光年以上彼方からの電波を捉えることができるア ルマ望遠鏡は、星や惑星の誕生、宇宙における生命の起源の謎に挑んでいるのだ。
 それは、科学だけでなくさまざまな分野で人類が取り組んできた普遍的なテーマでもあるが、アルマ望遠鏡の 観測データという人類の叡智を藝術分野の視点から表現するとどうなるだろうか。こうした一つの問いかけから始動したのが、本プロジェクト。プロデューサーに林口砂里(エピファニーワークス)、クリエイティブ・ディレクターに川村真司、清水幹太(ともにPARTY NY)、サウンド・エンジニアに澤井妙治、徳井直生(ともにQosmo)らが参加。そして、その成果の第1弾『ALMA MUSIC BOX:死にゆく星の旋律』が、21_21 DESIGN SIGHTで開催される「活動のデザイン展」にて、発表されることになった。”

Max/MSPオブジェクトをgithubで公開

ありがたいことに今でもたまに昔のMaxオブジェクトを使いたいという方からメールをもらうことがあります。この際なので githubにあげてみました. ソースコードも公開しました.
https://github.com/naotokui/MaxMSP_Objects/

コンパイルしたオブジェクトはこちらからダウンロードできます.
https://github.com/naotokui/MaxMSP_Objects/releases

あくまでアーカイブが目的で、最新のMax用に書き換えたりはしていませんが、一応動くことは確認してあります. Maxユーザのお役に立てれば幸いです! ;-)

slice~