「AIとのつきあい方」 – コンテンツ東京2016での講演

コンテンツ東京2016での講演が終わりました! 1500人のホールが予約で満席になってしまったということで(初めての経験!!)、急遽、翌週のライブ東京2016でも同じ講演を追加でやらせていただきました。

  今回の講演のテーマは、クリエイターにとっての「AIとのつきあい方」。 その中で私は、AIをArtificial Intelligenceとしてではなく、Alternative(代替の) Intelligence、あるいはAlien(異世界の?) Intelligenceとしてとらえてみようという話をしました。 Alternative/Alien Intelligence(以下、AI’と呼びます)は、もともとはKevin Kellyがなにかのインタビューで言っていた言葉です。彼の最近の著書 The Inevitablesでは、「AIではなくArtificial Aliens (AA)が正しい」とも言ってますが、ロボットにAIが組み込まれていく未来を想定しての言葉でしょう。 要するにAI、人工知能を人の知能の模倣ではなく、全く別の知能としてとらえよう、ということだと思います。賢いことをやっているように見える、ただしその「知能」のかたちは人とは異なる、したがって人とは違う答えを導き出すときもあるし、想像もしなかった間違いをすることもある、ということになります(なにが知能なのかという議論は棚上げ) 。 人がなにかアイデア(作品 etc)をアウトプットするプロセスにAIを導入しようとする場合、人のもともとのアイデアを膨らませる、あるいはその先にAIをつかって到達しようとするというのが普通ではないでしょうか。あるいはすこしでも早く、簡単に正解に到達するということが目的になる場合も多々あるでしょう。AIが人の模倣である限りはそれが普通だと思います。 しかし、AIがAI’であったなら… 人のアイデアとはまったく別の切り口で別の方向性のアウトプットをするのではないでしょうか。 人に新しい視点や気づきを与える、こうした「差異」「違い」を大事にしてはどうでしょうか。ときにそれは人の視点から見れば「間違い」なのかもしれません。しかし、間違いや失敗に発想のタネがころがっているということは、古今の発明発見の歴史を列挙するまでもなく、周知のとおりです。AI’は間違い→発見のプロセスを外部化し、人が気づきを得やすくするための仕組みという言い方もできるかもしれません。流行りの言葉でいうとイノベーションのタネがこの辺にあるように思います。 ai1 ai2 さらに言うと、AI’の間違いを人が承認し、そこに「あえて」歩み寄るプロセスからも新しい面白さが生まれる (AIカラオケプロジェクト)、というのも実証済みです。 こうした人とAI’が相互に影響を与えつつ相互に歩み寄るプロセスが、表現の幅や深みを生み出していくことでしょう(カメラ/写真と絵画の関係のように)。私自身もQosmoとしてもそうしたプロセスにすこしでも寄与できたらと考えています。 ai3 もうひとつAI、人工知能ということばの使い方についてもすこし言及しました。AIをめぐる昨今の議論に違和感を覚えることが多いのは、AIをきまったひとつのアルゴリズムのようにかたちがさだまったものとして扱っているように感じるからです。(ひどい場合には、IBM WatsonのようなAIを司るひとつのサーバが人工知能の実体として存在しているかのように話していたりします。) そこで今回のトークの中ではあえて私なりのゆるい人工知能の定義も紹介しました。 それは、

「賢そうにみえることをもうちょっとで実現できそうな仕組み」

というものです。「もうちょっとで」の裏側には、もし完璧に間違えることなくこなせるようになったらそれは人工知能とは呼ばなくなるという視点がこめられています。オセロをプレイするソフトウェアを人工知能とは呼ばないのと同じように、完璧な自動運転の仕組みが実現すれば人はそれを人工知能とは呼ばなくなることでしょう。 完璧にできることとまだ到底できそうにないことの間にある、その時点でのフロンティアの部分を人工知能と呼ぶ、そしてそのフロンティアは徐々に拡大していく… そんなイメージでしょうか。 そんなお話をさせていただきました! 学生時代から僕のことを知っているSound & Recording誌の元編集長、國崎さんに「いい意味で既視感があった」と褒められた?のもうれしかったですね。たしかに國崎さんに呼んでいただいたSONASPHEREに関する講演(2003年?)でも、技術的なトピックは変化しつつも同じようなことを話していた気がします。

Computational Creativity and Beyond – Qosmo, Inc. 2016

最近作った配布資料に書いた小文.


「孤高の天才が、だれも見たことのないものを無から作り上げる」

そんな創造性観が支配的だったのは、はるか昔のことです。

創造的と言われる行為の多くが「既存の要素」の「新しい組み合わせ」によるものであることは、すでに周知の事実でしょう。
インターネット上での時間や場所を超えたコラボレーションの成果が、そのことをより明確にしました。

この新しい創造性のキモは、組み合わせの「発見」とその結果の適切な「評価」というサイクルをいかに早く繰り返すかにあります。

コンピュータはその黎明期から一貫して新しい組み合わせパターンの生成を容易にしてきましたが、Deep Learningに代表される新世代の人工知能技術が画期的と呼ばれるのは、従来数値化できなかった人の”感覚”や”感性”の領域に踏み込んだ「評価」をできるようにしたことにあります。

新たな組み合わせの生成と評価のサイクルを無限に繰り返すことができるとしたら、創造的プロセスへの寄与は計り知れません。

2000年代から現在まで、インターネットという環境が新しい組み合わせを試し、評価するための大きな環境だったとすると、それとは別の「環境」をコンピュータの中で作ることができるようになるでしょう。

整然とした美しい数理的な世界。不完全で非合理的な(だからこそ美しく面白い)人間の判断を模倣するコンピュータ。こうした新たな環境に立脚する創造性として、弊社Qosmoは”Computational Creativity”を追求します。

Computational Creativity and Beyond
Qosmo, Inc. 2016

カメラと画家、とAI

dora-maar-05  7113871503_0085b6a7a3
左: マン・レイ「Dora Maar」 右: パブロ・ピカソ 「ドラ・マールの肖像」

人工知能とクリエイターの関係を考えるときに、カメラが発明が画家に与えた影響を考えると良いのではないか、なんてことを考えております。 カメラは乱暴に言ってしまえば、自動化の技術。よく言われるようにカメラの発明が肖像画を描いていた画家を失業においやった一方で、印象派やキュビズムの誕生に寄与したように、ある種の表現は人工知能に代替されるのかもしれないが、その分、別の表現が生まれてくる。

写真が広まり始めた大正時代には、わざとフォーカスをぼかしたり、レンズにつばをつけたりすることで、印象派の絵画に似せた写真を撮ろうとする藝術寫眞の流れがあったり… 写真をリファレンスにできることによって、手書きによる写実的な表現のレベルが格段に上がったり (例えばこういうのとか http://ailovei.com/?p=46139) 。その影響は双方向的。

あえて人工知能を使わないで〇〇するってことに価値がでたりとか。

音楽に置き換えるとどんなことが言えるんだろう…

そんなことをつらつら考えております。 意見求む!

 

なんでそんなことを考えているかというと… 7/1にこういう場で講演することになっているからです.  よろしくお願いします.

コンテンツ東京2016 先端コンテンツ技術展 特別講演

 

The Ship Project with Brian Eno – Cannes Creative Lions 2016

IMG 0662

昨年からお手伝いしているDentsu Lab Tokyoさん主催のセミナーに参加するためにカンヌライオンズ 2016に来てます.  今年の年明けから取り組んできたBrian Eno氏とのコラボレーション、彼の新作アルバムのタイトル曲 The Shipのためのミュージックビデオ(The Ship Project) の発表を兼ねたセミナーです.  The Ship Projectのなかで私はDeep Learningを用いた画像解析の部分と全体のテクニカルディレクションを担当しています。 MVの詳細についてはまた改めて書くとして… イーノ氏のトークの中で面白かったことをざっとまとめておきます。

「テクノロジーという言葉は「設計者の期待通りに動いてくれないもの」を指す.  期待通りに動くものはテクノロジーとみなされなくなる。たとえばピアノがいい例だ。」

 「アーティストが興味があるのは、テクノロジーの誤用。自分はArtificial IntelligenceとともにArtificial Stupidityに興味がある。」

 (マルコフ連鎖を使った作品について聞かれて) 「機械知能はブライアン・イーノという人間が思いつかない組み合わせに思いつく。生成するアウトプットの95%がゴミだったとしても、残りの興味深い5%を自分で選ぶことができればよい。機械知能は人の介入があってはじめて、クリエイティブに使える。」

セミナー後の食事の際には隣に座らせていただいて 2時間ほどじっくりお話を伺いました。(もっとも僕はひたすら緊張してましたが…)。

「 ソフトシンセは大好きだ。ただ音の合成方法ではなくそのUIに大きな問題がある。ほんとに微妙な つまみの誤差のようなところに豊穣な音の世界が広がっている。飛行機の中ではつまみの誤差のような範囲で微妙にパラメータをいじっていつも実験しているよ(笑」

「Maxは難しすぎる(笑。それよりもLogicでつまみをいじってじっくり音色の実験をしているほうがいい。」

「実は新しいUIのアイデアがあるんだ! 」そのあとノートを持ち出してUIのスケッチを見せてくれました (ここに書くのは控えておきます)。 

「歴史の本や哲学からインスピレーションを得ている。先日も中世の富裕層の生活を綴った本を読んだことで、スタジオに入った時の音楽に向かう姿勢が変わった。」

本人はとにかくジェントルマン.  僕が高級レストランのメニューで苦戦してるのを見て(笑、助け舟を出してくれたり…  謙虚に子供のような好奇心を保ち続けている姿勢がまず素晴らしいですね。チャーミングな目と優しく語りかけてくるような声が印象的でした。イーノ氏のSurf on Entropyという言葉をこのブログのタイトルにしていたくらいイーノ氏のファンであり、考え方に影響を受けている僕としては記憶に残る1日になりました(東大の理系の博士論文でイーノ氏のプロジェクトに何度も言及しているの僕くらいなんじゃないでしょうか)。

このプロジェクトに誘ってくれたDentsu Lab Tokyoの菅野くんほかみなさま、ビジュアル表現を担当してくれた比嘉くん(ほんとにおつかれさまです!)、サーバ構築でお世話になったマウントポジションのみなさま、ありがとうございました! プロジェクト自体に関しては公開後にまたまとめたいと思います。

 カンヌ 2016  220

カンヌ 2016  2776

DSC01450

DSC01447  1

 

Continue reading

QosmoのWebサイトをリニューアル!!

弊社、Qosmoの新しいロゴ、そしてWeサイトを公開しました! また、新しい会社のモットーとして、Computational Creativity and Beyond を掲げることとしました。

http://qosmo.jp/

 

logo

 

4月の会社移転に続いて、いろいろと体制が整ってきているように思います。みなさま、本当にありがとうございました!!

AD : 木村浩康(Rhizomatiks)/ Design : 藤井かおり(Rhizomatiks) / Server: 武政竜也(Rhizomatiks) / Web構築・テクニカル・ディレクター: 三登健太郎
ロゴデザイン: 三ッ間菖子

 

 

Screen Shot 2016-05-10 at 10.49.32 PM Screen Shot 2016-05-10 at 10.49.26 PM Screen Shot 2016-05-10 at 10.49.38 PM

 

記事のレイアウト、体裁に統一感を出すのって意外と難しいんですよね。簡単に綺麗なレイアウトで投稿できるようにできないかというお願いをしたところ、三登さんが使いやすいテンプレートを書いてくれました。写真を使った二段組やクレジットの記入も楽チン!   Cosmos->Qosmoという名前の由来から、「宇宙感」のある色をベースに使いたいという無理なお願いをしたところ、デザイナーの藤井さんが見事に応えてくれました。一番下までスクロールしていただけるとわかるのですが、夜明けの1時間まえ、星が一つ消え、二つ消え、ほのかに東の空が明るくなっていく… (そして目のまえには完璧な波がブレーク…) そんな妄想すらしてしまいそうになるような絶妙のグラデーション. 気に入ってます! そして会社設立前から使っていてサブドメインが複雑になってしまっていたサーバを整理してくれた武政さん、全体を統括してくれた木村くん.  感謝です!

あわせてカタカナロゴも作りました!  毎回ネタになっている「ズ」にフォーカスしつつ、地平線や地球の丸みを感じさせる奥行き感. かわいいロゴになりました!  三ツ間さんありがとうございます.  4月にQosmoに入社した細井さんにとっては、入社後最初の仕事になりました(入社前からやってもらっていましたが…). おつかれさまでした!

新しいWeb、ロゴ、そしてモットーに恥じぬようにいい仕事をしていきたいと思います。

Deep Learning × 表現 – 参考リンク集

いわゆる人工知能、特にDeep Learningと表現/クリエイティブに関して、普段自分が定期的に読んでいるサイトを紹介します.

界隈で人気のスタンフォードの授業 CS231n Convolutional Neural Networks for Visual Recognitionの今学期の講義を見ていても、「今日の授業は⚪︎⚪︎⚪︎について扱います。これは先月△で発表された考え方で… 」というのがしょっちゅう  (この授業は、畳み込みニューラルネットワーク、画像認識あたりを勉強する上で非常にオススメです. YouTubeにほぼリアルタイムで講義の内容が上がっています ). なかなかキャッチアップしていくのが大変ですが、このあたりの情報をチェックしておけば最低限良さそうです.

ほかによいサイトがあればぜひコメントください! よろしくお願いします.

 

GitXiv
http://gitxiv.com

github.com + arXiv.org を標榜するサイト.  githubはプログラマなら誰もが知っているソースコードの共有、バージョン管理のサイト. arXiv (アーカイブと読むはず)は、アカデミックな論文を共有するためのサイトです. これまで、論文誌というと非常に高価で、アカデミックな世界(もっというと税金を使える大学のなかの人たち)に生産と消費が閉じていたのに対して、もっと世の中に対してオープンにしよう!という流れでできたサイト. この二つを組み合わせた GitXivは、「最新の学術的な成果」が「すぐに使える」かたちで公開されているものを集めたポータルサイト、ということになります. 日々更新されているので、このサイトのニュースレターに登録するだけでもかなりの情報通になれます. ただし、公開されているのはあくまでも論文ですので、読み解くにはそれなりの知識が必要になるかと.  なんとなく最先端の研究の動向を知るのにはオススメですー

情報の鮮度   ⭐️⭐️⭐️⭐️
実用性       ⭐️⭐️⭐️⭐️⭐️
難易度        ⭐️⭐️⭐️⭐️⭐️
 
GitXivのトップ. ニュースレターに登録できます.
Screen Shot 2016-04-22 at 5.37.25 PM.png
各プロジェクトのページ. 論文のアブストラクトとgithubの概要がまとめられています.
Screen Shot 2016-04-22 at 5.37.33 PM.png

 

Continue reading

[テスト] 人工知能(無能?)カラオケ!! – 畳み込みニューラルネットワークによる動画の情景解析に基づく歌詞の自動生成

karaoke_loading_720

そういえば… 年末にWIREDさんの忘年会にDJとして参加しました. 僕がいつものようにレコードを使ってDJしていたところ、レコードを裏返して針を落とした瞬間、かぶりつきで見ていた学生と思しき女性に驚かれました.「裏があるなんてすごいですね!」と声をかけてきたので、「カセットとかレーザーディスクとかにも裏があったでしょ. あれといっしょだよ」と返したところ、「レーザーディスクってなんですか??」 と真顔で聞かれました. そこか…..

閑話休題

 

少し前に告知しましたが、1月末にeAT金沢に参加してきました. 今日はその夜の余興での発表について書きます. 題して、

昭和後期の民俗学的映像データ再活用をめぐって – 畳み込みニューラルネットワークによる情景分析とその応用」Nao Tokui, et al

小難しく書いてますが、要するに人工知能(ニューラルネットワーク)に昔のレーザーディスクカラオケのベタな映像の情景を分析させて、映像に写っているものから歌詞を(なんとなく)自動生成. 人間ががんばって歌う… という実験です. 当然生成される歌詞は毎回違います. メロディーは知っているとはいえ初見で見せられた歌詞を歌わないといけないという、なんとも歌い手泣かせな無茶振り企画. くどいですが、あくまで余興です! (でも、そちらがむしろそっちが本番?)

eATのイベント自体に誘ってくれた電通の菅野くん(@suganokaoru)と、夜の部でなにかやろっかという話になったときに、映像データを学習してなにかできたらいいよねという話をしていたところから始まりました。直接的に影響を受けたプロジェクトはこちらです. 先日ライゾマの機械学習ワークショップでも来日していたKyle McDonaldくんの実験.


NeuralTalk and Walk from Kyle McDonald on Vimeo.

ご存知の通り、Deep Learning特に畳み込みニューラルネットワーク(CNN)を使った画像解析技術の進歩には目覚しいものがあります. 特に昨年話題になったのは、CNNを使って画像を解析し何が写っているかを判別するだけでなく、さらにその情景を自然言語で記述する、という論文、システムです.

Deep Visual-Semantic Alignments for Generating Image Descriptions – Andrej Karpathy, Li Fei-Fei
http://cs.stanford.edu/people/karpathy/deepimagesent/

 

Screen Shot 2016-02-10 at 9.23.31 AM

サンプルのコードがNeuralTalkとしてgithubで公開されてます.

NeuralTalk2 by Andrej Karpathy
https://github.com/karpathy/neuraltalk2

このNeuralTalkのモデルをラップトップコンピュータで動かしてWebカメラと繋ぐと、カメラで見ている町中の光景をニューラルネットワークでリアルタイムに記述するシステムができます.

それが上の動画です. また、Kyleくんの機械学習ワークショップでは ライゾマの登本さんが日本語のキャプションをつけるopenFrameworksのサンプルを公開されています.

精度の高さ(“ホットドックを食べる人”というキャプションが出た時の本人の驚き方が最高!) もさることながら、MacBook Proでリアルタイムに動くということも衝撃でした(あくまで学習済みのモデルを使う場合で学習自体には相当時間がかかります)。

また、どのような情景がCNNにとって認識しやすいのかというところに興味を惹かれました。学習時につかったサンプル写真に含まれている対象を認識しやすいのは、容易に想像がつきます. さらに、認識した光景から、コンピュータが勝手にストーリーを想像したらどうなるだろうか…

「ストーリー性と映像の関係がある程度ルースで、解釈の余地が残されている、それでいて人が見たときに共通理解としてのストーリーが簡単に見えてくるような映像ってなんだ??」…と考えてきたところで、冒頭のレーザーディスクの話とつながりました。そうだ、昔のコテコテ、ベタなカラオケの映像をコンピュータに見せてみよう!!

ということで作ったのが今回のシステムです.

diagram

  1. NeuralTalkで映像にキャプションをつける -「ギターを弾く男性」
  2. キャプションの文章から特徴的な単語を抽出 -「ギター」
  3. 関連語/類義語をランダムに選ぶ(WordNet) – 「メロディー」「バンド」「音楽」など
  4. 3の単語を含む歌詞の断片をJ-POPの歌詞DBからランダムに選ぶ – 「愛のメロディー♫」
  5. 4のフレーズと音韻的に同じ長さで韻をふむ歌詞を同じデータベースから選ぶ – 「雨のキャンディー♪」
  6. 4と5のフレーズをつなげる -「愛のメロディー♫ 雨のキャンディー♪」

とまぁこんな流れです. 歌詞をつくる部分はまだまだ荒削りで、生成というよりは検索に近いですね. (RNNで歌詞のDBの文字列の並びを解析させて、文字列を生成するというのもやってみました。日本語っぽいフレーズが生成されることはされるのですが、日本語にはない単語を吐きだすことがあり、かなり歌いにくい、ということで今回は見送りました. 辞書をつかってフィルタをかけるなどの処理をすれば、RNNからの生成も使えるようになるかもしれません。)

文字数はなんとなくこのくらいかなという範囲で決めているだけで、音楽的な解析をやってるわけではありません. 映像の色のヒストグラムが大きく変化した=新しい場面に切り替わったと判断して、歌詞を生成するタイミングとしています.

そしていよいよ… 実際のカラオケの模様です. 左上に出ているのがNeuralTalkで生成した映像のキャプションです. これだけ荒っぽい実装でも、見ての通り、大盛り上がりでした! eATに来ている大人たちが遊び方をよく知ってる人たちだった…というのもありますが(eATの楽しさについてはまた記事を書きたいところです)、人間の適応力ってすごいですね。見たことがない歌詞でもそれなりに歌えてしまいます. Yesterdayの映像から歌詞を生成して日本語で歌うといったこともできました.

 

別の例. このときは左上に歌詞を表示しています. ところどころに絶妙な歌詞が生まれてます.
(泣き崩れる女性の絵に”泣いていい、泣いていたよ、巻き戻す、愛の中に”)

 

人間はカラオケのベタな映像をみたときに、なんてわかりやすい映像なんだろうと思います. この人間が思うコテコテ感、ベタ感. じつはかなりハイコンテクストでコンピュータにはぜんぜんわからない… AIがストーリーを理解するためには何が必要なのか、まだまだ先は長いですね.

(とはいえ、改めて昔のレーザーカラオケの映像を見返してみると、歌詞の内容とはまったく関係のないものが多いことにきづきました. バブルの名残の時代だったからでしょうか、制作チームが海外ロケに行きたかっただけなのではないかというものも少なくありません(笑)

先日のCNNによる白黒映像の自動着色は、ある種の想像力をコンピュータに与えることなのではないかと思っているのですが、今回のプロジェクトはもう一歩進めて、空想力を与える試みといってもいいかもしれません。適度な飛躍が起きる仕組みをどのように組み込んでいくかに面白みがありそうです。

AIの真面目な研究をやっている方には遊びのようにしかみえないかもしれませんが、意外とこういう遊びの中に、人工知能のような人間以外の新しい知性のかたちとの付き合い方のヒントが隠されているように思います. 今後もいろいろと遊んで行きたいと思ってます!

最後に… 発表の場を与えてくれた電通の菅野くん、こころよくカラオケに参加してくださったみなさま、ありがとうございました! 来年もまたバージョンアップしたカラオケとともに、eATでお会いしましょう!

CREDIT:

NeuralTalk2の実装:  ml-notebook https://github.com/kylemcdonald/ml-examples

歌詞生成システム: 山田興生

関連リンク:

Generating Stories about Images – Recurrent neural network for generating stories about images
https://medium.com/@samim/generating-stories-about-images-d163ba41e4ed
[テスト] 畳み込みニューラルネットワークを用いたモノクロ動画の自動彩色
http://naotokui.net/2016/01/auto-color-cnn-jp/

出演情報 – 1.30 eAT金沢 / 2.13-14 Yahoo! Hack Day 2016

今月末から来月にかけて二つのイベントに出演します.

Screen Shot 2016-01-25 at 4.28.39 PM

eAT 2016 in Kanazawa – 金沢
http://eat-project.jp
2
016.1.29-30

金沢で生まれ、隣の松任市で生まれ育った私としては、以前から気になっていたイベントです。

金沢発のエレクトロニックアートの祭典として、1997年の開催以来、国内外のクリエイターや学生、IT関連の仕事にたずさわる人たちの相互交流の場として19年に渡り開催してきました。 
「金沢から、夢のリンクを世界へ」をコンセプトに、人と人を金沢でつなぎ、エレクトロニックアートの新たな交流の創出を生みだしてきました。

「eATは楽しい」「集まる人が濃すぎる」「飯と酒がうまい」という噂をずっと聞いてました。いつか参加したいと思っていたのですが、ようやくその願いがかないました。今回は二日目 30日土曜日の15時からのeATalk3、電通クリエイティブテクノロジスト菅野薫さん、BCL主宰バイオアーティスト福原志保さんとともにトークセッションに参加します。昔からの友人とのセッションということで非常に楽しみです。eATalk1には高校の同級生の塩冶くんや以前未来館の展示でお世話になった内田さんも出演予定。新幹線も通ったことだし、ぜひ気軽に金沢に遊びに来て欲しいです。

 

Screen Shot 2016-01-25 at 4.23.06 PM

Yahoo! HackDay 2016 – 秋葉原
http://hackday.jp/
2016.2.13-14

Yahoo! Japanさん主催の日本最大級のハッカソン. こちらは審査員としての参加です.

 

[テスト] 畳み込みニューラルネットワークを用いたモノクロ動画の自動彩色

Screen Shot 2016-01-20 at 1.17.46 PM

遅ればせながら… 2016年もよろしくお願いします.

今年のお正月、元旦から体調を崩してしまったために期せずして寝正月となってしまいました。その間、ベッドに横になりながら、なんとなくNHK BSを見ていたのですが、「映像の世紀」のデジタルリマスター版の再放送に釘付けになってしまいました。気づいたら元旦はほとんどぶっ通しで見ていたように思います。

その中で感じたのは、ぼやけた白黒映像からクリアなカラー映像になるだけで、歴史映像の視聴体験が体感として大きく異なるということです。山に囲まれた別荘で愛犬と戯れるヒトラー。映画プラトーンさながらにベトナムの村を焼き払うアメリカ兵。鮮明なカラー映像として目の当たりにすることで、歴史が「遠い昔のこと」ではなく、いまにつながる自分ごととして感じられる、そんな風に思いました。昨今憲法改正などをめぐっての議論がきなくさくなりつつある昨今ですが、もし仮に太平洋戦争当時の日本、南方に出兵した兵士の苦難や親から引き離されて疎開させられた子供達の様子を、ハイビジョンや4Kの映像でリアルに見られたら… 国民の世論にも影響があるのではないでしょうか。

そんなことを考えていたら、ちょうど面白い試みに出会いました。
畳み込みニューラルネットワーク (CNN)で白黒写真から色情報を復元する(彩色する)というものです。

Automatic Colorization
http://tinyclouds.org/colorize/

 

画像の分類につかわれるCNNのモデルを転用、出力としてどのカテゴリーに属しているかという確からしさを出力するのではなく、各ピクセルの色差信号を2チャンネルで出力するものとしています。 YUV色空間を使うことで、もとの白黒画像を輝度情報として用いて、この2チャンネルの色差信号とあわせてフルカラーのRGBを再現しようというのです。訓練データはImageNetの120万の静止画を利用. ImageNetの画像をいったん白黒に変換し、今回の手法で推測されたRGB値とオリジナルの色を比較、その差を損失関数として、その最小化を図ります.

TensorFlowによる実装とすでに訓練済みのCNNが公開されているのでさっそく動画に転用してみました。僕がやったのは各フレームを切りだして上記のモデルに食わせて彩色されたフレームを出力。それを再度動画にまとめるというスクリプトを書いただけです。

まずやってみたのは誰もが知る名作中の名作映画. 「七人の侍」 僕の一番好きな映画です. 左がオリジナル。右が今回の自動彩色したものです。 深い緑の山を黒い甲冑を身にまとった野武士が駆け下りてくるシーンが生成されたときにはさすがに鳥肌が立ちました。

 

 

より長いシーン

 

木々の緑や幹、人の顔、体、さらには馬といったImageNetにあるものに関してはかなりの精度で彩色されているのが見て取れます。一方で衣服のような色に恣意性があり何色でもありうるような人工物の場合の彩色にはかなり難があります。また藁葺き屋根を草かなにと間違えて緑に彩色していることもわかります。

 

もう一つは長嶋さんのサヨナラホームランで有名なプロ野球初の天覧試合.

ジャイアンツのユニフォームが綺麗に再現されてます.

スクリーンショット 2016-01-20 13.53.11

 

あとは自分の子供のころの白黒写真を。。。とも思ったのですが、さすがに僕が生まれたときにはすでに完全にカラー写真へと移行したあとでした(笑 かわりに両親がわかかりし頃の写真をもらってやってみたのがこちら。親父たちなかなかおしゃれです。

PARENTS

PARENTS2

 

これを見た父の反応

お母さんの吊りスカートの色ははっきり覚えていて記憶通りとのことです。お父さんの写真の左から2人目のカーディガンも覚えています。
最後の写真の花の色は赤で葉っぱは緑だったというのですがどうしてこんなことがわかるんだろう!ビックリポンです花の周りが何となく赤っぽいけどねえ

若返ったようで^o^ 懐かしいなあ!

僕に取っても大好きだった他界した祖母の若かりし頃の雰囲気が伝わってきてなんとも言えない気持ちになりました。。。

元のリンク先にも書かれていた通り、今回のモデルを更に拡張、改良できればよりよい彩色が可能になりそうです。いくつか着想が得られたので、今後GPU用にチューニングするなども試しつつ、自分でもアイデアを試してみたいと思ってます。

明治大学での講演メモ – 2015.12.7 Sound, Data and Interaction

明治大学での講演で紹介した作品、関連資料・リンクを簡単にまとめておきます.

Qosmoの仕事
http://www.qosmo.jp/projects/


 

Karl Sims – Evolved Virtual Creatures 1994
http://www.karlsims.com

 

Soda Constructor 1998
http://www.sodaplay.com

 

Nao Tokui – SONASPHERE 2002
http://naotokui.net/projects/#sonasphere

 


 

“2045” 人工知能DJイベント
http://ai2045.tumblr.com/

2045 Gen#2 – プレイリストの可視化
http://naotokui.net/2015/04/2045-gen2/

徳井直生 “バベルのタワーレコード” 2008
https://medium.com/@naotokui/-68ab67ae4acd#.7d6a3jeq1

Barry Schwartz “Paradox of Choice – 選択のパラドックスについて” TED Talk
https://www.ted.com/talks/barry_schwartz_on_the_paradox_of_choice?language=ja  


 

 

流動化する音楽

“The National Mall” “Central Park” for iOS by Bluebrain, 2011
iOSアプリとしての音楽アルバム.  位置情報を使って特定の場所でのみ体験できるだけでなく、場所を特定することでその場所と音楽体験   歩き方によってその都度変化する音楽体験を提供
NYタイムスの記事 – Central Park, the Soundtrack

 

“muse’ic visualizer” for iOS – salyu x salyu, 2011
http://naotokui.net/projects/#museic-visualizer
“muse’ic”という曲のために作ったインタラクティブなミュージックビデオアプリケーションです。カメラ越しにあなたが目にしている風景が「muse’ic」とシンクロするように変化していきます. 

 

Nao Tokui “Massh” 2007 – ブラウザでマッシュアップを作るためのプラットフォーム
http://naotokui.net/projects/massh-mashup-on-browser/

 

iPhone×Music iPhoneが予言する「いつか音楽と呼ばれるもの」 – 書籍
http://naotokui.net/projects/#iphone-music-book


 

n_ext展 2004年 ICC
http://www.ntticc.or.jp/Archive/2004/n_ext/index_j.html

 

l.gif