2022年ふりかえり

2022年はほとんど三次元復元をやっていました。今更ですが簡単にふりかえります。便りのないのは良い便りと言えど、適当でも便りがあったほうが良い気もする、という気持ちで書きます。

三次元復元とは、現実の人や物の写真を何十枚か撮ってそれをもとにして三次元の形状と見た目を持つ3DCGモデルを推定する処理です。

たとえば、缶コーヒーの写真をたくさん撮ると、このような本物さながらの3Dモデルを作れます。 そういう三次元復元のサービスをPFN 3D Scanとして法人向けに始めているので、もしお仕事で機会があれば試してみてほしいです。復元のためには撮影も上手くやる必要があるので、物自体を送ってもらってから復元データと物を返すサービスになっています。ECサイト、ゲーム/AR/VRなど様々な用途に使える高品質なモデルになっていて、日経優秀製品・サービス賞2022にも選ばれました。

ほかに、PFN 4D Scanと名乗って四次元復元もやっていました。こちらのほうが立ち上げからメインでゴリゴリやっていた仕事になります。 動くものを復元したいときは、写真の代わりに動画を撮って復元します。すると、復元した3Dモデルの再生、停止、巻き戻しなどもできるようになります。 youtu.be こんな具合に。 このぐるぐるカメラワークの動画は、撮影動画ではなく、復元された3Dモデルを再生しながら仮想的なカメラで眺めて書き出した動画です。ゲームのようにぐりぐりと動いてその箱庭を眺めています。 また、処理はかなり効率化していて、リアルタイムで視点を動かしながら楽しむこともできます。技術的に大変ですがなかなか面白いので、その体験デモをメタバース展でやりました。当日はブースで解説MCもして、ライブや柔道の試合などを時を止めたりしながら紹介しました。展示会自体も久々だったので、人と対面して見てあれこれ語れるのは楽しかったです。なんだかんだこういう喋り仕事は好き。 この4D Scanも今も進んでいるので、今後どんどん色んなところでお目見えできたらと思います。 youtu.be

そして、上記2つとはまた別もので、関連ある論文も書いたりもしました。 論文としては、三次元復元の一種であるNeRFと呼ばれる方法を拡張しました。三次元中の各位置について「このあたりは花っぽく赤っぽく先端っぽく…」などの様々な特徴を場として埋め込めるようにしました。枠組み自体はかなり簡単で汎用的なので、その一応用例として、NeRFによる3Dシーンの編集に使いました。たとえば言語指示や画像選択などを入力として、お手軽にパーツを分解して編集するさまを見せました。3次元的な教師データは必要なく、広く出回っている画像処理向け訓練済みモデルを使うことができるので非常にお手軽かつ汎用的なのが売りです。

提案手法で復元された空間内のりんごだけを回しながら大きくして遊んでいる例です。 論文とは全然関係ないですが、自分が撮った写真、特に自分には縁があっても他人からするとなんでもないようなものの写真が論文に載るのが、なんだか良い気分だなと思いました。 論文はNeurIPS 2022に採択されてアメリカのニューオーリンズに行って発表してきました。結構好評で色んな人と話せたのでよかったです。あっちでは皆マスクしたりしなかったりだけど幸いコロナになることもなく帰国成功できました。やはりわいわいがやがやするのは楽しい。

自分の仕事はこんな感じだったものの、2022年は人工知能系技術の世界的な進歩に驚かされっぱなしで、身が引き締まる思いです。 拡散モデルによる高品質な画像や動画の生成(デモ)は一旦さておいても、ChatGPTによる汎用的な質問応答はめちゃくちゃすごい。研究や開発に全く関わりのない人も一度はぜひ試してみて欲しいです(本家デモ)。

ふりかえり、以上。

なんだか年々ネット上で悪い行い(たとえば、目立つためにおおぼらをふいたり攻撃をする人)を目にすることが多くなっている気がしている。そういう反面教師を日々見ていると、どんどん謙虚になれるし、沈黙は金と胸に刻み続けることになる。しかし、あまりに反面教師が多すぎて、減点法で過剰に臆病にならざるをえない。めったなことでは公に表現や発信をしないようになっていってしまう。仕事ではもちろん表現をすることはあるのだけど、もう少し不明瞭な場で個人的な気持ちを言葉にして公にする勇気を維持していきたい。 ということで、何の変哲もなくても思いつきでも三日坊主でも、むしろそれくらい適当なことこそ、たまになにか書いたりできたらいい、と思いましたとさ。

2023年もがんばります。