Kubric:機械学習用アノテーション付き動画生成パイプライン

久しぶりにコンピュータビジョン系の話題。

Google Researchから機械学習用のアノテーション付き動画を生成するためのツールがオープンソースで公開された↓

Kubric



Kubricは、Instance SegmentationマスクやDepthマップ、オプティカルフローなどのリッチなアノテーション付きのセミリアルな動画を作成するためのデータ生成パイプラインです。

 ※このプロジェクトはまだアルファ段階であり、大幅に変更される可能性があります。

モチベーションと設計

機械学習システムの訓練と評価、特にunsupervised multi-object video understandingにおいてはより良いデータが必要です。既存のシステムは、toy datasetsでは上手く行くものの、現実世界のデータでは失敗してしまいます。複雑さの異なる適切なデータセットをオンデマンドで作成できれば、進歩を大幅に加速できる可能性があります。
Kubricは、主にpybullet(物理シミュレーション用)とBlender(レンダリング用)をベースに構築されていますが、コードはモジュール式に保たれているため、様々なレンダリングバックエンドをサポートできる可能性があります。

Kubricは特に数千台のマシンを使って処理できるスケーラビリティに重点を置いて開発されているらしい。
詳しくはarXivで公開されているKubric: A scalable dataset generatorや、公式ドキュメントを参照。



レンダリングに使われているBlenderについてはもはや説明不要でしょう。
物理シミュレーションに使われているpybulletというのは、Bullet Physics SDKというC++の物理シミュレーションフレームワークのPythonバインディング。強化学習方面ではすでに結構利用されているらしい。
https://zenn.dev/ymd_h/articles/14397e6ae7ea3d

Kubricの公式ドキュメントを読むと、一式揃ったDockerイメージも用意されているようですね。
https://kubric.readthedocs.io/en/latest/source/0_installing.html

ここ数年、機械学習用の画像・動画データをCGで生成する需要に応えるツールが少しずつ増えてきたな。


BlenderProc:Blenderで機械学習用の画像データを生成するPythonツール
機械学習用の画像データをCGで生成するのもData Augmentation(データ拡張)の範疇でしょうか。物体や風景画像だけでなく、Depthや物体ラベル、Semantic Segmentation用のアノテーション画像も必要となると、C...


最近はUnityが公式にUnity Computer Visionというデータセット生成サービスを始めていて、それに使用しているPerception Packageも公開している↓

Perception Package (Unity Computer Vision)



Perceptionパッケージは、コンピュータビジョンの訓練と検証のための大規模なデータセットを生成するためのツールキットを提供します。 現在は、カメラベースのユースケースに焦点を当てており、最終的には他の形式のセンサーや機械学習タスクに拡張される予定です。

ツールと製品の詳細についてはUnity Computer Visionページにアクセスしてください。

https://blog.unity.com/ja/technology/supercharge-your-computer-vision-models-with-synthetic-datasets-built-by-unity

関連記事

フィーリングに基づくタマムシの質感表現

Open3D:3Dデータ処理ライブラリ

イタリアの自動車ブランドFiatとゴジラがコラボしたCMのメ...

Unityの薄い本

ZBrushでアヴァン・ガメラを作ってみる モールドの彫り込...

シン・ゴジラのファンアート

TensorFlowでCGを微分できる『TensorFlow...

ZScript

ブログの復旧が難航してた話

ZBrushでゴジラ2001を作ってみる 身体のSubToo...

Google App Engineのデプロイ失敗

池袋パルコで3Dのバーチャルフィッティング『ウェアラブル ク...

Maya には3 種類のシェーダSDKがある?

ZBrushでゴジラ2001を作ってみる 側頭部のボリューム...

UnrealCV:コンピュータビジョン研究のためのUnrea...

OpenCV バージョン4がリリースされた!

機械学習のオープンソースソフトウェアフォーラム『mloss(...

WordPressのテーマを自作する

Subsurface scatteringの動画

ZBrushの作業環境を見直す

定数

U-Net:ディープラーニングによるSemantic Seg...

OpenCVで顔のランドマークを検出する『Facemark ...

CEDEC 3日目

2012 昨日のクローズアップ現代を見た

Pythonのソースコードに特化した検索エンジン『Nulle...

ZBrushでアヴァン・ガメラを作ってみる パーツ分割

Adobe Photoshop CS4 Extendedの3...

OpenCVでカメラ画像から自己位置認識 (Visual O...

頭蓋骨からの顔復元と進化過程の可視化

Kinect for Windows V2のプレオーダー開始

Google XML Sitemap Generatorプラ...

「ベンジャミン·バトン数奇な人生」でどうやってCGの顔を作っ...

Oculus Goを購入!

ポリゴンジオメトリ処理ライブラリ『pmp-library (...

Stanford Bunny

Multi-View Environment:複数画像から3...

オープンソースの顔の動作解析ツールキット『OpenFace』

手を動かしながら学ぶデータマイニング

PGGAN:段階的に解像度を上げて学習を進めるGAN

Maya 2015から標準搭載されたMILA

iOSデバイスと接続して連携するガジェットの開発方法

コメント