デプスセンサーやPoint Cloud処理の近未来

こんにちは。林です。前回の私の記事では、本コンソーシアム「PCC（Point Cloud Consortium）」を始めるにあたっての概観として、以下の２つに分けて書かせて頂くうちの前半(1)を記事として書かせて頂きました。

(1)「コンソーシアムの目的や活動方針」(今回の記事)
(2)「デプスセンサーやPoint Cloud処理の近未来」（次回の記事）

本記事では、(2)について紹介していきます。
今回の(2)では、まずKinectなどの安価なRGB-Dデプスセンサーの登場以前と以後で、3Dセンサーの状況がどう変わったかという「3Dセンサーの過去、現在」について整理します。

その後、この事前知識をふまえ、「安価なデプスセンサー」はどのような産業分野でどういった応用により役に立ちやすくなっているのかを整理します（例：医療、美容・健康、インターフェース、工場用ロボット、ファッションなど）。そして、現状でのこれらのアイデアの普及具合を俯瞰することで、これらは「実現はできるもののまだ普及に至ってない」というところが見えてきます。

そして最後に、今後の近未来での展開について論じようと思います。（モバイルでの爆発的センサーの普及の可能性や、最近のVRでの動きなど）。

Kinect以前の３D画像計測

ミライの話をする前に、まずは2011年にMicrosoftのKinectが市場に登場する以前の「3D画像計測」について考えておきましょう。

Microsoft社のKinectはXBox360向けのゲームコントローラーとして、史上初の「安価なデプスセンサーで動画で撮影できる」製品として市場に登場し、セカイ中で数千万台が売れるという超ヒット商品になり、世界中のリビングルームにTVとXboxの前に配置されているのがKinectです。それが、その後商用の(ゲーム以外の)ビジネスアプリケーションの作成が可能になったKinect for Windows(とSDK)が登場したことで、産業応用も増えています。

Kinectが登場する前にはKinectのような「２万円程度の安価な3Dデプスセンサーが購入できる時代」を想像できている人は少なく、「品質の高い3D点群データの計測を行うには、数百万円以上のセンサーの購入が必要」というのが常識でした。

例えば建築やプラントなどで、広範囲3D撮影するレーザー測距系のセンサーですとか、映画業界で品質の高い人物の3Dデータを撮影するためのカメラ-プロジェクター製品など、多くは数百万円を下らないものが主流です。これは裏返すと、高額の3Dセンサーを購入しても、それによってデータ計測ができて、かつそのデータから解析ができることで利益の出る（少し規模の大きな）会社でしか、そういった高額の3Dセンサーは用いられていなかったことを意味しており、また、これらの多くがKinectと違って「静止撮影の3Dデータ」しか計測できないことも違いです。B2C系のビジネスにしか触れたことの無い方には経験したことのない話なので、こういった高額計測器の世界を想像できないかもしれませんが、私の前職のような計測器業界では、そもそも3Dセンサーに限らず「非常に高精度な計測器は高価なモノが中心」というのが常識でした。Kinectがない時代には、3Dセンサーも高額な計測器しか存在しなかったわけです。

一方、中規模程度の3Dセンサーも存在はしていましたが、Kinectほどに「安価で、正確に、3D動画撮影」できるものが存在していませんでした。例えば，自動車の前方動画を3D撮影する際に用いられるステレオカメラなどはその例です。ただ、ステレオカメラは２つのカメラ間でのパターンマッチングの精度に依存しておりノイズが出やすいのもあって、Kinectのような能動計測（プロジェクターで既知のパターンを投影してそれを元に三角測量を行う3D撮影方式）を行うことで、初めて高品質の3D点群を撮影できる対象が多いです。

また、静止画でしか点群が撮影できないとすると、CG用の制したモデルを作成するための元データとしては使えるものの、Kinectでできるようになったリアルタイムでの動画像処理的な話は以前は実現できなかったのです。Kinect登場以降は、デプスセンサーは監視カメラ的にリアルタイムの処理として実セカイをセンシングできるようになり、他にもこのあと紹介するような「仮想試着」や「ジェスチャー操作」など、リアルタイム処理でインタラクティブな経験が要求されるアプリケーションの構築が可能となったのです。

RGB-Dセンサーで新たに役つ産業分野

それでは、ここから本題の「安価なデプスセンサーが登場したことで、どういったところに点群データそのものやデプスセンサーによるセンシングが役に立つか」について書いて行きます。

まずは元々のMicrosoft Kinectの目的であった「自然なユーザーインターフェース(Natural User Interface:NUI)」としての使い方が、安価なデプスセンサーの応用方法の基本です。Kinectは人の姿勢（ボーン）を推定してくれるので、そのボーン情報を用いたアプリケーションを作ることができます。また、本コンソーシアムで焦点をあてる「点群」そのものも、いろいろな解析や認識を行う対象として使用できます。姿勢情報はKinectのSDKなどが我々に与えてくれるので使用のハードルが低いのに対して、点群そのものを使いこむのはコンピュータビジョンに詳しい方でないと少しハードルは高いですが（だからこそ本コンソーシアムが発足したわけですが）、それでも簡単なアイデアでRGB-Dデータを少し処理するだけでも良いアイデアになることも多く、様々な消費者と直接関わるような産業分野でも、応用が考えつきやすいのが安価なデプスセンサーであるとは思います。

以前、私のマイナビニュースの連載「コンピュータビジョンのセカイ – 今そこにあるミライ」の記事(第58回： Kinectの登場がもたらしたコンピュータビジョン革命”)でも取り上げました、以下の「Kinect Effect」というプロモーション動画が、Kinectを使うことで実現できそうなアプリケーション群をよく網羅しています。

この動画はKinectのSDKが登場する前の状況でしたので、まだどれも実現されていないアプリケーションだったわけですが、現在ではKinectによるバーチャルミラー操作(仮想着せ替え)や、手術中の外科医による非接触ディスプレイ操作などは既に製品例が存在します。

例えば仮想試着では、以下の記事で紹介されている東芝ITソリューションの製品があります

(日本経済新聞 BPニュースセレクト:タブレットで洋服選び、東芝がバーチャル試着システム)

手術室でのジェスチャー操作にはカナダのGestSure社の製品が存在します。
（GestSure社のホームページ）

これら２つの実例に限らず、Kinectは非常に産業応用の幅が広い製品です。（私のマイナビニュースの連載がまさに安価なデプスセンサー処理編を書いていいますので、詳しく知りたい方は拙連載も読んでいただければと思います）。

ただ、個人的に大事な点だと思うのは、これらの典型的なデプスセンサーを用いたアプリケーションのアイデアが、まだまだ全ては実現されておらず 、更には大きな産業規模にもなっていないという点です。もちろん新しいことだらけ話で、エンジニアの数も全然足らない上にビジネスアイデアを出せる人材も少ないというのはありますが、「絶対に便利になるはず」と思ったデプスセンサーを用いたアイデアが、まだまだ世の中に浸透していないという印象があります。

以前から3Dレンジセンサーが使われている産業分野

今度は、Kinectなどが登場する以前から、少し高価なセンサーを用いて3D形状を計ることが役立っている分野についてお話します。

まずは、冒頭の話でもあった、建築やプラント分野で広範囲を3D撮影するレーザー測距系のセンサーがあげられます。例えば、この目的でよく使われているFaroの3Dセンサーでは、屋外で広範囲を3D計測して３次元点群化することができます。建築業界では、CADモデルとして設計した「設計図」と、建築中もしくは完成後の「実際の建物やプラント」との整合性を確認したいというニーズがあるのですが、このような広範囲撮影可能な3Dセンサーを用いて直接対象の建築物を3D化すれば、あとは設計図との3Dレジストレーション(位置合わせ)さえソフトウェアで行うことができれば、設計図との整合性がコンピュータだけで自動判定できるわけです。近年登場した安価なRGB-Dセンサーは、屋外を苦手としていたり1台の撮影範囲も狭いのでこの「広範囲3D化」という用途には使えません（当コンソーシアムのエス計画は、こういった仕事も行っています）。建築系の仕事をされている方は、建築ITワールドというサイトも見て頂くと、このあたりの情報が得られる思います(CAD系や3Dモデル構築の話が主なサイトではありますが)。

高級自動車等にオプションで収録される「危険感知システム」にも、3Dセンサーが用いられています。自動車会社のプリクラッシュセーフティ（追突自動防止）システムには、LIDARセンサーやステレオカメラによって車の前方映像がセンシングされており、そのセンシングした前方の3Dデータから、障害物を検知すると自動車が自動的に止まるというシステムが搭載されています（※各社とも時速30~50kmくらいまでの低速走行時のみ、障害物への衝突を自動回避ができるものが主流です）。3Dで車の前方を常に撮影しておくと、車検出や人検出などの処理も品質や計算速度も上がることもあり、自動車業界ではステレオカメラベースでの車載前方動画の処理が数多く研究されており、実用化もされてきているという流れがあります。

次に、工場等での外観検査系のマシンビジョンでも、3Dセンサーの用途は多いです。例えば、以下の記事をご覧下さい。

Robonable; (2011.10.11)：三菱電機、ランダム・ビン・ピッキングを可能にしたロボットシステム開発

これはいわゆるバラ積みの部品をロボットアームが自動で掴むという製品ですが、こういったロボットはカメラやデプスセンサーをロボットの眼として用いています。この製品でも3Dの距離センサが使われていると記事中に書いてありますが、3Dセンサーがロボットアームに装着されていると「1.(画像で撮影した時と比較して)掴みたい物体を3Dの形状で捉えられるので、物体の位置やその物体のうち掴みたい場所を判定できる」というメリットがあり、一方で「2.アーム自身の現在の位置を知りやすい」というメリットが生まれます。

また、例えばベルトコンベア上に置いてある製品をカメラで撮影し、画像処理で欠陥品を検出するという古くから使われている欠陥検査システムにおいても3Dセンサーは活躍できます。以前は、このような欠陥検査システムでは「カメラで撮影した対象の移っている画像」と、先に撮影しておいた「欠陥のない対象のテンプレート画像」との間で、２次元のパターンマッチングを行うことにより欠陥があるかどうかを判定することが主流でした。ただ、3Dセンサーが普及して以降は、対象の３次元の形状が取得できるので、3D形状同士のパターンマッチングで行うことで、2Dマッチングではできなかったことが可能になってきています。これ以上の詳しい話は、私もお知り合いである三菱電機の堂前氏による、以下の記事などが参考になると思います。

画像センシング展2013:ロボットが目で見たものを掴むまで 3次元ビジョンセンサー，認識アルゴリズム，認識と動作のキャリブレーションを組み合わせる

これらの以前から計測系の各種業界で存在していた3Dセンシング応用は、さきほどの節で紹介したB2B寄りのKinect登場以降新たに実現可能になった話と比べると、各システムは以前から存在しており、それを実現するためのエンジニア層も十分あるという違いがあります。ただ、今後はコンシューマ向けデプスセンサー登場に伴う価格下落と、Point Cloud Libraryの登場によってソフトウェア構築の敷居が下がったことなどから、更に3D処理の応用が加速するのではないかと、個人的には思っております。

ここ最近の動き

この記事の最後にとして、最近のデプスセンサー関連の新しい動きを紹介しましょう。

ハンディ型スキャナーによる手軽な3Dスキャニング。今後のモバイルへの普及

Kinectでは「Kinect Fusion」という技術でKinectを動かしていきながらリアルタイムにひとつのまとまった形状に合成した3Dデータを撮影していくことができます。しかし、KinectはPCとUSB接続して使用するデバイスなので、本当のモバイルといった感じではなく、ノートPCに接続しながらKinectを動かす必要があるので、ハンディータイプのスキャナーとして使うには制限がありました。これに対して、最近は、PCを必要としないモバイルデバイスのみでデプスセンサーを使用できるようになる製品が登場し始めています。

アメリカで発売された「Structure Sensor」という製品は、iPadに専用の小型デプスセンサーを装着することで、タブレットのみで3Dデプス撮影が可能になる製品です。以下、私の連載でStructure Sensorを取り上げた記事です。

3Dデプスセンサーを用いた注目の新ベンチャー企業;前編

また、こちらは皆様もニュース等でご存知と思いますが、Google社がモバイル(Android)にデプスセンサーを装着する「Tango」というプロジェクトを開始しています。

– TechCrunch:Googleが野心的AIプロジェクト、タンゴを発表―3Dカメラとセンサーでスマートフォンが空間を認識する

– TechCrunch:次に出るTangoデバイス（三次元視覚能力のあるAndroid機）はタブレット–早くも来月に

Tangoはスマートフォン向けもタブレット向けも登場するようです。こうしたモバイル向けのデプスセンサーが登場して、一般ユーザー向けに普及すれば、先程のStructure Sensorのプロモーション動画で提案されているような「一般ユーザーによる家具やモノなどの3D撮影とWeb共有」や、Tangoのプロモーション動画で提案されている「屋内の3D地図構築によるロボット的な使い方」などが、非常に一般化・普及していく可能性があります。

インタラクション技術を介したVRとの連携

最近話題になっているOcculus Riftも、デプスセンサーとの連携がしやすいデバイスです。Occulus Riftは仮想空間を閉じたゴーグル内で見る没入型デバイスでありますが、デプスセンサーと連携すれば、外界の様子や、自分の手の動きなどをOcculus Riftの中の仮想空間で利用することができます。先程紹介したStructure Sensorのプロモーション動画などでも、OcculustとStruture Sensorの連携が提案されていますが、VRもユーザーが視るセカイは仮想的でも、ユーザー自身は実セカイに居て身体動作も今までのままなので、そこで、実セカイ側をセンシングする手段として、デプスセンサーやコンピュータビジョン系の技術が連携することになります。

またKinect Fusionでも既に実現可能だったのが「デプスデータによるAR」です。RGBカメラを入力とした旧来のARですと、画像処理的に捉えられる空間情報（例：ARマーカーと地続きの平面など）しか使えず、結局はは地面もしくはテーブル平面上や壁平面上にしかCGを重ねて表示することができないという面がありませんでした。例えば初めてリアルタイムの特徴点追跡によりマーカレスでARをできるようになったPTAMというシステムがありますが、これも「２次元平面」が見つけられるだけで、３次元的な周辺環境の細かい形状は捉えられません。

Parallel Tracking and Mapping for Small AR Workspaces (PTAM)

しかしKinect FusionやStrcuture Sensorでは直接３次元世界の形状をセンシングできるので、その形状（３次元空間そのもの！）を用いれば、たとえば平面でない凹凸の激しい形状があっても、その形に沿うようにCGを合成することができます。

私個人はインタラクションやVR・ARが専門ではないのですが、本コンソーシアム等を通して皆様が点群処理に強くなれば、今まではできなかったインターフェースや仮想体験を新しく構築できるようになると確信しています。

まとめ

以上、今回は以下の３つの観点から「デプスセンサーやPoint Cloud処理の近未来」をまとめました。

– Kinect登場以前からある3Dセンサー応用
– Kinect登場後の3Dセンサー応用
– 最近の展開（センサーのモバイル化、VRとの連携など）

今回紹介したように、非常に広範囲の分野でコンピュータビジョンベースの点群処理はキーとなっていくことと思います。本コンソーシアムでは、そういった中で「点群」のみを共通項として多業種多様な皆様に集まっていただき、各自が発展をとげることができるような場を提供していきたいと思います。セミナー等を来月から開催致しますので、皆様と共に成長できることを楽しみにしています。

また、デプスセンサーを使ったビジネス応用でお困りのことがあれば、我々はコンサルティングも行うことが可能です。ご相談ごとがあれば、コンソーシアムまでご連絡ください。

林昌希

現実世界のデータ化に関する技術の向上を目指した3Dデータの活用コンサルティング｜コンピュータビジョン・3D点群