IBMの研究者は、低電力、高性能のコンピュータービジョン・システム

近年、機械学習アルゴリズムは飛躍的に向上しています。 最先端のシステム Facebookのような たとえば、精度を犠牲にすることなく1時間で画像分類アルゴリズムを訓練することができます。 しかし、これらのシステムの多くは強力なGPUを備えたハイエンドマシンで訓練されており、業界のインターネットがエッジコンピューティングに近づくにつれて、オーバーヘッドの少ない低消費電力の人工知能(AI)モデルへの需要が高まっています。

有望なIBMの研究は、はるかに効率的なアルゴリズムの基盤となります。 今週、ユタ州ソルトレイクシティで開催された2018年のコンピュータビジョンとパターン認識に関する会議で、同社の研究に参加した科学者は、画像分類を扱う2つの論文を発表する予定です。

BlockDrop

最初のタイトルは ” BlockDrop:残存ネットワークにおける動的干渉パス 、 “2015年に出版されたマイクロソフトの仕事の成果、すなわち残存ネットワークをベースにしています。 残存ネットワーク(ResNets)は、ニューラルネットワークのレイヤー間のアイデンティティ接続を導入し、トレーニング中に増分または残余の表現を学習できるようにします。

IBM BlockDrop

IBMはそのアイデアを一歩前進させます。 科学者たちは、紙に「ポリシーネットワーク」と呼ばれる軽量の二次神経ネットワークを導入し、事前に準備されたResNetで残余ブロックを動的に落としました。 パフォーマンスの向上が精度を犠牲にして行われないように、ポリシーネットワークは最小限のブロック数を使用して認識精度を維持するように訓練されました。

IBMのリサーチ・マネージャーであるRogerio Ferris氏は、VentureBeat氏との電話インタビューで語った。「現在のほとんどのモデルで起こっている問題の1つは、 同じ計算がすべての画像に適用されるワンサイズのネットワークをすべて持っているということです。 [私たちの]システムは、リソースをより効率的かつ正確に識別し、イメージを正確に識別します。

BlockDropは、画像分類を平均で20%、場合によっては36%も高速化し、実験のコントロールと同じ76.4%の精度を維持しました。

ステレオ視覚の改善

IBMの研究者が今週発表した2番目の論文「 低消費電力、高スループット、フルイベントベースのステレオシステム 、 “画像処理における別の問題、すなわちステレオビジョンに取り組んだ。

IBMステレオ

IBMの研究スタッフであるアレクサンダー・アンドレポロス氏は、人間の目は互いにセンチメートル離れており、世界は若干異なる視点から見ていると説明しています。 脳の視覚野は、それらの画像をシームレスにマージして深さを認識することができますが、2カメラのロボットシステムでは、視差を調整するのに厳しい時間があります。

「コンピュータビジョンの場合、カメラのレンズに異常があり、これがノイズを引き起こし、問題を複雑にします」とAndreopoulos氏は述べています。

研究者のソリューション:IBMのTrueNorthニューロモルフィックチップで動作するシステム。機械学習モデルに最適化された高度に並列化されたアーキテクチャを備えています。 9つのプロセッサ、1組のイベントベースのカメラ(動きを検出したときに画像をスナップするカメラ)、および前述のチップに計算を分散するラップトップを使用すると、400個のキャプチャおよび処理されたアルゴリズム(最大 2,000)のディスパリティマップを生成します。

イベントベースのカメラを使用することで、帯域幅とエネルギー使用量が大幅に削減されるとAndreopoulos氏は説明しています。 “ステレオアルゴリズムは30年以上にわたって存在してきましたが、これらのシステムのほとんどは…世界を感知するための積極的なアプローチを採用しています。 私たちは受動的なアプローチを採用しています。

IBMリサーチ

上:IBMのシステムによってマッピングされたシーンの深度情報。

イメージクレジット:IBM

全体として、このシステムは、高フレームレートカメラを備えた最先端のシステムと比較して、視差マップごとに1ピクセルあたりの電力の点で200倍の改善を示した。

Andreopoulos氏によると、この結果は、世界をナビゲートするために低電力、低遅延の深さ情報に依存するロボットシステムにとって有望であるとAndreopoulos氏は述べています。 “それは、高齢者のためのコンパニオンロボットで使われていると想像しています。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする