このNVIDIAニューラルネットワークは、あらゆるビデオにスローモーションを適用することができます

ほとんどのハイエンドのDSLRとスマートフォンは、スローモーションで撮影できますが、すべてではありません。 これはデータ集約型のためです:スーパースローモーションモードon ソニーのXperia XZ2 例えば、スマートフォンは、960フレーム/秒(fps)を撮影します。これは、デフォルトの30 fpsでキャプチャするフレームデータの32倍です。 そのためには、大量のストレージが必要です。すべてのフレームを処理するのに十分なスピードのプロセッサはもちろんです。

Nvidia’s 新しいアルゴリズム これは、 2018コンピュータビジョンとパターン認識に関する会議 今週ソルトレークシティで、事実の後に映像を遅くすることができます。 しかし、タイムストレッチされたフレームで映像の隙間を埋めるジッタのあるスローモーションフィルタとは異なり、研究チームのソリューションは機械学習を使用して幻覚を起こします 新しい フレーム。

Nvidia、University of Massachusetts Amherst、およびUniversity of California、Mercedの科学者は、スムーズなスローモーション映像を作成するために任意の数の中間フレームを生成できる監督されていないエンドツーエンドのニューラルネットワークを設計しました。 彼らは技術を “可変長マルチフレーム補間”と呼びます。

Nvidiaの学習と受験チームを率いているJan Kautzは、電話インタビューでVentureBeatに語った。「私たちはスローモーション効果を得て既存のビデオに適用している。 “あなたはそれを8倍または15倍に遅くすることができます – 上限はありません。”

これはどのように動作するのですか:1つの畳み込みニューラルネットワーク(CNN)は、オプティカルフロー(シーン内のオブジェクト、サーフェス、エッジの動きのパターン)を、2つの入力フレーム間でタイムライン上で前後に推定します。 次に、ピクセルがどのフレームから次のフレームに移動するかを予測し、各フレームのフローフィールド(予測されるモーションの2次元ベクトル)を生成し、それを融合して中間フレームのフローフィールドを近似します。

次に、第2のCNNは、オプティカルフローを補間し、近似されたフローフィールドを精緻化し、視界マップを予測して、フレーム内のオブジェクトによって遮蔽されたピクセルを除外し、続いて動作中のオブジェクトおよびその周辺のアーティファクトを低減する。 最後に、可視性マップが2つの入力画像に適用され、中間のオプティカルフローフィールドが、1つのフレームが次のフレームに滑らかに移行するようにそれらを歪める(歪ませる)ために使用される。

研究者たちは、YouTubeやハンドヘルドカメラからの240 fpsのビデオでシステムを訓練しました。 スローモ・ガイズ – 合計11,000ビデオのコーパス。 Nvidia Tesla V100 GPUとcuDNN加速PyTorchディープラーニングフレームワークを使用して、

結果は印象的です。言い換えれば、出力ビデオは、スローモーションソフトウェアフィルタの画期的なジッタとぼやけを示さないということです。 動きの速いオブジェクトの境界線の周りにギザギザのエッジがいくつかあることを除いて、高いフレームレートでネイティブに撮影されたフッテージと区別するのは難しいです。

このシステムの別の利点は、両方のCNNのパラメータが補間される特定の時間ステップとは無関係であり、ニューラルネットが必要な数の中間フレームを並列に生成できるようにすることである。

「1つまたは複数の中間フレームを生成するすべてのデータセットに対して最先端の成果を達成しています」と研究者は書きます。 「私たちのモデルは、変更を加えずにさまざまなシナリオに直接適用できるという事実を考慮すると、注目すべき点です。

残念ながら、すぐに商品化されることはまずありません。 Kautz氏によると、このシステムは高度に最適化されておらず、リアルタイムで稼働させることは難しい問題です。 また、コンシューマー機器やアプリに登場するときには、クラウド内でほとんどの処理が実行されると予想しています。

それでも、機械学習やスローモーション愛好家にとっては有望な一歩です。 ここでは、過度に劇的なバックフリップ、スケートボードのトリック、そして空中でボールをキャッチする犬になります。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする