処理
ホームページホームページ > ニュース > 処理

処理

May 16, 2023

Scientific Reports volume 12、記事番号: 14396 (2022) この記事を引用

3220 アクセス

4 引用

5 オルトメトリック

メトリクスの詳細

最先端の高解像度カメラから生成された膨大な量のデータを処理する需要により、エネルギー効率の高い新しいオンデバイス AI ソリューションが求められています。 このようなカメラの視覚データは、通常、センサー ピクセル アレイによってアナログ電圧でキャプチャされ、その後、アナログ デジタル コンバーター (ADC) を使用して後続の AI 処理のためにデジタル ドメインに変換されます。 最近の研究では、センサー近傍およびセンサー内処理の形で大規模並列低電力アナログ/デジタル コンピューティングを活用しようとしています。この場合、AI 計算の一部はピクセル アレイの周辺で、一部はピクセル アレイの別の部分で実行されます。 -ボードCPU/アクセラレータ。 残念ながら、高解像度の入力画像は依然としてカメラと AI 処理ユニットの間でフレームごとにストリーミングする必要があるため、エネルギー、帯域幅、セキュリティのボトルネックが発生します。 この問題を軽減するために、アナログ マルチチャネル、マルチビット畳み込み、バッチ正規化、および整流線形単位 ( ReLU)。 当社のソリューションには、全体的なアルゴリズムと回路の共同設計アプローチが含まれており、その結果として得られる P2M パラダイムは、メモリを大量に消費する畳み込みニューラル ネットワーク (CNN) モデルの最初の数層をファウンドリ製造可能な CMOS イメージ センサー プラットフォーム内に埋め込むためのドロップイン代替品として使用できます。 。 私たちの実験結果は、P2M がセンサーとアナログからデジタルへの変換からのデータ転送帯域幅を \({\sim }\,21\times\) 削減し、TinyML で MobileNetV2 モデルを処理する際に発生するエネルギー遅延積 (EDP) を削減することを示しています。ビジュアル ウェイク ワード データセット (VWW) のユースケースは、テスト精度を大幅に低下させることなく、標準のニアプロセッシングまたはセンサー内実装と比較して最大 \(\mathord {\sim }\,11\times\) 向上します。

今日、監視 1、災害管理 2、野生生物監視用のカメラトラップ 3、自動運転、スマートフォンなどに及ぶコンピューター ビジョンの広範な応用は、画像センシング プラットフォーム 4 と絶えず改善され続ける深層学習アルゴリズム 5 の分野における目覚ましい技術進歩によって促進されています。 ただし、視覚センシングおよび視覚処理プラットフォームのハードウェア実装は、従来、物理的に分離されてきました。 たとえば、CMOS テクノロジーに基づく現在のビジョン センサー プラットフォームは、フォトダイオードの 2 次元アレイを通じて入射光の強度をデジタル化されたピクセル値に変換する変換エンティティとして機能します6。 このような CMOS イメージ センサー (CIS) から生成されたビジョン データは、多くの場合、CPU と GPU で構成されるクラウド環境の別の場所で処理されます7。 この物理的な分離は、高解像度の画像/ビデオからの物体検出や追跡など、イメージ センサーからバックエンド プロセッサに大量のデータを転送する必要があるアプリケーションのスループット、帯域幅、エネルギー効率のボトルネックにつながります。

これらのボトルネックに対処するために、多くの研究者は、センサー近傍処理 8、9、センサー内処理 10、およびピクセル内処理11、12、13。 ニアセンサー処理は、専用の機械学習アクセラレータ チップを同じプリント基板 8 上に組み込むこと、または CIS チップと 3D スタックで組み込むことを目的としています 9。 これにより、クラウドではなくセンサーに近い場所で CIS データを処理できるようになりますが、それでも CIS と処理チップ間のデータ転送コストが発生します。 一方、センサー内処理ソリューション 10 は、CIS センサー チップの周辺にデジタルまたはアナログ回路を統合し、CIS センサーと処理チップ間のデータ転送を削減します。 それにもかかわらず、これらのアプローチでは、多くの場合、CIS フォトダイオード アレイから周辺処理回路 10 にバスを介してデータをストリーミングする (または並行して読み取る) 必要があります。 対照的に、11、12、13、14、15 などのピクセル内処理ソリューションは、個々の CIS ピクセル内に処理機能を組み込むことを目的としています。 初期の取り組みはピクセル内アナログ畳み込み演算 14、15 に焦点を当ててきましたが、多くの場合 11、14、15、16 は新たな不揮発性メモリまたは 2D マテリアルの使用を必要とします。 残念ながら、これらの技術はまだ成熟していないため、CIS の既存の鋳造製造には適合しません。 さらに、これらの作品は、最も実用的な深層学習アプリケーションに必要なマルチビット、マルチチャネル畳み込み演算、バッチ正規化 (BN)、および整流線形単位 (ReLU) をサポートしていません。 さらに、デジタル CMOS ベースのピクセル内ハードウェアを対象とした作品は、ピクセル並列の SIMD (Single Instruction Multiple Data) プロセッサ アレイ 12 として構成され、畳み込み演算をサポートしていないため、数字認識などのおもちゃのワークロードに限定されます。 これらの作品の多くはデジタル処理に依存しており、通常、アナログのピクセル内代替処理と比較して並列処理レベルが低くなります。 対照的に、研究 13 では、ピクセル内並列アナログ コンピューティングを利用しており、ニューラル ネットワークの重みは個々のピクセルの露光時間として表されます。 彼らのアプローチでは、制御パルスを通じてピクセル露光時間を操作するために重みを利用できるようにする必要があり、重みメモリとセンサー アレイ間のデータ転送のボトルネックが発生します。 したがって、重みと入力アクティベーションの両方が個々のピクセル内で利用可能で、マルチビット、マルチチャネル畳み込み、BN、ReLU 演算などの重要な深層学習演算を効率的に実装できる、その場での CIS 処理ソリューションは、依然としてとらえどころのないままです。 さらに、既存のすべてのピクセル内コンピューティング ソリューションは、最先端の CIS にマッピングされたマシン インテリジェンスの現実的なアプリケーションを表すデータセットをターゲットにしていません。 具体的には、既存の研究のほとんどは MNIST12 のような単純なデータセットに焦点を当てていますが、非常に低い解像度 (\(32\times 32\)) の入力画像を含む CIFAR-10 データセットを使用しているものはほとんどありません。これは、によってキャプチャされた画像を表しません。最先端の高解像度CIS。