Эффективная обработка видео и аудио с помощью Loihi 2

Компьютерное зрение на edge-устройствах

Аннотация

Loihi 2 — это асинхронный исследовательский процессор, вдохновленный строением мозга, который обобщает несколько фундаментальных элементов нейроморфной архитектуры, такие как stateful-модели нейронов, взаимодействующих с помощью событийно-управляемых спайков, чтобы устранить ограничения первого поколения Loihi. В данной работе мы исследуем и характеризуем некоторые из этих обобщений, такие как сигма-дельта инкапсуляция, резонаторно-разрядные нейроны (resonate-and-fire) и целочисленные спайки, в применении к стандартным задачам обработки видео, аудио и сигналов. Мы обнаружили, что эти новые нейроморфные подходы могут обеспечить выигрыш на порядки величин в совокупной эффективности и задержке (произведение энергии на задержку) для прямых и сверточных нейронных сетей, применяемых к видео, шумоподавлению аудио и спектральным преобразованиям, по сравнению с передовыми современными решениями.

Введение

В нашу эпоху быстрого прогресса возможностей Искусственного Интеллекта (ИИ) с постоянно растущими, энергоемкими моделями ИИ, исследователи обращаются к новым компьютерным архитектурам, чтобы раскрыть ценные улучшения эффективности. Одна из таких перспективных новых архитектур — это нейроморфные вычисления, которые стремятся достичь значительного повышения эффективности путем применения вычислительных принципов, вдохновленных мозгом. В то время как современные GPU, тензорные процессоры и акселераторы глубокого обучения ориентированы на плотные матричные вычисления с очень высокой пропускной способностью, нейроморфные процессоры фокусируются на разреженных, событийно-управляемых вычислениях, которые минимизируют активность и перемещение данных. Хотя нейроморфные процессоры еще не стали мейнстримом на коммерческом рынке, в последние годы они получают все больше внимания в исследованиях и разработках, и темп прогресса ускоряется. Среди prominentных нейроморфных аппаратных платформ — Intel Loihi [1], IBM TrueNorth [2], SpiNNaker [3], Tianjic [4] и SynSense Xylo [5]. Все эти платформы ориентированы на предоставление эффективных возможностей ИИ.

Нейроморфные процессоры используют спайковые нейроны в качестве своих базовых вычислительных единиц. Исторически сложилось, что спайковые нейронные сети (SNN) было сложно обучать, хотя недавний прогресс в инструментах и методологиях [6–8] позволил проводить обучение глубоких SNN в больших масштабах. SNN применялись для классификации изображений [7, 9], распознавания жестов [7, 9], обнаружения ключевых слов [10], визуально-тактильного восприятия [11], адаптивного управления роботизированной рукой [12], навигации [13] и других задач [9]. Большинство этих приложений SNN используют базовую модель нейрона "Утекающий интегратор и возбуждение" (LIF) [14] или какой-либо близкий ее вариант, и нейроны общаются посредством бинарных спайков. Loihi 2 и другие recentние нейроморфные архитектуры вышли за рамки простых LIF-нейронов, получив расширенные новые возможности для увеличения широты применений и преодоления алгоритмических проблем. Например, Loihi 2 поддерживает резонаторно-разрядные нейроны (RF) с комплекснозначным состоянием и градуированными (целочисленными) спайками, которые показали свою применимость в спектральной обработке аудиосигналов, оценке оптического потока, обнаружении ключевых слов и автоматической нормализации усиления [15]. Однако до сих пор было очень мало опубликованных результатов, демонстрирующих ценность этих продвинутых моделей нейронов и функций на примерах, работающих и охарактеризованных на нейроморфном оборудовании.

В этой статье мы сначала даем краткий обзор Loihi 2 и уникального набора функций, которые он предлагает для эффективной обработки сигналов, в Разделе 2. В Разделе 3 мы обсуждаем различные семейства спайковых нейронов, доступных для обработки потоков видео и аудиоданных. Наконец, в Разделе 4 мы характеризуем и проводим тестирование некоторых репрезентативных примеров, демонстрирующих эффективную обработку видео и аудио на Loihi 2, примененную к практическим задачам.

*Перевод выполнен с помощью нейросетей

Efficient video and audio processing with Loihi 2

Abstract

Loihi 2 is an asynchronous, brain-inspired research processor that generalizes several fundamental elements of neuromorphic architecture, such as stateful neuron models communicating with event-driven spikes, in order to address limitations of the first generation Loihi. Here we explore and characterize some of these generalizations, such as sigma-delta encapsu- lation, resonate-and-fire neurons, and integer-valued spikes, as applied to standard video, audio, and signal processing tasks. We find that these new neuromorphic approaches can
provide orders of magnitude gains in combined efficiency and latency (energy-delay-product) for feed-forward and convolu- tional neural networks applied to video, audio denoising, and spectral transforms compared to state-of-the-art solutions.

Introduction

IIn today’s age of rapidly advancing Artificial Intelligence (AI) capabilities with ever-growing, energy-hungry AI models, researchers are turning to novel computer architectures to unlock valuable efficiency improvements. One such promising novel architecture is neuromorphic computing, which aims to achieve vastly improved efficiency by applying computational principles inspired from the brain. While the GPUs, Tensor processors, and deep learning accelerators of today focus on dense matrix-based computation at a very high throughput, neuromorphic processors focus on sparse event-driven computation that minimizes activity and data movement. Although neuromorphic processors are not yet mainstream commercial products, they have received increasing research and development focus in recent years, with an accelerating pace of progress. Some of the prominent neuromorphic hardware platforms include Intel Loihi [1], IBM TrueNorth [2], SpiNNaker [3], Tianjic [4], and SynSense Xylo [5]. All of these platforms focus on delivering efficient AI capabilities.

Neuromorphic processors use spiking neurons as their basic computational units. Historically, spiking neural networks (SNNs) have been difficult to train, although recent progress in tools and methodologies [6–8] have enabled the training of deep SNNs at scale. SNNs have been applied to image classification [7, 9], gesture recognition [7, 9], keyword spotting [10], visual-tactile sensing [11], adaptive robotic arm control [12], navigation [13], and other tasks [9]. Most of these SNN applications use a basic leaky integrate and fire (LIF) [14] neuron or some closely-related variant, and neurons communicate via binary spikes. Loihi 2 and other recent neuromorphic architectures have moved beyond simple LIF neurons with advanced new capabilities in order to expand application breadth and overcome algorithmic challenges. For example, Loihi 2 supports resonate-and-fire (RF) neurons with complex-valued state and graded (integer-valued) spikes, which have shown their applicability in spectral processing of audio signals, optic flow estimation, keyword spotting, and automatic gain normalization [15]. So far, however, there have been very few published results showing the value of these advanced neuron models and features from examples running and characterized on neuromorphic hardware.

In this paper, we first give a brief overview of Loihi 2 and the unique set of features it offers for efficient signal processing in Section 2. In Section 3, we discuss various families of spiking neurons that are available for processing video and audio data streams. Finally, in Section 4 we characterize and benchmark some representative examples that demonstrate efficient video and audio processing on Loihi 2 applied to practical problems.

Полный текст статьи