Факторизация визуальных сцен с помощью нейроморфных гипермерных вычислений

Краткое описание. В этом докладе на конференции NNPC 2023 я представлю модульный нейроморфный алгоритм, использующий последние достижения в области гипермерных вычислений / векторных символических архитектур (VSA). VSA были предложены в качестве основы для символьных вычислений, пространственных операций и операций с графами на нейроморфных аппаратных платформах. Они используют небольшой набор вычислительных примитивов, которые являются надежными, эффективными и совместимыми с различным оборудованием. Наш алгоритм рассматривает понимание сцены как задачу факторизации и использует сеть резонаторов для извлечения идентичности объектов и их преобразований. Это достигается путем отражения алгебраической структуры двумерных жестких преобразований (трансляций и вращений) в нейронном VSA-представлении. В завершение мы используем реализацию фазовых нейронов на основе времени спайков, чтобы продемонстрировать эффективную доказательную концепцию реализации на нейроморфном оборудовании, и применяем модель в робототехнической задаче для визуальной одометрии (визуальный SLAM).

Одновременное определение идентичности и положения объектов, а также их жестких преобразований остается сложной проблемой в понимании визуальных сцен. Мы предлагаем нейроморфное решение, использующее три ключевые концепции:

Вычислительная структура на основе векторных символических архитектур (VSA) с комплекснозначными векторами; VSA предоставляют основу [5] для разработки масштабируемых алгоритмов, использующих массовый параллелизм, разреженные/асинхронные вычисления на основе событий, вычисления в памяти и локальные связи, что является отличительными чертами нейроморфных вычислений. VSA подходят для различных нейроморфных платформ; мы демонстрируем реализацию на асинхронном цифровом нейроморфном исследовательском чипе Intel Loihi [8, 7].
Иерархические сети резонаторов (HRN) как расширение модели резонатора [3, 4] для работы с некоммутативной природой трансляции и вращения в визуальных сценах, когда они используются в комбинации.
Модель фазового нейрона на основе времени спайков для реализации связывания комплекснозначных векторов на нейроморфном оборудовании.

Чтобы продемонстрировать факторизацию визуальной сцены, мы фокусируемся на синтетических изображениях простых визуальных сцен, составленных из шаблонов объектов (букв) (d), которые подвергаются трансляции (по горизонтали h и вертикали v) и окрашиванию (c). Задача сети — оценить идентичность объектов, их цвета и местоположение по изображению (см. выходные данные сети на Рис. 1D). Мы используем операции связывания в VSA для создания порождающих моделей изображений, в которых связывание (⊙, эквивалентное умножению) действует как эквивариантная операция для геометрических преобразований [1] (Рис. 1A). Чтобы подать изображение (например, с Рис. 1A) в сеть, мы кодируем изображения в гипервекторы, используя комплекснозначные векторы в формате "Фурье-голографическое представление" (FHRR) [6]. Пиксель с декартовыми координатами изображения x и y представляется индексным вектором [1] (with vj and hj = e ıϕj , ϕj ∼ U[0, 2π]). Такой способ кодирования изображения обладает ключевыми свойствами для нашего предлагаемого алгоритма факторизации сцены, поскольку он гарантирует, что эквивариантной векторной операцией для трансляции изображения является операция связывания. Порождающая модель позволяет легко компоновать и отображать синтетическую сцену, но вывод в порождающих моделях требует больших вычислительных затрат [10], так как включает комбинаторный поиск по всем шаблонам во всех возможных положениях. Удобно, что VSA-кодирование позволяет реализовать этот поиск быстро и параллельно. Резонатор итеративно оценивает каждый фактор, удаляя оценки других факторов (Рис. 1C и E). Чем ближе к правильному решению, тем лучше оценки факторов поддерживают друг друга и "резонируют". Важно отметить, что сеть не обучается на комбинациях факторов, но благодаря VSA-связыванию она способна факторизовать комбинации, которые никогда не видела (что можно назвать композиционным обобщением zero-shot). Подробное объяснение модели см. в [8].

Для реализации сети резонаторов на нейроморфном оборудовании мы используем популяции фазовых нейронов [2] для представления комплексных FHRR-векторов, при этом операция связывания соответствует сдвигам времени спайков [8, 7]. Наша доказательная концепция на исследовательском нейроморфном чипе Intel Loihi демонстрирует улучшение энергопотребления более чем на два порядка по сравнению с реализацией на CPU. Кроме того, чтобы включить вращение и масштабирование в дополнение к трансляции и цвету, мы разрабатываем иерархический резонатор (HRN) — разделенную архитектуру, в которой векторное связывание эквивариантно для горизонтальной и вертикальной трансляции в одном разделе и для вращения и масштабирования — в другом.

В завершение HRN применяется в реальном сценарии робототехники для решения задачи визуальной одометрии, т.е. оценки положения камеры по визуальному входному сигналу [9]. Мы используем HRN как рекурсивный фильтр, который оценивает три степени свободы движения камеры и позволяет осуществлять сенсорную интеграцию визуальной и инерциальной модальностей. Наш подход превосходит обученные нейросетевые подходы на наборе данных, основанных на событийном зрении. Наша работа — это шаг к масштабируемым, надежным нейро-символьным алгоритмам для нейроморфного оборудования.

*Перевод выполнен с помощью нейросетей

Neuromorphic Hyperdimensional Visual Scene Factorization

Summary. In this talk at NNPC 2023, I will present a modular neuromorphic algorithm leveraging recent advancements in hyperdimensional computing/ Vector Symbolic Architectures (VSAs). VSAs have been proposed as a framework for symbolic reasoning, spatial, and graph operations on neuromorphic hardware. They make use of a small set of computational primitives that are robust, efficient, and compatible with diverse hardware. Our algorithm approaches scene understanding as a factorization problem and employs the resonator network to extract object identities and transformations. This is achieved by reflecting the algebraic structure of 2d rigid transforms (translations and rotation) in the neural VSA representation. Finally, we use a spike-timing-based implementation of phasor neurons to show an efficient proof of concept implementation on neuromorphic hardware and employ the model in a robotics task for visual odometry (visual SLAM). Simultaneously inferring the identity and position of objects and their rigid transformations is still a challenging problem in visual scene understanding. We propose a neuromorphic solution leveraging three key concepts: (1) A computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; VSAs provide a framework [5] for developing scalable algorithms that make use of massive parallelism, sparse event-based/asynchronous computation, in-memory compute, and local connectivity, hallmarks of neuromorphic computation. VSAs are suitable for various neuromorphic substrates; we demonstrate an implementation on Intel’s asynchronous digital neuromorphic research chip Loihi [8, 7]. (2) Hierarchical Resonator Networks (HRNs) as an extension of the resonator model [3, 4] to handle the non-commutative nature of translation and rotation in visual scenes when both are used in combination. (3) A spike-timing-based phasor neuron model for implementing complex-valued vector binding on neuromorphic hardware. To demonstrate visual scene factorization, we focus on synthetic images of simple visual scenes composed of object (letter) templates (d) that are translated (h,v) and colored (c). The network’s task is to estimate the object identities, colors, and locations from an image (see the network’s output in Fig. 1D). We use VSA binding operations to produce generative image models in which binding (⊙, equivalent to multiplication) acts as the equivariant operation for geometric transformations [1] (Fig. 1A). In order to feed an image (such as Fig. 1A) into the network, we encode images into hypervectors using complex-valued Fourier Holographic (FHRR) vectors [6]. A pixel at the Cartesian image coordinates x and y is represented by the index vector h x ⊙ v y according to [1] (with vj and hj = e ıϕj , ϕj ∼ U[0, 2π]). This kind of image encoding has pivotal properties for our proposed scene factorization algorithm as it ensures that the equivariant vector operation for image translation is the binding operation. The generative model allows one to easily compose and render a synthetic scene, but inference in generative models is computationally expensive [10] as it involves a combinatorial search across all templates in all possible poses. Conveniently, the VSA encoding permits a fast parallel implementation of this search. The resonator iteratively estimates each factor by removing estimates of the other factors (Fig. 1C and E). The closer to the correct solution, the better the estimates of the factors support each other and ”resonate.” Note that the network is not trained on the combined factors, but thanks to the VSA binding, it is able to factorize combinations it has never seen (which could be called zero-shot compositional generalization). For a detailed model explanation, see [8]. To implement the resonator network on neuromorphic hardware, we use populations of phasor neurons [2] to represent the complex FHRR vectors, with the binding operation corresponding to spike timing shifts [8, 7]. Our proof of concept on Intel’s neuromorphic research chip Loihi achieves more than two orders of magnitude improvement in energy consumption compared to a CPU implementation. Furthermore, to incorporate rotation and scaling in addition to translation and color, we develop the hierarchical resonator (HRN), a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition and for rotation and scaling within the other. Finally, the HRN is put to use in a real-world robotics application scenario to solve visual odometry, i.e., estimation of the camera pose from visual input [9]. We use the HRN as a recursive filter that estimates three degrees of freedom of camera movement and allows sensory fusion of the visual and inertial modalities. Our approach outperforms trained neural network approaches on an event-based vision dataset. Our work is a step towards scalable, robust neuro-symbolic algorithms for neuromorphic hardware.

Полный текст статьи