Анализ визуальной сцены путем вывода конфигурации генеративной модели широко считается наиболее гибким и обобщаемым подходом к пониманию сцены. Тем не менее, одной из основных проблем является вычислительная сложность процедуры вывода, включающая комбинаторный поиск по идентификаторам и позам объектов. Здесь мы предлагаем нейроморфное решение, использующее три ключевые концепции: (1) вычислительная структура, основанная на векторной символической архитектуре (VSA) с комплекснозначными векторами; (2) разработка иерархических резонаторных сетей (HRN) для факторизации некоммутативных преобразований перемещения и вращения в визуальных сценах; (3) разработка многокомпонентной модели импульсного фазового нейрона для реализации комплекснозначных резонаторных сетей на нейроморфном оборудовании. Структура VSA использует операции связывания векторов для формирования генеративной модели изображения, в которой связывание действует как эквивариантная операция для геометрических преобразований. Таким образом, сцену можно описать как сумму векторных произведений, которые затем эффективно факторизуются резонаторной сетью для определения объектов и их поз. Сеть HRN имеет секционированную архитектуру, в которой связывание векторов эквивариантно для горизонтального и вертикального перемещения в пределах одной секции и для вращения и масштабирования в пределах другой секции. Модель импульсных нейронов позволяет отображать резонаторную сеть на эффективное и маломощное нейроморфное оборудование. Наш подход демонстрируется на синтетических сценах, состоящих из простых двумерных фигур, подвергающихся жестким геометрическим преобразованиям и изменению цвета. В сопутствующей статье тот же подход демонстрируется в реальных сценариях применения для машинного зрения и робототехники.
Введение
Понимание визуальной сцены — давняя проблема машинного зрения и искусственного интеллекта. Разделение объектов сцены на их индивидуальные свойства — многообещающая, но в то же время весьма сложная и в значительной степени нерешённая вычислительная задача, поскольку она требует поиска в очень большом диапазоне возможных конфигураций комбинирования объектов с вариациями позы, цвета, освещения и других характеристик .1,2,3] . Было предложено использовать сверточные нейронные сети (CNN) – подход, который обычно требует больших объёмов обучающих данных и дополнительных дополнений для обработки вариаций поз или стилей. Результативность часто оказывается нестабильной .4,5] и легко обмануть [6,7] . Кроме того, работа сверточных нейронных сетей непрозрачна, поскольку информация о сцене запутана в их параметрах, что затрудняет отслеживание потока информации и устранение неисправностей.
Давно предполагалось, что мозг решает проблему понимания визуальной сцены посредством «анализа через синтез», при котором генеративная модель используется для определения компонентов сцены, которые лучше всего объясняют визуальную информацию .8,9,10] . Однако этот тип вывода требует высоких вычислительных затрат, что препятствует широкому распространению этой стратегии. Недавние исследования показали, что для рабочих нагрузок, требующих повторяющихся итеративных вычислений, таких как вывод в генеративных моделях, нейроморфные вычисления могут значительно превосходить подходы на базе центральных и графических процессоров .11] . В частности, специальные нейроморфные чипы на основе шипов [12,13,14,15,11] ускоряют время вычислений и снижают энергопотребление благодаря параллелизму и обработке в оперативной памяти [16] , разреженность и основанный на событиях [17] природа.
Наш нейроморфный подход к анализу сцены использует программную структуру из Cognitive Science, которая представляет информацию в виде многомерных векторов, а затем выполняет вычисления на основе этих представлений с помощью явной алгебры [18,19,20] . Структура, известная как векторная символическая архитектура (VSA) [21] , или гиперпространственные вычисления (HC) [22] , предлагает явную операцию связывания, которая решает так называемую проблему связывания признаков в обычных искусственных нейронных сетях [23,24,25] . Здесь мы используем последние разработки в области VSA для разработки нейроморфного алгоритма [26] для анализа сцены: 1) математическая структура, которая расширяет VSA для представления непрерывных переменных и функций [27] и 2) резонаторная сеть , которая эффективно решает многофакторную векторную факторизацию в VSA [28,29] . Первая разработка позволяет нам кодировать изображение в представлении VSA таким образом, что связывание действует как эквивариантная операция для определенных геометрических преобразований [27] , тогда как второй вариант позволяет легко выводить объекты и их преобразования с помощью векторной факторизации [28,29] .
Предлагаемый подход относится к более широкому семейству многолинейных моделей для определения формы объектов и их преобразований в контексте генеративной модели изображения. К ним относятся ранние предложения Питтса и МакКаллока (1947) [30] и Хинтон (1981) [31] для перераспределения сенсорной информации в каноническую систему отсчета, нейробиологические модели, такие как динамическая маршрутизация [32] , схемы поиска по карте [33,34] , а также билинейные модели, которые учатся различать форму и движение (или «стиль» и «содержание») [35,36,37,38,39] .
Здесь мы сначала описываем, как изображение может быть закодировано в представлении VSA таким образом, чтобы операция связывания была эквивариантной операцией для трансляции. Затем, используя ту же схему кодирования, мы формулируем генеративную модель сцены, состоящей из транслированных шаблонных фигур, и показываем, как резонаторные сети [28] может выводить переводы и шаблоны объектов, которые сгенерировали заданное изображение. Развивая этот подход, мы разрабатываем алгоритм, использующий новую иерархическую резонаторную сеть для анализа сцен, состоящих из произвольных жёстких преобразований шаблонов форм. Наконец, мы демонстрируем, как реализовать основные компоненты иерархической резонаторной сети на нейроморфном исследовательском чипе Intel Loihi [40] , используя эффективный код синхронизации импульсов.
*Перевод выполнен с помощью нейросетей
Neuromorphic Visual Scene Understanding with Resonator Networks
Analyzing a visual scene by inferring the configuration of a generative model is widely considered the most flexible and generalizable approach to scene understanding. Yet, one major problem is the computational challenge of the inference procedure, involving a combinatorial search across object identities and poses. Here we propose a neuromorphic solution exploiting three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to factorize the non-commutative transforms translation and rotation in visual scenes; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued resonator networks on neuromorphic hardware. The VSA framework uses vector binding operations to form a generative image model in which binding acts as the equivariant operation for geometric transformations. A scene can, therefore, be described as a sum of vector products, which can then be efficiently factorized by a resonator network to infer objects and their poses. The HRN features a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition and for rotation and scaling within the other partition. The spiking neuron model allows mapping the resonator network onto efficient and low-power neuromorphic hardware. Our approach is demonstrated on synthetic scenes composed of simple 2D shapes undergoing rigid geometric transformations and color changes. A companion paper demonstrates the same approach in real-world application scenarios for machine vision and robotics.
Introduction
Visual scene understanding is a long-standing problem of machine vision and artificial intelligence. The disentanglement of scene objects into their individual properties is promising but also a notoriously hard –and largely unsolved– computational problem because it requires searching over a very large space of possible configurations of how objects can be combined with variations in pose, color, lighting, and other features [1, 2, 3]. The use of convolutional neural networks (CNN) has been proposed, an approach that typically requires large amounts of training data and additional augmentations to handle variations in pose or style. The resulting performance is often brittle [4, 5] and easily fooled [6, 7]. Further, the operation of CNNs is opaque with the scene information entangled in their parameters, which makes it difficult to trace information flow and to fix the failure modes.
It has long been proposed that the brain solves visual scene understanding via “analysis-by-synthesis” whereby a generative model is used to infer the components of a scene that best explain the visual input [8, 9, 10]. However, this type of inference incurs a high computational cost, which has prevented the widespread deployment of this strategy. Recent work has shown that for workloads that require recurrent iterative computations, like inference in generative models, neuromorphic computing can vastly outperform CPU and GPU-based approaches [11]. Specifically, custom spike-based neuromorphic chips [12, 13, 14, 15, 11] accelerate computing times and reduce power consumption thanks to their parallelism, in-memory processing [16], sparsity, and event-based [17] nature.
Our neuromorphic approach to scene analysis employs a programming framework from Cognitive Science that represents information as high-dimensional vectors and then computes on these representations via an explicit algebra [18, 19, 20]. The framework, known as Vector Symbolic Architectures (VSAs) [21], or Hyperdimensional Computing (HC) [22], offers an explicit binding operation that addresses the so-called feature binding problem in conventional artificial neural networks [23, 24, 25]. Here, we leverage recent developments in VSA for designing a neuromorphic algorithm [26] for scene analysis: 1) a mathematical framework that extends VSAs to represent continuous variables and functions [27], and 2) a resonator network that efficiently solves multi-factor vector factorization in VSAs [28, 29]. The first development enables us to encode an image in a VSA representation such that binding acts as the equivariant operation for specific geometric transformations [27], while the second one makes it tractable to infer objects and their transformations via vector factorization [28, 29].
The proposed approach falls within the larger family of multilinear models for inferring object shapes and their transformations in the context of a generative image model. These include early proposals by Pitts & McCulloch (1947)[30] and Hinton (1981)[31] for remapping sensory information into a canonical reference frame, neurobiological models such as dynamic routing [32], map-seeking circuits [33, 34], as well as bilinear models that learn to disentangle form vs. motion (or ‘style’ vs. ‘content’) [35, 36, 37, 38, 39].
Here, we first describe how an image can be encoded in a VSA representation so that the binding operation is the equivariant operation for translation. With the same encoding scheme, we then formulate a generative model of a scene composed of translated template shapes and show how resonator networks [28] can infer translations and object templates that generated a given image. Extending this approach, we develop an algorithm employing a new hierarchical resonator network for analyzing scenes composed of arbitrary rigid transforms of shape templates. Finally, we demonstrate how to implement the essential components of the hierarchical resonator network on Intel’s neuromorphic research chip, Loihi [40], utilizing an efficient spike-timing code.