Визуальная одометрия с нейроморфными резонаторными сетями

Визуальная одометрия (VO) — это метод оценки собственного движения мобильного робота с использованием визуальных сенсоров. В отличие от одометрии, основанной на интегрировании дифференциальных измерений, которые могут накапливать ошибки, таких как инерциальные датчики или энкодеры колес, визуальная одометрия не подвержена дрейфу. Однако, основанная на кадрах VO вычислительно требовательна, что ограничивает её применение в случаях с низкими требованиями к задержкам, памяти и энергопотреблению. Нейроморфное оборудование предлагает маломощные решения для многих задач зрения и ИИ, но проектирование таких решений сложно и часто должно собираться с нуля. Здесь мы предлагаем использовать Векторно-Символьные Архитектуры (VSA) в качестве уровня абстракции для проектирования алгоритмов, совместимых с нейроморфным оборудованием. Основываясь на модели VSA для анализа сцены, описанной в нашей сопровождающей статье, мы представляем модульный нейроморфный алгоритм, который достигает передовой производительности в задачах двумерной VO. В частности, предложенный алгоритм сохраняет и обновляет рабочую память о представленной визуальной среде. На основе этой рабочей памяти резонаторная сеть оценивает изменяющиеся положение и ориентацию камеры. Мы экспериментально проверяем нейроморфный подход к VO на основе VSA с двумя тестами: один на основе набора данных с событийной камерой, а другой — в динамической сцене с роботизированной задачей.

Животные размером с пчелу, имеющие менее миллиона нейронов, демонстрируют необычайную способность ориентироваться в сложных средах, используя визуальную информацию [1]. Эти животные используют визуальные сигналы для оценки своего движения и отслеживания своего положения относительно важных мест. Сравнимое вычисление, выполняемое машинами, называется визуальной одометрией (VO). Биологическое решение VO остается непревзойденным по компактности и энергоэффективности по сравнению с лучшими современными техническими решениями в робототехнике [2, 3]. Повышение энергоэффективности VO — это открытая задача, которая может позволить реализовать новые приложения, такие как небольшие автономные дроны [4], планетарные роверы [5–7] или легкие очки дополненной реальности (AR). Текущие алгоритмы VO в основном реализованы с использованием сенсоров на основе кадров (камер) и синхронных вычислений, либо на встроенном CPU/GPU, либо в облаке. В обоих случаях обработка изображений для VO является вычислительно сложной операцией. Она требует вычисления пространственной корреляции между последующими кадрами, непосредственно между пикселями или между извлеченными признаками, которые можно надежно отслеживать. Повышение эффективности VO может обеспечить расширенные возможности навигации для небольших автономных роботизированных устройств с ограниченным энергобюджетом. Принципы работы биологической визуальной оценки собственного движения являются многообещающим путем для создания новых, более эффективных нейро-инспирированных систем обработки VO.

*Перевод выполнен с помощью нейросетей

Visual Odometry with Neuromorphic Resonator Networks

Visual Odometry (VO) is a method to estimate self-motion of a mobile robot using visual
sensors. Unlike odometry based on integrating differential measurements that can accumulate
errors, such as inertial sensors or wheel encoders, visual odometry is not compromised by
drift. However, image-based VO is computationally demanding, limiting its application
in use cases with low-latency, low-memory, and low-energy requirements. Neuromorphic
hardware offers low-power solutions to many vision and AI problems, but designing such
solutions is complicated and often has to be assembled from scratch. Here we propose to use
Vector Symbolic Architecture (VSA) as an abstraction layer to design algorithms compatible
with neuromorphic hardware. Building from a VSA model for scene analysis, described in
our companion paper, we present a modular neuromorphic algorithm that achieves state-
of-the-art performance on two-dimensional VO tasks. Specifically, the proposed algorithm
stores and updates a working memory of the presented visual environment. Based on this
working memory, a resonator network estimates the changing location and orientation of the
camera. We experimentally validate the neuromorphic VSA-based approach to VO with two
benchmarks: one based on an event camera dataset and the other in a dynamic scene with a
robotic task.

Animals as small as bees, with less than one million neurons, show an extraordinary ability
to navigate complex environments using visual information [1]. These animals use visual signals
to estimate their motion and to keep track of their position relative to important locations. A
comparable computation performed by machines is called Visual Odometry (VO). The biological
solution to VO remains unmatched in compactness and energy efficiency compared to today’s best
technical solutions found in robotics [2, 3]. Improving the energy efficiency of VO is an open challenge
that can enable novel applications, such as small autonomous drones [4], planetary rovers [5–7],
or light-weight augmented reality (AR) glasses. Current VO algorithms are mostly implemented
using image-based sensors (cameras) and frame-based, synchronous computing, either with an
on-device CPU or GPU or in the cloud. In both cases, image processing for VO is a computationally
demanding operation. It requires computing spatial correlation between subsequent frames, directly
between pixels, or between extracted features that can be tracked reliably. Improving the efficiency
of VO can enable advanced navigation capabilities on small autonomous robotic devices with a
limited power budget. The working principles of biological visual self-motion estimation are a
promising avenue to build novel, more efficient neural-inspired VO processing systems.

Полный текст статьи