Генерация надежной траектории для управления роботом на нейроморфном исследовательском чипе Loihi

Робототехника

Нейроморфное оборудование обладает рядом многообещающих преимуществ по сравнению с архитектурами фон Неймана и представляет большой интерес для управления роботами. Однако, несмотря на высокую скорость и энергоэффективность нейроморфных вычислений, алгоритмы, использующие это оборудование в сценариях управления, по-прежнему встречаются редко. Одна из проблем — переход от быстрой импульсной активности на аппаратном уровне, которая действует в масштабе нескольких миллисекунд, к временному масштабу, имеющему значение для управления, порядка сотен миллисекунд. Другая проблема — выполнение сложных траекторий, требующее достаточной изменчивости импульсной активности, в то время как для надежной работы динамика сети должна быть достаточно устойчивой к шуму. В этом исследовании мы используем недавно разработанную, вдохновленную биологией, модель импульсной нейронной сети, так называемую анизотропную сеть. Мы идентифицировали и перенесли основные принципы анизотропной сети на нейроморфное оборудование, используя нейроморфный исследовательский чип Intel Loihi, и проверили систему на траекториях задачи управления двигателем, выполняемой роботизированной рукой. Мы разработали сетевую архитектуру, включающую анизотропную сеть и слой пулинга, которая обеспечивает быстрое считывание импульсов с чипа и выполняет внутреннюю регуляризацию. С помощью этого мы показали, что анизотропная сеть на Loihi надежно кодирует последовательные паттерны нейронной активности, каждый из которых представляет собой роботизированное действие, и что эти паттерны позволяют генерировать многомерные траектории в масштабах времени, имеющих значение для управления. В совокупности наше исследование представляет новый алгоритм, позволяющий генерировать сложные роботизированные движения в качестве строительного блока для управления роботами с использованием современного нейроморфного оборудования.

В младенческом возрасте люди приобретают навыки тонкой моторики, позволяющие гибко взаимодействовать с реальными объектами. Например, большинство людей могут без труда взять стакан воды, несмотря на различия в форме объекта и окружающей среде. Однако достижение такого уровня гибкости в искусственных автономных системах является сложной задачей. Для этого такая система должна точно классифицировать входные данные и предпринимать соответствующие действия в условиях шума. Таким образом, повышение устойчивости к шуму на входе имеет решающее значение для разработки надежных автономных систем.

Нейроморфное оборудование основано на высокопараллельных биоинспирированных вычислениях, использующих децентрализованные вычислительные блоки, подобные нейронам. Вместо классического разделения обработки и памяти, на нейроморфном оборудовании информация обрабатывается и хранится как в сети этих вычислительных блоков. Нейроморфные архитектуры обеспечивают более быстрые и энергоэффективные вычисления, чем традиционные ЦП или ГП, что является важной особенностью для автономных систем. Однако перенос существующих алгоритмов управления роботами (например, Ijspeert et al., 2002 ) на нейроморфное оборудование сам по себе является амбициозной задачей и сложной задачей оптимизации под конкретную архитектуру оборудования. В то же время разработка новых алгоритмов также представляет собой сложную задачу из-за децентрализованного принципа проектирования нейроморфного оборудования как сети вычислительных блоков.

В качестве базового типа сети для различных нейроморфных архитектур, разработанных в последние годы, используются импульсные нейронные сети (SNN), получившие название нейронных сетей третьего поколения. В частности, в качестве алгоритмической основы часто используется парадигма резервуарных вычислений, например, сети с эхо-состоянием или машины с жидким состоянием. В резервуарных вычислениях случайно связанная SNN обеспечивает «резервуар» разнообразных вычислений, который может быть использован путем обучения весов от элементов резервуара к дополнительным элементам, составляющим зависящие от времени выходные данные системы.

Внутренняя динамика резервуара или SNN, как правило, обеспечивает достаточный уровень изменчивости, позволяющий считывать произвольные выходные функции в масштабе времени, имеющем значение для управления. Однако система выходит из строя, если входной сигнал зашумлен или возникают возмущения во время выполнения траектории. Иными словами, динамика импульсной активности в SNN часто нестабильна, то есть небольшие изменения начальных условий приводят к различным паттернам импульсной активности. Таким образом, при обучении выходных данных с использованием такого паттерна импульсной активности низкий уровень шума приводит к отклонению оценочного выходного сигнала от целевого, и стабильные траектории могут быть получены только в масштабе миллисекунд. С другой стороны, динамика аттракторов обеспечивает высокостабильную, устойчивую активность; однако ей, как правило, не хватает изменчивости в динамике импульсной активности, необходимой для обучения сложным выходным данным. Это подразумевает компромисс между стабильностью и изменчивостью, также обозначаемый как компромисс между устойчивостью и гибкостью.

В последние годы был разработан ряд подходов для стабилизации динамики импульсной активности SNN при сохранении достаточной вариативности для обучения выходным данным. Для повышения стабильности в последних подходах использовались структуры прямого распространения или правила обучения с учителем ( Laje и Buonomano, 2013 ). Хотя структуры с прямой связью обеспечивают стабильные паттерны активности, как правило, они разворачиваются в очень быстром временном масштабе или требуют нейронной/синаптической адаптации, при которой активность перемещается между группами нейронов. А поскольку для обучения с учителем все состояния сети должны быть доступны на каждом вычислительном блоке, эти так называемые глобальные правила обучения несовместимы с большинством нейроморфных устройств.

Таким образом, достижение стабильных паттернов активности в масштабе времени, имеющем значение для управления, в сетевой архитектуре и режиме обучения, способных работать на нейроморфном оборудовании, остается открытой проблемой. Необходимыми критериями являются: (1) механизмы обучения или адаптации в SNN должны быть локальными для отдельных синапсов, или синапсы должны быть статическими; (2) последовательные паттерны активности должны оставаться активными в течение сотен миллисекунд; (3) паттерны спайков должны содержать достаточную вариативность для произвольного обучения выходным данным; и (4) сеть должна обладать устойчивой к шуму нейронной динамикой. Выполнение этих критериев особенно сложно для рекуррентных сетевых структур, таких как резервуарные сети. Однако так называемая анизотропная сетевая модель представляется многообещающим кандидатом . Модель основана на биологически инспирированном правиле формирования пространственно асимметричных непластичных связей. Таким образом, синапсы являются статическими, удовлетворяя первому критерию, а временной масштаб последовательностей активности составляет порядка десятков-сотен миллисекунд, удовлетворяя второму критерию. Однако, удовлетворяет ли модель также третьему и четвертому критериям — достаточной изменчивости и стабильности при воздействии входного шума, — еще не было оценено.

В данной работе мы используем анизотропную сеть в качестве строительного блока для нового алгоритма, обеспечивающего надежное управление роботом. Мы реализовали архитектуру сети на Kapoho Bay, нейроморфной аппаратной системе от Intel, содержащей два чипа Loihi, и показали, что этот подход может быть использован для обучения сложным траекториям в условиях зашумленного входного сигнала в масштабе времени, релевантном для управления. Кроме того, мы демонстрируем, что эта нейроморфная сетевая архитектура может не только надежно представлять сложные траектории, но и обобщать результаты за пределы своего опыта обучения.*

*Перевод выполнен с помощью нейросетей

Robust Trajectory Generation for Robotic Control on the Neuromorphic Research Chip Loihi

Neuromorphic hardware has several promising advantages compared to von Neumann architectures and is highly interesting for robot control. However, despite the high speed and energy efficiency of neuromorphic computing, algorithms utilizing this hardware in control scenarios are still rare. One problem is the transition from fast spiking activity on the hardware, which acts on a timescale of a few milliseconds, to a control-relevant timescale on the order of hundreds of milliseconds. Another problem is the execution of complex trajectories, which requires spiking activity to contain sufficient variability, while at the same time, for reliable performance, network dynamics must be adequately robust against noise. In this study we exploit a recently developed biologically-inspired spiking neural network model, the so-called anisotropic network. We identified and transferred the core principles of the anisotropic network to neuromorphic hardware using Intel's neuromorphic research chip Loihi and validated the system on trajectories from a motor-control task performed by a robot arm. We developed a network architecture including the anisotropic network and a pooling layer which allows fast spike read-out from the chip and performs an inherent regularization. With this, we show that the anisotropic network on Loihi reliably encodes sequential patterns of neural activity, each representing a robotic action, and that the patterns allow the generation of multidimensional trajectories on control-relevant timescales. Taken together, our study presents a new algorithm that allows the generation of complex robotic movements as a building block for robotic control using state of the art neuromorphic hardware.

During infancy, humans acquire fine motor control, allowing flexible interaction with real world objects. For example, most humans can effortlessly grasp a glass of water, despite variations in object shape and surroundings. However, achieving this level of flexibility in artificial autonomous systems is a difficult problem. To accomplish this, such a system must accurately classify inputs and take appropriate actions under noisy conditions. Thus, increasing robustness to input noise is crucial for the development of reliable autonomous systems.

Neuromorphic hardware is based on highly parallel bio-inspired computing, which employs decentralized neuron-like computational units. Instead of the classical separation of processing and memory, on neuromorphic hardware information is both processed and stored in a network of these computational units. Neuromorphic architectures offer faster and more energy-efficient computation than traditional CPUs or GPUs, which is a vital feature for autonomous systems. However, porting existing robot control algorithms to neuromorphic hardware is per se ambitious and difficult to optimize to the specific hardware architecture. At the same time, the development of new algorithms is also challenging due to the decentralized design principle of neuromorphic hardware as a network of computational units.

The basic network type for the various neuromorphic architectures developed in recent years are spiking neural networks (SNNs), coined third generation neural networks. In particular, the reservoir computing paradigm, such as echo state networks or liquid state machines, often serves as an algorithmic basis. In reservoir computing a randomly connected SNN provides a “reservoir” of diverse computations, which can be exploited by training weights from the reservoir units to additional units that constitute time-dependent outputs of the system.

The internal dynamics of the reservoir or SNN generally provide a sufficient level of variability such that arbitrary output functions on a control-relevant timescale can be read out. However, the system fails if the input is noisy or perturbations arise while the trajectory is being performed. That is to say, spiking dynamics in SNNs are often unstable, meaning that small changes in the initial conditions result in different spiking patterns . Thus, when an output is trained using such a spiking pattern, low levels of noise lead to a deviation of the estimated output from the target output and stable trajectories can only be obtained on a timescale of milliseconds. On the other hand, attractor dynamics provide highly stable, persistent activity; however, they tend to lack the variability in the spiking dynamics required for complex output learning. This implies a stability-variability trade-off, also denoted as a robustness-flexibility trade-off.

A number of approaches have been developed in recent years to stabilize the spiking dynamics of SNNs while retaining sufficient variability for output learning. To improve stability, recent approaches used feed-forward structures or employed supervised learning rules. While feed-forward structures provide stable activity patterns, in general these play out on a very fast timescale or require neural/synaptic adaptation such that activity moves between neuron groups . And since for supervised learning all states in the network need to be accessible at each computing unit, these so-called global learning rules are not compatible with most neuromorphic hardware.

Thus, achieving stable activity patterns on a control-relevant timescale in a network architecture and learning regime capable of running on neuromorphic hardware remains an open problem. Necessary criteria are that (1) learning or adaptation mechanisms in the SNN should be local to individual synapses, or synapses should be static, (2) sequential activity patterns should remain active for hundreds of milliseconds, (3) spike patterns should contain sufficient variability for arbitrary output learning, and (4) the network should possess noise-robust neuronal dynamics. Meeting these criteria is especially difficult for recurrent network structures, like reservoir networks. However, the so-called anisotropic network model appears to be a promising candidate. The model is based on a biologically-inspired rule for forming spatially asymmetric non-plastic connections. Thus, synapses are static, meeting the first criterion, and the timescale of activity sequences is on the order of tens to hundreds of milliseconds, fulfilling the second criterion. However, whether the model also fulfills the third and fourth criteria, sufficient variability and stability under input noise, has not yet been assessed.

In this paper we use the anisotropic network as a building block for a novel algorithm yielding robust robotic control. We implement the network architecture on Kapoho Bay, a neuromorphic hardware system from Intel containing two Loihi chips, and show that this approach can be used to learn complex trajectories under noisy input conditions on a control-relevant timescale. Furthermore, we demonstrate that this neuromorphic network architecture can not only robustly represent complex trajectories, but even generalize beyond its training experience.

Полный текст статьи