Непрерывное обучение для автономных роботов: подход на основе прототипов

Робототехника

Люди и животные учатся на протяжении всей жизни на основе ограниченного количества сенсорных данных, как с учителем, так и без него. Ожидается, что автономные интеллектуальные роботы будущего будут делать то же самое. Существующие методы непрерывного обучения (Continual Learning, CL), как правило, неприменимы напрямую в робототехнике: они обычно требуют буферизации и сбалансированного воспроизведения обучающих данных. Было предложено обучение в условиях непрерывного онлайн-обучения с малым числом примеров (Few-Shot Online Continual Learning, FS-OCL) для решения более реалистичных сценариев, в которых роботы должны обучаться по неповторяющемуся разреженному потоку данных. Чтобы обеспечить подлинно автономное обучение на протяжении всей жизни, необходимо решить дополнительную задачу — обнаружение новизны и изучение новых объектов без учителя. Мы решаем эту задачу с помощью нашего нового подхода на основе прототипов, называемого «Непрерывно обучающиеся прототипы» (Continually Learning Prototypes, CLP). Помимо возможности обучения в условиях FS-OCL, CLP также обнаруживает новые объекты и обучается им без учителя. Чтобы смягчить проблему забывания, CLP использует новый механизм метапластичности, который адаптирует скорость обучения индивидуально для каждого прототипа. CLP не требует репетиции (rehearsal-free), следовательно, не нуждается в буфере памяти, и совместим с нейроморфным оборудованием, характеризующимся сверхнизким энергопотреблением, способностями к обработке в реальном времени и обучением на кристалле. Действительно, мы опубликовали упрощенную версию CLP в нейроморфной программной среде Lava, предназначенной для нейроморфного чипа Intel Loihi 2. Мы оцениваем CLP на наборе данных роботизированного зрения OpenLORIS. В сценарии FS-OCL с малым числом примеров CLP показывает результаты на уровне современных аналогов. В условиях открытого мира CLP обнаруживает новизну с превосходной точностью и полнотой и изучает особенности обнаруженных новых классов без учителя, достигая надежного базового уровня: 99% точности для базовых классов и 65%/76% (5-кратная/10-кратная выборка) точности для новых классов.

Автономное, интерактивное и непрерывное обучение на протяжении всей жизни — это черты человеческого интеллекта, которые отличают его от машинного интеллекта современной эпохи. Современные методы машинного обучения превосходят и людей, и созданные вручную алгоритмы на заданном статическом наборе данных, но терпят сокрушительный провал, когда ключевые предположения схемы обучения нейронной сети, например, о одинаково и независимо распределенных данных (i.i.d.), нарушаются [1]. Чтобы устранить ограничения статического распределения данных, Непрерывное обучение (Continual Learning, CL) является emerging-темой в ИИ. Основная проблема, которую решает CL, — это катастрофическое забывание, явление, отражающее компромисс между приобретением новых знаний и сохранением старых, также известное как дилемма пластичности-стабильности [2]. Методы повторения (replay), регуляризации, изоляции параметров и расширения сети были одними из наиболее распространенных методов в литературе по CL [1], [3].

Однако проблема катастрофического забывания — не единственная трудность, которую необходимо преодолеть, чтобы сократить разрыв между сегодняшним обучением глубоких нейронных сетей и более естественными процессами обучения, известными нам у людей и животных. Недавно внимание привлекло изучение объектов по небольшому количеству размеченных примеров, предоставляемых через неповторяющийся поток входных данных [4], [5]. Этот подход, формально называемый непрерывным онлайн-обучением с малым числом примеров (FS-OCL), является шагом к реалистичному обучению для роботов. Тем не менее, FS-OCL все еще далек от сценариев обучения в реальном мире. Например, обучение понятиям у человека включает не только небольшое количество прямых инструкций (например, маркировку родителей), но и большое количество неразмеченного опыта (например, наблюдение за объектами без их называния). Это обучение без учителя является непрерывным, автономным и интерактивным. Сильным драйвером этого процесса обучения является обнаружение новизны — способность распознавать экземпляр как нечто, не виданное ранее [6], [7]. Напротив, общее предположение о закрытом мире в глубоком обучении состоит в том, что все тестовые экземпляры принадлежат к изученным классам.

Однако одного обнаружения новых экземпляров недостаточно, поскольку такая система должна также интегрировать эти новшества в свои знания, даже без контроля [8]. Поэтому мы расширяем FS-OCL, включив в него обучение в открытом мире (open-world) и частичное обучение (semi-supervised learning), чтобы достичь наиболее естественной настройки непрерывного обучения объектов для роботов, которую мы кратко называем Непрерывное обучение в открытом мире (Open World Continual Learning, OWCL).

Мы предлагаем «Непрерывно обучающиеся прототипы» (CLP), комплексный алгоритм обучения для решения OWCL, который способен к непрерывному онлайн-обучению по малому количеству (не)размеченных данных в открытом мире с неизвестными объектами. Мы представляем новый механизм динамической адаптации скорости обучения для отдельных нейронов-прототипов (метапластичность [9]), чтобы решить дилемму стабильности-пластичности и, следовательно, проблему катастрофического забывания. Кроме того, мы разрешаем несколько прототипов на класс, которые могут выделяться со временем через обнаружение новизны и динамически адаптироваться в режиме частичного обучения из потока входных данных. Что важно, CLP не требует репетиции и не поддерживает буфер памяти, поскольку ориентирован на роботизированные платформы, которые обычно имеют ограничения по вычислительным ресурсам, памяти и энергии. Чтобы усилить этот аргумент, мы также реализовали упрощенную версию CLP для нейроморфного чипа Loihi 2 и опубликовали ее с открытым исходным кодом как часть программного фреймворка Lava. Обратите внимание, что детали и результаты нейроморфной реализации выходят за рамки данной статьи.

Наши вклады суммируются следующим образом:

Мы решаем новую задачу обучения под названием непрерывное обучение в открытом мире (OWCL), чтобы оценить обучение объектов робота наиболее реалистичным способом. Этот сценарий предполагает, что данные становятся доступными по одному образцу в открытом мире, где новые классы могут появляться спонтанно, с метками или без них. Эти экземпляры необходимо обнаруживать и изучать, возможно, с малым числом примеров, и все это время избегая катастрофического забывания.
Это сочетается с позитивными или негативными обновлениями для прототипов-победителей на основе метки. Если метка недоступна, CLP ведет себя как алгоритм кластеризации с помощью обнаружения новизны, который обнаруживает и изучает новые экземпляры, одновременно способный отслеживать постепенные смещения понятий.
Мы динамически настраиваем несколько прототипов на класс в режиме частичного обучения из потока данных.*

*Перевод выполнен с помощью нейросетей

Continual Learning for Autonomous Robots: A Prototype-based Approach

Humans and animals learn throughout their lives from limited amounts of sensed data, both with and without supervision. Autonomous, intelligent robots of the future are often expected to do the same. The existing continual learning (CL) methods are usually not directly applicable to robotic settings: they typically require buffering and a balanced replay of training data. A few-shot online continual learning (FSOCL) setting has been proposed to address more realistic scenarios where robots must learn from a non-repeated sparse data stream. To enable truly autonomous life-long learning, an additional challenge of detecting novelties and learning new items without supervision needs to be addressed. We address this challenge with our new prototype-based approach called Continually Learning Prototypes (CLP). In addition to being capable of FS-OCL learning, CLP also detects novel objects and learns them without supervision. To mitigate forgetting, CLP utilizes a novel metaplasticity mechanism that adapts the learning rate individually per prototype. CLP is rehearsal-free, hence does not require a memory buffer, and is compatible with neuromorphic hardware, characterized by ultra-low power consumption, real-time processing abilities, and on-chip learning. Indeed, we have open-sourced a simple version of CLP in the neuromorphic software framework Lava, targetting Intel’s neuromorphic chip Loihi 2. We evaluate CLP on a robotic vision dataset, OpenLORIS. In a low-instance FS-OCL scenario, CLP shows state-of-the-art results. In the open world, CLP detects novelties with superior precision and recall and learns features of the detected novel classes without supervision, achieving a strong baseline of 99% base class and 65%/76% (5-shot/10-shot) novel class accuracy. I. INTRODUCTION Autonomous, interactive, and lifelong learning are features of human intelligence that distinguish it from the machine intelligence of the modern age. Current machine learning methods outperform both humans and hand-crafted algorithm on a given static data set, but fail spectacularly when the key assumptions of the neural network training scheme, e.g., of identically and independently distributed (i.i.d.) data, are violated [1]. To address the limitations of static data distribution, Continual Learning (CL) is an emerging topic in AI. The main issue CL aims to address is catastrophic forgetting, the phenomenon that reflects the trade-off between attaining new knowledge while retaining the old knowledge, also known as the plasticity-stability dilemma [2]. Replay, regularization, parameter isolation, and network expansion methods have been some of the most common techniques in the CL literature [1], [3]. However, the problem of catastrophic forgetting is not the only challenge that must be addressed to close the gap between today’s training of deep neural networks and the more natural learning processes we know from humans and animals. Recently, learning objects from a few labeled samples provided through a non-repeating stream of input has gained attention [4], [5]. This setting, formally called fewshot online continual learning (FS-OCL), is a step towards realistic learning for robots. Yet, FS-OCL is still far from real-world learning scenarios. For instance, human concept learning involves not only a small amount of direct instruction (e.g., parental labeling) but also large amounts of unlabeled experience (e.g., observation of objects without naming them). This unsupervised learning is continual, autonomous, and interactive. A strong driver of this learning process is novelty detection – the ability to recognize an instance as something not seen before [6], [7]. On the contrary, a common close-world assumption in deep learning is that all the test instances are from the learned classes. Detecting novel instances alone is not enough, however, as such a system should also integrate these novelties into its knowledge, even without supervision [8]. Therefore, we extend FS-OCL to include open-world and semi-supervised learning to achieve the most natural continual object learning setting for robots, which we shortly call Open World Continual Learning (OWCL). We propose Continually Learning Prototypes (CLP), a comprehensive learning algorithm to tackle OWCL, which is capable of online continual learning from few-shot (un)labeled data in the open world with unknowns. We introduce a novel dynamic adaptation mechanism for the learning rate of individual prototype neurons (metaplasticity [9]) to address the stability-plasticity dilemma and, hence, catastrophic forgetting. Furthermore, we allow multiple prototypes per class, which can be allocated over time via novelty detection and dynamically adapt in a semi-supervised manner from a stream of input. Crucially, CLP is rehearsalfree and does not maintain a memory buffer, as it targets robotic platforms, which generally have compute, memory, and energy constraints. To further this argument, we also implemented a simpler version of CLP for neuromorphic chip Loihi 2 and open-sourced it as part of the Lava software framework1 . Note that the details and results of the neuromorphic implementation are beyond the scope of this paper. Our contributions are summarized as follows: • We tackle a novel learning scenario called open-world continual learning (OWCL) to evaluate robotic object learning in the most realistic way. This scenario assumes data becomes available sample-by-sample in open-world, where novel classes may appear spontaneously with or without labels. These instances need to be detected and learned, possibly with few shots, all the while avoiding catastrophic forgetting. • This is combined with positive or negative updates to winner prototypes based on the label. If the label is not available, CLP behaves as a novelty detectionassisted clustering algorithm that detects and learns novel instances while being able to follow gradual concept drifts. • We dynamically adjust multiple prototypes per class in a semi-supervised manner from streaming input.

Полный текст статьи