У тихому офісі в Кембриджі, штат Массачусетс, роботизоване захоплення рухається з несподіваною витонченістю. Він не просто вистачає предметів, він шукає. Коли лампочка викочується з його хватки, робот не завмирає і не робить помилки. Натомість він переслідує лампочку по столу, підхоплює її і акуратно вкручує в патрон, щоб висвітлити свій робочий простір.
Протягом десятиліть робототехніка стикалася з парадоксом, що розчаровує, відомим як парадокс Моравека: високорівневе мислення (наприклад, гра в шахи) дається комп’ютерам легко, а низькорівневі сенсомоторні навички (такі як утримання крихкого предмета або зав’язування шнурків). У той час як ІІ освоїв мову за допомогою таких моделей, як ChatGPT, фізичний світ залишається хаотичною та непередбачуваною задачею.
Стартап під назвою Eka зараз намагається подолати цей розрив, переходячи від «незграбної» автоматизації до справжнього фізичного інтелекту.
Перешкода «Sim-to-Real»
Щоб зрозуміти значущість прогресу Eka, необхідно подивитися історію навчання роботів. У 2018 році компанія OpenAI продемонструвала “Dactyl” – роботизовану руку, здатну зібрати кубик Рубіка. Незважаючи на вражаючий результат, цей успіх був «тендітним». Робот покладався на ідеальні умови та спеціалізовані датчики; якщо кубик вислизав або кут було трохи змінено, система виходила з ладу.
Індустрія довгий час боролася з проблемою «розриву між симуляцією і реальністю» (sim-to-real gap) — невідповідністю між ідеально контрольованим цифровим середовищем і хаотичним гравітації, що підкоряється реальним світом. Багато дослідників вважали, що навчання роботів виключно в симуляції – це тупиковий шлях, оскільки віртуальна фізика ніколи не зможе ідеально відтворити тертя, вагу та непередбачуваність реального життя.
Новий підхід: Зір – Сила – Дія
У той час як багато компаній намагаються навчати роботів, показуючи їм відео, на яких люди виконують завдання (метод, відомий як моделі «Зір-Мова-Дія»), Eka йде іншим шляхом. Замість того, щоб імітувати людей, вони дозволяють роботам “вчитися самостійно” за допомогою масштабних симуляцій.
Співзасновники компанії Пулкіт Агравал (професор Массачусетського технологічного інституту) та Туомас Хаарнойя (колишній дослідник Google DeepMind) розробили власний підхід:
- Самонавчається інтелект: Подібно до того, як AlphaZero від Google вчилася грати в шахи, борючись сама з собою, роботи Eka проводять тисячі годин у симульованих середовищах, самостійно винаходячи стратегії руху.
- Моделі «Зір-Сила-Дія»: На відміну від старих моделей, які «бачать» тільки пікселі, алгоритми Eka враховують принципи фізики. Робот розуміє масу, інерцію і, що дуже важливо, силу.
- Тактильний зворотний зв’язок: Eka розробила спеціальні захоплення, що забезпечують відчуття дотику, що дозволяє роботу відчувати вагу об’єкта або опір поверхні.
Від курячих нагетсів до глобальної індустрії
Практичне застосування цієї технології є величезним. У недавній демонстрації робот виконував завдання, здавалося б, повсякденне: сортування курячих нагетсів з конвеєрної стрічки до контейнерів. Робот виявив «людську» імпровізацію, іноді підкидаючи нагетси в контейнер, якщо той опинявся поза зоною досяжності — такий рівень гнучкості прийняття рішень рідко зустрічається у традиційній робототехніці.
Ця здатність особливо важлива для галузей, які досі сильно залежать від людської праці:
* Громадське харчування: Робота з нестабільними, крихкими продуктами, такими як фрукти, овочі та м’ясо.
* Виробництво: Виконання тонких складальних робіт, наприклад, складання електроніки.
* Логістика та роздрібна торгівля: Навігація в магазинах та на складах, де предмети не завжди знаходяться у передбачуваних позиціях.
Шлях вперед
Зараз ми перебуваємо на етапі «епохи GPT-1» у робототехніці. Подібно до того, як ранні мовні моделі часто були безладними, перш ніж стати геніями спілкування, роботи Eka демонструють перші проблиски втіленого інтелекту (embodied intelligence ). Вони починають розуміти не тільки те, де знаходиться об’єкт, але і те, яким він відчувається і як він рухається.
Залишається питанням, чи зможе цей підхід, заснований на інтенсивному моделюванні, зрештою перевершити моделі, що базуються на демонстрації людиною. Однак, якщо Eka вдасться подолати розрив між симуляцією та реальністю, «трильйони доларів», які зараз проходять через людські руки, незабаром можуть керуватись машинами з такою ж спритністю.
Висновок: Віддаючи пріоритет законам фізики та тактильного зворотного зв’язку замість простого наслідування, Eka намагається вирішити найскладнішу проблему робототехніки: наділити машини здатністю орієнтуватися в непередбачуваному фізичному світі та маніпулювати ним із людською витонченістю.
