Comment enseigner à un robot à repasser ou sortir les poubelles ? Mettez une caméra sur la tête

8 Min Read


Que faire quand il n’existe pas un « YouTube pour les robots » sur lequel s’appuyer pour entraîner des robots ? Il faut en construire un. C’est l’approche suivie par la société de robotique Figure, qui va utiliser des caméras en vue subjective (POV).

Pour alimenter les grands modèles de langage, qui permettent de faire tourner les chatbots comme ChatGPT, Gemini ou Claude, les entreprises s’alimentent à partir de vastes corpus de texte qu’elles trouvent en ligne : Reddit, Wikipédia, des contenus libres de droits… et parfois protégés par le droit d’auteur, sans le dire vraiment — ce qui cause des tensions avec les ayants droit.

Avec l’appui d’algorithmes de plus en plus efficaces, cette recette a servi à améliorer la qualité des réponses fournies par les chatbots. Mais pourrait-on dupliquer cette approche pour entraîner un système sur une tâche précise, comme sortir les poubelles ou faire le ménage ? Cette approche semble être une impasse, aux yeux de l’entreprise de robotique Figure.

Figure Helix
L’entrainement suivi par Figure pour ses robots consiste à capturer la gestuelle et le mouvement des humains pour les transposer aux machines. // Source : Figure

Projet « devenir énorme » dans la robotique

À la place, Figure a annoncé un projet baptisé Go-Big. « Nous construisons le plus grand ensemble de données de pré-entraînement humanoïde au monde. Ce projet est accéléré par notre partenariat avec Brookfield, qui possède plus de 100 000 logements résidentiels », a fait savoir la société sur X (ex-Twitter) le 18 septembre 2025.

Ce travail vidéo ne s’arrêtera pas aux appartements et aux maisons. Brookfield apporte aussi à Figure des accès privilégiés à des bureaux et des entrepôts. C’est essentiel pour diversifier les environnements d’apprentissage et ainsi explorer d’autres activités sur lesquelles les robots pourraient servir — pour de la manutention et de la logistique, par exemple.

Go-Big part d’un constat : « Chaque avancée majeure dans le domaine de l’apprentissage automatique [un domaine de l’intelligence artificielle, NLDR] est le fruit de l’exploitation de jeux de données volumineux et variés ». Or, à ce jour, « il n’existe rien de tel dans le domaine de la robotique, c’est pourquoi nous développons notre propre solution. »

Sur le net, on peut certes tomber sur des vidéos montrant l’exécution de gestes qui intéresseraient Figure pour entraîner ses robots humanoïdes, sur le ménage ou sur toute autre besogne. Peut-être même certaines de ces vidéos sont tournées en vue subjective, ce qui est encore mieux pour affiner le modèle vision-langage utilisé par Figure. Un exemple :

Filmer des activités manuelles en POV

Un modèle vision-langage pour un robot est une IA capable de comprendre et relier des images (vision) et des mots (langage), afin que le robot puisse décrire ce qu’il voit, comprendre des instructions visuelles et verbales, et agir en conséquence.

Le problème, outre les questions de droit d’auteur, c’est que le stock de vidéos disponibles n’est vraisemblablement pas assez étoffé pour ne miser que là-dessus. D’où le projet Go-Big qui vise donc à bâtir et nourrir le « plus grand ensemble de données de pré-entraînement au monde », en prenant des séquences subjectives de gens, via des caméras.

Le pré-entraînement va permettre d’exposer un modèle d’IA à un immense corpus de données génériques pour qu’il développe des compétences de base, avant de l’adapter ensuite à des tâches plus spécifiques. En somme, c’est une formation initiale sur des données générales. Et la vue subjective va apporter une aide substantielle.

En effet, cette captation en « POV », c’est-à-dire à la première personne, où la caméra est portée sur la tête, sert à constituer un stock d’enregistrements se rapprochant fortement de la perception visuelle qu’aurait un robot humanoïde. Selon Figure, la collecte de données est d’ores et déjà en cours et devrait monter en puissance dans les mois à venir.

Cette vaste base de données de référence, taillée pour les robots domestiques, pourrait par la suite servir d’accélérateur à l’IA, de la même manière que des ensembles de données massifs et diversifiés comme Wikipédia (pour le langage), YouTube (la vidéo) ou ImageNet (la vision par ordinateur) ont été très utiles à l’écosystème.

Toute l'actu tech en un clien d'oeil

Toute l’actu tech en un clin d’œil

Ajoutez Numerama à votre écran d’accueil et restez connectés au futur !




Source link

Share This Article
Aucun commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *