La couverture médiatique en matière de robotique humanoïde s’est, de manière compréhensible, principalement concentrée sur la conception matérielle. Toutefois, compte tenu de la fréquence à laquelle leurs développeurs utilisent l’expression “humanoïdes à usage général”, il faudrait prêter davantage attention à cette première dimension. Après des décennies de systèmes à usage unique, le passage à des systèmes plus généralisés sera un grand pas. Nous n’en sommes tout simplement pas encore là. La volonté de produire une intelligence robotique capable d’exploiter pleinement la vaste gamme de mouvements rendus possibles par la conception humanoïde bipède a été un sujet clé pour les chercheurs.
L’utilisation de l’IA générative en robotique a récemment été un sujet brûlant. De nouvelles recherches menées par le MIT illustrent comment cette dernière pourrait influencer de manière profonde la première. L’un des plus grands défis sur la route des systèmes à usage général est la formation. Nous avons une solide compréhension des meilleures pratiques pour former les humains à effectuer différents travaux. Les approches en matière de robotique, bien qu’elles soient prometteuses, sont fragmentées.
Il existe de nombreuses méthodes prometteuses, y compris l’apprentissage par renforcement et par imitation, mais les solutions futures impliqueront probablement des combinaisons de ces méthodes, augmentées par des modèles d’IA générative.
Une des principales utilisations suggérées par l’équipe du MIT est la capacité de rassembler des informations pertinentes à partir de ces petits ensembles de données spécifiques à une tâche. La méthode a été baptisée composition de politiques (PoCo). Les tâches comprennent des actions robotiques utiles comme enfoncer un clou et retourner des objets avec une spatule.
Ils entraînent un modèle de diffusion distinct pour apprendre une stratégie, ou politique, pour accomplir une tâche en utilisant un ensemble de données spécifique, note l’école. Ensuite, ils combinent les politiques apprises par les modèles de diffusion en une politique générale qui permet à un robot d’effectuer plusieurs tâches dans différents contextes. Selon le MIT, l’incorporation de modèles de diffusion a amélioré la performance des tâches de 20%. Cela inclut la capacité d’exécuter des tâches nécessitant plusieurs outils, ainsi que d’apprendre et de s’adapter à des tâches inconnues.
Le système est capable de combiner des informations pertinentes provenant de différents ensembles de données en une chaîne d’actions nécessaires pour exécuter une tâche. “L’un des avantages de cette approche est que nous pouvons combiner les politiques pour obtenir le meilleur des deux mondes”, déclare Lirui Wang, auteur principal de l’article. Par exemple, une politique formée sur des données du monde réel pourrait permettre d’atteindre une plus grande dextérité, tandis qu’une politique formée sur des simulations pourrait permettre d’atteindre une plus grande généralisation. L’objectif de ce travail spécifique est la création de systèmes d’intelligence qui permettent aux robots de changer d’outils pour effectuer différentes tâches. La prolifération de systèmes multi-usages rapprocherait l’industrie de l’usage général rêvé.