Le développeur Lahiru Maramba, spécialiste Firebase chez Google, a récemment réalisé une prouesse en recréant Rocky, l’araignée extraterrestre de l’univers de Projet Dernière Chance, sur un Raspberry Pi Zero 2W. Ce robot, capable de communiquer par accords polyphoniques plutôt que par la parole, utilise un modèle de langage local combiné à une architecture distribuée pour offrir une expérience sonore à la fois intuitive et efficace, avec une latence d’environ 2 secondes.
L’architecture innovante qu’il a conçue, qu’il nomme “Voice Box & Brain”, répartit les tâches entre le Pi Zero 2W et un Mac. Le Pi gère le matériel : micro, écran LCD, LED RGB, et synthèse des accords. Le Mac, équipé de mlx-whisper et de LM Studio avec Gemma 4, transcrit l’audio en texte, traite cette donnée et renvoie une réponse musicale au Pi pour qu’il la joue en accords, permettant une interaction en temps réel entièrement locale, sans dépendance au cloud.
Le langage Eridien développé dans ce projet est particulièrement innovant : il associe chaque mot à un accord musical ou à une signature de trois fréquences générée par un algorithme de hashage mathématique. Ainsi, chaque terme, connu ou inconnu, est traduisible en un langage musical cohérent, avec une correspondance émotionnelle précise, comme “amaze” en Mi majeur. Cette méthode garantit la permanence et la cohérence du vocabulaire, créant une communication unique qui se veut fidèle à l’esprit du livre et du film.
Le robot Rocky ne parle pas, il chante, et chaque mot ou idée s’illumine dans un langage musical émotionnel, une véritable petite symphonie d’interactions.
Concernant le matériel, le projet requiert principalement un Raspberry Pi Zero 2W et un module PiSugar Whisplay HAT, intégrant écran LCD, bouton, LED RGB, et interface audio. Le logiciel offre deux méthodes d’installation : une version clé en main (“It Just Works”) avec des drivers précompilés, ou une étape plus manuelle avec l’outil uv pour un environnement propre. Côté Mac, le logiciel LM Studio peut fonctionner en local ou via une clé API Gemini dans le cloud, intégrant par ailleurs un générateur sonore expérimental rappelant R2-D2. La preuve que tout ceci, avec un peu de bricolage, peut prendre vie sans dépendance à une infrastructure cloud.
Ce projet, inspiré par le film où Rocky, cette araignée d’origine extraterrestre, communique en chantant dans diverses tonalités, est une démonstration impressionnante de DIY et d’intelligence artificielle sonore. Bien qu’il reste une œuvre principalement expérimentale, il offre une vision innovante de la création de compagnons IA articulés par la musique et les émotions, tout en restant accessible et opensource.
