Cette été, Taylor et sa colocataire ont réalisé une expérience unique : elles ont porté des caméras GoPro fixées à leur front pendant une semaine, capturant leurs activités de peinture, de sculpture et de tâches ménagères. Ce projet visait à former un modèle de vision d’IA, en synchronisant leur footage pour fournir à la machine des perspectives multiples sur le même comportement. Bien que ce travail ait été exigeant, il a également été bien rémunéré, permettant à Taylor de consacrer la majeure partie de sa journée à la création artistique. “Nous nous réveillons, faisons notre routine habituelle et ensuite nous fixons les caméras sur notre tête,” explique-t-elle. “Puis nous préparions le petit déjeuner et lavions la vaisselle.”
Les deux femmes avaient comme objectif de produire cinq heures de vidéo synchronisée par jour, mais rapidement, Taylor a réalisé qu’il lui fallait en réalité sept heures pour accomplir cette tâche, afin de considérer les pauses et la récupération physique nécessaires. “Cela vous donnait des maux de tête,” avoue-t-elle. “Quand vous l’enleviez, il restait juste un carré rouge sur votre front.” Travaillant comme freelance de données pour Turing, une entreprise d’IA, Taylor contribue à un projet qui ne vise pas à enseigner à la machine à créer des peintures à l’huile, mais plutôt à lui inculquer des compétences abstraites autour de la résolution de problèmes séquentiels et du raisonnement visuel.
“La qualité des données, et non la quantité, est ce qui définit vraiment les performances.”
Pour atteindre cet objectif, Turing collabore avec une variété de travailleurs manuels, tels que des chefs cuisiniers, des ouvriers du bâtiment ou des électriciens. Le directeur de l’IA chez Turing, Sudarshan Sivaraman, a précisé que la collecte manuelle est la seule façon d’obtenir un ensemble de données suffisamment varié. “Nous fait cela pour de nombreux types de travail manuel, afin de garantir la diversité des données lors de la phase de pré-formation,” a-t-il déclaré à TechCrunch. En effet, la démarche de Turing s’inscrit dans une tendance plus large où les entreprises d’IA cherchent maintenant à collecter des données de manière plus rigoureuse et moins dépendante de tierces parties.
Avec la puissance de l’IA déjà établie, ces entreprises voient maintenant les données d’entraînement propriétaires comme un avantage concurrentiel essentiel. Turing n’est pas la seule à adopter cette stratégie. L’entreprise Fyxer, spécialisée dans la gestion des emails via des modèles d’IA, illustre cette évolution. Son fondateur, Richard Hollingsworth, a découvert que la clé du succès résidait dans la qualité des données et non dans la quantité. De ce fait, des assistants exécutifs expérimentés ont été recrutés, parfois en nombre supérieur aux ingénieurs et managers, pour garantir une formation précise du modèle sur le traitement des emails.
Au fil du temps, Fyxer a maintenu un rythme de collecte de données soutenu, tout en devenant plus sélectif quant à la qualité des ensembles de données post-formation, car l’utilisation de données synthétiques rend cette qualité cruciale. “Si les données de pré-formation ne sont pas de bonne qualité, nada ce que vous faites avec les données synthétiques ne sera aussi de bonne qualité,” avertit Sivaraman. En résumé, garder le contrôle sur la collecte des données devient un véritable atout concurrentiel, et les entreprises d’IA tirent profit de cette stratégie. “Nous pensons que la meilleure façon de le faire est à travers les données, grâce à la construction de modèles personnalisés, à haute qualité, dirigés par des humains,” conclut Hollingsworth.