Elon Musk est du même avis que d’autres experts en IA: il ne reste plus beaucoup de véritables données du monde réel pour former les modèles IA. “Nous avons maintenant épuisé essentiellement la somme cumulée des connaissances humaines…. dans l’entraînement de l’IA,” a déclaré Musk lors d’une conversation diffusée en direct avec Mark Penn, président de Stagwell, diffusée sur X mercredi dernier. “Cela s’est produit essentiellement l’année dernière.” Musk, qui possède l’entreprise d’IA xAI, a repris les thèmes abordés par l’ancien scientifique en chef d’OpenAI, Ilya Sutskever, lors de la conférence sur l’apprentissage machine NeurIPS, lors de son discours en décembre.
Sutskever, qui a affirmé que l’industrie de l’IA avait atteint ce qu’il appelait le “pic des données”, a prédit que le manque de données d’entraînement forcera un déplacement de la façon dont les modèles sont développés aujourd’hui. En effet, Musk a suggéré que les données synthétiques, des données générées par les modèles d’IA eux-mêmes, sont la voie à suivre. “La seule façon de compléter [les données du monde réel] est avec des données synthétiques, où l’IA crée [des données d’entraînement],” a-t-il déclaré. “Avec des données synthétiques … [l’IA] se notera elle-même et passera par ce processus d’auto-apprentissage.”
“L’entrainement sur des données synthétiques présente d’autres avantages, comme les économies de coûts. Cependant, certaines recherches suggèrent que l’utilisation de données synthétiques peut entraîner une “dégradation” du modèle, où un modèle devient moins “créatif” – et plus biaisé – dans ses sorties, compromettant gravement sa fonctionnalité.”
D’autres entreprises, y compris des géants technologiques tels que Microsoft, Meta, OpenAI et Anthropic, utilisent déjà des données synthétiques pour former leurs modèles d’IA phares. Gartner estime que 60% des données utilisées pour les projets d’IA et d’analyse en 2024 ont été générées de manière synthétique. Le modèle Phi-4 de Microsoft, qui a été open-sourcé tôt mercredi, a été formé sur des données synthétiques en plus des données du monde réel. Il en va de même pour les modèles Gemma de Google. Anthropic a utilisé certaines données synthétiques pour développer l’un de ses systèmes les plus performants, Claude 3.5 Sonnet. Et Meta a affiné sa série de modèles Llama en utilisant des données générées par l’IA.
Sur le plan économique, se former sur des données synthétiques présente également des avantages. L’entreprise de démarrage en IA Writer affirme que son modèle Palmyra X 004, développé à partir de sources presque entièrement synthétiques, n’a coûté que 700 000 dollars à développer, contre des estimations de 4,6 millions de dollars pour un modèle OpenAI de taille comparable. Cependant, il y a aussi des inconvénients. Certaines recherches suggèrent que les données synthétiques peuvent entraîner une “effondrement” du modèle, où un modèle devient moins “créatif”, plus biaisé dans ses sorties, ce qui finit par compromettre sérieusement sa fonctionnalité. Parce que les modèles créent des données synthétiques, si les données utilisées pour former ces modèles sont biaisées et limitées, leurs résultats seront de la même manière affectés.