Cette semaine en IA : Les géants de la tech font confiance à la data synthétique | TechCrunch

Generated with DALL·E 3

Bienvenue, à la routine de notre newsletter IA du TechCrunch. Si vous souhaitez recevoir ceci dans votre boîte de réception tous les mercredis, inscrivez-vous ici. Cette semaine en IA, les données synthétiques ont pris de l’importance. OpenAI a introduit Canvas jeudi dernier, une nouvelle façon d’interagir avec ChatGPT, sa plateforme de chatbot alimentée par l’IA. Canvas ouvre une fenêtre avec un espace de travail pour écrire et coder des projets. Les utilisateurs peuvent générer du texte ou du code dans Canvas, puis, si nécessaire, surligner des sections à modifier à l’aide de ChatGPT. Du point de vue de l’utilisateur, Canvas est une amélioration importante de la qualité de vie. Mais ce qui nous intéresse le plus à propos de cette fonctionnalité, c’est le modèle finement ajusté qui l’alimente.

OpenAI déclare avoir adapté son modèle GPT-4o à l’aide de données synthétiques pour “permettre de nouvelles interactions utilisateur” dans Canvas. “Nous avons utilisé de nouvelles techniques de génération de données synthétiques, comme la distillation des sorties de l’o1-preview d’OpenAI, pour affiner le GPT-4o afin d’ouvrir canvas, faire des modifications ciblées et laisser des commentaires de haute qualité en ligne,” a écrit Nick Turley, chef de produit de ChatGPT dans un article sur X. “Cette approche nous a permis d’améliorer rapidement le modèle et de permettre de nouvelles interactions utilisateur, sans dépendre des données générées par l’homme.”

OpenAI n’est pas la seule entreprise de la Big Tech à compter de plus en plus sur les données synthétiques pour entraîner ses modèles. En développant Movie Gen, une suite d’outils alimentés par l’IA pour créer et éditer des clips vidéo, Meta s’est partiellement appuyée sur des légendes synthétiques générées par une branche de ses modèles Llama 3. L’entreprise a recruté une équipe d’annotateurs humains pour corriger les erreurs et ajouter plus de détails à ces légendes, mais l’essentiel du travail de base a été en grande partie automatisé.

Le PDG d’OpenAI, Sam Altman, a affirmé que l’IA produira un jour des données synthétiques assez bonnes pour se former, en quelque sorte. Cela serait avantageux pour des entreprises comme OpenAI, qui dépense une fortune en annotateurs humains et en licences de données.

Meta a affiné les modèles Llama 3 eux-mêmes à l’aide de données synthétiques. Et OpenAI serait en train de se procurer des données d’entraînement synthétiques de o1 pour son prochain modèle de nouvelle génération, nom de code Orion. Cependant, l’adoption d’une approche axée d’abord sur les données synthétiques comporte des risques. Comme un chercheur me l’a récemment fait remarquer, les modèles utilisés pour générer des données synthétiques hallucinent inévitablement (c’est-à-dire qu’ils inventent des choses) et contiennent des biais et des limites. Ces défauts se manifestent dans les données générées par les modèles. Par conséquent, utiliser en toute sécurité des données synthétiques nécessite une curation et un filtrage rigoureux – tout comme le veut la pratique courante avec les données générées par l’homme. A défaut, on pourrait assister à un effondrement du modèle.

Ce n’est pas une tâche facile à grande échelle. Mais avec les données d’entraînement du monde réel devenant de plus en plus coûteuses (sans parler du défi de les obtenir), les vendeurs d’IA pourraient voir les données synthétiques comme la seule voie viable à l’avenir. Espérons qu’ils feront preuve de prudence en l’adoptant. Les nouvelles publicités dans les synthèses IA : Google affirme qu’il commencera bientôt à montrer des publicités dans les synthèses IA, les résumés générés par l’IA qu’il fournit pour certaines requêtes de recherche Google…

Partagez cet article
article précédent

La nouvelle technologie de vision assistée par IA d’Amazon indique aux conducteurs les colis à livrer | TechCrunch

article suivant

Travail hybride : le mettre en place sans perdre de talents

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles