Suivre le rythme d’une industrie aussi rapide que l’IA est une tâche ardue. En attendant qu’une IA puisse le faire pour vous, voici un récapitulatif pratique des récentes histoires dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes individuellement. Au passage, TechCrunch prévoit de lancer une newsletter sur l’IA prochainement. Restez donc à l’écoute. En attendant, nous augmentons le rythme de notre chronique semi-régulière sur l’IA, qui était précédemment deux fois par mois (ou environ), à une fois par semaine – alors soyez à l’affût pour plus d’éditions.
Cette semaine en IA, OpenAI a annoncé qu’il a conclu un accord avec News Corp, le nouveau géant de l’édition, pour former des modèles d’IA génératifs développés par OpenAI sur des articles de marques News Corp, y compris The Wall Street Journal, Financial Times et MarketWatch. L’accord, que les entreprises qualifient de “pluriannuel” et “historique”, donne également à OpenAI le droit d’afficher les marques News Corp dans des applications comme ChatGPT en réponse à certaines questions – probablement dans les cas où les réponses sont en partie ou totalement tirées des publications News Corp. Cela ressemble à une victoire pour les deux parties, non ? News Corp obtient une infusion de cash pour son contenu – plus de 250 millions de dollars, selon les rapports – à un moment où les perspectives de l’industrie des médias sont encore plus sombres que d’habitude. (L’IA générative n’a pas aidé, menaçant de réduire considérablement le trafic de référence des publications.) Pendant ce temps, OpenAI, qui se bat avec les détenteurs de droits d’auteur sur plusieurs fronts pour des litiges sur l’utilisation équitable, a un procès coûteux de moins à craindre.
Mais le diable est dans les détails. Notez que l’accord avec News Corp a une date de fin – tout comme tous les accords de licence de contenu d’OpenAI. Cela n’est pas en soi de la mauvaise foi de la part d’OpenAI. La licence à perpétuité est une rareté dans les médias, compte tenu des motivations de toutes les parties impliquées pour garder la porte ouverte à la renégociation de l’accord.
Cependant, cela est un peu suspect à la lumière des commentaires récents du PDG d’OpenAI, Sam Altman, sur l’importance décroissante des données d’entraînement des modèles d’IA.
Dans une apparition sur le podcast “All-In”, Altman a déclaré qu’il “ne pense définitivement pas qu’il y aura une course aux armements pour [les données d’entraînement]” parce que “quand les modèles deviennent assez intelligents, à un certain point, il ne devrait pas s’agir de plus de données – du moins pas pour l’entraînement.” Ailleurs, il a dit à James O’Donnell de MIT Technology Review qu’il est “optimiste” que OpenAI – et/ou l’industrie de l’IA en général – “trouvera un moyen de sortir de [la nécessité de] davantage de données d’entraînement.” Les modèles ne sont pas encore si “intelligents”, ce qui pousse OpenAI à expérimenter avec des données d’entraînement synthétiques et à fouiller les recoins du web – et YouTube – pour des sources organiques. Mais supposons qu’un jour ils n’ont pas besoin de beaucoup de données supplémentaires pour progresser à pas de géant. Où cela laisse-t-il les éditeurs, une fois qu’OpenAI a exploité leurs archives entières ? Le point que je soulève est que les éditeurs – et les autres propriétaires de contenu avec lesquels OpenAI a travaillé – semblent être des partenaires de circonstance à court terme, pas grand-chose de plus.
Grâce à des accords de licence, OpenAI neutralise efficacement une menace juridique – du moins jusqu’à ce que les tribunaux déterminent comment l’utilisation équitable s’applique dans le contexte de la formation de l’IA – et obtient de célébrer une victoire en relations publiques. Les éditeurs obtiennent du capital bien nécessaire. Et le travail sur l’IA qui pourrait gravement nuire à ces éditeurs se poursuit. Voici quelques autres histoires d’IA notables des derniers jours :