Google est en train de déployer une fonctionnalité dans son API Gemini que l’entreprise prétend rendre ses derniers modèles d’IA moins chers pour les développeurs tiers. Google nomme cette fonctionnalité “caching implicite” et affirme qu’elle peut offrir 75% d’économies sur le “contexte répétitif” transmis aux modèles via l’API Gemini. Cette fonctionnalité est compatible avec les modèles Gemini 2.5 Pro et 2.5 Flash de Google. Ce sera probablement une bonne nouvelle pour les développeurs, alors que le coût de l’utilisation de modèles de pointe continue d’augmenter.
Le caching, une pratique largement adoptée dans l’industrie de l’IA, réutilise fréquemment des données accessibles ou précalculées à partir de modèles pour réduire les exigences de calcul et le coût. Par exemple, les caches peuvent stocker des réponses à des questions que les utilisateurs posent souvent à un modèle, éliminant le besoin pour le modèle de recréer des réponses à la même demande. Google proposait auparavant le caching de prompts de modèle, mais seulement le caching explicite de prompts, ce qui signifie que les développeurs devaient définir leurs prompts les plus fréquents.
“En revanche, le caching implicite est automatique. Activé par défaut pour les modèles Gemini 2.5, il transmet des économies de coûts si une requête API Gemini à un modèle touche un cache.”
Bien que les économies de coûts soient censées être garanties, le caching explicite de prompts impliquait généralement beaucoup de travail manuel. Certains développeurs n’étaient pas satisfaits de la façon dont l’implémentation de caching explicite de Google fonctionnait pour Gemini 2.5 Pro, ce qu’ils ont dit pourrait engendrer des factures API étonnamment élevées. Les plaintes ont atteint leur apogée la semaine dernière, poussant l’équipe Gemini à s’excuser et à s’engager à apporter des modifications.
En revanche, le caching implicite est automatique. Activé par défaut pour les modèles Gemini 2.5, il transmet des économies de coûts si une requête API Gemini à un modèle touche un cache. “Lorsque vous envoyez une requête à l’un des modèles Gemini 2.5, si la requête partage un préfixe commun avec l’une des demandes précédentes, alors elle est éligible pour un hit de cache”, a expliqué Google dans un post de blog. “Nous vous rétrocéderons de manière dynamique les économies de coûts”.
Le minimum de comptage des jetons d’incitation pour le caching implicite est de 1 024 pour le 2.5 Flash et de 2 048 pour le 2.5 Pro, selon la documentation du développeur de Google, ce qui n’est pas une grande quantité, ce qui signifie qu’il ne faut pas grand-chose pour déclencher ces économies automatiques. Pourtant, étant donné que les dernières affirmations de Google concernant les économies de coûts provenant du caching ont fait long feu, il y a quelques zones où l’acheteur doit faire attention avec cette nouvelle fonctionnalité.