Google s'engage dans la course à l'efficience avec son nouveau modèle d'IA léger face à la montée en puissance de DeepSeek. Gemma 3 prétend offrir 98% des performances de son concurrent chinois en utilisant seulement une fraction des ressources matérielles.

La récente percée de DeepSeek dans le domaine des modèles d'IA légers a bouleversé l'écosystème technologique, forçant les géants américains à revoir leurs approches. Ce laboratoire chinois avait démontré qu'il était possible d'obtenir d'excellentes performances avec un coût matériel réduit, envoyant une onde de choc jusque dans les bourses du monde entier. En réponse, Google a dévoilé ce mercredi 12 mars 2025 Gemma 3, sa dernière génération de modèles d'IA open source conçus pour fonctionner sur des équipements relativement modestes.
Une efficacité remarquable avec des ressources limitées
Google affirme que son modèle Gemma 3 atteint 98% de la précision du modèle DeepSeek R1, tout en nécessitant des ressources matérielles considérablement moindres. Selon les estimations de l'entreprise, DeepSeek R1 utiliserait jusqu'à 32 puces GPU Nvidia H100, tandis que Gemma 3 n'en requiert qu'une seule.
Cette prouesse s'appuie notamment sur la technique de « distillation », qui permet d'extraire les connaissances d'un modèle plus volumineux pour les transférer vers un modèle plus compact. Le résultat est une gamme de modèles allant de 1 à 27 milliards de paramètres, bien en-deçà des 671 milliards du mastodonte DeepSeek R1.

En termes de performances comparatives, Google positionne Gemma 3 comme supérieur à DeepSeek-V3, Llama-405B de Meta et o3-mini d'OpenAI, selon les évaluations préliminaires basées sur les scores Elo de la plateforme LMArena. L'entreprise évoque un équilibre optimal entre puissance de calcul et performances.
Des capacités substantiellement améliorées
La principale évolution par rapport à Gemma 2 concerne la fenêtre de contexte, qui passe de 8 000 à 128 000 tokens. Cette amélioration permet au modèle de traiter des documents volumineux comme des articles scientifiques ou des livres entiers, même si elle ne fait que rattraper le niveau déjà proposé par certains concurrents.
Gemma 3 franchit également le cap de la multimodalité, absente de la version précédente. Le modèle peut désormais analyser des images et du texte, répondre à des questions sur des contenus visuels et comprendre plus de 140 langues, contre uniquement l'anglais pour son prédécesseur.
Parallèlement, Google a introduit ShieldGemma 2, un outil basé sur Gemma 3 destiné à vérifier la sécurité des images. Ce module permet aux développeurs de filtrer automatiquement les contenus potentiellement problématiques, comme les images sexuellement explicites ou violentes, renforçant les garde-fous éthiques autour de ces technologies.
Source : Google
- Compréhension avancée du langage naturel
- Réponses adaptées à des contextes variés
- Disponible en plusieurs langues