Alors que la course à l'intelligence artificielle (IA) s'accélère, la dynamique se répercute automatiquement sur le secteur des puces. Et il y a un domaine dans lequel la suprématie de NVIDIA risque de s'éroder : l'inférence.

Concrètement, les puces d'IA servent à l'entraînement puis à l'inférence. Le premier consiste à former un modèle en lui présentant des données : celui-ci ajuste ses paramètres internes pour minimiser les erreurs entre ses prédictions et les résultats réels. Le second correspond au moment où une IA applique ce qu’elle a appris pour prendre une décision ou faire une prédiction.
Pour un utilisateur, l'inférence se traduit par le temps d'attente entre une requête et la réponse d'un modèle. Contrairement à un humain qui réfléchit en se basant sur son expérience et sa logique, l'IA, elle, opère des calculs ultra rapides pour prédire les mots les plus pertinents à générer en fonction de la question. Plus la réponse est rapide, meilleure est l'inférence.
Une demande clairement en hausse
Et ce critère gagne en importance dans l'industrie, notamment avec l'émergence de modèles capables de raisonner et plus gourmands en énergie comme Claude Sonnet 3.7 et o3 d'OpenAI. En parallèle, la demande pour les applications d'IA toujours plus sophistiquées augmente, requérant des performances bien au-delà de celles des agents conversationnels.
Par conséquent, le besoin en puissance de calcul ne cesse de croître. Plus de 75 % de la demande d'énergie et de calcul pour les centres de données aux États-Unis concernera l'inférence dans les années à venir, estiment les analystes de Morgan Stanley.

De nouveaux acteurs se dédient uniquement à l'inférence
Et si NVIDIA domine sans partage dans le domaine des puces dédiées à l'entraînement, d'autres acteurs ont des chances de lui grappiller quelques parts de marché dans le secteur de l'inférence. D'ailleurs, plusieurs start-up qui se dédient spécifiquement à cette filière ont vu le jour. Si vous utilisez Le Chat, par exemple, vous avez peut-être remarqué que ses réponses sont ultra rapides, cela s'explique notamment par l'utilisation des puces de la start-up Cerebras par Mistral.
De même, les géants technologiques cherchent à réduire leur dépendance au fabricant de puces en se concentrant sur des puces d'inférence. Un phénomène qui a été accentué par l'arrivée du modèle R1 de DeepSeek sur le marché, car celui-ci contribue à réduire les coûts d'inférence et à ouvrir de nouvelles opportunités pour les rivaux de NVIDIA.
Une nouvelle ère ?
Bien sûr, NVIDIA demeure le leader en la matière, d'autant plus que sa puce Blackwell B200 enregistre de bien meilleures performances que ses prédécesseurs dans l'inférence. Son architecture CUDA, largement adoptée par les développeurs d'IA, lui permet également de maintenir une belle avance sur la concurrence.
Mais le géant des puces doit prouver qu'il est en mesure de garder la mainmise sur les petits centres de données dédiés à l'inférence qui voient le jour à travers le monde. Car la compétition pour des solutions plus efficaces et spécialisées ne fait que commencer, promettant une ère où la rivalité sera encore plus poussée.
04 février 2025 à 14h11
Source : The Financial Times