Avec son premier chip maison, OpenAI redessine l'économie de l'inférence IA

Introduction

Le 24 juin 2026, OpenAI et Broadcom ont levé le voile sur Jalapeño, le premier processeur d'inférence sur mesure conçu par OpenAI. Derrière ce nom pimenté se cache une décision stratégique majeure : reprendre la main sur les coûts d'exploitation de ses modèles de langage et réduire une dépendance historique vis-à-vis des GPU Nvidia.

Un circuit taillé pour l'inférence, pas pour l'entraînement

Jalapeño n'est pas un GPU généraliste adapté à la va-vite pour le traitement du langage. C'est un circuit intégré spécifique à l'application (ASIC) pensé dès l'origine pour les workloads des grands modèles de langage en production. L'architecture cible précisément les goulots d'étranglement mémoire et réseau qui limitent l'efficacité des GPU sur les tâches d'inférence — autrement dit, la phase où un modèle répond aux requêtes des utilisateurs en temps réel.

Le résultat annoncé est significatif : une réduction d'environ 50 % du coût par jeton d'inférence par rapport aux solutions GPU Nvidia actuelles. L'entraînement des modèles, lui, reste confié à Nvidia — Jalapeño ne remplace pas l'ensemble de l'outillage, il optimise le maillon le plus sollicité en production.

Neuf mois du concept à la sortie de fabrication

Ce qui frappe autant que les performances affichées, c'est le rythme d'exécution. Du premier dessin de l'architecture au tape-out — la remise des masques au fondeur pour lancer la fabrication — Jalapeño n'a nécessité que neuf mois. Pour un ASIC haute performance, c'est une cadence historiquement rare dans l'industrie des semiconducteurs.

Cette rapidité tient en partie aux outils d'IA d'OpenAI eux-mêmes, mis à contribution pour automatiser certaines phases de vérification et d'optimisation du design. Une boucle qui illustre un principe de plus en plus répandu : l'intelligence artificielle accélère la conception des puces qui permettront d'exécuter l'intelligence artificielle à moindre coût.

La fabrication est confiée à TSMC sur les nœuds avancés disponibles. Broadcom assure la mise en œuvre silicon, les interconnexions réseau via ses commutateurs Tomahawk et l'intégration système, tandis que Celestica prend en charge l'assemblage des cartes, baies et racks.

La verticale intégration s'impose comme standard de l'IA à grande échelle

OpenAI n'est pas seul sur ce terrain. Google exploite ses propres TPU depuis des années, Amazon pousse ses puces Trainium pour les workloads de ses clients AWS. Ce qui change avec Jalapeño, c'est qu'un acteur pure player de l'IA — sans héritage hardware — franchit à son tour le pas du silicium propriétaire, avec une ambition de déploiement à l'échelle du gigawatt en partenariat avec Microsoft d'ici 2029.

La leçon est désormais partagée entre les grandes plateformes : maîtriser la couche physique est aussi stratégique que maîtriser les modèles eux-mêmes. L'ère du tout-GPU externalisé touche ses limites économiques.

Ce que cela change pour les budgets IA en entreprise

Pour les directions informatiques qui dimensionnent leurs projets autour des API d'OpenAI, l'annonce mérite attention. Si le coût d'inférence baisse structurellement côté opérateur, la pression à la baisse sur la tarification des API s'ensuivra naturellement. Les projets d'agents IA, de traitement documentaire à grande échelle ou d'automatisation de flux métier — souvent freinés jusqu'ici par le coût par requête — pourraient gagner en rentabilité sans repenser l'architecture applicative.

Jalapeño n'est pas encore en production commerciale. Les déploiements pilotes sont attendus d'ici fin 2026, avec une montée en charge progressive sur 2027 et 2028. Mais l'équation économique de l'IA en entreprise est déjà en train de se reconfigurer, et les DSI ont intérêt à en tenir compte dès aujourd'hui dans leurs roadmaps.