Nvidia GTC 2026 : ce que prépare Jensen Huang avec Vera Rubin

Nvidia GTC 2026 — rack serveur IA Vera Rubin refroidissement liquide data center

🔄 Mise à jour du 17 mars 2026 — Le keynote de Jensen Huang a eu lieu hier soir. Les annonces ont largement confirmé nos prévisions, avec quelques surprises de taille : le Groq 3 LPU officiellement dévoilé, 1 000 milliards de dollars de commandes attendues d’ici 2027, et… des data centers dans l’espace. Lire le résumé du keynote →

Lundi 16 mars, Jensen Huang monte sur scène au SAP Center de San Jose pour le keynote Nvidia GTC 2026 — la conférence annuelle de Nvidia, surnommée le « Super Bowl de l’IA ». Plus de 30 000 participants venus de 190 pays, 700 sessions, et un keynote diffusé gratuitement en direct.

L’an dernier, Nvidia y avait dévoilé l’architecture Blackwell. Cette année, c’est Vera Rubin qui occupe le devant de la scène : la prochaine génération de puces IA, déjà en production, avec des chiffres qui donnent le vertige. Mais aussi un deal à 20 milliards de dollars avec Groq, une roadmap qui s’étend jusqu’en 2028, et un contexte de marché tendu entre dépenses colossales des géants du cloud et un krach boursier dans le secteur logiciel.

Voici ce qu’il faut savoir avant le keynote.



Vera Rubin en 30 secondes

Vera Rubin — du nom de l’astrophysicienne américaine qui a mis en évidence la matière noire — est la plateforme IA de nouvelle génération de Nvidia. Elle succède à Blackwell, la génération actuelle qui a propulsé Nvidia au rang de première capitalisation boursière mondiale (autour de 4 600 milliards de dollars).

Contrairement à ce qu’on pourrait croire, Vera Rubin n’est pas « juste un GPU ». C’est une plateforme complète de six puces conçues ensemble — ce que Nvidia appelle « extreme codesign » :

Le GPU Rubin est le cœur de calcul. Le CPU Vera (processeur ARM 88 cœurs) remplace le Grace de la génération précédente. Le switch NVLink 6 connecte les GPU entre eux à l’intérieur du rack. Le SuperNIC ConnectX-9 gère les connexions réseau à 1,6 Tb/s. Le DPU BlueField-4 s’occupe du stockage et de la sécurité. Le switch Ethernet Spectrum-6 avec photonique intégrée assure les connexions entre racks.

Ces six puces fonctionnent ensemble dans un rack complet — le Vera Rubin NVL72 — qui contient 72 GPU, 36 CPU, et totalise 220 000 milliards de transistors. Nvidia affirme que la bande passante interne de ce rack dépasse celle de l’internet entier.

Jensen Huang a confirmé au CES 2026 en janvier que Vera Rubin est en production chez TSMC. Les premiers systèmes arriveront chez les partenaires cloud (AWS, Google Cloud, Microsoft Azure, Oracle, CoreWeave, Lambda) au second semestre 2026, selon le communiqué officiel de Nvidia.


Les chiffres qui comptent

Passons aux specs. Ce n’est pas de la fiction — ces chiffres viennent des annonces officielles de Nvidia au CES 2026, documentés en détail par Tom’s Hardware, ServeTheHome et VideoCardz.

CaractéristiqueBlackwell (GB200 NVL72)Vera Rubin (NVL72)Gain
Transistors par GPU~208 milliards336 milliards×1,6
Mémoire HBM par GPU192 Go (HBM3e)288 Go (HBM4)×1,5
Bande passante mémoire/GPU~8 TB/s~22 TB/s×2,8
Perf. inférence FP4/GPU10 PFLOPS50 PFLOPS×5
Perf. entraînement FP4/GPU10 PFLOPS35 PFLOPS×3,5
Mémoire HBM totale (rack)~14 TB20,7 TB×1,5
Bande passante scale-up~130 TB/s260 TB/s×2
RefroidissementLiquide + air100% liquide
Temps d’installation~2 heures~5 minutes

Quelques points à retenir :

La performance brute est impressionnante, mais c’est le coût par token qui change la donne. Nvidia annonce une réduction du coût des tokens d’inférence d’un facteur 10 par rapport à Blackwell pour les modèles Mixture-of-Experts (MoE). En clair : faire tourner un modèle d’IA comme Claude, GPT ou Gemini coûterait dix fois moins cher sur Rubin. C’est ce chiffre qui intéresse vraiment les entreprises.

L’entraînement aussi devient plus efficace. Il faudrait 4 fois moins de GPU Rubin que de GPU Blackwell pour entraîner un même modèle MoE. Moins de matériel = moins de coûts, moins d’énergie.

Le refroidissement est désormais 100% liquide. Plus de ventilateurs, plus de tuyaux apparents — tout est intégré dans des plaques de refroidissement. C’est un changement structurel pour les data centers, qui devront s’adapter.

Le CPU Vera est un composant à part entière, pas juste un accompagnateur du GPU. Avec ses 88 cœurs ARM « Olympus » et 176 threads (grâce au Spatial Multi-Threading), il est conçu spécifiquement pour le traitement de données dans les flux IA agentiques. Nvidia affirme qu’il offre 2× les performances de compression et de traitement de données par rapport à Grace. CNBC rapporte que Nvidia prévoit de dévoiler des racks composés exclusivement de CPU au GTC — un signe que le CPU reprend un rôle central dans l’ère de l’IA agentique.


Groq : le deal à 20 milliards pour l’inférence

En décembre 2025, Nvidia a conclu un accord de licence (pas une acquisition complète) avec Groq pour environ 20 milliards de dollars. Le fondateur de Groq, Jonathan Ross, et une partie de l’équipe dirigeante ont rejoint Nvidia.

Pourquoi c’est important ? Groq fabrique des LPU (Language Processing Units) — des puces spécialisées dans l’inférence (le fait de faire tourner un modèle IA, par opposition à l’entraîner). Leurs démonstrations montrent des vitesses de génération de tokens dépassant les 500-1 000 tokens par seconde, avec une latence de l’ordre de la milliseconde. Des performances que les GPU classiques ne peuvent pas atteindre dans les mêmes conditions.

Jensen Huang a comparé cette intégration à l’acquisition de Mellanox en 2019, qui avait transformé Nvidia d’un simple fabricant de puces en un fournisseur complet de solutions réseau pour l’IA. Sur l’appel aux résultats de février 2026, il a déclaré vouloir « étendre l’architecture Nvidia avec Groq comme accélérateur, de la même manière que nous l’avons fait avec Mellanox ».

Concrètement, Nvidia prépare des racks LPX — une nouvelle architecture dédiée à l’inférence intégrant jusqu’à 256 LPU par rack. Selon une analyse technique détaillée publiée par SEMIVISION, ces racks LPX ne remplacent pas les GPU mais complètent l’offre :

Les GPU Rubin gèrent les tâches lourdes : entraînement, inférence à gros batch, contexte long. Les LPU Groq gèrent l’inférence à faible latence : réponses temps réel, agents conversationnels, contrôle. Les GPU Rubin CPX (avec GDDR7 au lieu de HBM4) gèrent le pré-remplissage de contexte long.

C’est une stratégie de spécialisation : au lieu d’un seul type de puce pour tout faire, Nvidia propose désormais trois architectures complémentaires. Le GTC 2026 devrait être l’occasion des premières démonstrations concrètes de cette approche hybride.


La roadmap complète : Rubin → Rubin Ultra → Feynman

Nvidia maintient un rythme de renouvellement annuel qui laisse la concurrence (AMD, Intel, les puces custom de Google et Amazon) constamment en retard d’une génération. Voici la feuille de route confirmée, d’après les annonces au CES 2026 et les présentations précédentes compilées par Let’s Data Science et Tom’s Hardware :

GénérationDisponibilitéGPU / rackPerf. inférence FP4Mémoire HBM / GPU
Blackwell (actuel)2024-202572~720 PFLOPS192 Go HBM3e
Vera RubinS2 2026723,6 EFLOPS288 Go HBM4
Rubin UltraS2 202757615 EFLOPS1 To HBM4e
Feynman2028TBDTBDTBD

Rubin Ultra est le vrai monstre. Prévu pour le second semestre 2027, il quadruple le nombre de chiplets GPU (de 2 à 4 par package), porte la mémoire à 1 To de HBM4e par GPU, et s’installe dans un nouveau rack « Kyber » de 576 GPU. La performance totale du rack atteindrait 15 exaflops en FP4 — soit 4× Vera Rubin.

Feynman, prévu pour 2028, est encore plus ambitieux. Selon GPTBox.fr et TradingKey, il serait le premier processeur gravé en TSMC A16 (1,6 nm) et le premier à utiliser la photonique silicium — des signaux optiques remplaçant les signaux électriques pour les interconnexions. Jensen Huang a laissé entendre que des échantillons physiques pourraient être montrés au GTC.


660 milliards de dollars : la course aux data centers

Pour comprendre pourquoi Nvidia peut se permettre de sortir une nouvelle génération de puces chaque année, il faut regarder les budgets de ses clients. Les chiffres de dépenses en capital (capex) annoncés par les hyperscalers pour 2026 donnent le vertige :

Amazon a annoncé environ 200 milliards de dollars de capex pour 2026, selon des déclarations rapportées par FinancialContent. Alphabet (Google) prévoit 175 à 185 milliards, et Microsoft environ 155 milliards. Au total, les analystes de Barclays estiment que les dépenses IA cumulées de l’industrie pourraient atteindre 1 000 milliards de dollars d’ici 2028.

Nvidia, de son côté, a publié un chiffre d’affaires record de 215,9 milliards de dollars pour son exercice fiscal 2026 (clos en janvier), en hausse de 65% sur un an, d’après Let’s Data Science. Le cash-flow libre projeté pour cette année atteindrait 178 milliards — un record absolu pour une entreprise.

Ces chiffres sont tellement massifs qu’ils en deviennent abstraits. Pour mettre en perspective : le PIB de la Belgique est d’environ 600 milliards d’euros. Amazon prévoit à elle seule de dépenser plus d’un tiers de ce montant, en une seule année, juste en infrastructure IA.


Et pour nous, concrètement ?

Vous ne construisez probablement pas de data center dans votre garage. Alors pourquoi est-ce que tout cela devrait vous intéresser ?

Les services IA vont devenir moins chers. Si Nvidia tient sa promesse de diviser le coût par token par 10, les abonnements aux outils IA (ChatGPT, Claude, Gemini, Copilot) devraient à terme baisser — ou offrir beaucoup plus pour le même prix. Aujourd’hui, un abonnement Pro à un assistant IA coûte entre 18 et 200 €/mois. Dans deux ans, la puissance disponible pour 20 €/mois pourrait être radicalement supérieure.

L’IA agentique arrive. Les puces Vera Rubin et les LPU Groq sont optimisées pour l’« IA agentique » — des systèmes qui ne se contentent pas de répondre à des questions, mais qui exécutent des tâches complexes de manière autonome. Rédiger un rapport, analyser des données, gérer des workflows. Pour les PME wallonnes, ça signifie que des outils comme Claude Cowork ou Microsoft Copilot vont devenir capables de remplacer des tâches entières, pas juste d’aider à les faire. C’est d’ailleurs ce qui provoque la panique boursière actuelle dans le secteur des logiciels SaaS.

La mémoire HBM4 va impacter le marché de la RAM. Comme nous l’avions expliqué dans notre article sur la crise des prix de la RAM, la production de mémoire HBM détourne les capacités des usines de mémoire qui fabriquent aussi la DDR5 pour nos PC. Vera Rubin utilise de la HBM4 — la dernière génération, produite exclusivement par Samsung et SK Hynix. Plus Nvidia en commande, plus la pression s’accentue sur les prix de la mémoire grand public. C’est un effet concret et direct de cette course technologique sur le prix de votre prochain PC.

L’énergie est le nerf de la guerre. Ces racks Vera Rubin consomment des centaines de kilowatts chacun. Les data centers du futur se mesurent en gigawatts — Nvidia vient d’ailleurs de signer un partenariat avec Thinking Machines Lab pour déployer au moins un gigawatt de systèmes Vera Rubin, selon le blog officiel du GTC. Cette consommation énergétique a des implications sur les réseaux électriques, les prix de l’énergie, et les objectifs climatiques — des sujets qui nous concernent tous en Europe.


Les ombres au tableau

Nvidia domine le marché IA avec plus de 90% de parts de marché sur l’entraînement et l’inférence. Mais cette domination n’est pas sans fissures.

La concurrence se précise. AMD prépare ses propres racks Helios basés sur les MI450/MI455X, prévus aussi pour le second semestre 2026. Google (TPU), Amazon (Trainium/Inferentia) et Microsoft (Maia) développent tous des puces custom. Selon The Outpost, les analystes prévoient que Nvidia commencera à perdre des parts de marché dès 2027, surtout en inférence — précisément le segment que le deal Groq vise à protéger.

La consommation électrique est vertigineuse. La consommation par GPU Rubin est estimée à environ 2 300 watts selon les analystes — presque le double de Blackwell. Les futurs racks Kyber (Rubin Ultra, 2027) tireraient jusqu’à 600 kW chacun. Nvidia affirme que l’efficacité énergétique par opération s’améliore (8× par rapport à Blackwell en performance par watt pour l’inférence), mais la consommation absolue ne fait qu’augmenter.

Le Department of Justice enquête. Les régulateurs américains ont intensifié leur enquête antitrust sur Nvidia, avec des assignations à comparaître concernant d’éventuelles « pénalités de fidélité » utilisées pour dissuader les clients d’explorer des alternatives matérielles, rapporte FinancialContent.

Et si la bulle éclate ? Larry Fink, CEO de BlackRock, a déclaré cette semaine qu’il était « certain qu’il y aura une ou deux faillites » parmi les grandes entreprises IA, rapporte TechStartups. Les dépenses des hyperscalers dépassent actuellement leurs revenus IA. L’histoire de la tech est jalonnée de booms d’infrastructure qui se sont terminés en correction — la fibre optique en 2000, le minage crypto en 2018. Nvidia parie sur le fait que la demande de calcul IA va continuer à croître exponentiellement. Si ce pari s’avère faux, même partiellement, les conséquences seront systémiques.


Ce qu’on attend du keynote de lundi

Le keynote de Jensen Huang est prévu lundi 16 mars à 20h, heure de Bruxelles (11h PT). Il sera diffusé gratuitement sur nvidia.com. Voici ce que les analystes et médias spécialisés anticipent, compilé à partir de CNBC, Deeper Insights et Analytics Insight :

Quasi certain : détails techniques approfondis sur Vera Rubin (benchmarks, calendrier de livraison, partenaires). Mise à jour de la roadmap Rubin Ultra (2027) et Feynman (2028). Annonces autour des racks CPU-only Vera.

Très probable : première démonstration de la technologie Groq intégrée — potentiellement un nouveau chip d’inférence hybride GPU-LPU. Jensen Huang a teasé lors de l’appel aux résultats de février avoir « quelques bonnes idées à partager au GTC ».

Possible : échantillon physique de l’architecture Feynman. Annonce de NemoClaw, une plateforme d’agents IA, selon Wired. Nouvelles annonces en IA physique (robots, véhicules autonomes) et en modèles ouverts — un panel sur le sujet est prévu le 18 mars avec les dirigeants de LangChain, Cursor, A16Z et AI2.

Le mercredi 18 mars, Jensen Huang animera aussi un panel sur les modèles ouverts, avec des figures comme Harrison Chase (LangChain) et des leaders d’A16Z, AI2, Black Forest Labs et Cursor. Le pregame show du lundi à 17h heure de Bruxelles réunira les CEO de Perplexity, Mistral, Skild AI et OpenEvidence.


Sources et références


🔄 MAJ 17/03 — Ce que Jensen Huang a annoncé au Nvidia GTC 2026

Lundi 16 mars, 20h heure de Bruxelles, SAP Center de San Jose. Jensen Huang est monté sur scène en blouson de cuir — sans surprise — pour un keynote de plus de deux heures devant 30 000 personnes. Verdict : nos prévisions étaient globalement correctes, avec quelques belles surprises en bonus.

1 000 milliards de dollars de commandes

Le chiffre le plus marquant de la soirée : Nvidia prévoit désormais 1 000 milliards de dollars de commandes cumulées entre Blackwell et Vera Rubin d’ici 2027, selon CNBC. C’est le double de la projection de 500 milliards annoncée quelques mois plus tôt. Huang n’a pas dit « chiffre d’affaires » mais « purchase orders » — des bons de commande, pas encore de l’argent encaissé. Nuance importante, mais le signal est clair : la demande ne faiblit pas.

Groq 3 LPU : le nouveau chip d’inférence est réel

La rumeur s’est confirmée. Nvidia a officiellement dévoilé le Groq 3 LPU, sa première puce issue du deal à 20 milliards de dollars avec Groq. Fabriqué par Samsung, le chip offre 1,2 PFLOPS en FP8 et embarque 500 Mo de SRAM — une mémoire ultra-rapide mais minuscule comparée aux 288 Go de HBM4 d’un GPU Rubin. C’est précisément le point, selon The Register et ServeTheHome : chaque LPU est rapide mais petit, donc Nvidia en empile 256 dans un rack LPX dédié.

Le principe est celui de l’inférence désagrégée : le GPU Rubin gère le prefill (comprendre la question), le LPU Groq gère le décodage (générer la réponse). Le GPU a la puissance brute, le LPU a la latence ultra-basse — des milliers de tokens par seconde par utilisateur. Le rack LPX se connecte directement au rack Vera Rubin NVL72 via Spectrum-X, et le logiciel Dynamo orchestre le tout. Livraison prévue au troisième trimestre 2026.

Pour les curieux : avec 500 Mo de mémoire par LPU et 256 puces par rack, on arrive à 128 Go de mémoire totale — pas assez pour un modèle de mille milliards de paramètres. Il faudra connecter plusieurs racks LPX en chaîne. Nvidia assume : c’est le prix à payer pour la vitesse.

Vera Rubin tourne déjà chez Microsoft

Bonne nouvelle pour le calendrier : le premier système Vera Rubin est déjà opérationnel dans le cloud Azure de Microsoft, a confirmé Huang sur scène. Les échantillons Vera Rubin se passent apparemment mieux que ceux de Grace Blackwell, qui avaient connu quelques problèmes lors de la montée en charge. D’après Tom’s Hardware, Huang a admis ces difficultés passées tout en se montrant confiant sur le rythme de déploiement de Rubin.

Roadmap Feynman : GPU, LPU et un nouveau CPU nommé Rosa

La feuille de route 2028 se précise. L’architecture Feynman comprendra un nouveau GPU, un nouveau LPU (baptisé LP40), un nouveau CPU nommé Rosa, ainsi qu’un BlueField-5 et un ConnectX-10. Le tout s’installera dans des racks Kyber avec au choix du cuivre ou de l’optique co-packagée (CPO) pour les interconnexions, selon le blog officiel Nvidia.

La roadmap Nvidia complète mise à jour :

GénérationDispoGPUCPULPURack
Blackwell (actuel)2024-2025BlackwellGraceNVL72
Vera RubinS2 2026RubinVeraGroq 3NVL72 + LPX
Rubin UltraS2 2027Rubin UltraVeraGroq 3+Kyber NVL576
Feynman2028FeynmanRosaLP40Kyber CPO

DLSS 5 et le rendu neuronal 3D

Côté gaming et graphisme pro, Nvidia a annoncé DLSS 5 — une évolution qui combine rendu traditionnel et IA pour ce que Jensen appelle le « rendu neuronal 3D guidé ». L’idée : l’IA ne se contente plus d’upscaler l’image après coup, elle participe au rendu lui-même. Les réactions en ligne sont mitigées — certains parlent de « filtre Snapchat » — mais il faudra attendre des tests concrets avant de juger. À noter aussi : c’est le 20e anniversaire de CUDA, et Huang n’a pas manqué de le rappeler.

NemoClaw : OpenClaw version entreprise

Comme anticipé, Nvidia a lancé NemoClaw, un stack open source qui rend le framework d’agents IA OpenClaw utilisable en entreprise. D’après Tom’s Hardware, deux lignes de commande suffisent pour installer et lancer un agent IA. NemoClaw ajoute la couche de sécurité et de gouvernance que les entreprises exigent — protection des données sensibles, contrôle des actions autonomes, audit.

Huang a martelé : « Chaque entreprise au monde a besoin d’une stratégie d’agents IA. » Il a aussi comparé OpenClaw à un système d’exploitation : « C’est exactement comme Windows a permis de démocratiser le PC. » Comparaison ambitieuse, mais le parallèle est clair — Nvidia veut être la plateforme par défaut pour l’IA agentique, pas juste le fournisseur de puces.

Les moments inattendus

Quelques annonces plus surprenantes pour clôturer :

Nvidia va dans l’espace. Le projet Space-1 Vera Rubin vise à installer des data centers IA en orbite. Peu de détails techniques pour l’instant — les problèmes de radiation et de refroidissement dans le vide sont encore à résoudre — mais c’est un signal d’ambition qui dépasse le cadre habituel.

Un robot Olaf (de Frozen) est monté sur scène avec Jensen Huang. Développé avec Disney, il illustre les progrès de l’IA physique — des modèles entraînés en simulation (via Omniverse) puis déployés dans des robots réels. Le moment était surréaliste, mais la technologie derrière est sérieuse.

Uber déploiera des robotaxis Nvidia dans 28 villes sur quatre continents d’ici 2028, en commençant par Los Angeles et San Francisco l’an prochain. BYD, Hyundai, Nissan, Geely et Isuzu construisent des véhicules autonomes de niveau 4 sur la plateforme Nvidia Drive Hyperion. Huang a déclaré que « le moment ChatGPT de la conduite autonome est arrivé ».

Et le keynote s’est terminé sur… une chanson country générée par IA, avec des robots autour d’un feu de camp. On ne peut pas dire que Nvidia manque de confiance en soi.


Sources post-keynote (17 mars 2026)