Expanse : Comment l'IA Récupère 59% de Capacité GPU Gaspillée en 2026

Les centres de données modernes font face à un paradoxe troublant : alors que la demande en puissance de calcul explose, notamment pour l'entraînement de modèles d'IA, près de 60% de leur capacité GPU reste inexploitée. Expanse, startup issue de Y Combinator, propose une solution innovante basée sur l'apprentissage profond pour résoudre ce problème coûteux qui touche aussi bien les laboratoires d'IA que les fonds quantitatifs.

Le Gaspillage Massif des Ressources GPU : Un Problème à 8,5 Millions par Mois

Sur un cluster HPC national surveillé pendant un mois, les chiffres sont édifiants : sur 122 000 tâches exécutées, 59% de la puissance de calcul a été gaspillée. Traduit en coûts cloud à la demande, cela représente 8,5 millions de dollars perdus en un seul mois sur un seul cluster.

Cette inefficacité découle d'un problème comportemental bien identifié : le risque asymétrique. Les chercheurs et ingénieurs préfèrent systématiquement sur-estimer leurs besoins en ressources par un facteur de deux à trois. La raison ? Sous-estimer tue un job en cours d'exécution et fait perdre des jours de travail, tandis que sur-estimer coûte simplement de l'argent et bloque des ressources.

Cette dynamique s'observe dans tous les secteurs gourmands en calcul : les laboratoires d'IA générative, les fonds quantitatifs, et l'industrie manufacturière. Les datacenters fonctionnent ainsi à seulement 30-40% de leur capacité effective.

L'Approche Multimodale d'Expanse : Au-delà des LLM Classiques

Fondée par Ismaeel Bashir, Eren, Yafet et Nikodem, Expanse s'appuie sur des recherches menées à l'EPCC (Edinburgh's Parallel Computing Centre). Leur innovation : un prédicteur multimodal qui ingère simultanément le code source, les scripts de soumission, la télémétrie matérielle et les métadonnées du cluster.

Cette approche se distingue radicalement des solutions existantes. Les méthodes traditionnelles reposent sur des moyennes historiques par utilisateur (via sacct de SLURM), des règles heuristiques écrites à la main, ou des agents de codage basés sur des LLM frontières.

Les benchmarks d'Expanse révèlent une supériorité de 8x face aux modèles comme GPT 5.5, Claude Opus 4.8, Gemini 3.5 Pro et Codex 5.3. Plus surprenant encore : aucune corrélation n'a été observée entre la taille du modèle et la précision des prédictions. Claude Haiku a même surpassé Opus sur de nombreuses charges de travail.

Pourquoi les LLM Généraux Échouent sur cette Tâche

Les grands modèles de langage raisonnent dans le vide, sans support natif pour les entrées modales comme le code source (pour comprendre les flux de données et patterns computationnels) ou la télémétrie matérielle (pour saisir les caractéristiques de performance du cluster). Même les modèles spécialisés en codage peinent sur cette tâche.

Expanse affine continuellement ses modèles internes pour améliorer la précision au fil des workloads exécutés, s'adaptant aux nouveaux matériels et patterns de charge. Cette spécialisation contraste avec l'approche généraliste des systèmes IA conversationnels.

Les Trois Piliers Techniques d'Expanse

La solution s'installe sur chaque nœud du cluster et s'intègre aux orchestrateurs comme SLURM ou Kubernetes. Elle déploie trois capacités complémentaires :

1. Prédiction des Ressources au Moment de la Soumission

Avant même que le cluster ne voie la tâche, Expanse prédit la VRAM GPU, l'utilisation, la mémoire, les CPU et le temps d'exécution réellement nécessaires, avec intervalles de confiance. Le système signale également les échecs probables (dépassements de mémoire) et suggère des optimisations ligne par ligne.

Métrique	Demande Utilisateur Typique	Besoin Réel (Expanse)	Économie
VRAM GPU	80 GB	32 GB	60%
Cœurs CPU	64	24	62,5%
Temps d'exécution	48h	18h	62,5%
Mémoire RAM	512 GB	196 GB	61,7%

2. Observabilité en Temps Réel

Pendant l'exécution, un tableau de bord présente la télémétrie collectée (DCGM, CUPTI, Cgroups, monitoring réseau/IO) et le profilage de la pile d'appels. Le profilage dynamique maintient un overhead à un chiffre tout en restant informatif.

Cette surveillance continue s'avère particulièrement précieuse pour les infrastructures énergétiques des data centers qui cherchent à optimiser leur consommation.

3. Diagnostic de Défaillance Post-Mortem

En cas d'échec, Expanse corrèle le profilage de pile et la télémétrie matérielle pour générer des logs orientés solution. Ces diagnostics indiquent non seulement ce qui s'est passé, mais pourquoi et comment corriger le problème avec des suggestions au niveau du code.

Modèle Commercial et Déploiement

Expanse cible les clusters HPC/GPU de 100+ GPU fonctionnant sous SLURM ou Kubernetes. Le processus d'adoption suit trois phases :

Fenêtre de mesure (2 semaines) : Installation, ingestion et rapport sur la capacité récupérable
Pilote payant : Déploiement dans un département à tarif mensuel fixe
Extension progressive : Renouvellement au même tarif sauf expansion du périmètre

Cette approche progressive minimise les risques pour les opérateurs de datacenters, qui peuvent quantifier les gains avant tout engagement financier significatif. Le modèle économique contraste avec les partenariats massifs entre géants technologiques.

Limitations des Approches Alternatives

Les moyennes historiques par utilisateur (sacct) deviennent inexactes dès qu'un nouveau type de workload apparaît ou que des modifications de code sont apportées. Les règles heuristiques manuelles ne s'adaptent pas aux évolutions rapides des patterns de calcul.

Quant aux agents LLM, malgré leur accès complet aux scripts de soumission et au code source, ils ont montré des performances décevantes. L'absence de contexte matériel et de compréhension des topologies de cluster les handicape sévèrement.

Expanse comble cette lacune en créant des embeddings personnalisés du comportement matériel de chaque cluster, permettant des prédictions adaptées aux spécificités de chaque infrastructure. Cette personnalisation rappelle l'importance de l'adaptation contextuelle dans les systèmes d'IA spécialisés.

Cas d'Usage : Génomique et Simulations Complexes

Un exemple concret illustre le problème : le traitement d'expériences de séquençage génomique nécessite 8 étapes distinctes (prétraitement, alignement, filtrage, collecte de statistiques QC). Chaque programme a des besoins différents en CPU et mémoire.

Pour éviter des jours de lecture/écriture, les chercheurs enchaînent les programmes via des pipes. Mais ils doivent réserver les ressources maximales pour toute la durée, laissant CPU et mémoire inactifs pendant la majeure partie de l'exécution. Optimiser pour l'efficacité du temps d'exécution sacrifie l'utilisation des ressources.

Cette tension entre temps d'exécution individuel et débit système global est au cœur du problème HPC. Les utilisateurs se soucient uniquement de terminer rapidement leurs tâches, tandis que les administrateurs veulent maximiser l'efficacité globale.

Enjeux de Gouvernance et Équité d'Accès

Une solution commune consiste à implémenter un ordonnancement "fair share" qui priorise les utilisateurs ayant peu utilisé le cluster récemment. Cela n'adresse pas directement l'efficacité d'utilisation, mais rend l'accès plus équitable.

La vraie solution passerait par un système de marché où les ressources coûtent de l'argent aux utilisateurs, créant des incitations à l'optimisation. Mais cette approche reste rare dans les grands clusters HPC et soulèverait des questions d'équité, notamment concernant l'accès démocratique aux ressources de calcul.

Perspectives : Complémentarité avec les Agents Autonomes

Expanse ne cherche pas à remplacer les LLM dans le workflow de recherche, mais à les compléter. Les grands modèles excellent dans l'écriture de code et les balayages d'hyperparamètres, mais nécessitent Expanse pour boucler la boucle agentique complète de la recherche automatisée.

Les outils CLI d'Expanse ont été conçus pour être "LLM-friendly", facilitant l'intégration dans des pipelines automatisés. Cette approche hybride reconnaît les forces respectives des systèmes généraux et spécialisés.

À mesure que les modèles d'IA générale progressent, la question de leur convergence avec des systèmes spécialisés comme Expanse reste ouverte. Pour l'instant, l'absence de corrélation entre taille de modèle et performance sur cette tâche suggère que la spécialisation conserve un avantage significatif.

Défis Techniques et Adoption

L'installation sur chaque nœud et l'intégration profonde avec les ordonnanceurs représentent des défis opérationnels non négligeables. Les équipes HPC sont traditionnellement conservatrices, privilégiant la stabilité à l'innovation.

La période de mesure de deux semaines vise précisément à surmonter cette réticence en quantifiant les gains potentiels avant tout déploiement invasif. Les premiers retours d'expérience des pilotes détermineront si cette approche suffit à convaincre un marché habitué à des cycles de changement lents.

Les questions de sécurité et de confidentialité du code source analysé devront également être adressées, particulièrement dans les environnements sensibles comme les fonds quantitatifs ou la recherche confidentielle.

Conclusion : Vers une Nouvelle Ère d'Efficacité Computationnelle

Expanse s'attaque à un problème économique majeur de l'infrastructure de calcul moderne : le gaspillage systématique de ressources coûteuses par excès de prudence. Leur approche multimodale, entraînée sur des workloads réels et affinée cluster par cluster, démontre qu'une IA spécialisée peut surpasser largement les modèles généraux sur des tâches techniques précises.

Avec 59% de capacité récupérable identifiée sur des clusters réels, le potentiel d'impact est considérable. Reste à voir si l'écosystème HPC, traditionnellement conservateur, adoptera massivement cette innovation ou si les barrières opérationnelles ralentiront le déploiement.

Dans un contexte où l'IA transforme radicalement les industries établies, Expanse illustre comment des applications verticales peuvent créer de la valeur là où les systèmes généraux échouent. Pour aller plus loin dans l'optimisation de vos workflows IA, créez votre compte gratuit sur Roboto et découvrez nos outils de génération de contenu optimisés.

Tags :

Expanse IA optimisation GPU cluster HPC gaspillage ressources calcul prédiction workload

Partager sur

Jacky

Article précédent

Surproductivité IA : Quand l'Intelligence Artificielle Nuit à la Concentration

Article suivant

Recrutement Tech IA en 2026 : Profils, Compétences et Tendances