Mistral AI accusée de vol massif de données : 70 To de livres piratés pour son IA

La licorne française Mistral AI, valorisée à 12 milliards d'euros et considérée comme l'un des fleurons européens de l'intelligence artificielle, se retrouve aujourd'hui au cœur d'un scandale majeur. Une enquête approfondie de Mediapart révèle que Guillaume Lample, cofondateur et actuel directeur scientifique de l'entreprise, aurait orchestré le téléchargement massif de contenus protégés par le droit d'auteur lorsqu'il travaillait chez Meta en 2022. Ces révélations soulèvent des questions cruciales sur l'éthique des données d'entraînement des modèles d'IA et pourraient avoir des conséquences juridiques importantes pour la startup française.

Un piratage massif orchestré depuis Meta

Selon les documents judiciaires rendus publics dans le cadre de l'affaire "Kadrey v. Meta Platforms Inc.", Guillaume Lample aurait supervisé le téléchargement d'environ 70 téraoctets (To) de données depuis Library Genesis, une plateforme pirate connue pour héberger des millions de livres et d'articles scientifiques protégés par le droit d'auteur. Cette opération aurait été menée via un protocole Torrent à l'automne 2022, alors que les équipes de recherche de Meta cherchaient à rattraper leur retard face à OpenAI et son modèle ChatGPT.

L'enquête révèle des échanges internes particulièrement compromettants. Lorsqu'une chercheuse s'est opposée à ces méthodes en affirmant que l'utilisation d'ouvrages piratés constituait "une ligne rouge", Guillaume Lample aurait répondu sans ambiguïté : "Tout le monde utilise LibGen. C'est ce qu'OpenAI fait avec GPT3, ce que Google fait avec Palm, ce que DeepMind fait avec Chinchilla. Donc on va le faire aussi". Ces propos, s'ils sont avérés, illustrent une certaine normalisation des pratiques douteuses dans le secteur de l'IA générative.

Des implications juridiques potentiellement graves

Cette affaire s'inscrit dans un contexte plus large de contestation juridique des pratiques d'entraînement des modèles d'intelligence artificielle. Plus de 70 procédures judiciaires visent actuellement différents acteurs majeurs du secteur, dont Meta, OpenAI et Google. La question centrale reste l'utilisation non autorisée d'œuvres protégées par le droit d'auteur pour entraîner des modèles d'IA générative.

En Europe, l'article 53 du règlement européen sur l'intelligence artificielle, entré en vigueur le 2 août 2025, impose désormais aux fournisseurs de modèles d'IA à usage général de publier un résumé détaillé de leurs données d'entraînement. À ce jour, Mistral AI n'a pas encore publié ce document obligatoire, ce qui pourrait constituer une infraction à la réglementation européenne.

Entreprise	Sources de données controversées	Statut légal
Mistral AI	Suspicion d'utilisation de LibGen (70 To)	Non-conformité potentielle avec l'article 53 de l'AI Act
Meta (LLaMA)	Books3 (ouvrages protégés)	Poursuites en cours
OpenAI	Utilisation présumée de LibGen	Multiples poursuites en cours

L'origine trouble des données de Mistral 7B

Des questions se posent désormais sur l'origine des données ayant servi à entraîner Mistral 7B, le premier modèle de la startup française lancé en septembre 2023. Un mail interne de Meta daté du 19 décembre 2023, révélé par Mediapart, mentionne explicitement que l'équipe de recherche "sait, par le bouche-à-oreille, que OpenAI et Mistral utilisent LibGen pour leurs modèles".

Cette révélation est particulièrement problématique pour Mistral AI qui affirme, depuis sa création, utiliser des données de "haute qualité" et négocier des licences appropriées. La société a effectivement signé un partenariat avec l'AFP début 2025 et participe depuis 2024 au projet ArGiMi donnant accès aux collections de l'INA et de la BNF. Cependant, ces accords sont tous postérieurs au lancement de Mistral 7B, ce qui soulève des interrogations légitimes sur les sources de données utilisées pour l'entraînement initial.

L'utilisation potentielle de contenus piratés pourrait exposer l'entreprise à des poursuites judiciaires de la part des ayants droit et entacher sérieusement sa réputation dans un contexte où la transparence devient une exigence réglementaire.

Une pratique répandue dans l'industrie de l'IA

Si les accusations visant Mistral AI sont graves, elles mettent également en lumière un problème systémique dans l'industrie de l'IA générative. La course à la performance des modèles semble avoir conduit de nombreux acteurs à utiliser des méthodes contestables pour obtenir des volumes massifs de données d'entraînement de qualité.

L'enquête de Mediapart révèle que le piratage se serait poursuivi chez Meta même après le départ de Guillaume Lample. En mai 2023, de nouveaux téléchargements massifs depuis LibGen auraient été effectués, puis en 2024 depuis Anna's Archive, une plateforme pirate qui a récemment aspiré l'intégralité du catalogue Spotify. Ce méta-agrégateur compile LibGen, Sci-Hub, Z-Library et d'autres sources, totalisant plus de 1 100 téraoctets de contenus piratés.

Cette situation soulève des questions fondamentales sur la viabilité du modèle économique des IA génératives actuelles et sur leur dépendance à des contenus protégés par le droit d'auteur.

Les alternatives légales pour l'entraînement des IA

Face à ces controverses, certaines entreprises tentent de développer des approches plus éthiques pour l'acquisition de données d'entraînement :

Négociation de licences directes avec les éditeurs et créateurs de contenu
Utilisation de données du domaine public ou sous licences ouvertes
Création de programmes de partenariat rémunérés avec les détenteurs de droits
Développement de techniques d'entraînement nécessitant moins de données
Mise en place de systèmes de rémunération des créateurs dont les œuvres sont utilisées

Le programme pour éditeurs de Perplexity, doté de 42,5 millions de dollars, illustre cette tendance vers des modèles plus équitables de collaboration avec les créateurs de contenu.

Illustration complémentaire sur Mistral AI

Silence radio de Mistral AI face aux accusations

Ni Guillaume Lample ni Mistral AI n'ont répondu aux sollicitations des journalistes de Mediapart. Ce silence est particulièrement problématique pour une entreprise qui se présente comme un champion national et européen de l'IA, bénéficiant d'un fort soutien politique et financier.

Valorisée à 12 milliards d'euros, Mistral AI est l'une des startups les plus prometteuses de la tech française. Elle a lancé en 2024 "Le Chat", un service concurrent de ChatGPT et Gemini, et continue de développer des modèles d'IA de plus en plus performants. Ces révélations interviennent à un moment critique pour l'entreprise qui cherche à s'imposer sur le marché mondial face aux géants américains.

Vers une régulation plus stricte des pratiques d'entraînement des IA

Cette affaire pourrait accélérer la mise en place de cadres réglementaires plus stricts concernant l'acquisition et l'utilisation de données pour l'entraînement des modèles d'IA. En Europe, l'AI Act impose déjà une transparence accrue, mais les mécanismes de contrôle et les sanctions en cas de non-conformité restent à préciser.

Aux États-Unis, plusieurs procès en cours pourraient établir une jurisprudence déterminante sur la question du fair use appliqué à l'entraînement des IA. Si les tribunaux venaient à considérer que l'utilisation d'œuvres protégées sans autorisation est illégale, c'est tout le modèle économique de l'IA générative qui pourrait être remis en question.

Pour les utilisateurs et développeurs d'IA, ces enjeux juridiques soulignent l'importance de choisir des modèles et des plateformes qui respectent les droits d'auteur et la propriété intellectuelle.

Conclusion : un tournant pour l'industrie de l'IA générative

Les accusations portées contre Mistral AI marquent un tournant dans le développement de l'IA générative en Europe. Elles mettent en lumière les tensions entre innovation technologique et respect du droit d'auteur, entre course à la performance et éthique des données.

Pour Mistral AI, l'enjeu est désormais de répondre clairement à ces accusations et de démontrer sa conformité avec les réglementations européennes. Pour l'industrie dans son ensemble, c'est l'occasion de repenser les pratiques d'acquisition de données et de développer des modèles économiques plus durables et respectueux des droits des créateurs.

À l'heure où l'IA générative s'intègre de plus en plus dans notre quotidien, la transparence sur l'origine des données d'entraînement devient un enjeu majeur de confiance et de légitimité. Les utilisateurs et les entreprises qui adoptent ces technologies sont en droit d'exiger des garanties sur le respect des droits d'auteur et la légalité des processus d'entraînement.

Vous souhaitez générer du contenu de qualité tout en respectant les droits d'auteur? Inscrivez-vous gratuitement à Roboto et découvrez comment créer des textes, images et vidéos éthiques et conformes aux réglementations.