La France dévoile son classement des meilleures IA : le gagnant va vous surprendre

Le gouvernement français, qui a lancé son comparateur de modèles d’IA en octobre 2024, vient de révéler son tout premier classement. Et les résultats sont surprenants.

Le classement peut surprendre : un an après son lancement, le comparateur de modèles d’IA du gouvernement, compar:IA, a dévoilé le 3 novembre 2025 ses premiers résultats.

Imaginée par la Direction interministérielle du numérique (DINUM) et le ministère de la Culture, cette plateforme publique française permet depuis un an de comparer différents modèles d’IA conversationnelle, de façon anonyme. Dans 95 % des cas, l’utilisateur pose une question à deux IA « à l’aveugle » — il peut aussi, plus rarement (5 % des cas), choisir parmi une liste de questions prédéfinies. Les deux IA répondent, l’utilisateur choisit celle qu’il préfère, puis découvre les identités des modèles testés, avec quelques données complémentaires (origine, taille, open source ou non, impact environnemental estimé).

À notre grande surprise, les résultats publiés par cet outil français n’ont pas grand-chose à voir avec ceux d’autres comparateurs, comme LMArena.

compar:IA est disponible depuis octobre 2024. // Source : compar:IA — L’outil est disponible depuis octobre 2024 : voici son classement au bout d’un an. // Source : compar:IA

Un petut modèle Mistral en tête du classement, GPT-5 et Gemini 2.5 Pro largués… Le classement de la France étonne

Le podium a de quoi faire lever un sourcil. En tête, un modèle français — Mistral-medium-3.1 — qui n’est même pas le plus performant de la marque. Cet « intermédiaire » est avant tout pensé pour offrir un bon compromis coût/performance dans le cloud. Il devance au classement Gemini-2.5-Flash et Gemini-2.0-Flash, deux modèles allégés conçus pour la rapidité plutôt que la profondeur, qui sont moins performants que Gemini-2.5-Pro, en tête des classements internationaux. La présence de Gemini 2.0 Flash dans le top 3, malgré son ancienneté, a de quoi surprendre : comment trois modèles « allégés », comme Mistral Medium 3.1, Gemini 2.5 Flash et Gemini 2.0 Flash peuvent battre les fleurons du secteur ?

Le classement de la partie Text Arena de LMArena. // Source : LMArena — Le classement de la partie Text Arena de LMArena, le comparateur international, avec des résultats très différents. // Source : LMArena

Prudent, le Ministère de la Culture rappelle qu’il dispose de très peu d’informations sur le profil des votants — un choix volontaire lié à la protection des données personnelles. Impossible, donc, de savoir si les participants étaient des experts, des curieux, ou de simples utilisateurs venus tester les IA.

Du côté d’OpenAI, le constat est tout aussi surprenant. Le premier modèle GPT n’apparaît qu’à la septième place — et il ne s’agit même pas de GPT-4.5 ou GPT-5, mais de gpt-oss-120b, une version open source publiée en août 2025. Les autres modèles d’OpenAI suivent : gpt-4.1-mini (22e) et gpt-5-mini (26e). À titre de comparaison, dans la catégorie « Text Arena » de LMArena — dédiée aux performances textuelles des modèles –, les trois premières places sont occupées par Gemini-2.5-Pro, Claude Opus 4.1 et Claude Sonnet 4.5. Des résultats bien plus en phases avec ce que disent les experts de l’industrie.

	Classement français	Classement LMArena
#1	Mistral Medium 3.1	Gemini 2.5 Pro
#2	Gemini 2.5 Flash	Claude Opus 4.1 Thinking
#3	Gemini 2.0 Flash	Claude Sonnet 4.5 Thinking
#4	Qwen 3 Max	GPT-4.5 Preview
#5	DeepSeek-V3	GPT-4o
#6	Gemma-3 (27b)	OpenAI o3
#7	GPT-oss (120b)	Claude Sonnet 4.5
#8	DeepSeek-V3.1	GPT-5 High
#9	Magistral Medium 3.1	Claude Opus 4.1
#10	DeepSeek-V3 Chat	Qwen 3 Max

En gras, les modèles présents dans les deux classements

Intervalle de confiance : faut-il se fier au classement français ?

Pour interpréter ces résultats, la DINUM et le ministère de la Culture insistent sur un indicateur clé : l’intervalle de confiance. Il mesure la solidité d’une position dans le classement. Il ne s’agit pas d’un simple détail statistique, mais d’un outil essentiel pour mesurer la fiabilité des positions. En pratique, il indique le degré d’incertitude associé au score d’un modèle : plus cet intervalle est étroit, plus la position du modèle est considérée comme solide et stable. À l’inverse, un intervalle large signifie que le modèle reçoit des votes très variés — certains utilisateurs l’adorent, d’autres beaucoup moins. Concrètement, si l’on regarde deepseek-chat-V3.1 (470 votes), il apparaît actuellement à la huitième place sur compar:IA, mais avec un intervalle de confiance relativement large, de -10 à +7. Autrement dit, sa position pourrait facilement fluctuer selon les prochains votes : il pourrait aussi bien grimper de plusieurs rangs que redescendre.

Le logo de DeepSeek. // Source : Numerama

Ce type d’écart traduit une forte hétérogénéité des réponses et souligne que le classement reste, à ce stade, vivant et évolutif, plutôt qu’une photographie figée des performances des IA. Le modèle de MistralAI, première position, dispose quant à lui d’un intervalle de confiance de -0/+0 : l’incertitude autour du score du modèle est donc extrêmement faible, voire nulle.

Le classement sera mis à jour chaque semaine, nous indique le ministère de la Culture. Trop tôt, donc, pour parler d’un biais « patriotique » en faveur de Mistral AI : aucune étude approfondie n’a encore été menée sur d’éventuels biais linguistiques, culturels ou nationaux dans les réponses des modèles. Pour l’heure, compar:IA se présente avant tout comme une base d’observation, ouverte à la recherche et à l’analyse.