Qui a écrit cela ? Évaluation des outils de détection des textes générés par l’IA

Une étude de Mozilla a révélé que les outils de détection ne sont pas toujours aussi fiables qu’ils le prétendent. Par ailleurs, les chercheurs ont constaté que les grands modèles de langage tels que ChatGPT peuvent être utilisés efficacement pour créer des textes ayant une tonalité plus « humaine ».

Introduction

Comme nous le soulignions précédemment, l’IA générative présente de nouvelles menaces pour la santé de notre système d’information. Les principaux acteurs de l’IA admettent les risques associés à leurs services : OpenAI a publié un communiqué sur la menace que représentent le marketing d’influence automatisé et sa politique interdit l’utilisation de ChatGPT pour « les campagnes politiques ou le lobbying, y compris la production de contenus de campagne personnalisés ou destinés à des groupes démographiques spécifiques », nos recherches ont cependant révélé que cette politique n’est pas appliquée avec suffisamment de rigueur.

Il serait souhaitable de disposer d’outils permettant de distinguer les textes écrits par l’homme de ceux rédigés par l’IA. De tels outils existent, mais il est important de bien comprendre leurs points forts, leurs défauts et leurs limites. Une confiance excessive dans des outils inappropriés peut être préjudiciable à certaines personnes : des étudiants ont été accusés à tort d’avoir soumis des essais rédigés par l’IA et le journal The Markup rapporte que les outils de détection de l’IA peuvent être biaisés à l’encontre des personnes dont l’anglais n’est pas la langue maternelle.

Jusqu’à présent, les initiatives visant à créer des outils de détection n’ont généralement pas été concluantes. OpenAI a déployé en janvier 2023 un outil « formé pour distinguer les textes écrits par l’IA de ceux écrits par les humains », mais ce dernier a été désactivé en juillet de la même année, en invoquant « son faible taux de précision ». Selon un rapport, « le système n’a réussi à catégoriser que 26 % des textes écrits par l’IA comme étant « probablement générés par l’IA » et dans 9 % des cas, il a incorrectement identifié des textes écrits par des humains comme étant rédigés par l’IA ». La société précise qu’elle « étudie actuellement des méthodes de vérification de la provenance des textes plus efficaces et s’est engagée à développer et à déployer des mécanismes permettant aux utilisateurs de comprendre si un contenu audio ou visuel a été généré par l’IA ». À ce jour, aucun nouvel outil n’a été publié par OpenAI.

Binoculars

Une méthode récente publiée par des chercheurs de l’université du Maryland, appelée « Binoculars », a fait l’objet d’une couverture positive. Cette approche consiste à « examiner les données d’entrée à travers le prisme de deux modèles de langage différents ». Les chercheurs proposent une implémentation open source sur GitHub, mais précisent que « l’implémentation est uniquement destinée à des fins académiques et ne doit pas être considérée comme un produit de consommation. Nous déconseillons vivement l’utilisation de Binoculars (ou de tout autre outil de détection) sans supervision humaine ». Quoi qu’il en soit, le site Business Insider déclare : « Un nouvel outil de détection de l’IA pourrait avoir résolu le problème des faux positifs pour les travaux d’étudiants, selon des chercheurs », tandis que le site IEEE Spectrum étudie la méthode en écrivant que « de meilleures techniques de détection de l’IA, encore plus efficaces, se profilent à l’horizon ». Les auteurs écrivent dans leur communiqué que « Binoculars détecte plus de 90 % des échantillons générés par ChatGPT (et d’autres LLM) avec un taux de faux positifs de 0,01 % ». Cela signifie que dans 9 cas sur 10, la méthode est capable de détecter un texte écrit par l’IA et qu’elle ne produit de faux positifs (c’est-à-dire une évaluation incorrecte selon laquelle un texte écrit par un être humain est identifié comme étant écrit par l’IA) que dans 1 cas sur 10 000.

Notre évaluation

Dans le but de réaliser une évaluation plus poussée de la méthode, nous utilisons l’ensemble de données AI Text Detection Pile, qui comprend 990 000 textes rédigés par des humains et 340 000 exemples générés par l’IA. Dans le résumé de l’ensemble de données, il est indiqué : « Il s’agit d’un ensemble de données à grande échelle destiné aux tâches de détection de texte par l’IA, axé sur les textes longs et les essais. Il contient des échantillons de textes humains et de textes générés par l’IA provenant de GPT2, GPT3, ChatGPT, GPTJ ».

Le rapport d’analyse est disponible sur GitHub ici.

Nous avons évalué l’implémentation disponible sur cet ensemble de données en demandant à l’outil Binoculars de déterminer si chaque exemple de texte avait été généré par l’IA ou par l’homme. En comparant les étiquettes ainsi obtenues aux véritables étiquettes fournies dans l’ensemble de données, nous sommes en mesure de déterminer, pour chaque texte, si Binoculars a correctement identifié sa provenance.

Les résultats de notre évaluation font état d’un taux de vrais positifs de 43 %, soit approximativement la moitié des résultats obtenus par les auteurs dans le cadre de leur évaluation. Plus important encore, le taux de faux positifs est d’environ 0,7 %, soit 70 fois plus élevé que les résultats obtenus par les auteurs, cela signifie que le risque d’être accusé à tort d’utiliser l’IA existe dans environ 1 cas sur 140 au lieu de 1 cas sur 10 000.

Le taux de faux positifs est d’environ 0,7 %, soit 70 fois plus élevé que le résultat obtenu par les auteurs, ce qui signifie qu’un auteur pourrait être accusé à tort d’utiliser l’IA dans environ 1 cas sur 140.

Nous avons contacté l’auteur de l’article sur Binoculars, Abhimanyu Hans, pour lui faire part de ces résultats. Il a suggéré trois explications possibles :

L’ensemble de données que nous avons utilisé pour l’évaluation a été publié il y a environ un an et repose en grande partie sur des modèles plus anciens comme GPT-2, pour lequel la méthode utilisée par Binoculars pourrait s’avérer moins efficace. Cela n’a toutefois d’incidence que sur le taux de vrais positifs, et non sur le taux de faux positifs.

La longueur du texte varie. Selon l’auteur, la méthode utilisée par Binoculars produit de meilleurs résultats avec des textes d’une longueur d’environ 256 tokens (environ 1 024 caractères), les performances sont moindres pour des textes plus courts ou plus longs.

La langue. Le modèle fonctionne mieux avec du texte écrit en anglais et l’auteur suppose que l’ensemble de données pourrait contenir des textes rédigés dans d’autres langues. Nous n’avons pas procédé à une évaluation approfondie, mais une vérification rapide nous permet de confirmer que l’ensemble de données contient des textes exclusivement en anglais.

Afin de déterminer l’impact de la longueur du texte, nous avons choisi une longueur cible de 1 024 caractères, ce qui correspond approximativement aux 256 tokens spécifiés par l’auteur. Nous avons ensuite effectué une autre évaluation dans laquelle nous avons rejeté tous les textes plus courts par rapport au seuil et tronqué tous les autres textes pour atteindre cette longueur. Dans ce cas, le taux de vrais positifs est resté à peu près inchangé et le taux de faux positifs est passé de 0,7 % à 0,4 %, ce qui représente une nette amélioration, mais reste très éloigné des conclusions de l’auteur.

Nous sommes convaincus que les performances dont les auteurs font état dans leur article sont exactes, sur la base de leurs données d’évaluation. Cependant, nos conclusions soulèvent un manque de fiabilité préoccupant, notamment en ce qui concerne la probabilité d’affirmer à tort qu’un texte écrit par un être humain est généré par l’IA.

Exemples

Pour comprendre les erreurs, voici quelques exemples de faux négatifs (texte généré par l’IA et considéré comme écrit par un être humain) et de faux positifs (texte écrit par un être humain et considéré comme généré par l’IA). Les textes ont été raccourcis pour les besoins de cet article :

En guise d’expérience finale, testons Binoculars sur un exemple de communication électorale, comme dans notre article précédent, où nous avons utilisé ChatGPT pour générer des communiqués politiques :

John, ancien militaire à la retraite : « L’honneur et le soutien à nos troupes sont au cœur de l’administration Biden. Forts de notre réussite en matière d’amélioration des soins de santé des vétérans et d’augmentation des budgets consacrés à la défense, nous nous engageons à assurer la sécurité de l’Amérique et à traiter nos héros avec la dignité qu’ils méritent ».

Sofia, jeune active en zone urbaine : « Rejoignez l’équipe Biden pour construire un avenir durable grâce à des initiatives d’avant-garde en matière d’énergie propre et à des politiques qui favorisent l’innovation. Ensemble, nous pouvons lutter contre le changement climatique, réduire les dettes des étudiants et créer un marché de l’emploi dynamique, prêt à relever les défis de demain ».

Emma, gérante d’une petite entreprise en milieu rural : « Le président Biden comprend que les petites entreprises et les exploitations agricoles représentent la colonne vertébrale de l’économie américaine. Nous travaillons à la mise en œuvre d’accords commerciaux équitables, à l’amélioration des infrastructures rurales et à la mise en place d’allégements fiscaux pour aider votre entreprise à prospérer sur un marché mondialisé ».

Michael, parent appartenant à la classe moyenne et vivant en banlieue : « Chaque enfant mérite une éducation de qualité et, sous l’administration Biden, nous investissons plus que jamais dans nos écoles publiques et dans nos enseignants. Avec des politiques visant à rendre les soins de santé abordables et nos quartiers sûrs, nous construisons des communautés plus fortes pour nos familles ».

Binoculars a détecté que ces messages étaient générés par l’IA. Cependant, lorsque nous avons demandé à ChatGPT « d’utiliser un langage plus naturel et d’introduire de petites erreurs pour donner l’impression que le texte a été écrit de manière spontanée », nous avons obtenu le résultat suivant :

John, ancien militaire à la retraite : « Le cœur de l’administration Biden ? Honorer et soutenir nos troupes. Ils ont vraiment fait un pas dans la bonne direction, en améliorant les soins de santé des vétérans, en augmentant les budgets de la défense… Il s’agit d’assurer notre sécurité et de traiter nos héros comme il se doit ».

Sofia, jeune active en zone urbaine : « Rejoignons l’équipe Biden pour un avenir plus vert. Ils mettent en place des plans d’énergie propre et des politiques d’innovation très prometteuses. Nous voulons lutter contre le changement climatique, réduire les prêts étudiants et créer un marché de l’emploi prêt à faire face aux défis à venir ».

Emma, gérante d’une petite entreprise en milieu rural : « Biden l’a compris : les petites entreprises et les exploitations agricoles sont le véritable moteur de notre économie. Commerce équitable, amélioration des réseaux internet et routiers dans les zones rurales, allègements fiscaux… il œuvre en faveur des changements qui nous importent, afin que nous puissions nous imposer sur le marché mondial ».

Michael, parent appartenant à la classe moyenne et vivant en banlieue : « Chaque enfant devrait bénéficier d’une éducation de qualité, n’est-ce pas ? L’équipe de Joe Biden investit plus que jamais dans les écoles publiques et les enseignants. Ils prônent des soins de santé abordables et des quartiers sûrs, afin de faire bouger les choses pour des familles comme les nôtres ».

Binoculars a classifié ces textes comme étant écrits par des humains.

Conclusions

Nous n’avons évalué qu’un seul des nombreux outils disponibles pour détecter les textes générés par l’IA. En réalité, nous avons choisi d’évaluer cet outil principalement en raison du niveau élevé des performances revendiquées, mais aussi parce qu’une telle évaluation est possible grâce à la version open source responsable fournie par les auteurs (de nombreux systèmes sont fermés, ce qui rend difficile, voire impossible, l’évaluation par des tiers). Cependant, nous pensons que nos résultats sont représentatifs et que les limites sont inhérentes au problème : les textes générés par l’IA ne sont tout simplement pas assez différents des textes écrits par l’homme pour pouvoir les différencier de manière systématique. Pour un utilisateur déterminé, si le texte généré est détecté comme provenant de l’IA, il est relativement simple de demander au modèle de rendre le texte plus naturel, de changer de modèle ou de travailler avec des langues ou des longueurs de texte avec lesquelles les détecteurs ne fonctionnent pas. Par ailleurs, les affirmations des auteurs de la méthode Binoculars reposent sur une évaluation réalisée à partir de données générées par une petite poignée de modèles ; nos résultats font douter de la capacité à s’appliquer à un large éventail de modèles, qu’ils soient obsolètes ou actuels.

Les textes générés par l’IA ne sont tout simplement pas assez différents des textes écrits par l’homme pour qu’il soit possible de les différencier de manière systématique.

Même les outils de détection défectueux peuvent avoir des usages intéressants. Par exemple, une plateforme peut utiliser ces outils pour tenter de détecter les comptes automatisés et signaler les comptes qui doivent faire l’objet d’une enquête plus approfondie. Mais il est important de garder à l’esprit que ces outils peuvent comporter des préjugés susceptibles de nuire de manière disproportionnée à des communautés déjà marginalisées en ligne. Et pour certaines applications, en particulier celles où les erreurs peuvent avoir des conséquences dramatiques, comme dans le cas de la détection du plagiat, il est peu probable qu’un outil atteigne un jour un niveau suffisamment élevé pour garantir que les étudiants ne seront pas accusés à tort d’avoir eu recours à l’IA pour rédiger un essai qu’ils ont en réalité rédigé eux-mêmes sans ménager leurs efforts. Le déploiement de cette méthode de détection du plagiat dans un département universitaire, par exemple, pourrait donner lieu à de fausses accusations de plagiat à grande échelle, en ciblant peut-être de manière disproportionnée les étudiants dont l’anglais n’est pas la langue maternelle.

Le défi que représente la détection des contenus générés par l’IA fait l’objet d’une grande attention ces jours-ci, à juste titre. Cependant, les décideurs politiques et la société dans son ensemble ne devraient pas se hâter d’apporter des solutions apparemment faciles à un problème complexe. Il convient au contraire de rester prudent face aux affirmations trop ambitieuses concernant des solutions présumées, et d’investir dans le développement de cet important domaine de recherche. Toute solution politique concernant les textes générés par l’IA devra tenir compte du fait que ces textes ne se distinguent pas nécessairement de ce ceux écrits par les humains, et que les outils développés pour détecter ces différences peuvent être détournés par des acteurs mal intentionnés ou s’avérer inefficaces.