Wer hat das geschrieben? Auswertung von Tools zum Erkennen von KI-generiertem Text

Untersuchungen von Mozilla haben ergeben, dass die Erkennungstools nicht immer so zuverlässig sind, wie sie behaupten. Außerdem fanden die Forscher heraus, dass große Sprachmodelle wie ChatGPT erfolgreich dazu aufgefordert werden können, einen „menschlich klingenden“ Text zu erzeugen

Einleitung

Wie wir bereits geschrieben haben, stellt die generative KI eine neue Bedrohung für die Gesundheit unseres Informationsökosystems dar. Die großen KI-Akteure erkennen die Risiken, die ihre Dienste darstellen: OpenAI hat eine Studie über die Bedrohung durch automatisierte Beeinflussung veröffentlicht, und ihre Richtlinie verbietet die Nutzung von ChatGPT für „politische Kampagnen oder Lobbyarbeit, einschließlich der Erstellung von Kampagnenmaterial, das auf bestimmte Bevölkerungsgruppen zugeschnitten ist oder auf diese abzielt“, obwohl unsere Untersuchungen ergeben haben, dass diese Richtlinie nicht ausreichend durchgesetzt wird.

Tools zur Unterscheidung zwischen von Menschen geschriebenem Text und KI-Text wären hilfreich. Es gibt bereits einige solcher Tools, aber wir müssen darauf achten, ihre Stärken, Vorurteile und Grenzen zu verstehen. Verlässt man sich zu sehr auf ungenaue Tools, können Menschen zu Schaden kommen: Studenten wurden fälschlicherweise beschuldigt, von einer KI geschriebene Aufsätze eingereicht zu haben, und The Markup berichtet, dass KI-Erkennungsprogramme gegenüber nicht englischen Muttersprachlern voreingenommen sein können.

Die bisherigen Versuche, Detektor-Tools zu entwickeln, waren im Allgemeinen nicht vielversprechend. OpenAI selbst veröffentlichte im Januar 2023 ein Tool, das „darauf trainiert ist, zwischen von KI geschriebenem und von Menschen geschriebenem Text zu unterscheiden“, nahm es aber im Juli desselben Jahres wieder vom Netz und begründete dies mit „seiner geringen Genauigkeitsrate“. In einem Bericht heißt es, dass „es nur 26 % der von KI geschriebenen Texte als ‚wahrscheinlich von KI geschrieben‘ klassifizieren konnte und 9 % der von Menschen geschriebenen Texte fälschlicherweise als KI bezeichnete.“ Sie erklären, dass sie „derzeit effektivere Verfahren zur Ermittlung der Herkunft von Text erforschen und sich verpflichtet haben, Mechanismen zu entwickeln und einzusetzen, die es den Nutzern ermöglichen, zu erkennen, ob Audio- oder visuelle Inhalte von KI stammen.“ Bislang hat OpenAI jedoch keine neuen Tools veröffentlicht.

Binoculars

Eine kürzlich von Forschern der University of Maryland veröffentlichte Methode namens „Binoculars“, ein Ansatz, der Eingaben durch die Brille zweier verschiedener Sprachmodelle betrachtet, wurde positiv aufgenommen. Sie stellen eine Open-Source-Implementierung auf GitHub zur Verfügung, weisen aber darauf hin, dass die „Implementierung nur für akademische Zwecke bestimmt ist und nicht als Verbraucherprodukt betrachtet werden sollte. Wir raten auch dringend davon ab, Binoculars (oder einen anderen Detektor) ohne menschliche Aufsicht zu verwenden.“ Unabhängig davon schreibt Business Insider: „Ein neues KI-Erkennungstool könnte das Problem der falsch-positiven Ergebnisse bei Schreibarbeiten von Studenten gelöst haben, sagen Forscher“, während IEEE Spectrum die Methode diskutiert und schreibt, dass „bessere und effektivere KI-Erkennungstechniken am Horizont zu sehen sind.“ Die Autoren schreiben in ihrer Studie, dass „Binoculars über 90 % der von ChatGPT (und anderen LLMs) generierten Beispiele bei einer Falsch-Positiv-Rate von 0,01 % erkennt“. Das bedeutet, dass die Methode in 9 von 10 Fällen KI-geschriebenen Text erkennen sollte und nur in 1 von 10.000 Fällen ein Falsch-Positiv-Ergebnis liefert (d. h. eine falsche Einschätzung, die behauptet, dass von Menschen geschriebener Text KI-geschrieben ist).

Unsere Bewertung

Um die Methode weiter zu evaluieren, verwenden wir den AI Text Detection Pile-Datensatz, der 990.000 von Menschen geschriebene Texte und 340.000 von KI geschriebene Beispiele enthält. In der Zusammenfassung heißt es: „Dies ist ein groß angelegter Datensatz, der für Aufgaben zur Erkennung von KI-Texten gedacht ist und sich auf Langformtexte und Aufsätze konzentriert. Er enthält Proben von sowohl menschlichem Text als auch von KI generiertem Text von GPT2, GPT3, ChatGPT, GPTJ.“

Das Analyse-Notizbuch ist hier auf GitHub verfügbar.

Wir haben die bereitgestellte Implementierung auf diesem Datensatz ausgewertet, indem wir das Binoculars-Tool gebeten haben zu bestimmen, ob jeder Beispieltext von KI oder Menschen generiert wurde. Durch den Vergleich dieser berechneten Labels mit den im Datensatz bereitgestellten wahren Labels können wir für jeden Text feststellen, ob Binoculars die Herkunft des Textes korrekt eingeschätzt hat.

Unsere Bewertung zeigt eine Richtig-Positiv-Rate von 43 %, etwa die Hälfte dessen, was die Autoren in ihrer Bewertung gefunden haben. Kritischer ist, dass die Falsch-Positiv-Rate etwa 0,7 % beträgt, 70-mal höher als die Feststellung der Autoren – das bedeutet, dass der Autor in etwa 1 von 140 Fällen fälschlicherweise beschuldigt werden könnte, KI zu verwenden, anstatt in 1 von 10.000 Fällen.

Die Falsch-Positiv-Rate ist etwa 0,7 %, 70-mal höher als die Feststellung der Autoren – das bedeutet, dass der Autor in etwa 1 von 140 Fällen fälschlicherweise beschuldigt werden könnte, KI zu verwenden.

Mit diesen Ergebnissen wandte ich mich an den Hauptautor der Binoculars-Studie, Abhimanyu Hans. Er schlug drei mögliche Erklärungen vor:

Der Datensatz, den wir zur Bewertung verwendet haben, wurde vor etwa einem Jahr veröffentlicht und ein großer Teil des Datensatzes wird von älteren Modellen wie GPT-2 generiert, für die die Binoculars-Methode möglicherweise weniger effektiv ist. Dies könnte jedoch nur die Richtig-Positiv-Rate beeinflussen, nicht die Falsch-Positiv-Rate.

Die Textlänge variiert. Er erklärte, dass die Binoculars-Methode am besten bei Texten mit einer Länge von etwa 256 Token (etwa 1024 Zeichen) funktioniert, wobei die Leistung bei kürzeren oder längeren Texten abnimmt.

Sprache. Das Modell funktioniert am besten mit englischem Text, und er deutete an, dass der Datensatz möglicherweise nicht-englischen Text enthält. Ich habe dies nicht gründlich überprüft, aber eine beiläufige Prüfung bestätigt, dass der Datensatz nur englisch ist.

Um die Auswirkungen der Textlänge zu testen, wählten wir eine Ziellänge von 1024 Zeichen, was ungefähr den 256 Token entspricht, die der Autor angegeben hat. Anschließend führten wir eine weitere Auswertung durch, bei der wir alle Texte, die kürzer als der Schwellenwert waren, ablehnten und alle anderen Texte auf diesen Schwellenwert abschnitten. In diesem Fall blieb die Richtig-Positiv-Rate annähernd unverändert und die Falsch-Positiv-Rate sank von 0,7 % auf 0,4 % - eine deutliche Verbesserung, aber immer noch weit entfernt von den Ergebnissen des Autors.

Ich bin mir sicher, dass die Leistung, die die Autoren in ihrer Studie angeben, auf der Grundlage ihrer Bewertungsdaten richtig ist. Unsere Ergebnisse lassen jedoch auf einen besorgniserregenden Mangel an Robustheit schließen, insbesondere was die Tendenz betrifft, fälschlicherweise zu behaupten, dass von Menschen geschriebener Text mittels KI generiert wird.

Beispiele

Um die Fehler zu verstehen, hier sind einige Beispiele für Falsch-Negativ (KI-Text als menschlich bewertet) und Falsch-Positiv (menschlicher Text als KI-generiert bewertet). Die Texte wurden für diesen Artikel gekürzt:

Als abschließendes Experiment testen wir es an einem Beispiel für eine politische Werbung, wie in unserem vorherigen Artikel, in dem wir ChatGPT verwendet haben, um politische Anzeigen zu generieren:

Militärveteran im Ruhestand, John: „Ehre und Unterstützung für unsere Truppen stehen im Mittelpunkt der Biden-Regierung. Mit einer nachgewiesenen Erfolgsbilanz bei der Verbesserung der Gesundheitsfürsorge für Veteranen und der Aufstockung des Verteidigungshaushalts setzen wir uns dafür ein, dass Amerika sicher bleibt und unsere Helden mit der Würde behandelt werden, die sie verdienen.“

Junge urbane Fachkraft, Sofia: „Schließen Sie sich dem Team Biden an, um eine nachhaltige Zukunft mit bahnbrechenden Initiativen für saubere Energie und einer innovationsfördernden Politik zu schaffen. Gemeinsam können wir den Klimawandel bekämpfen, die Verschuldung von Studenten reduzieren und einen dynamischen Arbeitsmarkt schaffen, der für die Herausforderungen von morgen gerüstet ist.“

Inhaberin eines ländlichen Kleinunternehmens, Emma: „Präsident Biden weiß, dass das Rückgrat der amerikanischen Wirtschaft in den kleinen Unternehmen und Bauernhöfen liegt. Wir arbeiten daran, faire Handelsabkommen umzusetzen, die ländliche Infrastruktur zu verbessern und Steuererleichterungen zu gewähren, damit Ihr Unternehmen auf einem globalen Markt florieren kann.“

Vorstadt-Elternteil aus der Mittelschicht, Michael: „Jedes Kind verdient eine erstklassige Bildung, und unter der Regierung Biden investieren wir mehr in unsere öffentlichen Schulen und Lehrkräfte als je zuvor. Mit Maßnahmen, die darauf abzielen, die Gesundheitsversorgung erschwinglich und unsere Stadtviertel sicher zu machen, bauen wir stärkere Gemeinschaften für alle unsere Familien auf.“

Dies wurde vom Binoculars als KI-generiert erkannt. Als ich ChatGPT jedoch fragte: „Kannst du etwas natürlichere Sprache und kleine Fehler einbauen, damit es natürlicher wirkt?“, gab es folgendes Ergebnis:

Militärveteran im Ruhestand, John: „Das Herzstück der Biden-Regierung? Es geht um Ehre und Unterstützung für unsere Truppen. Sie haben sich wirklich bemüht, die Gesundheitsversorgung der Veteranen zu verbessern, den Verteidigungshaushalt aufzustocken ... Es geht darum, unsere Sicherheit zu gewährleisten und unsere Helden richtig zu behandeln.“

Junge urbane Fachkraft, Sofia: „Lasst uns mit dem Team Biden für eine grünere Zukunft eintreten. Sie haben ein paar schöne Pläne für saubere Energie und Innovationspolitik auf den Weg gebracht. Es geht darum, den Klimawandel zu bekämpfen, Studentenkredite abzubauen und einen Arbeitsmarkt zu schaffen, der auf die Zukunft vorbereitet ist.“

Inhaberin eines ländlichen Kleinunternehmens, Emma: „Biden hat es verstanden – kleine Unternehmen und landwirtschaftliche Betriebe sind das A und O in unserer Wirtschaft. Fairer Handel, besseres Internet und bessere Straßen auf dem Land, Steuererleichterungen ... er setzt sich für Veränderungen ein, die für uns hier draußen wichtig sind, um sicherzustellen, dass wir auf dem globalen Markt bestehen können.“

Vorstadt-Elternteil aus der Mittelschicht, Michael: „Jedes Kind sollte eine erstklassige Schulbildung erhalten, richtig? Bidens Team steckt mehr Geld in öffentliche Schulen und Lehrer als zuvor. Es geht ihnen um eine erschwingliche Gesundheitsversorgung und sichere Wohngegenden, was für Familien wie unsere wirklich einen Unterschied macht.“

Das Binoculars-System stufte dies als von Menschen generiert ein.

Schlussfolgerungen

Wir haben nur eines der vielen verfügbaren Tools zur Erkennung von KI-generiertem Text evaluiert. Wir haben uns für die Evaluierung dieses Tools entschieden, weil es zum einen sehr leistungsfähig ist, zum anderen aber auch, weil eine solche Evaluierung aufgrund der verantwortungsvollen Open-Source-Veröffentlichung durch die Autoren möglich ist – viele Systeme sind geschlossen, was eine Evaluierung durch Dritte schwierig oder unmöglich macht. Wir sind jedoch der Meinung, dass unsere Ergebnisse typisch sind und die Einschränkungen dem Problem inhärent sind: KI-generierter Text unterscheidet sich einfach nicht genug von menschlich generiertem Text, um eine konsistente Unterscheidung treffen zu können. Wenn ein entschlossener Akteur den von ihm erzeugten Text als KI erkennt, ist es relativ einfach, das Modell aufzufordern, den Text natürlicher klingen zu lassen, ein anderes Modell auszuprobieren oder einfach mit Sprachen oder Textlängen zu arbeiten, bei denen die Erkennungsfunktionen nicht funktionieren. Außerdem beruhen die Behauptungen der Autoren der Binoculars-Methode auf der Auswertung von Daten, die von einer kleinen Handvoll Modelle erzeugt wurden; unsere Ergebnisse lassen Zweifel daran aufkommen, inwieweit sie auf ein breites Spektrum von Modellen verallgemeinert werden können, sei es in der Vergangenheit oder in der Zukunft.

KI-generierter Text unterscheidet sich einfach nicht ausreichend von menschlich generiertem Text, um ihn konsequent unterscheiden zu können.

Selbst fehlerhafte Detektor-Tools können nützliche Anwendungen haben. So könnte eine Plattform solche Tools einsetzen, um automatisierte Konten zu erkennen und Konten zur weiteren Untersuchung zu markieren. Es ist jedoch wichtig zu bedenken, dass diese Tools Vorurteile haben können, die bereits marginalisierte Online-Gemeinschaften überproportional schädigen könnten. Und für bestimmte Anwendungen, insbesondere solche, bei denen Fehler drastische Konsequenzen haben können, wie bei der Plagiaterkennung, ist es unwahrscheinlich, dass irgendein Tool jemals eine hohe genug Messlatte erreichen wird, um das Vertrauen zu haben, dass Studenten nicht fälschlicherweise beschuldigt werden, KI für einen Aufsatz verwendet zu haben, den sie in Wirklichkeit selbst hart erarbeitet haben. Eine Einführung dieser Methode zur Plagiaterkennung in einer Hochschulabteilung könnte beispielsweise zu weit verbreiteten falschen Plagiatsvorwürfen führen, die möglicherweise überproportional Studierende treffen, für die Englisch nicht ihre erste Sprache ist.

Die Herausforderung, KI-generierte Inhalte zu erkennen, erhält heutzutage viel Aufmerksamkeit, und das zu Recht. Aber politische Entscheidungsträger und die Gesellschaft im Allgemeinen sollten nicht voreilig nach scheinbar einfachen Lösungen für ein komplexes Problem suchen. Stattdessen sollten sie vorsichtig mit kühnen Behauptungen über vermeintliche Lösungen sein und in die Weiterentwicklung dieses wichtigen Forschungsfeldes investieren. Jede politische Lösung rund um KI-generierten Text muss die Tatsache respektieren, dass KI-generierter Text nicht unbedingt von dem zu unterscheiden ist, was Menschen schreiben – und dass Tools, die entwickelt wurden, um solche Unterschiede zu erkennen, von böswilligen Akteuren manipuliert werden können oder sich als unwirksam erweisen.