Kto to napisał? Ocena narzędzi do wykrywania tekstu generowanego przez sztuczną inteligencję

Z badań Mozilli wynika, że narzędzia do wykrywania nie zawsze są tak niezawodne, jak się wydaje. Co więcej, naukowcy odkryli, że duże modele językowe, takie jak ChatGPT, mogą być z powodzeniem wykorzystywane do tworzenia bardziej „ludzko brzmiącego” tekstu

Wstęp

Jak pisaliśmy wcześniej, generatywna sztuczna inteligencja stanowi nowe zagrożenie dla funkcjonowania naszego ekosystemu informacyjnego. Główni dostawcy usług SI zdają sobie sprawę z ryzyka, jakie niosą ze sobą ich usługi: OpenAI opublikowało artykuł na temat zagrożenia zautomatyzowanymi operacjami wywierania wpływu, a ich polityka zabrania korzystania z ChatGPT do „prowadzenia kampanii politycznych lub lobbingu, w tym generowania materiałów kampanii spersonalizowanych lub skierowanych do określonych grup demograficznych”, chociaż nasze badania wykazały, że polityka ta nie jest wystarczająco egzekwowana.

Pomocne byłyby narzędzia pomagające odróżnić tekst napisany przez człowieka od tekstu napisanego przez sztuczną inteligencję. Istnieją już takie narzędzia, należy jednak pamiętać o ich mocnych stronach, stronniczości i ograniczeniach. Pokładanie zbyt dużej wiary w niedokładnych narzędziach może zaszkodzić ludziom: uczniowie zostali niesłusznie oskarżeni o składanie esejów napisanych przez sztuczną inteligencję, a The Markup donosi, że narzędzia do wykrywania sztucznej inteligencji mogą być stronnicze wobec nierodzimych użytkowników języka angielskiego.

Dotychczasowe wysiłki na rzecz tworzenia narzędzi wykrywających na ogół nie były zbyt obiecujące. Samo OpenAI wydało narzędzie „przeszkolone do rozróżniania tekstu napisanego przez sztuczną inteligencję od tekstu napisanego przez człowieka” w styczniu 2023 r., ale wycofało je w lipcu tego samego roku, powołując się na „niski wskaźnik dokładności”. W jednym z raportów stwierdzono, że „udało się sklasyfikować tylko 26% tekstu napisanego przez sztuczną inteligencję jako „prawdopodobnie napisany przez sztuczną inteligencję” i błędnie oznaczony tekst napisany przez człowieka jako napisany przez sztuczną inteligencję w 9% przypadków”. Wyjaśniają, że „obecnie badają bardziej skuteczne techniki potwierdzania pochodzenia tekstu i zobowiązali się do opracowania i wdrożenia mechanizmów, które umożliwią użytkownikom zrozumienie, czy treści audio lub wizualne są generowane przez sztuczną inteligencję”. Jednak do tej pory OpenAI nie zaprezentowało żadnych nowych narzędzi.

Binoculars

Niedawno opublikowana przez naukowców z University of Maryland metoda o nazwie „Binoculars”, która „patrzy na dane wejściowe przez pryzmat dwóch różnych modeli językowych”, spotkała się z pozytywnym przyjęciem. Zapewniają oni implementację open source na GitHub, ale ostrzegają, że „implementacja jest przeznaczona wyłącznie do celów akademickich i nie powinna być traktowana jako produkt konsumencki. Zdecydowanie przestrzegamy również przed używaniem Binoculars (lub jakiegokolwiek detektora) bez nadzoru człowieka”. Jednakże, Business Insider pisze: „Nowe narzędzie do wykrywania sztucznej inteligencji być może rozwiązało problem fałszywie pozytywnych wyników prac pisanych przez studentów, twierdzą naukowcy”, podczas gdy IEEE Spectrum omawiając metodę, pisze, że „Na horyzoncie są lepsze i bardziej skuteczne techniki wykrywania sztucznej inteligencji”. Autorzy piszą w swojej pracy, że „Binoculars wykrywa ponad 90% wygenerowanych próbek z ChatGPT (i innych LLM) przy fałszywie dodatnim wskaźniku 0,01%”. Oznacza to, że metoda powinna wykryć tekst napisany przez sztuczną inteligencję 9 na 10 razy i dać wynik fałszywie dodatni (co oznacza niewłaściwą ocenę, że tekst napisany przez człowieka jest napisany przez sztuczną inteligencję) tylko w 1 na 10 000 przypadków.

Nasza ocena

W celu dalszej oceny metody korzystamy ze zbioru danych AI Text Detection Pile, który zawiera 990 000 tekstów napisanych przez człowieka i 340 000 przykładów napisanych przez sztuczną inteligencję. W podsumowaniu czytamy, że „Jest to zbiór danych na dużą skalę przeznaczony do wykrywania tekstów napisanych przez sztuczną inteligencję, ukierunkowany na długie teksty i eseje. Zawiera próbki zarówno ludzkiego tekstu, jak i tekstu wygenerowanego przez sztuczną inteligencję z GPT2, GPT3, ChatGPT, GPTJ”.

Notatnik analityczny jest dostępny na GitHub tutaj.

Przeprowadziliśmy ocenę dostarczonej implementacji na podstawie tego zbioru danych, żądając od narzędzia Binoculars określenia, czy każdy przykładowy tekst został wygenerowany przez sztuczną inteligencję, czy przez człowieka. Porównując te obliczone etykiety z prawdziwymi etykietami podanymi w zbiorze danych, jesteśmy w stanie określić dla każdego tekstu, czy Binoculars właściwie określiło pochodzenie tekstu.

Przeprowadzona przez nas ocena wykazała, że wskaźnik wyników prawdziwie pozytywnych wynosi 43%, czyli mniej więcej połowę tego, co autorzy ustalili w swojej ocenie. Co ważniejsze, wskaźnik wyników fałszywie pozytywnych wynosi około 0,7%, czyli 70 razy więcej niż wyniki autorów – oznacza to, że autor może zostać niesłusznie oskarżony o korzystanie ze sztucznej inteligencji w około 1 na 140 przypadków zamiast 1 na 10 000.

Wskaźnik wyników fałszywie pozytywnych wynosi około 0,7%, czyli 70 razy więcej niż wyniki autorów – oznacza to, że autor może zostać niesłusznie oskarżony o korzystanie ze sztucznej inteligencji w około 1 na 140 przypadków.

Z tymi wynikami skontaktowałem się z głównym autorem artykułu na temat Binoculars, Abhimanyu Hansem. Przedstawił on trzy możliwe wyjaśnienia:

Zbiór danych, którego użyliśmy do oceny, został opublikowany około rok temu, a znaczna jego część jest generowana przez starsze modele, takie jak GPT-2, dla których metoda Binoculars może być mniej skuteczna. Może to jednak wpłynąć tylko na wskaźnik wyników prawdziwie pozytywnych, a nie na wskaźnik wyników fałszywie pozytywnych.

Teksty mają różną długość. Wyjaśnił, że metoda Binoculars działa najlepiej w przypadku tekstów o długości około 256 tokenów (około 1024 znaków), a wydajność spada w przypadku krótszych lub dłuższych tekstów.

Język. Model działa najlepiej z tekstem w języku angielskim i zasugerował, że zbiór danych może zawierać tekst nieanglojęzyczny. Nie sprawdziłem tego dokładnie, ale pobieżna analiza potwierdza, że zbiór danych jest tylko w języku angielskim.

Aby ocenić wpływ długości tekstu, wybraliśmy docelową długość 1024 znaków, co odpowiada w przybliżeniu 256 tokenom określonym przez autora. Następnie przeprowadziliśmy kolejną ocenę, w której odrzuciliśmy wszystkie teksty krótsze niż ustalony próg i skróciliśmy wszystkie pozostałe teksty do tego progu. W tym przypadku wskaźnik wyników prawdziwie pozytywnych pozostał w przybliżeniu niezmieniony, a wskaźnik wyników fałszywie pozytywnych spadł z 0,7% do 0,4% – jest to znaczna poprawa, ale wciąż daleka od ustaleń autora.

Jestem pewien, że wyniki, które autorzy podają w swoim artykule, są prawdziwe na podstawie ich danych ewaluacyjnych. Jednak nasze ustalenia wskazują na niepokojący brak niezawodności, zwłaszcza jeśli chodzi o tendencję do błędnego twierdzenia, że tekst napisany przez człowieka jest generowany przez sztuczną inteligencję.

Przykłady

Aby zrozumieć błędy, oto kilka przykładów fałszywie negatywnych (tekst SI oceniony jako ludzki) i fałszywie pozytywnych (tekst ludzki oceniony jako wygenerowany przez SI). Teksty zostały skrócone na potrzeby tego artykułu:

Na koniec przetestujmy go na przykładzie reklamy politycznej, tak jak w naszym poprzednim artykule, w którym wykorzystaliśmy ChatGPT do generowania reklam politycznych:

Emerytowany weteran wojskowy, John: „Honor i wsparcie dla naszych żołnierzy stoją u podstaw administracji Bidena. Dzięki udokumentowanym osiągnięciom w zakresie poprawy opieki zdrowotnej dla weteranów i zwiększenia budżetu na obronę, jesteśmy zobowiązani do zapewnienia bezpieczeństwa w Ameryce i traktowania naszych bohaterów z godnością, na jaką zasługują”.

Młoda specjalistka ds. urbanistyki, Sofia: „Dołącz do zespołu Bidena w budowaniu zrównoważonej przyszłości dzięki najnowocześniejszym inicjatywom i politykom w zakresie czystej energii, które wspierają innowacje. Razem możemy stawić czoła zmianom klimatycznym, zmniejszyć zadłużenie studentów i stworzyć dynamiczny rynek pracy, który jest gotowy na przyszłe wyzwania”.

Właścicielka małej firmy na obszarze wiejskim, Emma: „Prezydent Biden rozumie, że trzon amerykańskiej gospodarki stanowią małe firmy i gospodarstwa rolne. Pracujemy nad wdrożeniem sprawiedliwych umów handlowych, poprawą infrastruktury na obszarach wiejskich i zapewnieniem ulg podatkowych, aby pomóc firmom rozwijać się na globalnym rynku”.

Rodzic z podmiejskiej klasy średniej, Michael: „Każde dziecko zasługuje na najlepszą edukację, a pod rządami Bidena inwestujemy więcej w nasze szkoły publiczne i nauczycieli niż kiedykolwiek wcześniej. Poprzez politykę ukierunkowaną na zapewnienie przystępnej cenowo opieki zdrowotnej i bezpieczeństwa w naszych dzielnicach, budujemy silniejsze społeczności dla wszystkich naszych rodzin”.

Teksty te zostały wykryte przez Binoculars jako wygenerowane przez sztuczną inteligencję. Jednak kiedy poprosiłem ChatGPT: „Czy możesz wprowadzić bardziej naturalny język i drobne błędy, aby wyglądało to bardziej naturalnie?”, otrzymałem następujące teksty:

Emerytowany weteran wojskowy, John: „Podstawa administracji Bidena? To honor i wsparcie dla naszych żołnierzy. Naprawdę zrobili krok naprzód, poprawiając opiekę zdrowotną dla weteranów, podnosząc budżet na obronę… Chodzi o zapewnienie nam bezpieczeństwa i właściwe traktowanie naszych bohaterów”.

Młoda specjalistka ds. urbanistyki, Sofia: „Dołączmy do zespołu Bidena, aby zapewnić sobie bardziej ekologiczną przyszłość. Wprowadzają całkiem fajne, czyste plany energetyczne i politykę opartą na innowacji. Chodzi o walkę ze zmianami klimatycznymi, ograniczanie kredytów studenckich i tworzenie rynku pracy gotowego na to, co nadchodzi”.

Właścicielka małej firmy na obszarze wiejskim, Emma: „Biden to rozumie – małe firmy i gospodarstwa rolne są prawdziwą siłą naszej gospodarki. Sprawiedliwy handel, lepszy internet i drogi na wsi, ulgi podatkowe… dąży do zmian, które są dla nas ważne, zapewniając nam wysoką pozycję na globalnym rynku”.

Rodzic z podmiejskiej klasy średniej, Michael: „Każde dziecko powinno mieć dostęp do edukacji na najwyższym poziomie, prawda? Zespół Bidena przeznacza więcej środków na szkoły publiczne i nauczycieli niż wcześniej. Dbają o przystępną cenowo opiekę zdrowotną i bezpieczne dzielnice, co naprawdę ma znaczenie dla rodzin takich jak nasza”.

System Binoculars ocenił te teksty jako wytworzone przez człowieka.

Wnioski

Oceniliśmy tylko jedno z wielu dostępnych narzędzi do wykrywania tekstu generowanego przez sztuczną inteligencję. Tak naprawdę wybraliśmy to narzędzie do oceny częściowo ze względu na jego wysoki poziom deklarowanej wydajności, ale także ze względu na fakt, że taka ocena jest możliwa dzięki udostępnieniu przez autorów wersji open source – wiele systemów jest zamkniętych, co sprawia, że ocena przez osoby trzecie jest trudna lub niemożliwa. Uważamy jednak, że nasze wyniki są dość typowe, a ograniczenia stanowią nieodłączny element problemu: tekst generowany przez sztuczną inteligencję po prostu nie różni się na tyle od tekstu generowanego przez człowieka, by móc je konsekwentnie rozróżniać. Dla zdeterminowanego użytkownika, jeśli wygenerowany przez niego tekst zostanie uznany za stworzony przez sztuczną inteligencję, dość łatwo jest po prostu poprosić model, by nadał tekstowi bardziej naturalne brzmienie, wypróbować inny model lub po prostu pracować w językach lub na tekstach o długości, w których detektory nie działają. Ponadto twierdzenia autorów metody Binoculars opierają się na ocenie danych wygenerowanych przez niewielką garstkę modeli; nasze ustalenia podają w wątpliwość stopień, w jakim można je zastosować do szerokiego spektrum modeli, zarówno przeszłych, jak i przyszłych.

Tekst generowany przez sztuczną inteligencję nie różni się na tyle od tekstu generowanego przez człowieka, aby móc je konsekwentnie odróżniać od siebie.

Nawet niedoskonałe narzędzia wykrywające mogą okazać się przydatne. Na przykład platforma może wykorzystywać takie narzędzia do wykrywania zautomatyzowanych kont i zgłaszania kont oznaczonych do dalszego zbadania. Należy jednak pamiętać, że narzędzia te mogą być stronnicze, co może nieproporcjonalnie zaszkodzić już zmarginalizowanym społecznościom online. A w przypadku niektórych zastosowań, zwłaszcza tych, w których błędy mogą mieć drastyczne konsekwencje, takie jak wykrywanie plagiatu, jest mało prawdopodobne, aby jakiekolwiek narzędzie kiedykolwiek osiągnęło wystarczająco wysoki poziom pewności, że uczniowie nie zostaną fałszywie oskarżeni o użycie sztucznej inteligencji do napisania eseju, nad którym w rzeczywistości ciężko pracowali. Wdrożenie tej metody wykrywania plagiatu na przykład na uczelni może skutkować powszechnymi niesłusznymi oskarżeniami o plagiat, prawdopodobnie w większości skierowanymi do studentów, dla których angielski nie jest pierwszym językiem.

Wyzwanie związane z wykrywaniem treści generowanych przez sztuczną inteligencję cieszy się obecnie dużym zainteresowaniem i słusznie. Jednak decydenci polityczni i w szerszym ujęciu społeczeństwo nie powinni spieszyć się z poszukiwaniem pozornie łatwych rozwiązań złożonego problemu. Zamiast tego, powinni zachować ostrożność wobec śmiałych twierdzeń o rzekomych rozwiązaniach i powinni inwestować w rozwój tej jakże ważnej dziedziny badań. Każde rozwiązanie w zakresie tekstu generowanego przez sztuczną inteligencję będzie musiało uwzględniać fakt, że tekst generowany przez SI niekoniecznie musi różnić się od tego, co napisze człowiek – i że narzędzia opracowane w celu wykrycia takich różnic mogą zostać oszukane przez podmioty o złych intencjach lub okazać się nieskuteczne.