¿Quién escribió esto? Evaluación de las herramientas para detectar textos generados por IA

Investigaciones de Mozilla revelaron que las herramientas de detección no siempre son tan confiables como dicen. Además, los investigadores descubrieron que se puede incitar con éxito a los modelos de lenguaje de gran tamaño, como ChatGPT, a crear textos con más «sonido humano»

Introducción

Como escribimos anteriormente, la IA generativa presenta nuevas amenazas para la salud de nuestro ecosistema de información. Los principales actores de la IA reconocen los riesgos que presentan sus servicios: OpenAI publicó un documento sobre la amenaza de las operaciones de influencia automatizadas y su política prohíbe el uso de ChatGPT para «campañas políticas o grupos de lobby, incluida la generación de materiales de campaña personalizados o dirigidos a grupos demográficos específicos», aunque nuestra investigación ha revelado que esta política no se aplica lo suficiente.

Las herramientas para ayudar a distinguir entre textos escritos por humanos y aquellos creados por IA pueden ser útiles. Si bien ya existen algunas de estas herramientas, debemos tener la precaución de conocer sus fortalezas, sesgos y limitaciones. Cuando se deposita demasiada fe en herramientas imprecisas, las personas pueden verse perjudicadas: ya se dio el caso de estudiantes acusados falsamente de presentar ensayos escritos por una IA y The Markup informó que las herramientas de detección de IA pueden estar sesgadas en contra de los hablantes de inglés como segundo idioma.

Hasta ahora, los esfuerzos para desarrollar herramientas de detección por lo general no han sido prometedores. OpenAI lanzó una herramienta «entrenada para distinguir textos escritos por una IA y textos escritos por humanos» en enero de 2023, pero la retiró en julio de ese año, mencionando «su baja tasa de precisión». Un informe dice que «solo logró clasificar el 26 % de los textos escritos por IA como “probablemente escritos por una IA” y que etiquetó incorrectamente textos escritos por humanos como creados por IA el 9 % de las veces». Explican que actualmente están «investigando técnicas más efectivas para textos, y se han comprometido a desarrollar e implementar mecanismos que permitan a los usuarios saber si un contenido de audio o imagen fue generado por una IA». Sin embargo, hasta el momento, OpenAI no ha lanzado nuevas herramientas.

Binoculares

Se ha realizado una cobertura positiva de un método reciente publicado por investigadores de la Universidad de Maryland llamado «Binoculares», un enfoque que «analiza las entradas a través de las lentes de dos modelos de lenguaje diferentes». Proporcionan una implementación de código abierto en GitHub, pero advierten que la «implementación es solo para fines académicos y no debe considerarse como un producto de consumo. También advertimos encarecidamente contra el uso de Binoculares (o cualquier detector) sin supervisión humana». De todos modos, Business Insider escribió: «Una nueva herramienta de detección de IA podría haber resuelto el problema de los falsos positivos en las redacciones de estudiantes, dicen los investigadores», mientras que IEEE Spectrum discute el método, argumentando que «Hay técnicas de detección de IA mejores y más efectivas en el horizonte». En su documento, los autores dicen que «Binoculares detecta más del 90 % de las muestras generadas en ChatGPT (y otros modelos de lenguaje de gran tamaño) a una tasa de falsos positivos del 0,01 %». Esto significa que el método detecta textos escritos por una IA en 9 de 10 veces y solo da un falso positivo (es decir, una evaluación incorrecta que afirma que un texto escrito por humanos está escrito por una IA) en 1 de cada 10.000 casos.

Nuestra evaluación

Para evaluar más a fondo el método, utilizamos el set de datos AI Text Detection Pile, que incluye 990.000 textos escritos por humanos y 340.000 ejemplos escritos por IA. Su resumen dice que «Este es un set de datos a gran escala destinado a tareas de detección de textos de IA, orientado a textos y ensayos de formato extenso. Contiene muestras de textos humanos y textos generados por las IA de GPT2, GPT3, ChatGPT, GPTJ».

El cuaderno de análisis está disponible en GitHub aquí.

Evaluamos la implementación proporcionada en este set de datos pidiéndole a la herramienta Binoculares que determinara si cada texto de ejemplo fue generado por una IA o por humanos. Al comparar las etiquetas calculadas con las etiquetas verdaderas proporcionadas en el set de datos, determinamos si Binoculares evaluó correctamente el origen de cada texto.

Nuestra evaluación muestra una tasa verdaderamente positiva del 43 %, aproximadamente la mitad de lo que los autores obtuvieron en su evaluación. Más críticamente, la tasa de falsos positivos es de aproximadamente 0,7 %, es decir, 70 veces más alta que el hallazgo de los autores, lo que significa que un escritor podría ser acusado falsamente de usar IA en aproximadamente 1 de cada 140 casos en lugar de 1 de cada 10.000.

La tasa de falsos positivos es de aproximadamente el 0,7 %, es decir, 70 veces más alta que el hallazgo de los autores, lo que significa que un escritor podría ser acusado falsamente de usar IA en aproximadamente 1 de cada 140 casos.

Me puse en contacto con el autor principal del artículo de Binoculares, Abhimanyu Hans, para hablar de estos resultados. Sugirió tres posibles explicaciones:

El set de datos que utilizamos para la evaluación se publicó hace aproximadamente un año y una gran parte de fue generado por modelos más antiguos como GPT-2, para los cuales el método de Binoculares podría ser menos efectivo. Sin embargo, esto solo podría afectar la tasa de positivos verdaderos y no la tasa de falsos positivos.

La longitud de los textos varía. Explicó que el método de Binoculares funciona mejor con textos de aproximadamente 256 tokens (unos 1024 caracteres) de largo, con un rendimiento decreciente para textos más breves o más extensos.

Idioma. El modelo funciona mejor con textos en inglés y sugirió que el set de datos podría contener textos que no estén en inglés. Si bien no validé esto a fondo, un examen rápido confirma que el set de datos es solo en inglés.

Para probar el impacto de la longitud del texto, elegimos una longitud objetivo de 1024 caracteres, que es de aproximadamente los 256 tokens que especifica el autor. Luego realizamos otra evaluación en la que rechazamos todos los textos más cortos y truncamos todos los que excedían ese umbral. En este caso, la tasa de positivos verdaderos se mantuvo aproximadamente sin cambios y la tasa de falsos positivos disminuyó del 0,7 % al 0,4 %, lo que implica una marcada mejora, pero aún lejos de los hallazgos del autor.

No tengo duda de que los resultados que los autores informan en su artículo es verdadero en función de los datos que usaron en su evaluación. Pero nuestros hallazgos plantean una preocupante falta de solidez, especialmente en la tendencia a afirmar incorrectamente que un texto escrito por humanos está generado por una IA.

Ejemplos

Para comprender las fallas, aquí hay algunos ejemplos de falsos negativos (textos de IA calificados como humanos) y falsos positivos (textos humanos calificados como generados por una IA). Los textos se han acortado para este artículo:

Como último experimento, probémoslo en el ejemplo de un anuncio político como en nuestro artículo anterior en el que usamos ChatGPT para generar anuncios políticos:

John, veterano militar retirado: «El honor y el apoyo a nuestras tropas se encuentran en el corazón de la administración de Biden. Con un historial comprobado de mejorar la atención médica de los veteranos y aumentar los presupuestos de defensa, estamos comprometidos a mantener a Estados Unidos seguro y a tratar a nuestros héroes con la dignidad que merecen».

Sofía, joven profesional urbana: «Únete al equipo de Biden para construir un futuro sostenible con iniciativas y políticas de energías limpias de vanguardia que fomenten la innovación. Juntos, podemos abordar el cambio climático, reducir las deudas estudiantiles y crear un mercado laboral dinámico preparado para los desafíos del mañana».

Emma, propietaria de una pequeña empresa rural: «El presidente Biden entiende que la columna vertebral de la economía de Estados Unidos radica en sus pequeñas empresas y granjas. Estamos trabajando para implementar acuerdos de comercio justo, mejorar la infraestructura rural y proporcionar desgravaciones fiscales para ayudar a los negocios a prosperar en el mercado globalizado».

Michael, padre de familia de clase media suburbana: «Todos los niños merecen una educación de primer nivel, y bajo la administración de Biden, estamos invirtiendo más que nunca en nuestras escuelas públicas y nuestros educadores. Con políticas destinadas a hacer que la atención médica sea asequible y que nuestros vecindarios sean seguros, estamos construyendo comunidades más fuertes para nuestras familias».

Binoculares detectó estos textos como generados por una IA. Sin embargo, cuando le pedí a ChatGPT «¿Puedes introducir un poco más de lenguaje natural y pequeños errores para que parezca escrito más naturalmente?», el resultado fue el siguiente:

John, veterano militar retirado: «¿El corazón de la administración de Biden? Se trata de honor y apoyo para nuestras tropas. Realmente han intensificado sus esfuerzos, mejorando la atención médica de los veteranos, aumentando los presupuestos de defensa... Se trata de mantenernos seguros y de tratar correctamente a nuestros héroes».

Sofía, joven profesional urbana: «Súbete a bordo con el equipo de Biden para un futuro más verde. Están implementando algunos planes de energía limpia y políticas de innovación bastante interesantes. Se trata de luchar contra el cambio climático, reducir los préstamos estudiantiles y generar un mercado laboral que esté preparado para lo que viene».

Emma, propietaria de una pequeña empresa rural: «Biden lo entiende: las pequeñas empresas y las granjas son el verdadero negocio en nuestra economía. Comercio justo, mejor internet rural, mejores carreteras, exenciones de impuestos... él está trabajando para lograr los cambios que nos importan aquí, asegurándose de que podamos mantenernos firmes en el mercado globalizado».

Michael, padre de familia de clase media suburbana: «Todos los niños deberían recibir una educación de primer nivel, ¿verdad? El equipo de Biden está invirtiendo más en las escuelas públicas y los maestros. Trabajan para brindar una atención médica asequible y vecindarios seguros, algo que realmente marca la diferencia para las familias como la nuestra».

El sistema de Binoculares calificó estos textos como generados por humanos.

Conclusiones

Hemos evaluado solo una de las muchas herramientas disponibles para detectar textos generados por IA. De hecho, elegimos evaluar esta herramienta en parte debido a su alto nivel de rendimiento declarado, pero también porque dicha evaluación es posible gracias a la divulgación responsable de código abierto proporcionada por los autores: muchos sistemas son cerrados, lo que dificulta o imposibilita la evaluación por parte de terceros. Sin embargo, creemos que nuestros hallazgos son típicos y que las limitaciones son inherentes al problema: los textos generados por IA no son lo suficientemente diferentes a los textos generados por humanos como para poder diferenciarlos de manera consistente. Para un caso determinado, si un texto se detecta como creado por una IA, es bastante simple pedirle al modelo que haga que el texto suene más natural, probar un modelo diferente o simplemente trabajar en idiomas o con longitudes de texto en las que los detectores no funcionan. Además, las afirmaciones de los autores del método de Binoculares se basan en una evaluación de los datos generados por un pequeño grupo de modelos; nuestros hallazgos ponen en duda el grado en que se generalizan a un amplio espectro de modelos, ya sean pasados o futuros.

Los textos generados por IA no son lo suficientemente diferentes de los textos generados por humanos como para poder diferenciarlos de manera consistente.

Incluso las herramientas de detección defectuosas pueden tener aplicaciones útiles. Por ejemplo, una plataforma podría emplear estas herramientas para intentar detectar cuentas automatizadas y marcarlas para someterlas a una mayor investigación. Sin embargo, es importante tener en cuenta que estas herramientas pueden tener sesgos que podrían dañar desproporcionadamente a las comunidades que ya están marginadas en línea. Y para ciertas aplicaciones, especialmente aquellas en las que los errores pueden tener consecuencias drásticas, como la detección de plagios, es poco probable que una herramienta alcance un nivel lo suficientemente alto como para confiar en que los estudiantes no serán acusados falsamente de usar IA para un ensayo que, en realidad, escribieron ellos mismos. Una implementación de este método para la detección de plagio en un departamento universitario, por ejemplo, podría dar lugar a acusaciones falsas generalizadas de plagio, posiblemente dirigidas de manera desproporcionada a los estudiantes para quienes el inglés es su segundo idioma.

El desafío de detectar contenidos generados por IA está recibiendo mucha atención en estos días, y con razón. Pero los responsables políticos y la sociedad en general no deberían apresurarse a impulsar soluciones aparentemente fáciles para un problema complejo. En cambio, deben ser cautelosos con las afirmaciones audaces sobre supuestas soluciones, y deben invertir en el avance de este importante campo de investigación. Cualquier solución en torno a los textos generados por IA deberá respetar el hecho de que el texto generado por una IA no es necesariamente distinguible de lo que escriben las personas, y que las herramientas desarrolladas para detectar sus diferencias pueden ser manipuladas por actores malintencionados o pueden ser ineficaces.