Quem escreveu isso? Avaliando ferramentas para detectar texto gerado por IA

A pesquisa da Mozilla descobriu que as ferramentas de detecção nem sempre são tão confiáveis quanto dizem. Além disso, os pesquisadores descobriram que grandes modelos de linguagem, como o ChatGPT, podem ser solicitados com sucesso a criar mais textos que "soem mais humanos"

Introdução

Como escrevemos anteriormente, a IA generativa apresenta novas ameaças à saúde do nosso ecossistema de informações. Os principais players de IA reconhecem os riscos que seus serviços apresentam: a OpenAI publicou um artigo sobre a ameaça de operações de influência automatizadas, e sua política proíbe o uso do ChatGPT para "campanhas políticas ou lobby, incluindo a geração de materiais de campanha personalizados ou direcionados a dados demográficos específicos", embora nossa pesquisa tenha descoberto que essa política não é suficientemente aplicada.

Ferramentas para ajudar a distinguir entre texto escrito por humanos e por IA seriam úteis. Algumas dessas ferramentas existem, mas devemos ter cuidado para entender seus pontos fortes, vieses e limitações. Quando muita fé é colocada em ferramentas imprecisas, as pessoas podem ser prejudicadas: os alunos foram falsamente acusados de enviar redações escritas por IA e o The Markup relata que as ferramentas de detecção de IA podem ser tendenciosas contra falantes não nativos de inglês.

Os esforços na construção de ferramentas de detecção atuais não têm sido promissores. A própria OpenAI lançou uma ferramenta "treinada para distinguir entre texto escrito por IA e escrito por humanos" em janeiro de 2023, mas a derrubou em julho daquele ano, citando "sua baixa taxa de precisão". Um relatório diz que “só foi bem-sucedido em classificar 26% do texto escrito por IA como "provavelmente escrito por IA" e rotulou incorretamente o texto escrito por humanos como IA em 9% das vezes". Eles explicam que estão "atualmente pesquisando técnicas de proveniência mais eficazes para texto e se comprometeram a desenvolver e implantar mecanismos que permitam aos usuários entender se o conteúdo de áudio ou visual é gerado por IA". Mas nenhuma nova ferramenta foi lançada pela OpenAI até agora.

Binóculos

Houve uma cobertura positiva de um método recente publicado por pesquisadores da Universidade de Maryland chamado "Binóculos", uma abordagem que "analisa as entradas através das lentes de dois modelos de linguagem diferentes". Eles fornecem uma implementação de código aberto no GitHub, mas alertam que a "implementação é apenas para fins acadêmicos e não deve ser considerada como um produto de consumo. Também advertimos fortemente contra o uso da ferramenta Binóculos (ou qualquer detector) sem supervisão humana". Independentemente disso, o Business Insider escreve: "Uma nova ferramenta de detecção de IA pode ter resolvido o problema dos falsos positivos para a escrita dos alunos, dizem os pesquisadores", enquanto o IEEE Spectrum discute o método escrevendo que "técnicas de detecção de IA melhores e mais eficazes estão no horizonte". Os autores escrevem em seu artigo que "o Binóculos detecta mais de 90% das amostras geradas pelo ChatGPT (e outros LLMs) a uma taxa de falso positivo de 0,01%". Isso significa que o método deve detectar o texto escrito por IA 9 de 10 vezes e dar apenas um falso positivo (ou seja, uma avaliação incorreta que afirma que o texto escrito por humanos é escrito por IA) em 1 de 10.000 casos.

Nossa avaliação

Para avaliar melhor o método, usamos o conjunto de dados AI Text Detection Pile, que inclui 990.000 textos escritos por humanos e 340.000 exemplos escritos por IA. Seu resumo diz que “Este é um conjunto de dados em grande escala destinado a tarefas de detecção de texto por IA, voltado para textos e redações longos. Ele contém amostras de texto humano e texto gerado por IA de GPT2, GPT3, ChatGPT, GPTJ”.

O bloco de anotações de análise está disponível no GitHub aqui.

Avaliamos a implementação fornecida neste conjunto de dados pedindo à ferramenta Binóculos para determinar se cada texto de exemplo foi gerado por IA ou por humanos. Ao comparar esses rótulos computados com os rótulos verdadeiros fornecidos no conjunto de dados, somos capazes de determinar para cada texto se a ferramenta Binóculos avaliou corretamente a origem do texto.

Nossa avaliação mostra uma taxa verdadeiramente positiva de 43%, aproximadamente metade do que os autores encontraram em sua avaliação. Mais criticamente, a taxa de falsos positivos é de cerca de 0,7%, 70 vezes maior do que a descoberta dos autores — isso significa que o escritor pode ser falsamente acusado de usar IA em cerca de 1 em 140 casos, em vez de 1 em 10.000.

A taxa de falsos positivos é de cerca de 0,7%, 70 vezes maior do que a descoberta dos autores — isso significa que o escritor pode ser falsamente acusado de usar IA em cerca de 1 em 140 casos.

Entrei em contato com o principal autor do artigo Binóculos, Abhimanyu Hans, com esses resultados. Ele sugeriu três explicações possíveis:

O conjunto de dados que usamos para avaliação foi lançado há cerca de um ano e grande parte do conjunto de dados é gerado por modelos mais antigos, como o GPT-2, para os quais o método do Binóculos pode ser menos eficaz. No entanto, isso só pode afetar a taxa verdadeiramente positiva, não a taxa de falsos positivos.

O comprimento do texto varia. Ele explicou que o método do Binóculos funciona melhor com textos com cerca de 256 tokens (cerca de 1024 caracteres), com o desempenho diminuindo para textos mais curtos ou mais longos.

Idioma. O modelo funciona melhor com texto em inglês e ele sugeriu que o conjunto de dados pode conter texto que não seja em inglês. Não validei isso completamente, mas um exame casual confirma que o conjunto de dados é apenas em inglês.

Para testar o impacto do comprimento do texto, escolhemos um comprimento alvo de 1024 caracteres, que é aproximadamente os 256 tokens que o autor especificou. Em seguida, executamos outra avaliação na qual rejeitamos todos os textos mais curtos do que o limite e truncamos todos os outros textos para esse limite. Nesse caso, a taxa verdadeiramente positiva permaneceu aproximadamente inalterada e a taxa de falsos positivos diminuiu de 0,7% para 0,4% — uma melhora acentuada, mas ainda longe das descobertas do autor.

Tenho certeza de que o desempenho que os autores relatam em seu artigo é verdadeiro com base em seus dados de avaliação. Mas nossas descobertas levantam uma preocupante falta de robustez, especialmente na tendência de afirmar incorretamente que o texto escrito por humanos é gerado com IA.

Exemplos

Para entender as falhas, aqui estão alguns exemplos de falsos negativos (texto de IA classificado como humano) e falsos positivos (texto humano classificado como gerado por IA). Os textos foram encurtados para este artigo:

Como um experimento de partida, vamos testá-lo em um exemplo de anúncio político, como em nosso artigo anterior, no qual usamos o ChatGPT para gerar anúncios políticos:

John, veterano militar aposentado: "A honra e o apoio às nossas tropas estão no centro da administração Biden. Com um histórico comprovado de melhorar a saúde dos veteranos e aumentar os orçamentos de defesa, estamos comprometidos em manter a América segura e tratar nossos heróis com a dignidade que merecem".

Sofia, jovem profissional urbana: "Junte-se à Equipe Biden na construção de um futuro sustentável com iniciativas e políticas de energia limpa de ponta que promovam a inovação. Juntos, podemos enfrentar as mudanças climáticas, reduzir a dívida estudantil e criar um mercado de trabalho dinâmico que esteja pronto para os desafios de amanhã".

Emma, proprietária de pequenas empresas rurais: "O presidente Biden entende que a espinha dorsal da economia dos Estados Unidos está em suas pequenas empresas e fazendas. Estamos trabalhando para implementar acordos de comércio justo, melhorar a infraestrutura rural e fornecer benefícios fiscais para ajudar sua empresa a prosperar em um mercado global".

Michael, pai de classe média suburbana: "Toda criança merece uma educação de primeira linha e, sob a administração Biden, estamos investindo mais do que nunca em nossas escolas públicas e educadores. Com políticas destinadas a tornar os cuidados de saúde acessíveis e os nossos bairros seguros, estamos a construir comunidades mais fortes para todas as nossas famílias".

Isso foi detectado como gerado por IA pelo Binóculos. No entanto, quando perguntei ao ChatGPT "Você pode introduzir uma linguagem mais natural e pequenos erros para fazê-lo parecer mais escrito naturalmente?", ele produziu o seguinte:

John, veterano militar aposentado: "O coração da administração Biden? É tudo uma questão de honra e apoio às nossas tropas. Eles realmente intensificaram, melhorando a saúde dos veteranos, aumentando os orçamentos de defesa... É sobre nos manter seguros e tratar bem nossos heróis".

Sofia, jovem profissional urbana: "Vamos embarcar com a Equipe Biden para um futuro mais verde. Eles estão lançando alguns planos de energia limpa e políticas de inovação muito legais. Trata-se de combater as mudanças climáticas, reduzir os empréstimos estudantis e criar um mercado de trabalho pronto para o que está por vir".

Emma, proprietária de pequenas empresas rurais: "Biden entende — pequenas empresas e fazendas são o verdadeiro negócio em nossa economia. Comércio justo, melhor internet e estradas rurais, incentivos fiscais... Ele está pressionando por mudanças que são importantes para nós, garantindo que possamos nos posicionar no mercado global".

Michael, pai de classe média suburbana: "Toda criança deve ter uma educação de alto nível, certo? A equipe de Biden está investindo mais em escolas públicas e professores do que antes. Eles são todos sobre cuidados de saúde acessíveis e bairros seguros, realmente fazendo a diferença para famílias como a nossa".

O sistema Binóculos classificou isso como gerado por humanos.

Conclusões

Avaliamos apenas uma das muitas ferramentas disponíveis para detectar textos gerados por IA. De fato, optamos por avaliar essa ferramenta devido ao seu alto nível de desempenho reivindicado, mas também devido ao fato de que tal avaliação é possível devido ao lançamento de código aberto responsável fornecido pelos autores — muitos sistemas são fechados, dificultando ou impossibilitando a avaliação de terceiros. No entanto, sentimos que nossas descobertas são típicas e as limitações são inerentes ao problema: o texto gerado por IA simplesmente não é diferente o suficiente do texto gerado por humanos para ser capaz de diferenciá-los de forma consistente. Para um determinado ator, se o texto que ele gera for detectado como IA, é bastante simples apenas pedir ao modelo para tornar o texto mais natural, tentar um modelo diferente ou apenas trabalhar em idiomas ou comprimentos de texto nos quais os detectores não funcionam. Além disso, as afirmações feitas pelos autores do método Binóculos são baseadas em uma avaliação de dados gerados por um pequeno punhado de modelos; Nossas descobertas lançam dúvidas sobre o grau em que eles generalizam para um amplo espectro de modelos, seja passado ou futuro.

O texto gerado por IA simplesmente não é diferente o suficiente do texto gerado por humanos para ser capaz de diferenciá-los de forma consistente.

Mesmo ferramentas de detecção defeituosas podem ter aplicações úteis. Por exemplo, uma plataforma pode empregar essas ferramentas para tentar detectar contas automatizadas e levantar contas sinalizadas para investigação adicional. Mas é importante ter em mente que essas ferramentas podem ter preconceitos que podem prejudicar desproporcionalmente comunidades já marginalizadas online. E para certas aplicações, especialmente aquelas em que os erros podem ter consequências drásticas, como com a detecção de plágio, é improvável que qualquer ferramenta atinja um nível alto o suficiente para permitir a confiança de que os alunos não serão falsamente acusados de usar IA para uma redação que, na realidade, eles mesmos trabalharam duro para escrever. Um lançamento desse método para detecção de plágio em um departamento universitário, por exemplo, pode resultar em falsas acusações generalizadas de plágio, possivelmente visando desproporcionalmente estudantes para os quais o inglês não é sua primeira língua.

O desafio de detectar conteúdo gerado por IA está recebendo muita atenção nos dias de hoje, e com razão. Mas os formuladores de políticas e a sociedade em geral não devem se apressar em buscar soluções aparentemente fáceis para um problema complexo. Em vez disso, eles devem permanecer cautelosos com afirmações ousadas sobre supostas correções e devem investir no avanço desse importante campo de pesquisa. Qualquer solução política em torno do texto gerado por IA precisará respeitar o fato de que o texto gerado por IA não é necessariamente distinguível do que as pessoas escrevem — e que as ferramentas desenvolvidas para detectar essas diferenças podem ser manipuladas por atores mal-intencionados ou se mostrar ineficazes.