O OpenAI é preconceituoso? Nós checamos pra você

Exploramos como o OpenAI gerou uma mulher em diferentes idiomas

Screen Shot 2023 03 08 at 11.53.31 PM 800x450 1
Todas as imagens geradas com OpenIA. (Reprodução).

Por Daria Dergacheva

Os dois novos e populares lançamentos tecnológicos do projeto OpenAI, ChatGPT e DALL-E2, chamaram muita atenção da mídia e de usuários das redes sociais. Discussões sobre o que pode ser feito com essas tecnologias, quais empregos podem ser substituídos, como lidar com questões de direitos autorais, e como essas tecnologias podem amplificar preconceitos existentes são frequentes nas esferas de direitos digitais, tecnologia e jornalismo.

A Global Voices experimentou 0 DALL-E2, o gerador de imagens de IA (inteligência artificial), para ver como ele gerava imagens a partir de diferentes idiomas. Digitamos a mesma frase em nove línguas: “Pintura a óleo da sombra de uma mulher em luto na janela”.

Aqui estão os resultados que recebemos:

Inglês: Oil painting of a shadow of a grieving woman at the window.

Dasha10 800x200 1

Espanhol: Pintura al óleo de la sombra de una mujer en duelo ante la ventana

espanhol

Checo: Olejomalba stínu truchlící ženy u okna

checo

Russo: Картина маслом силуэт скорбящей женщины у окна

russo

Indonésio: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela

indonesio

Chinês simplificado: 窗边悲痛女人的影子油画

chines

Cazaque: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi

cazaque

Usbeque: Deraza oldida qayg’u chekayotgan ayol soyasining moyli rasmi

usbeque

Malaiala: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്

malaila

Obviamente, algumas dessas fotos são bastante diferentes do comando original.  Isso pode ser devido a quantidade de dados insuficiente nas línguas originais. Como os inventores do DALL-E explicaram em uma entrevista com Tech Crunch, o modelo sobre o qual ele trabalha é chamado CLIP (Contrastive Language-Image Pre-training [Pré-treinamento de contraste idioma-imagem]). O CLIP foi treinado em 400 milhões de pares de imagens com legendas de texto coletadas da internet. Como o OpenAI diz em seu website:

“O GPT-2 mostrou que a linguagem escrita pode ser usada para instruir uma rede neural ampla para executar uma variedade de tarefas de geração de texto. O GPT de imagens mostrou que o mesmo tipo de rede neural pode ser também utilizado para gerar imagens com alta fidelidade. Nós desenvolvemos essas descobertas para mostrar que manipular conceitos visuais através da linguagem escrita está agora ao nosso alcance”.

“Nós vivemos em um mundo visual”, disse Ilya Sutskever, cientista chefe do OpenAI, em uma entrevista com o MIT Technological Review. “No futuro, teremos modelos que entenderão tanto o texto como as imagens. A IA será capaz de entender melhor a língua porque poderá ver o que as palavras e frases significam.”

Uma vez que diferentes línguas produziram resultados tão diferentes, parece que o foco dessa coleta de dados da internet, a partir da qual o modelo trabalha, usou línguas mais amplamente faladas, como inglês e espanhol, mas não línguas menos óbvias.

Então, muitas imagens da internet com uma descrição em uzbeque ou malaiala não estavam presentes nos dados originais com que a IA foi treinada. Se o modelo tem a intenção de trabalhar com mais línguas, precisa focar em treinar mais em imagens com descrições que não sejam em inglês. Senão, usuários do Cazaquistão vão continuar a receber imagens de comida em vez de uma mulher, e os que falam malaiala vão receber imagens de natureza. A imagem baseada em russo é claramente sexualizada, de alguma forma. A imagem indonésia retrata várias meninas sentadas, e a checa leva o prêmio de originalidade com uma jarra de óleo roubando a cena. As imagens baseadas em chinês simplificado são assustadoras.

Claro, não podemos afirmar, com base nisso, que o OpenAI é racista. O que podemos ver aqui é que ainda não recebeu dados suficientes em outros idiomas além do inglês. Agora, se vai ficar assim, não sabemos, mas recomendamos fortemente que não fique.

Tradução de Isabela Torezan.

Este post é parte da Global Voices, uma iniciativa internacional de jornalismo baseado em uma licença Creative Commons. O objetivo é cobrir diferentes realidades através de uma comunidade de jornalistas em diferentes partes do mundo. Conheça o projeto.