Uma nova geração de modelos de inteligência artificial pode produzir imagens “criativas” sob demanda com base em um prompt de texto. Empresas como Imagen, MidJourney e DALL-E 2 estão começando a mudar a forma como o conteúdo criativo é feito com implicações para direitos autorais e propriedade intelectual.
Embora o output desses modelos geralmente seja impressionante, é difícil saber exatamente como eles produzem seus resultados. Na semana passada, pesquisadores nos EUA fizeram a intrigante afirmação de que o modelo DALL-E 2 pode ter inventado sua própria linguagem secreta para falar sobre objetos.
Ao solicitar que DALL-E 2 criasse imagens contendo legendas de texto e, em seguida, alimentando as legendas resultantes (sem sentido) de volta ao sistema, os pesquisadores concluíram que DALL-E 2 pensa que Vicootes significa “vegetais”, enquanto Wa ch zod rea se refere a “criaturas marinhas que uma baleia pode comer.”
Essas afirmações são fascinantes e, se verdadeiras, podem ter importantes implicações de segurança e interpretabilidade para esse tipo de grande modelo de IA. Então, o que exatamente está acontecendo?