Embora o output desses modelos geralmente seja impressionante, é difícil saber exatamente como eles produzem seus resultados. Na semana passada, pesquisadores nos EUA fizeram a intrigante afirmação de que o modelo DALL-E 2 pode ter inventado sua própria linguagem secreta para falar sobre objetos.

Ao solicitar que DALL-E 2 criasse imagens contendo legendas de texto e, em seguida, alimentando as legendas resultantes (sem sentido) de volta ao sistema, os pesquisadores concluíram que DALL-E 2 pensa que Vicootes significa “vegetais”, enquanto Wa ch zod rea se refere a “criaturas marinhas que uma baleia pode comer.”

Essas afirmações são fascinantes e, se verdadeiras, podem ter importantes implicações de segurança e interpretabilidade para esse tipo de grande modelo de IA. Então, o que exatamente está acontecendo?