Ele usa uma versão de 12 bilhões de parâmetros[1] do modelo GPT-3 Transformer para interpretar entradas de linguagem natural (como "uma bolsa de couro verde em forma de pentágono" ou "uma visão isométrica de uma capivara triste") e gerar imagens.[2] Ele pode criar imagens de objetos realistas ("um vitral com a imagem de um morango azul"), bem como objetos que não existem na realidade ("um cubo com a textura de um porco-espinho").[3][4][5] Seu nome é uma junção de WALL-E e Salvador Dalí.[2][1]
Muitas redes neurais dos anos 2000 em diante foram capazes de gerar imagens realistas.[2] O DALL-E, no entanto, é capaz de gerá-las a partir de instruções de linguagem natural, que "entende [...] e raramente falha de forma séria".[2]
De acordo com a MIT Technology Review, um dos objetivos do OpenAI era "dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas".[6]
O DALL-E 3 foi lançado nativamente no ChatGPT para clientes ChatGPT Plus e ChatGPT Enterprise em outubro de 2023, com disponibilidade via API da OpenAI e plataforma "Labs" esperada para o final do ano. A Microsoft implementou o modelo na ferramenta Image Creator do Bing e planeja implementá-lo em seu aplicativo Designer.[7]
História
O DALL-E foi revelado pela OpenAI em 5 de janeiro de 2021.[6]
Em abril de 2022, a OpenAI anunciou o DALL-E 2, alegando que pode produzir imagens fotorrealistas a partir de descrições textuais, juntamente com um editor que permite modificações simples na saída. A partir do anúncio, o software foi declarado ainda em fase de pesquisa, com acesso limitado a usuários beta pré-selecionados. O modelo ainda pode cometer erros graves, incluindo erros que nenhum humano cometeria.[8] DALL-E 2 foi descrito como um modelo que "pode criar imagens e arte originais e realistas a partir de uma descrição de texto. Ele pode combinar conceitos, atributos e estilos."[9]
Arquitetura
O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido inicialmente pela OpenAI em 2018,[10] usando a arquitetura Transformer. A primeira iteração, GPT, foi ampliada para produzir GPT-2 em 2019;[11] em 2020 o modelo foi ampliado novamente para produzir GPT-3, com 175 bilhões de parâmetros.[12][1][13]
O modelo de DALL-E é uma implementação multimodal do GPT-3[14] com 12 bilhões de parâmetros[1] que "troca texto por pixels", treinado em pares texto-imagem da Internet.[6] Ele usa aprendizado de zero-shot para gerar saída de uma descrição e sugestão sem treinamento adicional.[15]
Desempenho
O DALL-E é capaz de gerar imagens em vários estilos, desde imagens fotorrealistas[1] até pinturas e emojis. Ele também pode "manipular e reorganizar" objetos em suas imagens.[1] Uma habilidade observada por seus criadores foi a colocação correta de elementos de design em novas composições sem instruções explícitas: "Por exemplo, quando solicitado a desenhar um rabanete daikon assoando o nariz, tomando um café com leite ou andando de monociclo, o DALL-E geralmente desenha o lenço, mãos e pés em locais plausíveis."[16]
Enquanto o DALL-E exibiu uma ampla gama de habilidades, no lançamento de sua demonstração pública, a maior parte da cobertura se concentrou em um pequeno subconjunto de imagens de saída "surreais"[6] ou "peculiares".[17] Especificamente, a saída de DALL-E para "uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro" foi mencionada em peças da Input,[18] NBC,[19]Nature,[20] e outras publicações.[1][21][22] Sua saída para "uma poltrona em forma de abacate" também foi notada.[6][23] Em contraste, foi observado o desenvolvimento não intencional de DALL-E de habilidades de raciocínio visual suficientes para resolver as Matrizes de Raven (testes visuais frequentemente administrados a humanos para medir a inteligência).[24]
Implicações
O DALL-E anuncia "o alvorecer de um novo paradigma de IA conhecido como IA multimodal", na qual os sistemas seriam capazes de combinar e traduzir dados entre vários tipos de informações. Além disso, o DALL-E foi citado como um exemplo de software que exibe criatividade.[25]
↑Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092 [cs.LG]
↑Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503 [cs.CL]