Stable Diffusion é um modelo de aprendizagem profunda para transformação de texto para imagem, lançado em 2022. É utilizado principalmente para gerar imagens detalhadas através de descrições textuais que condicionam o resultado, também sendo utilizado para inpainting e outras técnicas.[1]
O Stable Diffusion implementa um modelo de difusão latente, uma espécie de rede neural generativa profunda desenvolvida pelo grupo CompVis na Universidade de Munique,[2] em conjunto com a startup Runway.[3][4] Sua implementação é fruto de uma colaboração da CompVis, Runway, e Stability AI, com apoio da EleutherAI e LAION.[5] Tanto a implementação como os pesos do modelo foram lançados como código aberto.[6]
O modelo foi lançado com licenciamento permissivo - o Stable Diffusion concede todos os direitos sobre as imagens geradas aos usuários, com a condição de que elas não sejam ilegais ou prejudiciais. O licenceamento permissivo, bem como o uso de imagens com direitos autorais para treinamento do modelo, gerou controversas relacionadas a propriedade intelectual, a criação de símbolos associados ao nazismo, e pornografia ilegal..[4][7] Alguns artistas[8] e empresas abriram processos judiciais contra a Stability AI por conta do uso de suas imagens para treinamento do modelo.[9][10][11]