Poucos meses atrás, se você quisesse criar uma imagem de algo, você tinha que ser capaz de esboçar, pintar ou usar uma das ferramentas de photoshop sobre as quais os outros falam. Depois de 2022, porém, tudo mudou, tudo graças à IA – sim, como em “inteligência artificial”.
Em vez de tentar dominar o mundo, as ferramentas de IA com inclinação artística podem transformar qualquer coisa que você descreva para elas em uma imagem.
Venha conosco enquanto entramos no mundo da visualização de texto com inteligência artificial e veja como você pode usar essas ferramentas para converter seus pensamentos em imagens reais simplesmente digitando o que você tem em mente.
Dall-E: O lado artístico do GPT-3 da OpenAI
As primeiras ferramentas baseadas em IA que se tornaram populares foram baseadas no GPT-3 da OpenAI. Um dos motivos foi a abertura do projeto ao acesso externo, o que levou a algumas sugestões que GPT-3 é o futuro do trabalho criativo.
Hoje você pode usar as ferramentas oficiais que você encontra em
Site beta do OpenAI ou soluções de terceiros que tiram proveito de seus superpoderes linguísticos. Por exemplo, você pode pedir ao GPT-3 para criar um rascunho para uma postagem, responder a perguntas simples ou até mesmo revisar ou traduzir algum texto.Em 2022, o OpenAI revelou que o GPT-3 era igualmente bom na criação de imagens. O projeto DALL-E, uma brincadeira com o filme WALL-E da Pixar e o nome de Dali, usa o GPT-3 não para trabalhar com texto, mas como um mecanismo de criação de imagens.
Assim como com GPT-3 e texto, DALL-E não é realmente um gênio criativo, materializando imagens do nada. Em vez disso, foi "treinado" em milhões de imagens que já existem online. Seus poderes de IA estão em analisar essas imagens, tirar elementos delas, ajustar, transformar, ajustar e, finalmente, combiná-las em novas imagens.
Pelo menos, essa é uma versão simplificada do que acontece em segundo plano. A maioria das pessoas só se importa com o que vê na frente delas, e essa é uma caixa de texto onde você pode digitar algo e vê-lo transformado em imagem após alguns minutos.
Resposta de imagem do Google
O Google é um dos três principais "jogadores" na pesquisa de IA. Ainda assim, seu progresso não é facilmente perceptível, nem suas implementações em produtos são tão acessíveis quanto as ofertas da OpenAI.
Uma das primeiras implementações amplamente disponíveis do Google AI foi no Google Docs e no Gmail, na forma de preenchimento automático e sugestões mais inteligentes, conhecido como Smart Compose. Não entraremos em detalhes, pois já cobrimos Smart Compose (e como você pode usá-lo).
Quando esses recursos estão ativos, os aplicativos da web do Google comparam o que o usuário digita com o que milhões de outros escreveram no passado. Então, sugere o que eles digitaram depois.
É a prova de que, apesar do que gostamos de acreditar, não somos tão diferentes. Se 99 em cada 100 pessoas digitarem "mais tarde" depois de "até mais", provavelmente é isso que continuaríamos digitando também.
Todos nós já usamos alguma forma de preenchimento automático, mesmo de volta ao sistema de texto preditivo T9 da era "dumbphone". É por isso que as ferramentas de IA do Google não pareciam tão inteligentes quanto o GPT-3 do OpenAI. Eles não se sentiram muito mais em uso do que um sistema T9 melhor aprimorado para o século 21. E é também por isso que a revelação de Imagen foi um pouco chocante.
Como um DALL-E em esteróides, o Imagen é uma ferramenta de visualização de texto. Com base no que está disponível hoje, o Imagen pode produzir imagens mais "limpas" e vívidas, além de saber como lidar com recursos avançados como difusão e transparência.
Infelizmente, no momento da redação deste artigo, o acesso ao Imagen permanece restrito, por isso não pudemos experimentá-lo.
DALL-E Mini and Friends: aberto para negócios
Você não pode acessar livremente DALL-E e Imagen—ainda. Ainda assim, muitas alternativas já estão disponíveis se você quiser brincar com a geração de imagens textuais com inteligência artificial.
Tendo em mente que esses são os primeiros dias, e os resultados ou a experiência do usuário que eles oferecem podem estar longe do ideal, ainda vale a pena conferir alguns dos itens a seguir.
Fazendo memes com o Dall-E Mini
Graças a uma combinação de resultados mais do que adequados e uma interface amigável, mas mais importante, sua ampla disponibilidade, o DALL-E mini tornou-se um dos visualizadores de texto de IA mais populares.
Longe de ser perfeito, às vezes os resultados do DALL-E mini podem ser mais abstratos do que o pretendido.
Outras vezes, pode não criar o que você tinha em mente, mas pode chegar bem perto.
Após sua explosão de popularidade, os criadores do DALL-E mini o mudaram para uma nova casa com uma nova marca. Agora você pode encontrar a última versão do DALL-E mini como Craiyon em seu próprio site.
Usar o Craiyon hoje é tão fácil quanto pesquisar online uma imagem existente. Você pode visitar seu site, digitar uma descrição de sua imagem em seu campo de texto e pressionar Enter. Depois de um tempo, você verá os resultados na tela.
O que impressiona é o quão bom Craiyon e ferramentas semelhantes são em imitar estilos visuais. Por exemplo, pedimos para evocar imagens de um filhote de cachorro em um skate:
Então, usamos a frase exata, mas adicionamos um "estilo Pixar" depois dela. Depois de um tempo, Craiyon mostrou uma grade de imagens mais "desenhadas", mais próximas do que percebemos como gráficos ray-traced da Pixar em seus amados filmes.
Craiyon nos deu resultados ainda melhores quando substituímos "estilo Pixar" por "estilo anime" no mesmo prompt.
O anime é mais estilizado em sua aparência do que as imagens mais realistas da Pixar, o que parece ter ajudado Craiyon a produzir algumas imagens quase prontas para uso.
Brincando com a difusão latente
O modelo Latent Diffusion treinado no conjunto de dados LAION-400M é outro visualizador de texto de IA interessante. No entanto, também é mais complicado em seu uso. Você deve executá-lo online em uma máquina virtual e brincar com seus vários parâmetros em vez de simplesmente digitar em um campo de texto. Ainda assim, é mais fácil do que parece.
- Visite a Espaço de colaboração de difusão latente do Google que é atualmente a sua casa.
- Role um pouco para baixo e observe o Pronto campo sob Parâmetros. Substitua o prompt padrão pelo que você deseja que sua imagem represente.
- Escolher Executar tudo de Tempo de execução menu ou pressione CTRL + F9.
- Se você deseja exportar as imagens produzidas diretamente de dentro da ferramenta, responda positivamente quando perguntado se deseja vinculá-la à sua conta do Google Drive. A ferramenta demora um pouco para concluir sua configuração e precisa baixar alguns arquivos durante o processo.
Aumentando os valores de Passos, Iterações, e Samples_in_parallel, pode levar a resultados mais detalhados. No entanto, a ferramenta é extremamente exigente em recursos nos servidores do Google. Como resultado, ele pode travar se você aumentar muito esses valores ou o processo de criação de uma imagem específica se tornar mais complicado do que o esperado.
Alternativas interessantes
Passamos uma quantidade significativa de tempo testando DALL-E mini e Latent Diffusion. Nosso método científico consistia em duas partes distintas. Primeiro, tivemos que criar conceitos que pudessem ser descritos com precisão como malucos. Em seguida, peça a esses visualizadores de IA para transformá-los em imagens. Mais frequentemente do que o esperado, eles conseguiram, chegando perto da configuração geral que tínhamos imaginado.
Também tentamos algumas das alternativas disponíveis para este artigo. Ainda estamos aguardando o acesso a outros. Alguns dos que vale a pena conferir são (sem ordem específica):
- Meio da jornada
- MindsEye beta
- StarryAI
- Sonho
- Difusão de disco
A arte gerada por IA substituirá as artes visuais?
A abundância e a crescente popularidade das ferramentas de geração de imagens baseadas em IA levam muitos a concluir que as artes visuais morrerão em breve. Qual é o sentido de investir tempo e energia para aprender a desenhar ou usar software complicado para visualizar as coisas quando uma IA pode fazê-lo mais rápido (e logo melhor) do que você?
Se você notou, essas ferramentas são todas "treinadas em conjuntos de dados". Em linguagem simples, isso significa que eles fazem o que fazem graças aos humanos que já fizeram a mesma coisa antes.
Essa é a dica de por que essas ferramentas não podem substituir a arte, a criatividade e a engenhosidade humana. Eles são imitadores, replicadores inteligentes. Sem os originais produzidos humanamente nos quais eles são treinados, eles não seriam capazes de produzir qualquer saída.
Ainda assim, isso é o agora, e admitimos que não sabemos o que o futuro reserva. Por enquanto, os artistas visuais podem dormir em segurança. No entanto, no ritmo em que a IA está evoluindo, muitos especialistas no assunto concordam que não é uma questão de substituir o trabalho de pessoas como o seu de verdade. É apenas uma questão de quando.
Mas ei, nem tudo é desgraça e melancolia. Enquanto a Skynet se prepara para aceitar nossos empregos, pelo menos podemos alegrar nosso humor criando sem esforço imagens de filhotes em skates!