O mundo da IA ainda está descobrindo como lidar com a incrível exibição de proeza que é A capacidade do DALL-E 2 de desenhar/pintar/imaginar praticamente qualquer coisa…mas o OpenAI não é o único a trabalhar em algo assim. O Google Research foi rápido em publicar um modelo semelhante em que está trabalhando, que afirma ser ainda melhor.
Imagem (entendeu?) é um gerador de texto para imagem baseado em broadcast construído em grandes modelos de linguagem de transformador que… ok, vamos desacelerar e descompactar isso bem rápido.
Modelos de texto para imagem usam entradas de texto como “um cachorro em uma bicicleta” e produzem uma imagem correspondente, algo que foi feito há anos, mas recentemente viu grandes avanços em qualidade e acessibilidade.
Parte disso é o uso de técnicas de difusão, que basicamente começam com uma imagem de ruído puro e a refinam pouco a pouco até que o modelo pense que não pode fazê-la parecer mais com um cachorro em uma bicicleta do que já parece. . Esta foi uma melhoria em relação aos geradores de cima para baixo que poderiam dar errado no primeiro palpite, e outros que poderiam facilmente se perder.
A outra parte é uma melhor compreensão da língua através de ótimos modelos de linguagem usando a abordagem do transformador, cujos detalhes técnicos não vou (e não posso) entrar aqui, mas este e alguns outros avanços recentes levaram a modelos de linguagem convincentes como GPT-3 e outros.
Créditos da imagem: pesquisa do google
A imagem começa gerando uma imagem pequena (64 × 64 pixels) e depois faz duas passagens de “super resolução” para trazê-la para 1024 × 1024. No entanto, isso não é como o dimensionamento normal, pois a super resolução da IA cria novos detalhes . em harmonia com a imagem menor, usando o original como base.
Digamos, por exemplo, que você tenha um cachorro em uma bicicleta e o olho do cachorro tenha 3 pixels de largura na primeira imagem. Não há muito espaço para expressão! Mas na segunda imagem, tem 12 pixels de largura. De onde vem o detalhe necessário para isso? Bem, a IA sabe como é o olho de um cachorro, então gera mais detalhes à medida que você desenha. Isso acontece novamente quando o olho é refeito, mas com 48 pixels de largura. Mas em nenhum momento a IA teve que tirar 48 pixels de olho de cachorro de sua… digamos, bolsa mágica. Como muitos artistas, ele começou com o equivalente a um rascunho, completou em um estúdio e depois realmente foi para a cidade na tela final.
Isso é inédito e, de fato, artistas que trabalham com modelos de IA já usam essa técnica para criar peças muito maiores do que a IA pode manipular de uma só vez. Se você dividir uma tela em várias partes e super-resolvê-las separadamente, você terminará com algo muito maior e com detalhes mais intrincados; Você pode até fazê-lo repetidamente. um exemplo interessante de um artista que conheço:
Os avanços que os pesquisadores do Google afirmam com o Image são vários. Eles dizem que os modelos de texto existentes podem ser usados para a codificação da parte do texto e que sua qualidade é mais importante do que simplesmente aumentar a fidelidade visual. Isso faz sentido intuitivamente, já que uma imagem detalhada do absurdo é definitivamente pior do que uma imagem um pouco menos detalhada exatamente do que você pediu.
Por exemplo, no papel ao descrever Image, eles comparam os resultados com os de DALL-E 2 fazendo “um panda fazendo latte art”. Em todas as imagens deste último, é latte art de um panda; na maior parte da imagem é um panda fazendo a arte. (Nenhum deles poderia transformar um cavalo em um astronauta, mostrando o contrário em todas as tentativas. É um trabalho em andamento.)
Créditos da imagem: pesquisa do google
Nos testes do Google, o Image saiu na frente nos testes de avaliação humana, tanto em precisão quanto em fidelidade. Isso é obviamente bastante subjetivo, mas mesmo combinando com a qualidade percebida do DALL-E 2, que até hoje era considerado um grande passo à frente de tudo, é bastante impressionante. Vou apenas acrescentar que, embora muito boas, nenhuma dessas imagens (de qualquer gerador) resistirá a um escrutínio mais superficial antes que as pessoas percebam que foram geradas ou recebam sérias suspeitas.
No entanto, o OpenAI está um passo ou dois à frente do Google de várias maneiras. DALL-E 2 é mais do que um trabalho de pesquisa, é um beta privado com pessoas usando, assim como seu antecessor e GPT-2 e 3. Ironicamente, a empresa com “aberto” em seu nome se concentrou em produzir seu texto. -à pesquisa de imagens, enquanto o gigante da Internet fabulosamente lucrativo ainda precisa tentar.
Isso fica mais do que claro na escolha que os pesquisadores do DALL-E 2 fizeram, de selecionar o conjunto de dados de treinamento com antecedência e remover qualquer conteúdo que possa violar suas próprias diretrizes. O modelo não poderia fazer algo NSFW mesmo que tentasse. No entanto, a equipe do Google usou grandes conjuntos de dados que incluem material impróprio. Em uma seção detalhada no site Image descrevendo “Limitações e Impacto Social”, os pesquisadores escrevem:
As aplicações a jusante de modelos de texto para imagem são variadas e podem afetar a sociedade de maneiras complexas. Os riscos potenciais de uso indevido levantam preocupações em relação ao código-fonte aberto responsável e demonstrações. Neste momento, decidimos não liberar o código ou uma demonstração pública.
Os requisitos de dados dos modelos de texto para imagem levaram os pesquisadores a confiar fortemente em grandes conjuntos de dados extraídos da web, em sua maioria não selecionados. Embora essa abordagem tenha permitido rápidos avanços algorítmicos nos últimos anos, conjuntos de dados dessa natureza geralmente refletem estereótipos sociais, pontos de vista opressivos e associações depreciativas ou prejudiciais com grupos de identidade marginalizados. Embora um subconjunto de nossos dados de treinamento tenha sido filtrado para remover ruído e conteúdo indesejado, como imagens pornográficas e linguagem tóxica, também usamos o conjunto de dados LAION-400M, que é conhecido por conter uma ampla variedade de conteúdo impróprio, incluindo imagens pornográficas, insultos e estereótipos sociais prejudiciais. A imagem depende de codificadores de texto treinados em dados em escala da Web não selecionados e, portanto, herda os preconceitos sociais e as limitações de grandes modelos de linguagem. Como tal, existe o risco de que o Imagen tenha codificado estereótipos e representações prejudiciais, o que orienta nossa decisão de não publicar o Imagen para uso público sem outras garantias.
Embora alguns possam criticar isso, dizendo que o Google teme que sua IA não seja politicamente correta o suficiente, essa é uma visão pouco caridosa e míope. Um modelo de IA é tão bom quanto os dados em que é treinado, e nem toda equipe pode gastar tempo e esforço para eliminar as coisas realmente terríveis que esses raspadores pegam enquanto montam milhões ou bilhões de imagens. . conjuntos de dados de palavras.
Tais vieses tendem a surgir durante o processo de pesquisa, expondo como os sistemas funcionam e fornecendo um campo de testes irrestrito para identificar essas e outras limitações. De que outra forma saberíamos que uma IA não pode desenhar penteados comuns entre negros, penteados que qualquer criança poderia desenhar? Ou que quando solicitado a escrever histórias sobre ambientes de trabalho, a IA invariavelmente transforma o chefe em homem? Nesses casos, um modelo de IA funciona perfeitamente e conforme projetado: ele aprendeu com sucesso os preconceitos que permeiam a mídia na qual é treinado. Não ao contrário das pessoas!
Mas, embora desaprender o viés sistêmico seja um projeto vitalício para muitos humanos, uma IA tem mais facilidade e seus criadores podem remover o conteúdo que causou o mau comportamento em primeiro lugar. Talvez um dia seja necessária uma IA para escrever no estilo de um comentarista racista e sexista da década de 1950, mas por enquanto os benefícios de incluir esses dados são pequenos e os riscos são grandes.
De qualquer forma, Image, como os outros, está claramente ainda em fase experimental, não pronto para ser usado de outras maneiras que não sejam estritamente supervisionadas por humanos. À medida que o Google começar a tornar seus recursos mais acessíveis, tenho certeza de que aprenderemos mais sobre como e por que ele funciona.