“Impressionante”: atualização Midjourney surpreende artistas de IA com recurso de câmera

El jueves, Midjourney presentó la versión 5.2 de su modelo de síntesis de imágenes impulsado por IA, que incluye una nueva función de “alejar” que permite mantener una imagen central sintetizada mientras construye automáticamente una escena más grande a su alrededor, simulando alejarse con una lente de câmera.

Semelhante a superando— uma técnica de imagem de IA introduzida pelo DALL-E 2 da OpenAI em agosto de 2022 — o recurso de redução de zoom do Midjourney pode pegar uma imagem gerada por IA existente e expandir suas bordas, mantendo o assunto original centralizado na nova imagem. Mas, ao contrário do DALL-E e do recurso de preenchimento generativo do Photoshop, você não pode selecionar uma imagem personalizada para expandi-la. No momento, o zoom-out da v5.2 funciona apenas em imagens geradas no Midjourney, um inscrição Serviço gerador de imagem AI.

No servidor Midjourney Discord (ainda a interface oficial do Midjourney, embora haja planos para mudar isso), os usuários podem experimentar sair gerando qualquer imagem v5.2 (agora o padrão) e dimensionar um resultado. Depois disso, botões especiais de “Zoom” aparecem na saída. Você pode diminuir o zoom por um fator de 1,5x, 2x ou um valor personalizado entre 1 e 2. Outro botão, chamado “Make Square”, renderizará o material ao redor da imagem existente de uma forma que cria uma proporção quadrada de 1:1 .

Uma imagem inicial de uma “Mulher Guerreira” gerada por Midjourney 5.2.

a metade do caminho
A imagem foi “reduzida” 2x pelo Midjourney 5.2.

a metade do caminho
A imagem foi “reduzida” 2x pelo Midjourney 5.2 novamente.

a metade do caminho
A imagem foi “reduzida” 2x pelo Midjourney 5.2 mais uma vez.

a metade do caminho
A imagem foi “encolhida” 2x pelo Midjourney 5.2 ainda mais!

a metade do caminho

David Holz, o criador do Midjourney, anunciou os novos recursos e melhorias v5.2 no servidor Discord na noite de quinta-feira. Além de “zoom out”, as adições mais significativas incluem um sistema estético revisado, que promete melhor qualidade de imagem, e um comando “–stylize” mais forte que efetivamente influencia a aparência irreal de uma imagem. Há também um novo “modo de alta variação”, ativado por padrão, que aumenta a variação da composição entre as gerações de imagem. Além disso, um novo comando “/shorten” permite que os usuários avaliem prompts na tentativa de cortar palavras não essenciais.

Apesar do lançamento imediato da v5.2, Holz enfatizou em seu anúncio que mudanças podem ocorrer sem aviso prévio. Versões mais antigas do modelo Midjourney ainda estão disponíveis usando o comando “/settings” ou o argumento de linha de comando “–v 5.1”.

Uma comparação entre a saída de Midjourney v3 (esquerda), v4 (meio-esquerda), v5 (meio-direita) e v5.2 (direita) com o indicador — Prolongar / Uma comparação entre a saída de Midjourney v3 (esquerda), v4 (meio-esquerda), v5 (meio-direita) e v5.2 (direita) com a mensagem “um bárbaro musculoso com armas ao lado de uma TV CRT, cinematográfica, 8K, iluminação de estúdio.”

a metade do caminho

Para os fãs desta nova forma de arte de síntese de imagem, às vezes chamada de “sintografia” por defensores como Julie Wieland, as mudanças na versão 5.2 são bem-vindas, com alguns usuários do Midjourney chamando-as de “incrível” e “Incrível“, que não são superlativos incomuns no mundo da IA no momento. Mas os fãs provavelmente argumentarão que os aprimoramentos visuais do Midjourney justificam o espanto. reações entre eles.

A última atualização faz parte de uma série de melhorias de qualidade desde março de 2022, quando o modelo gerado imagens relativamente mal definidas que careciam de detalhes. Mais recentemente, a Midjourney lançou a versão 5.0 em março e a versão 5.1 em maio deste ano, ambas aprimorando os detalhes e o realismo da imagem. A introdução da série de modelos v5 permitiu a criação de imagens realistas do Papa Francisco e de Donald Trump, o que levantou preocupações sobre deepfakes nas redes sociais.

Vamos diminuir o zoom de uma das imagens de “bárbaro musculoso com armas ao lado de uma TV CRT, cinematográfica, 8K, iluminação de estúdio” mostradas acima.

a metade do caminho
Com zoom de 2x, a caverna do homem bárbaro ganha mais detalhes ocultos.

a metade do caminho
Com zoom de 2x novamente, agora podemos ver um elegante lustre de cristal. Isso poderia realmente ser a sala de estar formal?

a metade do caminho

Apesar do entusiasmo pelos novos recursos entre os entusiastas do Midjourney, a síntese de imagens permanece altamente controversa entre alguns artistas devido à forma como esses sistemas de inteligência artificial são treinados, usando milhões de imagens retiradas da web. sem inquérito, crédito ou permissão do artista. Midjourney nunca revelou oficialmente o conteúdo exato de seus dados de treinamento. A Adobe está tentando seguir um caminho mais ético com o Firefly, mas a Venture Beat relatou recentemente que o consentimento ativo do artista é ainda marginal.

Até agora, é difícil não apreciar os avanços técnicos de abrir os olhos do Midjourney ao mesmo tempo em que se pergunta se há um caminho mais ético para essa tecnologia, um que agrade aos artistas, tanto tradicionais quanto sintetizados.