Google revela Lumiere, modelo de IA revolucionário para geração de vídeos realistas com avançada arquitetura Space-Time U-Net, desafiando o uso responsável da tecnologia antes das eleições de 2024.
O Google recentemente fez um anúncio empolgante sobre seu avanço na inteligência artificial: o lançamento do Lumiere, um modelo revolucionário capaz de criar vídeos realistas a partir de descrições textuais simples. Este avanço tecnológico foi divulgado junto ao Gemini, um novo e avançado modelo de linguagem que promete superar seu antecessor, o LaMDA, em precisão e capacidade.
O Lumiere é descrito pelo Google como um “modelo de difusão espaço-temporal” que se destaca na geração de vídeos realistas. O que o torna único é a sua arquitetura inovadora, conhecida como Space-Time U-Net. Essa arquitetura permite que o Lumiere gere todos os quadros de um vídeo simultaneamente, o que resulta em uma representação mais realista e fluida dos movimentos e da passagem do tempo.
A maioria das ferramentas de IA para geração de vídeos trabalha criando “quadros-chave” espaçados, e depois preenchendo os intervalos para formar uma animação. Por exemplo, em uma animação de 30 quadros, outros modelos gerariam apenas alguns quadros específicos e utilizariam técnicas de superamostragem para completar os demais. Em contraste, o Lumiere é capaz de gerar a sequência inteira de uma vez, proporcionando uma fluidez muito mais natural ao vídeo.
Além disso, o Google enfatiza a versatilidade do Lumiere, mencionando que a IA pode criar vídeos em estilos variados usando uma imagem como referência, transformar fotografias em vídeos, modificar características de objetos em clipes, e realizar edições de vídeo consistentes por meio de comandos de texto. Estas funcionalidades indicam um amplo leque de possibilidades para profissionais e entusiastas de criação de conteúdo.
Leia também: Assinei o ChatGPT Plus, vale a pena? experiência de uso e mais detalhes da IA da Open Ai.
Conheça o Google Bard, principal concorrente da Google para o ChatGPT em inteligência artificial para textos.
No entanto, o Google não especificou quais bancos de dados foram utilizados para treinar o Lumiere. Eles mencionaram a inclusão de cerca de 30 milhões de vídeos, cada um com 80 quadros e rodando a 16 FPS, resultando em vídeos de 5 segundos. Os vídeos gerados têm uma proporção de 1:1 e resolução de 1.024 x 1.024 pixels.
Apesar de promissor, o Lumiere ainda tem desafios a superar, como a melhoria da qualidade dos vídeos e a capacidade de gerar clipes com várias cenas ou transições. Além disso, a resolução atual dos vídeos, embora baixa, já levanta preocupações sobre o potencial uso indevido da tecnologia, como na criação de notícias falsas. Em resposta a essas preocupações, autoridades ao redor do mundo, incluindo o Brasil, estão acelerando a regulamentação do uso seguro da IA, especialmente com as eleições de 2024 se aproximando.
É importante notar que o campo da IA está em constante evolução, e novas informações e desenvolvimentos podem ter surgido desde a minha última atualização. Portanto, recomendo verificar as fontes mais recentes para obter as informações mais atuais sobre o Lumiere e outros avanços relacionados à inteligência artificial.