Character.AI apresenta TalkingMachines, uma inovação na geração de vídeo AI em tempo real, utilizando modelos de difusão avançados para animação de personagens interativa e impulsionada por áudio.
A Character.AI anunciou um avanço significativo na geração de vídeo em tempo real com o lançamento do TalkingMachines, um modelo inovador de difusão autorregressiva. Esta nova tecnologia permite a criação de vídeos interativos, impulsionados por áudio, no estilo FaceTime, permitindo que os personagens conversem em tempo real em vários estilos e géneros, conforme reportado pelo Blog da Character.AI.
Revolucionando a Geração de Vídeo
TalkingMachines baseia-se no trabalho anterior da Character.AI, AvatarFX, que potencia a geração de vídeo na sua plataforma. Este novo modelo estabelece o cenário para interações visuais imersivas e em tempo real, impulsionadas por IA, e personagens animados. Ao utilizar apenas uma imagem e um sinal de voz, o modelo pode gerar conteúdo de vídeo dinâmico, abrindo novas possibilidades para entretenimento e media interativa.
A Tecnologia Por Trás das TalkingMachines
O modelo aproveita a arquitetura Diffusion Transformer (DiT), utilizando um método conhecido como destilação de conhecimento assimétrica. Esta abordagem transforma um modelo de vídeo bidirecional de alta qualidade em um gerador rápido e em tempo real. As principais características incluem:
Difusão com Fluxo Correspondente: Pré-treinada para gerenciar padrões de movimento complexos, desde expressões sutis a gestos dinâmicos.
Atenção Cruzada Driven por Áudio: Um módulo de áudio de 1,2B de parâmetros que alinha som e movimento de forma intrincada.
Atenção Causal Esparsa: Reduz a memória e a latência ao se concentrar em quadros passados relevantes.
Destilação Assimétrica: Utiliza um modelo de difusão rápido em duas etapas para geração de comprimento infinito sem perda de qualidade.
Implicações para o Futuro
Este avanço vai além da animação facial, abrindo caminho para personagens de IA audiovisuais interativos. Suporta uma ampla gama de estilos, desde fotorealistas a anime e avatares 3D, e está preparado para melhorar a transmissão com fases de fala e escuta naturais. Esta tecnologia estabelece as bases para interpretação de papéis, narração de histórias e construção de mundos interativos.
Avanço das Capacidades de IA
A pesquisa da Character.AI marca vários avanços, incluindo geração em tempo real, destilação eficiente e alta escalabilidade, com operações capazes de rodar em apenas duas GPUs. O sistema também suporta interações com múltiplos falantes, permitindo diálogos de personagens sem costura.
Perspectivas Futuras
Embora ainda não seja um lançamento de produto, este desenvolvimento é um marco crítico no roteiro da Character.AI. A empresa está trabalhando para integrar esta tecnologia em sua plataforma, com o objetivo de permitir experiências semelhantes ao FaceTime, streaming de personagens e construção de mundos visuais. O objetivo final é democratizar a criação e a interação com personagens audiovisuais imersivos.
A Character.AI investiu pesadamente em infraestrutura de treinamento e design de sistemas, utilizando mais de 1,5 milhão de clipes de vídeo curados e um pipeline de treinamento em três etapas. Esta abordagem exemplifica a precisão e o propósito da pesquisa de ponta em tecnologia de IA.
Fonte da imagem: Shutterstock
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Character.AI revela tecnologia de vídeo AI em tempo real com TalkingMachines
Rebeca Moen
04 Jul 2025 04:27
Character.AI apresenta TalkingMachines, uma inovação na geração de vídeo AI em tempo real, utilizando modelos de difusão avançados para animação de personagens interativa e impulsionada por áudio.
A Character.AI anunciou um avanço significativo na geração de vídeo em tempo real com o lançamento do TalkingMachines, um modelo inovador de difusão autorregressiva. Esta nova tecnologia permite a criação de vídeos interativos, impulsionados por áudio, no estilo FaceTime, permitindo que os personagens conversem em tempo real em vários estilos e géneros, conforme reportado pelo Blog da Character.AI.
Revolucionando a Geração de Vídeo
TalkingMachines baseia-se no trabalho anterior da Character.AI, AvatarFX, que potencia a geração de vídeo na sua plataforma. Este novo modelo estabelece o cenário para interações visuais imersivas e em tempo real, impulsionadas por IA, e personagens animados. Ao utilizar apenas uma imagem e um sinal de voz, o modelo pode gerar conteúdo de vídeo dinâmico, abrindo novas possibilidades para entretenimento e media interativa.
A Tecnologia Por Trás das TalkingMachines
O modelo aproveita a arquitetura Diffusion Transformer (DiT), utilizando um método conhecido como destilação de conhecimento assimétrica. Esta abordagem transforma um modelo de vídeo bidirecional de alta qualidade em um gerador rápido e em tempo real. As principais características incluem:
Implicações para o Futuro
Este avanço vai além da animação facial, abrindo caminho para personagens de IA audiovisuais interativos. Suporta uma ampla gama de estilos, desde fotorealistas a anime e avatares 3D, e está preparado para melhorar a transmissão com fases de fala e escuta naturais. Esta tecnologia estabelece as bases para interpretação de papéis, narração de histórias e construção de mundos interativos.
Avanço das Capacidades de IA
A pesquisa da Character.AI marca vários avanços, incluindo geração em tempo real, destilação eficiente e alta escalabilidade, com operações capazes de rodar em apenas duas GPUs. O sistema também suporta interações com múltiplos falantes, permitindo diálogos de personagens sem costura.
Perspectivas Futuras
Embora ainda não seja um lançamento de produto, este desenvolvimento é um marco crítico no roteiro da Character.AI. A empresa está trabalhando para integrar esta tecnologia em sua plataforma, com o objetivo de permitir experiências semelhantes ao FaceTime, streaming de personagens e construção de mundos visuais. O objetivo final é democratizar a criação e a interação com personagens audiovisuais imersivos.
A Character.AI investiu pesadamente em infraestrutura de treinamento e design de sistemas, utilizando mais de 1,5 milhão de clipes de vídeo curados e um pipeline de treinamento em três etapas. Esta abordagem exemplifica a precisão e o propósito da pesquisa de ponta em tecnologia de IA.
Fonte da imagem: Shutterstock