6 min lectura
ByteDance, el titán tecnológico detrás de TikTok, acaba de lanzar un potente ataque en la carrera armamentística de generación de videos de inteligencia artificial, mientras la división en la nube de la empresa presentó dos generadores de video: PixelDance y Seaweed.
Los generadores, lanzados en un evento en Shenzhen la semana pasada, todavía se encuentran en beta privada y solo están disponibles para un número limitado de usuarios. Sin embargo, los modelos podrían estar disponibles públicamente el próximo mes, dependiendo del resultado de las elecciones generales de EE. UU., afirmó el YouTuber Tim Simmons, quien se enfoca en herramientas de IA para creadores de contenido.
“Hablé con [una fuente anónima] sobre esto y lo mejor que puedo decir es que no contengas la respiración hasta después de noviembre porque... política”, dijo Simmons en una reseña en video de los modelos.
Los videos de demostración se mostraron por primera vez en un sitio chino, WeiXin.
PixelDance se enfoca en la animación de personajes impulsada por IA, generando videos de 10 segundos con movimientos humanos sorprendentemente realistas. El modelo ofrece actuaciones fluidas y naturales: los personajes caminan, giran, recogen objetos e interactúan con su entorno de formas anteriormente consideradas imposibles para la IA.
Pero la verdadera magia de PixelDance radica en sus capacidades de multi-toma. El modelo mantiene una notable consistencia en la apariencia de los personajes, proporciones y detalles de escena en diferentes ángulos de cámara. Esa característica resuelve un dolor de cabeza importante en la generación de videos de IA, donde mantener coherencia visual entre tomas ha sido durante mucho tiempo un desafío. Por eso, la mayoría de los generadores de video de última generación se centran en generar un movimiento fluido en una sola secuencia de video.
El control de cámara de PixelDance también está a la altura de otros modelos importantes como Pika, Gen 3 de Runway o Kling, lo que lo convierte en una gran adición para la cinematografía de IA con poco compromiso. Con una simple instrucción de texto, los usuarios pueden orquestar movimientos de cámara complejos como panorámicas de 360 grados, zooms, tomas de seguimiento, y más.
Por ejemplo, el prompt para el siguiente video se traduce aproximadamente como: En blanco y negro, la cámara gira alrededor de la mujer con gafas de sol, moviéndose desde su lado hacia el frente, y finalmente se enfoca en un primer plano del rostro de la mujer.
En otros modelos, el control de la cámara se realiza a través de la interfaz de usuario, con botones y controles deslizantes.
Seaweed, el hermano de PixelDance, empuja los límites en la generación ambiental y consistencia. El modelo amplía la generación de video a 30 segundos completos, y potencialmente extensible a casi 2 minutos de tomas consistentes.
El momento de ByteDance no podría ser más estratégico. El panorama de generación de video con IA ha estado en un estado de emoción desde que se anunció Sora de OpenAI en febrero. La supuesta capacidad de Sora para generar hasta 60 segundos de video de alta calidad a partir de indicaciones de texto envió ondas de choque a través del mundo tecnológico. Sin embargo, Sora aún no ha sido lanzado al público y otras empresas están compitiendo por ocupar ese espacio.
Kuaishou, otro gigante tecnológico chino, causó sensación en junio con el lanzamiento de Kling AI, un modelo que muchos expertos colocaron en la cima de su lista en cuanto a calidad de video de inteligencia artificial. Integrado en la aplicación de edición de video de Kuaishou, Kling AI también puede generar videos de dos minutos, superando incluso las capacidades de Sora. La herramienta rápidamente atrajo a más de 2,6 millones de usuarios, quienes en conjunto han generado 27 millones de videos. Sin embargo, genera tomas únicas, lo que la hace comparable a la oferta de Bytedance en cuanto a calidad, pero un poco menos versátil en cuanto a características.
El martes, Pika Labs, otro pionero en la escena de videos generativos, lanzó su nuevo modelo Pika 1.5, mejorando las capacidades de su generador de video ampliamente adoptado. “Con movimientos más realistas, tomas en pantalla grande y efectos asombrosos que desafían las leyes de la física, hay más para amar de Pika que nunca antes”, dijo Pika Labs en un tuit oficial.
Pika 1.5 está disponible para pruebas en el sitio web oficial de Pika, y las redes sociales ya se están llenando de videos que muestran cómo Pika puede transformar escenas de manera salvaje al aplastar y explotar personas y objetos, o cortarlos para revelar un pastel virtual en su interior.
ByteDance construyó sus últimas aplicaciones de video en la familia Doubao de modelos fundamentales, basados en una arquitectura de transformador de imagen de documento (DiT) propietaria. Se cree que comparten similitudes con la tecnología que impulsa a Sora. La empresa afirma haber optimizado DiT para aplicaciones empresariales, lo que podría reducir la barrera de costos para la creación de videos de inteligencia artificial.
El crecimiento explosivo de la familia de IA Doubao desde su lanzamiento en mayo subraya el potencial de los modelos. El procesamiento diario de tokens ha aumentado de 120.000 millones a 1,3 billones, reflejando un aumento de diez veces en el uso. Doubao ahora procesa más de 50 millones de imágenes y 850.000 horas de voz cada día, según informa Kr-Asia.
La agresiva estrategia de precios de ByteDance ha impulsado este crecimiento. Desde mayo, la empresa ha reducido su costo por 1.000 tokens a fracciones de un centavo, desencadenando una feroz guerra de precios entre grandes jugadores como Alibaba y Tencent.
Claramente, la estrategia de ByteDance, que se apoya fuertemente en la inteligencia artificial para la generación de algoritmos en TikTok, está dando sus frutos. TikTok y Douyin, su versión china, han sido las plataformas de redes sociales de más rápido crecimiento en los últimos años, pero el hecho de que sean propiedad de una empresa tecnológica china ha sido motivo de preocupación para los países occidentales.
Es incierto si ByteDance integrará sus modelos de IA generativa en sus aplicaciones, similar a lo que hizo Meta incorporando sus LLMs y generadores basados en Llama en Instagram y WhatsApp, e incluso más incierto si los ciudadanos estadounidenses tendrán acceso a ellos una vez que sean lanzados públicamente.
Editado por Andrew Hayward
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.