Sora: Todo lo que sabemos sobre el nuevo creador de videos de OpenAI

La impresionante tecnología aún no está disponible públicamente, pero ya podría estar revolucionando el contenido generado por IA tal como lo conocemos.

Manuel Díaz

03 Oct 2024 | 5 min

Sora: Todo lo que sabemos sobre el nuevo creador de videos de OpenAI

La impresionante tecnología aún no está disponible públicamente, pero ya podría estar revolucionando el contenido generado por IA tal como lo conocemos.

Este febrero, OpenAI presentó por primera vez Sora, un nuevo modelo de inteligencia artificial para la creación de videos que utiliza indicaciones de texto para generar videos en prácticamente cualquier estilo imaginable. La organización de investigación en inteligencia artificial lanzó una serie de videos que fueron creados mediante indicaciones escritas, y el resultado es impresionante. Aunque ya han sido creados y están en desarrollo varios otros modelos de texto a video, los expertos de la industria han destacado la calidad de los videos, diciendo que su introducción podría representar un gran avance en la generación de texto a video y en la inteligencia artificial. Aquí hay un desglose del sistema:

¿Qué es Sora?

Sora es un modelo de generación de vídeos a gran escala entrenado en varios tipos de datos, incluidos videos e imágenes de diferentes duraciones, resoluciones y proporciones. Utiliza inteligencia artificial generativa para crear clips basados en indicaciones escritas, pero podría expandirse más allá de eso. Según los desarrolladores, su nombre fue elegido por la palabra japonesa para cielo, refiriéndose a su "potencial creativo ilimitado".

El sistema ha sido llamado un "generador de texto a video", pero según OpenAI, es mucho más que eso. No solo puede generar videos basados en indicaciones de texto, sino que también puede recibir varios tipos de entradas, como imágenes o videos preexistentes, que pueden usarse para crear videos en bucle, imágenes estáticas animadas y extender videos hacia adelante o hacia atrás en el tiempo. Además, capacidades como la consistencia 3D, la coherencia a largo plazo, la permanencia de objetos y la interacción con el entorno sugieren que el sistema tiene el potencial de simular aspectos del mundo físico y digital.

Sora utiliza una "arquitectura de transformador" que funciona en "parches de espacio-tiempo" de códigos latentes de video e imagen. La arquitectura permite que el modelo genere videos de alta fidelidad. Los parches actúan como tokens de transformador que permiten a Sora entrenar en videos e imágenes sin importar su formato. También utiliza una red de compresión de video para reducir la dimensionalidad de los datos visuales, lo que permite un mejor entrenamiento y generación de videos en un espacio latente comprimido.

Sin embargo, el sistema no es perfecto. Los desarrolladores han destacado limitaciones actuales, como imprecisiones en la modelización de la física y las interacciones de objetos. Con más investigación, estas limitaciones podrían abordarse, mejorando las capacidades del modelo.

Usuarios y críticos han destacado los posibles peligros de Sora, especialmente considerando los riesgos que actualmente plantea la IA, como los deepfakes — videos editados por IA de personas reales. Algunos han planteado otras preocupaciones, como cómo esta herramienta podría quitar algunos empleos a creadores de videos, animadores, editores y especialistas en efectos especiales. Además, a medida que las tecnologías de IA enfrentan regulaciones en los EE. UU. y en otros lugares, hay preguntas sobre cómo funcionará Sora en el futuro.

¿Cuándo se lanzará Sora?

OpenAI no ha anunciado una fecha de lanzamiento para Sora. La compañía ha dicho que tiene planes de lanzarlo, pero que no será pronto.

¿Tendré que pagar por Sora?

No ha habido anuncios sobre cómo se lanzará Sora o si será un servicio de pago. Sin embargo, podemos esperar que OpenAI cobre a los usuarios por Sora de la misma manera que lo hace con sus sistemas ChatGPT-4 y DALL-E.

¿Existen otros sistemas como Sora?

Actualmente, Meta y Google están trabajando en modelos generadores de texto a video. Lumiere de Google fue presentado en febrero de 2024, sin embargo, aún está en su fase de desarrollo, mientras que Make-a-Video de Meta todavía está en proceso. También está Gen-2 de Runway. Sin embargo, ninguno de estos sistemas ha alcanzado la calidad de los videos de introducción de Sora.

Referencia: Sora: Everything we know about OpenAI’s new video creator

Sora utiliza inteligencia artificial generativa para crear vídeos basados en indicaciones escritas
El sistema puede recibir varios tipos de entradas, como imágenes o vídeos preexistentes
Sora tiene el potencial de simular aspectos del mundo físico y digital