Sora Open AI : L'IA de ChatGPT qui est capable de créer des vidéos de haute qualité avec un simple texte

Tu rêves de créer des vidéos sans avoir besoin de caméra, de montage, ou de comédiens ? Tu aimerais pouvoir transformer tes idées en images animées, sans aucune limite de créativité ?

Alors tu vas adorer Sora, la nouvelle intelligence artificielle d’Open AI, qui peut créer des vidéos très réalistes et de haute qualité à partir d’instructions textuelles ou d’images. Dans cet article, je vais te présenter Sora, ses capacités, ses exemples, ses faiblesses, et comment tu peux l’utiliser.

Au sommaire :

Présentation complète de Sora en vidéo

C’est quoi Sora ?

Sora est un modèle d’intelligence artificielle qui peut créer des vidéos à partir de textes ou d’images. Sora signifie « ciel » en japonais, et c’est aussi le nom du projet.

Le but de Sora est de rendre la création de contenus vidéo plus facile et accessible pour tout le monde. Tu peux lui donner n’importe quel scénario, décor, personnage, dialogue, et il va le transformer en une vidéo impressionnante. Avec Sora, le ciel est la limite.

Sora, la meilleure IA Text to Video

Sora est la meilleure IA text to video du marché, et de loin. Il peut créer des vidéos de haute qualité d’une minute, ce qui est une grande première. Jusqu’à présent, les outils de génération de vidéos se limitaient à 4 secondes, comme Gen 2 ou Pika.

Sora, lui, arrive à créer une séquence complète, avec une cohérence et une fluidité remarquables. C’est toujours le même personnage, le même décor, le même style, sans aucune déformation ou discontinuité.

Yesterday, Sora dropped, revolutionizing AI video forever.

Simulation Theory believers are feeling vindicated.

Here is Sora vs. Runway Gen-2 for reference. Same prompt. pic.twitter.com/2iRodSwoTP
— Jake Baumann (@Jake_Joseph) February 16, 2024

Sora peut aussi gérer les changements de caméra, les mouvements, les lumières, les effets spéciaux, etc. Sora peut même créer des vidéos à partir d’une seule image, en l’interpolant, c’est-à-dire en imaginant ce qui se passe ensuite.

Sora peut aussi prendre une vidéo en entrée, et la modifier selon tes instructions. Par exemple, tu peux changer la voiture, le décor, le personnage, etc.

Sora, le DALL-E de la vidéo

Sora est basé sur DALL-E 3, le modèle de diffusion d’images Open AI qui peut créer des images à partir de textes.

Comme pour DALL-E, tu peux « prompter » Sora avec du texte, de l’image ou de la vidéo pour générer une toute nouvelle vidéo qui n’a jamais existé.

this could be the "holy shit" moment of AI. OpenAI has just announced Sora, its text-to-video AI model. This video isn't real, it's based on a prompt of "a cat waking up its sleeping owner demanding breakfast…" 🤯 https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024

Tu peux lui demander de créer une vidéo d’un chat qui réveille sa maîtresse dans son lit, ou de 2 chiens qui baladent dans les rues de New York en suivant un scénario très précis.

Sora can also generate stories involving a sequence of events, although it's far from perfect.

For this video, I asked that a golden retriever and samoyed should walk through NYC, then a taxi should stop to let the dogs pass a crosswalk, then they should walk past a pretzel and… pic.twitter.com/OhqVFqR5vA
— Bill Peebles (@billpeeb) February 17, 2024

Sora va créer une vidéo très réaliste, avec des détails et des animations bluffantes.

Exemples de vidéos créées avec Sora

Sur le site d’Open AI (présentation de Sora et papier de recherche), tu peux voir quelques exemples de vidéos créées avec Sora.

Par exemple, il y a une vidéo où on voit une femme élégante marcher dans les rues de Tokyo, avec une veste en cuir noir et une robe rouge.

Sora d' @OpenAI vient de tuer tous les services de vidéo stock, text to video 👇

▶️ https://t.co/ADKvaAuB6F pic.twitter.com/3kKkrCQqjV
— Jean-Baptiste Viet (@jeanviet) February 15, 2024

Il y a aussi une vidéo où on voit un couple japonais marcher dans un Tokyo enneigé, un peu avant Hanami.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Enfin, les comptes X des personnes qui travaillent sur le projet, Aditya Ramesh, Bill Peebles, Tim Brookes, distillent chaque jour de nouvelles créations.

"pov footage of an ant navigating the inside of an ant nest"

Video generated by Sora pic.twitter.com/N3Ik9QBinU
— Aditya Ramesh (@model_mechanic) February 18, 2024

"The camera lowers and widens to a grand panoramic view overlooking the beautiful ocean and the historical buildings along the a stunning coastal picturesque town perched on the cliffs…"

Video generated by Sora. pic.twitter.com/d35Zebo4vc
— Bill Peebles (@billpeeb) February 17, 2024

someone plz adopt this cat 😭

"a white and orange tabby alley cat is seen darting across a back street alley in a heavy rain, looking for shelter…" (prompt by Chad Nelson)

Video generated by Sora pic.twitter.com/u0U8nfqcQP
— Tim Brooks (@_tim_brooks) February 17, 2024

Sora, comment le modèle a été entraîné ?

Sora est le résultat de plus d’un an de recherche et de développement chez Open AI. Pour entraîner Sora, ils ont utilisé DALL-E, le modèle qui crée des images à partir de textes, mais aussi GPT, le modèle qui crée des textes à partir de textes.

Ils ont combiné ces deux modèles, en les alimentant avec des millions de vidéos et de descriptions. Ils ont utilisé des vidéos de toutes sortes, de tous formats, de tous genres.

Ils ont aussi utilisé des vidéos de jeux vidéo, pour simuler des situations variées. Ils ont aussi utilisé beaucoup de puissance de calcul (GPU), pour traiter toutes ces données. Sora est donc le fruit d’un travail colossal, qui a nécessité beaucoup de ressources et de temps.

Google encore dépassé par Open AI

Sora est une nouvelle preuve que Open AI est en avance sur Google, le géant de l’intelligence artificielle. Open AI a déjà surpris le monde avec ses modèles GPT, qui peuvent créer des textes de qualité humaine, sur n’importe quel sujet.

Open AI a aussi étonné le monde avec ses modèles DALL-E, qui peuvent créer des images incroyables, à partir de n’importe quel texte. Et maintenant, Open AI épate le monde avec ses modèles Sora, qui peuvent créer des vidéos époustouflantes, à partir de n’importe quel texte ou image.

Google, lui, a du mal à suivre le rythme. Google a bien sorti la même semaine son modèle Gemini Pro 1.5, qui peut créer des textes avec un million de tokens, mais cela n’a pas fait autant de buzz que Sora.

Les faiblesses de Sora

Sora n’est pas parfait, il a encore des faiblesses. Sur le site d’Open AI, ils sont honnêtes, et ils montrent quelques exemples où Sora se trompe, ou fait des choses bizarres.

Par exemple, Sora a du mal à gérer les relations de cause à effet. Si tu lui demandes de créer une vidéo où quelqu’un mange un cookie, ou un burger, il ne va pas montrer la morsure sur le cookie ou le burger.

Sora a aussi du mal à gérer les directions et les orientations. Si tu lui demandes de créer une vidéo où quelqu’un court sur un tapis roulant, il va peut-être courir dans le mauvais sens, ou changer de sens sans raison. Sora a donc encore des progrès à faire, pour mieux intégrer les lois de la physique.

Comment avoir accès à Sora ?

Sora n’est pas encore accessible au grand public. Open AI veut d’abord s’assurer que Sora ne sera pas utilisé pour de mauvaises raisons, comme créer des fausses vidéos de personnalités, ou des vidéos choquantes ou illégales.

Open AI veut aussi s’assurer que Sora respecte les droits d’auteur, et ne copie pas des vidéos existantes. Open AI veut donc mettre en place des filtres, des protections, et des règles, pour que Sora soit utilisé de manière éthique et responsable.

Open AI va aussi tester Sora avec des personnes sélectionnées, comme des artistes, des créateurs, ou des chercheurs, pour voir les défauts et les améliorations possibles de Sora. Open AI va donc prendre son temps, avant de rendre Sora disponible pour tout le monde.

Les alternatives à Sora

En attendant d’avoir accès à Sora, tu peux quand même t’amuser avec d’autres outils d’IA vidéo, qui sont déjà disponibles. Par exemple, tu peux utiliser Gen 2, qui peut créer des vidéos à partir d’images ou de textes, mais qui se limite à 4 secondes, et qui n’est pas très réaliste.

Tu peux aussi utiliser Pika, qui fait la même chose, mais qui est encore moins réaliste. Tu peux aussi utiliser Copilot Designer, qui peut créer des images à partir de textes, et qui est très réaliste. Tu peux ensuite utiliser ces images avec Gen 2 ou Pika pour les animer.