Tu rêves de créer des vidéos sans avoir besoin de caméra, de montage, ou de comédiens ? Tu aimerais pouvoir transformer tes idées en images animées, sans aucune limite de créativité ?
Alors tu vas adorer Sora, la nouvelle intelligence artificielle d’Open AI, qui peut créer des vidéos très réalistes et de haute qualité à partir d’instructions textuelles ou d’images. Dans cet article, je vais te présenter Sora, ses capacités, ses exemples, ses faiblesses, et comment tu peux l’utiliser.
Présentation complète de Sora en vidéo
C’est quoi Sora ?
Sora est un modèle d’intelligence artificielle qui peut créer des vidéos à partir de textes ou d’images. Sora signifie « ciel » en japonais, et c’est aussi le nom du projet.
Le but de Sora est de rendre la création de contenus vidéo plus facile et accessible pour tout le monde. Tu peux lui donner n’importe quel scénario, décor, personnage, dialogue, et il va le transformer en une vidéo impressionnante. Avec Sora, le ciel est la limite.
Sora, la meilleure IA Text to Video
Sora est la meilleure IA text to video du marché, et de loin. Il peut créer des vidéos de haute qualité d’une minute, ce qui est une grande première. Jusqu’à présent, les outils de génération de vidéos se limitaient à 4 secondes, comme Gen 2 ou Pika.
Sora, lui, arrive à créer une séquence complète, avec une cohérence et une fluidité remarquables. C’est toujours le même personnage, le même décor, le même style, sans aucune déformation ou discontinuité.
Sora peut aussi gérer les changements de caméra, les mouvements, les lumières, les effets spéciaux, etc. Sora peut même créer des vidéos à partir d’une seule image, en l’interpolant, c’est-à-dire en imaginant ce qui se passe ensuite.
Sora peut aussi prendre une vidéo en entrée, et la modifier selon tes instructions. Par exemple, tu peux changer la voiture, le décor, le personnage, etc.
Sora, le DALL-E de la vidéo
Sora est basé sur DALL-E 3, le modèle de diffusion d’images Open AI qui peut créer des images à partir de textes.
Comme pour DALL-E, tu peux « prompter » Sora avec du texte, de l’image ou de la vidéo pour générer une toute nouvelle vidéo qui n’a jamais existé.
Tu peux lui demander de créer une vidéo d’un chat qui réveille sa maîtresse dans son lit, ou de 2 chiens qui baladent dans les rues de New York en suivant un scénario très précis.
Sora va créer une vidéo très réaliste, avec des détails et des animations bluffantes.
Exemples de vidéos créées avec Sora
Sur le site d’Open AI (présentation de Sora et papier de recherche), tu peux voir quelques exemples de vidéos créées avec Sora.
Par exemple, il y a une vidéo où on voit une femme élégante marcher dans les rues de Tokyo, avec une veste en cuir noir et une robe rouge.
Il y a aussi une vidéo où on voit un couple japonais marcher dans un Tokyo enneigé, un peu avant Hanami.
Enfin, les comptes X des personnes qui travaillent sur le projet, Aditya Ramesh, Bill Peebles, Tim Brookes, distillent chaque jour de nouvelles créations.
Sora, comment le modèle a été entraîné ?
Sora est le résultat de plus d’un an de recherche et de développement chez Open AI. Pour entraîner Sora, ils ont utilisé DALL-E, le modèle qui crée des images à partir de textes, mais aussi GPT, le modèle qui crée des textes à partir de textes.
Ils ont combiné ces deux modèles, en les alimentant avec des millions de vidéos et de descriptions. Ils ont utilisé des vidéos de toutes sortes, de tous formats, de tous genres.
Ils ont aussi utilisé des vidéos de jeux vidéo, pour simuler des situations variées. Ils ont aussi utilisé beaucoup de puissance de calcul (GPU), pour traiter toutes ces données. Sora est donc le fruit d’un travail colossal, qui a nécessité beaucoup de ressources et de temps.
Google encore dépassé par Open AI
Sora est une nouvelle preuve que Open AI est en avance sur Google, le géant de l’intelligence artificielle. Open AI a déjà surpris le monde avec ses modèles GPT, qui peuvent créer des textes de qualité humaine, sur n’importe quel sujet.
Open AI a aussi étonné le monde avec ses modèles DALL-E, qui peuvent créer des images incroyables, à partir de n’importe quel texte. Et maintenant, Open AI épate le monde avec ses modèles Sora, qui peuvent créer des vidéos époustouflantes, à partir de n’importe quel texte ou image.
Google, lui, a du mal à suivre le rythme. Google a bien sorti la même semaine son modèle Gemini Pro 1.5, qui peut créer des textes avec un million de tokens, mais cela n’a pas fait autant de buzz que Sora.
Les faiblesses de Sora
Sora n’est pas parfait, il a encore des faiblesses. Sur le site d’Open AI, ils sont honnêtes, et ils montrent quelques exemples où Sora se trompe, ou fait des choses bizarres.
Par exemple, Sora a du mal à gérer les relations de cause à effet. Si tu lui demandes de créer une vidéo où quelqu’un mange un cookie, ou un burger, il ne va pas montrer la morsure sur le cookie ou le burger.
Sora a aussi du mal à gérer les directions et les orientations. Si tu lui demandes de créer une vidéo où quelqu’un court sur un tapis roulant, il va peut-être courir dans le mauvais sens, ou changer de sens sans raison. Sora a donc encore des progrès à faire, pour mieux intégrer les lois de la physique.
Comment avoir accès à Sora ?
Sora n’est pas encore accessible au grand public. Open AI veut d’abord s’assurer que Sora ne sera pas utilisé pour de mauvaises raisons, comme créer des fausses vidéos de personnalités, ou des vidéos choquantes ou illégales.
Open AI veut aussi s’assurer que Sora respecte les droits d’auteur, et ne copie pas des vidéos existantes. Open AI veut donc mettre en place des filtres, des protections, et des règles, pour que Sora soit utilisé de manière éthique et responsable.
Open AI va aussi tester Sora avec des personnes sélectionnées, comme des artistes, des créateurs, ou des chercheurs, pour voir les défauts et les améliorations possibles de Sora. Open AI va donc prendre son temps, avant de rendre Sora disponible pour tout le monde.
Les alternatives à Sora
En attendant d’avoir accès à Sora, tu peux quand même t’amuser avec d’autres outils d’IA vidéo, qui sont déjà disponibles. Par exemple, tu peux utiliser Gen 2, qui peut créer des vidéos à partir d’images ou de textes, mais qui se limite à 4 secondes, et qui n’est pas très réaliste.
Tu peux aussi utiliser Pika, qui fait la même chose, mais qui est encore moins réaliste. Tu peux aussi utiliser Copilot Designer, qui peut créer des images à partir de textes, et qui est très réaliste. Tu peux ensuite utiliser ces images avec Gen 2 ou Pika pour les animer.