Whisper d’Open AI : Comment transformer de l’audio en texte gratuitement ?

Auteur de l’article Par Jeanviet
Date de l’article 20 mai 2023
16 commentaires sur Whisper d’Open AI : Comment transformer de l’audio en texte gratuitement ?

Vous souhaitez transcrire une vidéo ou un enregistrement audio en texte ? Grâce à Whisper d’Open AI (société derrière ChatGPT), plus besoin de faire appel aux services d’un freelance, la technologie de reconnaissance vocale de l’IA le fera pour vous.

Au sommaire :

Pourquoi transcrire un audio ou une vidéo en texte ?

Grâce à la technologie de reconnaissance vocale de Whisper, vous allez pouvoir convertir un audio (parlé) en texte (écrit).

C’est particulièrement utile si vous avez besoin de transcrire des interviews (pour un livre), des podcasts (pour un blog), des conférences (pour un cours à la fac).

Whisper d’Open AI, c’est quoi ?

Whisper est un système de reconnaissance automatique de la parole (ASR) développé par Open AI, une entreprise spécialisée dans l’intelligence artificielle, à l’origine de ChatGPT.

Whisper a été entraîné sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le web.

L’IA est capable de détecter les langues, les accents, les bruits de fond, comprend aussi le langage technique.

Whisper en action sur les sous-titres de ma dernière vidéo YouTube

Par rapport aux IA de transcription de YouTube ou TikTok, Whisper sait même écrire des phrases commençant par des majuscules, avec de la ponctuation et sans fautes d’orthographe.

Whisper est disponible en open source

Open AI a décidé de rendre Whisper accessible à tous en le publiant sous licence libre le 21 septembre 2022. Vous pouvez donc télécharger la librairie Python sur GitHub

pip install -U openai-whisper

et l’utiliser pour vos propres projets.

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

Pour que ça tourne rapidement, il vous faudra malheureusement un gros PC avec une grosse carte graphique.

Grâce à Google Colab, pas besoin d’une grosse machine

Si vous ne voulez pas installer Whisper sur votre ordinateur ou si vous n’avez pas les ressources nécessaires pour le faire tourner, vous pouvez utiliser Google Colab, un service gratuit qui vous permet d’exécuter du code Python dans le cloud.

Je vous ai mis à disposition un code python Google Colab pour installer Whisper et transformer vos audios en texte ici :

https://colab.research.google.com/drive/1VE5UEn_dyH_e89Epxoph4kZeHrNvRkK5

Comment utiliser Google Colab pour transformer un audio en texte ?

Voici les étapes à suivre pour utiliser Google Colab et Whisper :

1- Ouvrez mon notebook Colab

2- Ensuite ouvrez le petit dossier à gauche comme ceci :

3- Sous sample_data, vous allez glisser-déposer votre fichier mp3 comme ceci :

Il faudra un peu de temps avant que le fichier mp3 apparaisse, vous pourrez suivre sa progression en bas à gauche

4- Maintenant qu’on a l’audio mp3, on va pouvoir lancer l’installation de Whisper en cliquant sur play ici :

5- Il faut environ 40 secondes pour que Whisper s’installe (1). Vous pourrez ensuite ajouter le fichier xxx.mp3 dans Transcrire au nom de votre mp3 (dans mon exemple audio-iphone.mp3(2)) et cliquez sur Play pour lancer la transcription (3).

6- Il faut attendre environ 2 minutes pour transcrire 10 minutes d’audio.

7- Après 30 secondes d’attente, vous pourrez ensuite télécharger sur la gauche toutes sortes de fichiers texte

Le fichier .srt (1) est utile pour les sous-titres YouTube et LinkedIn et le fichier .txt (2) pour remplir par exemple un doc word ou un google doc.

8- Faites clic-droit + télécharger pour récupérer votre fichier texte

9- Quelques imperfections subsisteront. Il faudra les corriger manuellement dans votre fichier cible

Exemples d’imperfection : ChatGPT devient 4GPT, Open AI => Openaï, mais Whisper est bien écrit 😉

Ajouter le fichier SRT dans une vidéo YouTube

Si vous avez utilisé une vidéo YouTube comme source audio, vous pouvez ajouter le fichier SRT généré par Whisper comme sous-titres à votre vidéo.

Pour cela, il vous suffit de :

Télécharger le fichier SRT depuis Google Colab (cf étapes précédentes)
Ouvrir YouTube Studio et accéder à la page de votre vidéo.
Cliquer sur « Sous-titres »
Cliquer sur (…) (1) « Importer un fichier », avec les données de synchronisation (2), « Continuer » et sélectionner le fichier SRT téléchargé.

Vous pourrez ensuite corriger vos sous-titres dans YouTube Studio comme ceci :

Et voilà ! Vous avez réussi à transformer de l’audio en texte gratuitement grâce à Whisper d’Open AI et Google Colab. Si vous avez des questions, je reste dispo dans les commentaires ;–)

16 réponses sur « Whisper d’Open AI : Comment transformer de l’audio en texte gratuitement ? »

Bonjour. Il y a-t-il une taille limite pour les fichiers mp3 que l’on peut déposer pour utiliser votre instance de Whisper ?

Merci infiniment !

Bonjour,
Depuis ce matin j’essaye de retranscrire un fichier audio en procédant de la même manière que d’habitude, mais tout ce que j’obtient c’est un texte de codes qui ne correspond pas à mon audio.
Comment puis-je faire ? Je précise que votre outils m’est devenu extrêmement précieux du fait des nombreux audios que je dois retranscrire.
A vous lire, Sandrine

Merci, très pratique !

Salut, Serait-il possible de mettre un exemple pour la partie cmd/open source :
Du style, voici le fichier sur tel répertoire voila comment lancé la commande

En tous cas merci pour ce tuto !

import whisper

model = whisper.load_model(« base »)
result = model.transcribe(« audio.mp3 »)
print(result[« text »])

Bonjour,
merci beaucoup pour votre travail, mais quand je suis vos consignes, du moins je crois :-), voilà ce que j’obtiens quand je lance la transcription :
https://colab.research.google.com/drive/1VE5UEn_dyH_e89Epxoph4kZeHrNvRkK5#scrollTo=MMdH4A5CQWtf&line=1&uniqifier=1
J’espère ne pas abuser !
Giampiero

Bonjour ! Sais-tu s’il est possible que Whisper ne traduise pas automatiquement ? On a un enregistrement où l’intervenant parle en anglais, puis on a le traducteur qui traduit en français, etc. Donc alternance des 2 langues. Mais Whisper va tout transcrire en français (il traduit l’anglais) et du coup, ça devient vraiment compliqué de reconnaître les 2 intervenants. Peut-on garder la transcription en 2 langues ?

[…] va utiliser Whisper d’OpenAI pour transcrire automatiquement l’audio de la vidéo YouTube en texte avec des timecodes au […]

bonjour,,ma derniere commande est resté bloquer

Arf, ma question n’est pas comment traduire, mais comment empêcher de traduire ! car un transcript d’audio anglais-français, généré en français-français, ça devient difficile de faire le lien avec l’audio originale…

[…] : site officiel (https://openai.com/research/whisper/) / une explication-tuto (https://jeanviet.fr/whisper/) et un tuto de Korben […]

Merci beaucoup pour ce tuto très clair et ta mise à disposition des ressources, ça marche super bien, et j’ai appris quantité de choses au passage ! 😉

Bonjour, mon fichier audio ne se transforme pas en Mp3, et je n’arrive pas à le transcrire.
Que faire?

Merci de me revenir

[…] intègre systématiquement des liens vers des vidéos YouTube pertinentes. Tests concluants sur Whisper (transcription) et Notebook […]

Bonjour,
Merci pour l’outil que j’utilise pour la retranscription de réunions.
Comment rajouter les différents interlocuteurs ? Cela me ferait gagner un temps fou.
D’avance merci

[…] Pas de panique ! Tu peux quand même utiliser Whisper grâce à Google Colab. J’ai préparé un petit Colab pour toi ici : jeanviet.fr/whisper/. […]