Est-ce que tu savais que grâce à l’intelligence artificielle, tu pouvais transformer n’importe quel audio en texte en moins de 5 minutes ? C’est ultra pratique !
Pourquoi faire ? Pour générer des sous-titres pour tes vidéos YouTube (c’est ce que je fais pour toutes mes vidéos grâce à l’IA !). Mais aussi pour obtenir les transcriptions d’interviews, de réunions, de podcasts, de conférences…
Tout ce contenu textuel, tu vas pouvoir ensuite le transformer facilement en articles de blog, en posts LinkedIn, et même, comme je l’ai fait pour mon livre Cocréateur, en chapitres de livre agréables à lire.
Pas le temps de lire, regarde ma vidéo
Dans cette vidéo (et cet article !), je te propose de découvrir 5 outils d’IA qui vont t’aider à réaliser cette transcription audio en texte. On verra à chaque fois quel outil convient le mieux pour quel usage.
Whisper d’OpenAI : La Transcription Locale et Open Source
Le premier outil que je te recommande, c’est Whisper, développé par OpenAI (oui, les mêmes que ChatGPT !). Son gros avantage, c’est qu’il est open source. Ça veut dire que tu peux le télécharger et l’installer directement sur ton ordinateur.
Pour l’utiliser, il existe des logiciels sympas comme GoWhisper (sur PC) ou Mac Whisper (sur Mac). Il te faudra juste une carte graphique (GPU) un minimum potable pour que ça tourne bien. Tu lui donnes ton fichier audio, et hop, il te sort la transcription texte.
Avantages de Whisper :
- Confidentialité +++ : Comme tout se passe sur ta machine, tes données audio restent chez toi. C’est LA solution la plus respectueuse de tes données perso.
- Gratuit et Open Source : Pas d’abonnement, tu utilises l’outil librement.
- Export SRT pour YouTube : Il peut générer directement les fichiers de sous-titres (.srt) que tu peux ensuite uploader sur YouTube. Super pratique !
Et si je n’ai pas de carte graphique suffisante ?
Pas de panique ! Tu peux quand même utiliser Whisper grâce à Google Colab. J’ai préparé un petit Colab pour toi ici : jeanviet.fr/whisper/.
Tu uploades ton fichier audio sur Google Drive, tu lances le Colab, et il utilisera les cartes graphiques de Google pour faire la transcription. Attention : N’utilise cette méthode que pour des audios qui sont destinés à être publics, car tu les envoies sur les serveurs de Google.
Si tu veux approfondir comment utiliser Whisper et surtout comment transformer tes transcriptions en chapitres de livre ou articles de blog, je détaille tout ça dans le chapitre 5 de mon livre Cocréateur.
Riverside FM : Idéal pour les Podcasts et Interviews
Le deuxième outil, c’est Riverside FM. Celui-là, il m’a été recommandé par plusieurs amis podcasteurs comme Sandie Giacobi, Mick Levy et Seb Joncoux. C’est vraiment l’outil parfait si tu enregistres des podcasts ou des interviews, que ce soit en audio ou en vidéo.
Les points forts de Riverside FM :
- Qualité d’enregistrement HD : Il enregistre chaque participant localement en haute définition (audio et vidéo), évitant les problèmes liés à la connexion internet.
- Identification des interlocuteurs : L’IA reconnaît automatiquement qui parle à quel moment dans la transcription. C’est génial pour les interviews !
- Fonctionnalités IA pour YouTube : Il génère automatiquement la transcription, les timecodes (chapitres) et même un résumé pour la description de ta vidéo YouTube. Un gain de temps énorme !
J’ai utilisé Riverside FM pour enregistrer mes lives et certaines interviews, comme celle avec Ludo Salenne, et la qualité est impeccable. Il y a une version gratuite (sans transcription) et une version payante autour de 20€ par mois qui inclut la transcription. Tu peux prendre l’abonnement juste le mois où tu en as besoin.
Si tu veux en savoir plus sur la création de podcasts vidéo et l’utilisation d’outils comme Riverside, je consacre les chapitres 13 et 14 de mon livre Cocréateur à ces sujets.
Plaud AI (NotePin / Note) : Le Dictaphone Intelligent
Le troisième outil est un peu différent, car c’est un objet physique : le Plaud NotePin (ou sa version carte, le Plaud Note). C’est un petit dictaphone super discret que tu peux porter comme un pin’s, en montre ou simplement tenir dans la main.

Comment ça marche ?
- Enregistrement local et autonome : Tu appuies longuement sur le bouton pour démarrer l’enregistrement (lumière rouge). L’audio est stocké directement sur l’appareil (20h d’autonomie !). Pas besoin de ton smartphone à proximité. Tu appuies à nouveau longuement pour arrêter.
- Transfert vers l’application : Une fois tes enregistrements faits, tu connectes le Plaud à ton smartphone via Bluetooth, et l’application récupère les fichiers audio.
- Transcription et résumé sur demande : C’est seulement si tu le demandes dans l’application (« Générer ») que l’audio est envoyé aux serveurs de Plaud pour être transcrit et résumé par une IA (GPT-4o ou Claude 3.5 au choix).
Plaud NotePin vs Plaud Note : Avis Croisés
J’ai eu l’occasion d’échanger avec Jean-François Rouault (DigiBoostIA.com) qui utilise le Plaud Note (la version carte). Voici nos retours :
- Plaud Note (Jean-François) : Idéal pour les réunions. Il arrive à identifier les différents interlocuteurs (après une première identification manuelle). Il permet d’enregistrer des appels téléphoniques (en mettant le haut-parleur). Il estime gagner 1h30 par jour en productivité pour ses comptes-rendus. La qualité sonore est correcte pour les réunions mais pas exceptionnelle si les gens sont loin.
- Plaud NotePin (Moi) : Plus petit et discret. Parfait pour prendre des notes vocales individuelles rapidement. Ne permet pas d’enregistrer les appels téléphoniques nativement.
Confidentialité : Le gros point fort, c’est que l’audio reste en local tant que tu ne demandes pas la transcription. C’est toi qui décides quelles notes envoyer à l’IA.
Prix et offre : Le Plaud NotePin coûte 189€. À l’achat, tu as un crédit de 5 heures de transcription par mois (et non 2h comme dit Jean-François dans la vidéo) sans surcoût, renouvelable. C’est un bon investissement si tu prends beaucoup de notes ou assistes à de nombreuses réunions.
Dicte AI : L’Application Mobile Made in France
On passe à une application mobile : Dicte AI. C’est une solution française (cocorico !) conseillée par Remy Bigot. Elle est disponible sur Android et iOS.
Fonctionnement et Avis :
- Enregistrement local : Comme Plaud, l’enregistrement se fait d’abord sur ton téléphone.
- Transcription sur demande : Tu dois lancer la retranscription manuellement pour que l’audio soit traité par l’IA (hébergée en Europe).
- Gratuit (avec limites) : La version gratuite te donne droit à 2 heures de transcription par mois.
- Identification des speakers : L’appli tente de reconnaître les différents locuteurs (Speaker0, Speaker1…).
- Qualité et Export : La transcription est correcte, mais la ponctuation et les majuscules ne sont pas toujours parfaites. Tu peux exporter en PDF, DOCX ou Markdown.
Point négatif : J’ai trouvé un peu pénible de devoir remplir toutes mes informations personnelles (nom, adresse…) avant de pouvoir lancer la première transcription. Ce n’est pas très « privacy-friendly » au démarrage, même si l’audio reste local au début.
Buzzee Talk : Spécialiste de la Transcription d’Appels
Dernier outil, une autre application mobile : Buzzee Talk. Elle est encore en bêta privée (il faut s’inscrire sur liste d’attente). Sa spécialité : enregistrer et transcrire tes appels téléphoniques.
Ce qu’elle propose :
- Transcription d’appels : Elle enregistre tes conversations téléphoniques et les retranscrit.
- Interface Chat : La transcription s’affiche comme une conversation de messagerie, en distinguant bien les interlocuteurs.
- Identification des appelants : Elle reconnaît qui parle.
- Consentement : Très important, l’application gère (ou te rappelle de gérer) le consentement de ton interlocuteur avant d’enregistrer.
C’est une solution très prometteuse si tu passes beaucoup de temps au téléphone et que tu as besoin de garder une trace écrite de tes échanges. Le format brut de la transcription est pratique pour ensuite retravailler le texte avec une autre IA si besoin.
Cocréateur pour t’aider à devenir un créateur augmenté par l’IA
Mon Livre « Cocréateur » (Eyrolles) est disponible depuis le 20/02/2025 en librairie (18€) et en ebook (9,99€). Lien du livre.
Tu y trouveras un concentré d’expertise de créateurs augmentés par l’IA pour maîtriser plus de 60 outils d’IA texte, photo, vidéo, son, et transformer tes idées en contenus engageants visibles sur Google, YouTube, Linkedin, TikTok, Instagram,… et même dans un livre ! Dedans, j’ai interviewé 17 créateurs de contenu augmentés par l’IA et toutes les interviews ont été retranscrites avec Whisper avant d’être transformées en chapitres.
Voilà pour ce tour d’horizon des outils IA de transcription audio ! J’espère que ça t’a plu. Dis-moi en commentaire quel outil tu utilises ou lequel te tente le plus. Et si tu connais d’autres pépites, partage-les !