Leçon 6 / 8

Leçon 06 · Partie 2 — IA pratique

Audio et vidéo IA

Au-delà du texte et des images

L'IA ne s'arrête pas au texte et aux images. Des outils permettent maintenant de générer de la musique, de copier des voix, de transcrire des conversations, et même de créer des vidéos à partir d'un simple texte.

Ces technologies évoluent très vite. Ce qui était surprenant il y a 6 mois est devenu courant. Voici les outils les plus utiles aujourd'hui.

Génération de musique

🎵

Suno

Génère des chansons complètes (voix + instruments) à partir d'une description. Résultats souvent bluffants. Gratuit (crédits limités), abonnement pour plus.

suno.com

🎶

Udio

Alternative à Suno, qualité similaire. Bonne qualité musicale, gratuit pour commencer. Génère paroles et musique ensemble.

udio.com

🎸

Mubert

Spécialisé dans la musique d'ambiance pour vidéos, podcasts et streaming. Génère des pistes sans voix, idéales pour illustrer du contenu.

mubert.com

🎹

Soundraw

Crée de la musique libre de droits pour les créateurs de contenu. Interface simple, export MP3 inclus, abonnement raisonnable.

soundraw.io

Exemple de prompt Suno

DescriptionAn upbeat French café jazz song about a rainy Monday
morning in Paris. Acoustic guitar, light drums, female
vocalist. Happy but melancholic mood. Bossa nova influence.

Résultat→ Suno génère une chanson complète de 2-3 minutes
   avec voix, paroles et instrumentation en 30 secondes.

Synthèse et clonage de voix

🎙️

ElevenLabs

Le leader du clonage de voix. Tu peux créer une voix synthétique à partir de quelques secondes d'audio. Lecture de texte ultra-réaliste en 30+ langues. Gratuit limité.

elevenlabs.io

📢

PlayHT

Text-to-speech professionnel, idéal pour les podcasts et les assistants vocaux. Grande bibliothèque de voix, qualité très naturelle.

play.ht

Usages légitimes du clonage de voix :

Créer sa propre voix synthétique pour du contenu (podcasts, voix-off)
Voix-off pour des vidéos sans devoir ré-enregistrer à chaque modification
Accessibilité : lire des textes pour des personnes malvoyantes
Localisation : traduire du contenu vidéo en gardant la voix originale

⚠️

Cloner la voix d'une autre personne sans son accord est illégal dans la plupart des pays. Ces outils doivent uniquement être utilisés avec ta propre voix ou avec le consentement explicite de la personne concernée.

Transcription automatique

Transcrire une réunion, une interview ou un podcast en texte — c'est l'un des usages les plus pratiques de l'IA audio. Et c'est très sous-estimé.

📝

Whisper (OpenAI)

Le modèle de transcription le plus puissant. Open-source et gratuit. Disponible dans de nombreuses applications. Excellent en français.

openai.com/whisper

🎤

Otter.ai

Transcription en temps réel pendant une réunion Zoom ou Teams. Identifie les différents intervenants et génère un résumé automatique. Très pratique en entreprise.

otter.ai

🔊

Whisper via MacWhisper

Application Mac utilisant Whisper d'OpenAI. Transcription 100% locale sur ton ordinateur — rien n'est envoyé sur internet. Idéal pour les données confidentielles.

goodsnooze.gumroad.com

📅

Notion AI / Copilot

Si tu utilises déjà Notion ou Microsoft 365, leurs IA intégrées peuvent transcrire et résumer des réunions directement dans tes outils habituels.

notion.so / microsoft.com

Génération vidéo

La génération vidéo par IA est encore jeune mais progresse vite. Les outils actuels permettent de :

Générer de courtes vidéos (5 à 10 secondes) à partir d'un texte ou d'une image
Animer des images fixes
Créer des avatars vidéo qui lisent un texte à ta place (présentateurs virtuels)

🎬

Runway ML

Le plus avancé pour les créatifs. Génération vidéo, effacement d'objets, fond vert automatique, ralenti IA. Utilisé par des pros du cinéma.

runwayml.com

🌊

Sora (OpenAI)

Le plus impressionnant sur la qualité — accès encore limité. Génère des vidéos réalistes de plusieurs secondes à partir d'un texte.

openai.com/sora

🎭

HeyGen

Spécialisé dans les avatars IA. Crée une vidéo de "toi" qui parle à partir d'un texte — sans caméra. Très utilisé pour les formations et présentations.

heygen.com

✂️

Descript

Éditeur vidéo qui traite la vidéo comme un texte. Tu édites la vidéo en modifiant la transcription. Supprime les "euh", les silences, permet la retouche de voix.

descript.com

Cas d'usage concrets

Workflow typique pour une vidéo YouTube

Étape 1 — Script→ ChatGPT écrit le script de la vidéo

Étape 2 — Voix-off→ ElevenLabs génère la voix-off avec ta voix clonée

Étape 3 — Visuels→ Midjourney génère les illustrations pour chaque point

Étape 4 — Montage→ Descript assemble tout et supprime les silences

Étape 5 — Musique→ Mubert génère une musique de fond sans droits d'auteur

Résultat→ Vidéo complète produite en quelques heures
   vs plusieurs jours sans IA

// À retenir

Musique : Suno et Udio génèrent des chansons complètes en quelques secondes
Voix : ElevenLabs clone des voix — uniquement avec le consentement de la personne
Transcription : Whisper est gratuit et excellent, Otter.ai pour les réunions en direct
Vidéo : encore jeune mais Runway ML et HeyGen sont très utilisés par les pros
Descript = couteau suisse vidéo : édite la vidéo en éditant le texte
Cloner la voix de quelqu'un sans accord = illégal dans la plupart des pays