Léon-v1 : Fine-Tuning de Mistral 7B pour l'Automatisation de Podcasts Scientifiques
Résumé
Open Source
Le modèle est, comme le souhaite les valeurs internes, disponible sur le Hugging Face
1. Le Défi de la Génération Longue
L'objectif de TOAQ Research Radio est de démocratiser l'accès à la recherche scientifique en transformant des publications académiques complexes en podcasts.
La conversion d'une publication scientifique complète nécessite un découpage séquentiel (Chunking). Lors de la phase de prototypage (v0), le modèle traitait chaque section comme un nouvel épisode de podcast.
L'innovation : Le Temporal Positioning
Pour contrer les hallucinations de format, le dataset de la V1 (450 paires issues de 41 documents) a été enrichi avec des balises de contexte utilisateur. Ce conditionnement explicite permet d'éliminer totalement le besoin de scripts Python de post-traitement pour nettoyer les redondances de présentation.[Position: START] - Force une accroche et la présentation de l'hôte.
[Position: MIDDLE] - Interdit les salutations, se concentre sur le flux technique.
[Position: END] - Déclenche la conclusion et la signature sonore.
2. Infrastructure et Paramètres d'Entraînement
L'entraînement a été réalisé avec la technique QLoRA via la librairie Unsloth.
| Paramètre | Configuration | Impact |
|---|---|---|
| Base Model | Mistral 7B v0.3 | Vocabulaire étendu |
| Hardware | NVIDIA A100 (40GB) | Permet un batch size plus grand |
| Global Batch Size | 16 | Stabilité des gradients |
| Learning Rate | 1e-4 | Apprentissage doux sur 150 steps |
| Précision | BF16 | Stabilité numérique native A100 |
Configuration matérielle et hyperparamètres (SFTTrainer)
3. Dynamique d'Apprentissage et Convergence
L'augmentation du volume de données couplée à un apprentissage sur 150 étapes démontre une convergence sans aucun overfitting.
Note : La fonction représentée ci-dessus simule la courbe d'apprentissage réelle, partant d'une perte de 2.43 pour se stabiliser à un minimum global de 0.93 (Step 149).
Le point d'équilibre autour de 1.00 indique que le réseau a parfaitement assimilé la structure narrative (SSML, transitions fluides) tout en conservant sa flexibilité sémantique pour vulgariser les équations et concepts LaTeX [1].
4. Perspectives
La validation de l'architecture Léon-v1 marque un tournant pour l'automatisation de la plateforme. La prochaine étape visera l'intégration multimodale (Vision-to-Text) pour ingérer les graphiques des papiers de recherche, ainsi que le déploiement d'une pipeline ArXiv 100% autonome.
Pour des raisons de fluidité audio, le modèle est entraîné à convertir la notation mathématique en langage naturel descriptif plutôt qu'à la lire de manière brute.
Citer ce travail
Bruneteau, C. (2026). Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts. TOAQ. https://toaq.fr/research/leon-v1-fine-tuning-mistral-7b-for-the-automation-of-scientific-podcasts