RapportFévrier 2026

Léon-v1 : Fine-Tuning de Mistral 7B pour l'Automatisation de Podcasts Scientifiques

Auteur Côme Bruneteau

Résumé

Ce document détaille l'évolution, l'entraînement et la validation du modèle Léon-v1. Successeur du prototype v0, cette architecture Mistral 7B (optimisée via Unsloth/QLoRA) résout les problèmes de redondance narrative grâce à la mise en œuvre du positionnement temporel. Ce rapport analyse la nouvelle méthodologie de distillation sur 41 documents (450 paires), la dynamique d'apprentissage sur l'infrastructure NVIDIA A100, et démontre la capacité du modèle à générer des scripts de podcast fluides et techniquement précis, nativement compatibles avec la synthèse vocale (SSML).
Open Source

Le modèle est, comme le souhaite les valeurs internes, disponible sur le Hugging Face

1. Le Défi de la Génération Longue

L'objectif de TOAQ Research Radio est de démocratiser l'accès à la recherche scientifique en transformant des publications académiques complexes en podcasts.

La conversion d'une publication scientifique complète nécessite un découpage séquentiel (Chunking). Lors de la phase de prototypage (v0), le modèle traitait chaque section comme un nouvel épisode de podcast.

L'innovation : Le Temporal Positioning

Pour contrer les hallucinations de format, le dataset de la V1 (450 paires issues de 41 documents) a été enrichi avec des balises de contexte utilisateur. Ce conditionnement explicite permet d'éliminer totalement le besoin de scripts Python de post-traitement pour nettoyer les redondances de présentation.
Section 1

[Position: START] - Force une accroche et la présentation de l'hôte.

Section 2 à N

[Position: MIDDLE] - Interdit les salutations, se concentre sur le flux technique.

Section Finale

[Position: END] - Déclenche la conclusion et la signature sonore.

2. Infrastructure et Paramètres d'Entraînement

L'entraînement a été réalisé avec la technique QLoRA via la librairie Unsloth.

ParamètreConfigurationImpact
Base ModelMistral 7B v0.3Vocabulaire étendu
HardwareNVIDIA A100 (40GB)Permet un batch size plus grand
Global Batch Size16Stabilité des gradients
Learning Rate1e-4Apprentissage doux sur 150 steps
PrécisionBF16Stabilité numérique native A100

Configuration matérielle et hyperparamètres (SFTTrainer)

3. Dynamique d'Apprentissage et Convergence

L'augmentation du volume de données couplée à un apprentissage sur 150 étapes démontre une convergence sans aucun overfitting.

Note : La fonction représentée ci-dessus simule la courbe d'apprentissage réelle, partant d'une perte de 2.43 pour se stabiliser à un minimum global de 0.93 (Step 149).

Le point d'équilibre autour de 1.00 indique que le réseau a parfaitement assimilé la structure narrative (SSML, transitions fluides) tout en conservant sa flexibilité sémantique pour vulgariser les équations et concepts LaTeX [1].

4. Perspectives

La validation de l'architecture Léon-v1 marque un tournant pour l'automatisation de la plateforme. La prochaine étape visera l'intégration multimodale (Vision-to-Text) pour ingérer les graphiques des papiers de recherche, ainsi que le déploiement d'une pipeline ArXiv 100% autonome.

1.

Pour des raisons de fluidité audio, le modèle est entraîné à convertir la notation mathématique en langage naturel descriptif plutôt qu'à la lire de manière brute.

Citer ce travail

Bruneteau, C. (2026). Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts. TOAQ. https://toaq.fr/research/leon-v1-fine-tuning-mistral-7b-for-the-automation-of-scientific-podcasts