Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts

Bruneteau, Côme

doi:10.5281/zenodo.18734857

RapportFévrier 2026

Léon-v1 : Fine-Tuning de Mistral 7B pour l'Automatisation de Podcasts Scientifiques

Auteur Côme Bruneteau

Télécharger PDF DOI: 10.5281/zenodo.18734857

Résumé

Ce document détaille l'évolution, l'entraînement et la validation du modèle Léon-v1. Successeur du prototype v0, cette architecture Mistral 7B (optimisée via Unsloth/QLoRA) résout les problèmes de redondance narrative grâce à la mise en œuvre du positionnement temporel. Ce rapport analyse la nouvelle méthodologie de distillation sur 41 documents (450 paires), la dynamique d'apprentissage sur l'infrastructure NVIDIA A100, et démontre la capacité du modèle à générer des scripts de podcast fluides et techniquement précis, nativement compatibles avec la synthèse vocale (SSML).

Open Source

Le modèle est, comme le souhaite les valeurs internes, disponible sur le Hugging Face

1. Le Défi de la Génération Longue

L'objectif de TOAQ Research Radio est de démocratiser l'accès à la recherche scientifique en transformant des publications académiques complexes en podcasts.

La conversion d'une publication scientifique complète nécessite un découpage séquentiel (Chunking). Lors de la phase de prototypage (v0), le modèle traitait chaque section comme un nouvel épisode de podcast.

L'innovation : Le Temporal Positioning

Pour contrer les hallucinations de format, le dataset de la V1 (450 paires issues de 41 documents) a été enrichi avec des balises de contexte utilisateur. Ce conditionnement explicite permet d'éliminer totalement le besoin de scripts Python de post-traitement pour nettoyer les redondances de présentation.

Le syndrome V0

Sans balisage, un LLM générant un podcast en 5 morceaux générait 5 fois la phrase : "Bonjour et bienvenue dans ce nouvel épisode".

Section 1

[Position: START] - Force une accroche et la présentation de l'hôte.

Section 2 à N

[Position: MIDDLE] - Interdit les salutations, se concentre sur le flux technique.

Section Finale

[Position: END] - Déclenche la conclusion et la signature sonore.

2. Infrastructure et Paramètres d'Entraînement

L'entraînement a été réalisé avec la technique QLoRA via la librairie Unsloth.

Paramètre	Configuration	Impact
Base Model	Mistral 7B v0.3	Vocabulaire étendu
Hardware	NVIDIA A100 (40GB)	Permet un batch size plus grand
Global Batch Size	16	Stabilité des gradients
Learning Rate	1e-4	Apprentissage doux sur 150 steps
Précision	BF16	Stabilité numérique native A100

Configuration matérielle et hyperparamètres (SFTTrainer)

3. Dynamique d'Apprentissage et Convergence

L'augmentation du volume de données couplée à un apprentissage sur 150 étapes démontre une convergence sans aucun overfitting.

Note : La fonction représentée ci-dessus simule la courbe d'apprentissage réelle, partant d'une perte de 2.43 pour se stabiliser à un minimum global de 0.93 (Step 149).

Le point d'équilibre autour de 1.00 indique que le réseau a parfaitement assimilé la structure narrative (SSML, transitions fluides) tout en conservant sa flexibilité sémantique pour vulgariser les équations et concepts LaTeX [1].

4. Perspectives

La validation de l'architecture Léon-v1 marque un tournant pour l'automatisation de la plateforme. La prochaine étape visera l'intégration multimodale (Vision-to-Text) pour ingérer les graphiques des papiers de recherche, ainsi que le déploiement d'une pipeline ArXiv 100% autonome.

1.

Pour des raisons de fluidité audio, le modèle est entraîné à convertir la notation mathématique en langage naturel descriptif plutôt qu'à la lire de manière brute.

Citer ce travail

Bruneteau, C. (2026). Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts. TOAQ. https://toaq.fr/research/leon-v1-fine-tuning-mistral-7b-for-the-automation-of-scientific-podcasts

Léon-v1 : Fine-Tuning de Mistral 7B pour l'Automatisation de Podcasts Scientifiques

Résumé

Open Source

1. Le Défi de la Génération Longue

L'innovation : Le Temporal Positioning

Le syndrome V0

[Position: START] - Force une accroche et la présentation de l'hôte.

[Position: MIDDLE] - Interdit les salutations, se concentre sur le flux technique.

[Position: END] - Déclenche la conclusion et la signature sonore.

2. Infrastructure et Paramètres d'Entraînement

Voir les métriques d'utilisation des ressources

3. Dynamique d'Apprentissage et Convergence

4. Perspectives

Glossaire

Citer ce travail

Le syndrome V0