Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts

Bruneteau, Côme

doi:10.5281/zenodo.18734857

BerichtFebruar 2026

Léon-v1: Feinabstimmung von Mistral 7B für die Automatisierung wissenschaftlicher Podcasts

Autor: Côme Bruneteau

PDF herunterladen DOI: 10.5281/zenodo.18734857

Zusammenfassung

Dieses Dokument beschreibt die Entwicklung, das Training und die Validierung des Modells Léon-v1. Als Nachfolger des Prototyps v0 löst diese Mistral-7B-Architektur (optimiert über Unsloth/QLoRA) Probleme der narrativen Redundanz durch die Implementierung der zeitlichen Positionierung. Dieser Bericht analysiert die neue Destillationsmethodik anhand von 41 Dokumenten (450 Paare) und die Lerndynamik auf der NVIDIA A100-Infrastruktur und demonstriert die Fähigkeit des Modells, flüssige und technisch präzise Podcast-Skripte zu generieren, die nativ mit der Sprachsynthese (SSML) kompatibel sind.

Open Source

Das Modell ist, wie es den internen Werten entspricht, auf Hugging Face

1. Die Herausforderung der Langzeitgenerierung

Das Ziel von TOAQ Research Radio ist es, den Zugang zu wissenschaftlicher Forschung zu demokratisieren, indem komplexe akademische Publikationen in Podcasts umgewandelt werden.

Die Umwandlung einer vollständigen wissenschaftlichen Publikation erfordert eine sequenzielle Aufteilung (Chunking). In der Prototyping-Phase (v0) behandelte das Modell jeden Abschnitt als eine neue Podcast-Episode.

Die Innovation: Temporal Positioning

Um Format-Halluzinationen entgegenzuwirken, wurde der Datensatz der V1 (450 Paare aus 41 Dokumenten) mit Benutzerkontext-Tags angereichert. Durch diese explizite Konditionierung entfällt die Notwendigkeit von Python-Skripten zur Nachbearbeitung, um Darstellungsredundanzen zu beseitigen.

Das V0-Syndrom

Ohne Markierung generierte ein LLM, der einen Podcast in fünf Teilen erstellte, fünfmal den Satz: „Hallo und willkommen zu dieser neuen Folge“.

Abschnitt 1

[Position: START] – Erzwingt einen Aufhänger und die Vorstellung des Moderators.

Abschnitt 2 bis N

[Position: MIDDLE] – Verbietet Begrüßungen, konzentriert sich auf den technischen Ablauf.

Finale

[Position: END] – Löst den Abschluss und den akustischen Signalton aus.

2. Infrastruktur und Trainingsparameter

Das Training wurde mit der QLoRA-Technik über die Unsloth-Bibliothek durchgeführt.

Parameter	Konfiguration	Auswirkung
Basismodell	Mistral 7B v0.3	Erweitertes Vokabular
Hardware	NVIDIA A100 (40 GB)	Ermöglicht eine größere Batchgröße
Globale Stapelgröße	16	Stabilität der Gradienten
Lernrate	1e-4	Sanftes Lernen in 150 Schritten
Genauigkeit	BF16	Native digitale Stabilität A100

Hardwarekonfiguration und Hyperparameter (SFTTrainer)

3. Lerndynamik und Konvergenz

Die Zunahme des Datenvolumens in Verbindung mit einem Lernen in 150 Schritten zeigt eine Konvergenz ohne Overfitting.

Hinweis: Die oben dargestellte Funktion simuliert die tatsächliche Lernkurve, die von einem Verlust von 2,43 ausgeht und sich bei einem globalen Minimum von 0,93 (Schritt 149) stabilisiert.

Der Gleichgewichtspunkt um 1,00 zeigt, dass das Netzwerk die narrative Struktur (SSML, flüssige Übergänge) perfekt assimiliert hat und gleichzeitig seine semantische Flexibilität beibehält, um LaTeX-Gleichungen und -Konzepte zu popularisieren.[1]

4. Ausblick

Die Validierung der Léon-v1-Architektur markiert einen Wendepunkt für die Automatisierung der Plattform. Der nächste Schritt zielt auf die multimodale Integration (Vision-to-Text) zur Einbindung von Grafiken aus Forschungsarbeiten sowie auf die Bereitstellung einer zu 100 % autonomen ArXiv-Pipeline ab.

1.

Aus Gründen der Audioflüssigkeit wird das Modell darauf trainiert, mathematische Notationen in beschreibende natürliche Sprache umzuwandeln, anstatt sie unverändert zu lesen.

Diese Arbeit zitieren

Bruneteau, C. (2026). Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts. TOAQ. https://toaq.fr/research/leon-v1-fine-tuning-mistral-7b-for-the-automation-of-scientific-podcasts

Léon-v1: Feinabstimmung von Mistral 7B für die Automatisierung wissenschaftlicher Podcasts

Zusammenfassung

Open Source

1. Die Herausforderung der Langzeitgenerierung

Die Innovation: Temporal Positioning

Das V0-Syndrom

[Position: START] – Erzwingt einen Aufhänger und die Vorstellung des Moderators.

[Position: MIDDLE] – Verbietet Begrüßungen, konzentriert sich auf den technischen Ablauf.

[Position: END] – Löst den Abschluss und den akustischen Signalton aus.

2. Infrastruktur und Trainingsparameter

Ressourcenauslastung anzeigen

3. Lerndynamik und Konvergenz

4. Ausblick

Glossar

Diese Arbeit zitieren

Das V0-Syndrom