Léon-v1: Feinabstimmung von Mistral 7B für die Automatisierung wissenschaftlicher Podcasts
Zusammenfassung
Open Source
Das Modell ist, wie es den internen Werten entspricht, auf Hugging Face
1. Die Herausforderung der Langzeitgenerierung
Das Ziel von TOAQ Research Radio ist es, den Zugang zu wissenschaftlicher Forschung zu demokratisieren, indem komplexe akademische Publikationen in Podcasts umgewandelt werden.
Die Umwandlung einer vollständigen wissenschaftlichen Publikation erfordert eine sequenzielle Aufteilung (Chunking). In der Prototyping-Phase (v0) behandelte das Modell jeden Abschnitt als eine neue Podcast-Episode.
Die Innovation: Temporal Positioning
Um Format-Halluzinationen entgegenzuwirken, wurde der Datensatz der V1 (450 Paare aus 41 Dokumenten) mit Benutzerkontext-Tags angereichert. Durch diese explizite Konditionierung entfällt die Notwendigkeit von Python-Skripten zur Nachbearbeitung, um Darstellungsredundanzen zu beseitigen.[Position: START] – Erzwingt einen Aufhänger und die Vorstellung des Moderators.
[Position: MIDDLE] – Verbietet Begrüßungen, konzentriert sich auf den technischen Ablauf.
[Position: END] – Löst den Abschluss und den akustischen Signalton aus.
2. Infrastruktur und Trainingsparameter
Das Training wurde mit der QLoRA-Technik über die Unsloth-Bibliothek durchgeführt.
| Parameter | Konfiguration | Auswirkung |
|---|---|---|
| Basismodell | Mistral 7B v0.3 | Erweitertes Vokabular |
| Hardware | NVIDIA A100 (40 GB) | Ermöglicht eine größere Batchgröße |
| Globale Stapelgröße | 16 | Stabilität der Gradienten |
| Lernrate | 1e-4 | Sanftes Lernen in 150 Schritten |
| Genauigkeit | BF16 | Native digitale Stabilität A100 |
Hardwarekonfiguration und Hyperparameter (SFTTrainer)
3. Lerndynamik und Konvergenz
Die Zunahme des Datenvolumens in Verbindung mit einem Lernen in 150 Schritten zeigt eine Konvergenz ohne Overfitting.
Hinweis: Die oben dargestellte Funktion simuliert die tatsächliche Lernkurve, die von einem Verlust von 2,43 ausgeht und sich bei einem globalen Minimum von 0,93 (Schritt 149) stabilisiert.
Der Gleichgewichtspunkt um 1,00 zeigt, dass das Netzwerk die narrative Struktur (SSML, flüssige Übergänge) perfekt assimiliert hat und gleichzeitig seine semantische Flexibilität beibehält, um LaTeX-Gleichungen und -Konzepte zu popularisieren.[1]
4. Ausblick
Die Validierung der Léon-v1-Architektur markiert einen Wendepunkt für die Automatisierung der Plattform. Der nächste Schritt zielt auf die multimodale Integration (Vision-to-Text) zur Einbindung von Grafiken aus Forschungsarbeiten sowie auf die Bereitstellung einer zu 100 % autonomen ArXiv-Pipeline ab.
Aus Gründen der Audioflüssigkeit wird das Modell darauf trainiert, mathematische Notationen in beschreibende natürliche Sprache umzuwandeln, anstatt sie unverändert zu lesen.
Diese Arbeit zitieren
Bruneteau, C. (2026). Léon-v1: Fine-Tuning Mistral 7B for the Automation of Scientific Podcasts. TOAQ. https://toaq.fr/research/leon-v1-fine-tuning-mistral-7b-for-the-automation-of-scientific-podcasts