Fine-Tuning

Executive Summary

Fine-Tuning bedeutet, ein vortrainiertes LLM mit Ihren eigenen Daten weiterzutrainieren. Das Modell lernt spezifische Muster, Styles oder Domänenwissen, das über sein ursprüngliches Training hinausgeht.

Wann sinnvoll: Fine-Tuning ist ideal für Style/Konsistenz, spezifische Formate und Domänenwissen. Für faktisches Wissen ist RAG oft die bessere Wahl.

Was ist Fine-Tuning?

Fine-Tuning ist wie ein Spezialisierungskurs für das Modell - es wird Experte für Ihre Aufgabe. Das Modell lernt aus Ihren Beispieldaten, wie es sich verhalten soll.

Ohne Fine-Tuning (Standard-Prompting):

Sie: "Schreibe eine Produktbeschreibung für Blaue Sneakers."
GPT: [Generische Beschreibung, variiert jedes Mal, nicht Ihr Brand-Voice]

Mit Fine-Tuning:

Sie: "Schreibe eine Produktbeschreibung für Blaue Sneakers."
Fine-Tuned Model: [Perfekt im Stil Ihres Shops, konsistent,
nutzt Ihre Fachbegriffe, folgt Ihrem Format]

Warum Fine-Tuning nutzen?

Vorteile

Bessere Qualität: Modell passt perfekt zu Ihrer Aufgabe
Konsistenz: Gleicher Style, Format, Tonalität
Kürzere Prompts: Kontext ist "eingebrannt"
Kostenersparnis: Weniger Tokens pro Request
Geschwindigkeit: Kürzere Prompts = schneller
Domänenwissen: Spezifische Terminologie lernen

Ideal für

Brand Voice: Marketing-Texte im Firmen-Stil
Strukturierte Outputs: JSON, XML, spezifische Formate
Classification: Sentiment, Intent, Kategorisierung
Domain Expertise: Medizin, Recht, Finanzen
Code Generation: In Ihrer Codebase-Struktur
Instruction Following: Komplexe Task-Patterns

Einfaches Beispiel

Use Case: Kundenservice-Bot zur Ticket-Kategorisierung

Sie wollen einen Bot, der Support-Tickets in Kategorien einsortiert - und zwar genau so, wie Ihr Team es macht.

Training-Daten (Beispiele):

{"prompt": "Mein Login funktioniert nicht", "completion": "AUTH_ISSUE"}
{"prompt": "Rechnung fehlt für Bestellung #1234", "completion": "BILLING"}
{"prompt": "Produkt ist beschädigt angekommen", "completion": "DEFECT"}
{"prompt": "Wann wird mein Paket geliefert?", "completion": "SHIPPING_TRACKING"}
...
[500-1000 solche Beispiele]

Nach Fine-Tuning:

Input: "Ich kann mich nicht einloggen, Passwort falsch"
Output: "AUTH_ISSUE"

Accuracy: 95%+ (vs. 70% mit Standard-Prompting)

Das Modell hat gelernt, wie Sie kategorisieren - inklusive Edge Cases und Nuancen.

Fine-Tuning Schritt für Schritt

Schritt 1: Daten sammeln & vorbereiten

Fine-Tuning steht und fällt mit der Datenqualität. Mehr Daten ungleich besser. Qualität vor Quantität.

Wie viele Daten brauche ich?

Classification: 50-500 Beispiele pro Kategorie
Text Generation: 500-2000 Beispiele (mindestens)
Instruction Following: 1000-5000 diverse Tasks
Domain Adaptation: 10k+ Beispiele für komplexe Domänen

Schritt 2: Modell & Hyperparameter wählen

Welches Base-Model?

GPT-3.5-turbo: Günstig, schnell, gut für die meisten Tasks
GPT-4: Höchste Qualität, aber teurer im Training & Inference
Llama 2/3: Open Source, selbst hosten, volle Kontrolle
Mistral: Starkes Open-Source Modell, gute Balance

Schritt 3: Training durchführen

OpenAI Fine-Tuning (einfachste Option)

# 1. Daten hochladen
openai api fine_tuning.jobs.create \
  -t "train.jsonl" \
  -m "gpt-3.5-turbo"

# 2. Training läuft (5-60 Minuten)

# 3. Fine-Tuned Model nutzen
response = openai.ChatCompletion.create(
  model="ft:gpt-3.5-turbo:your-org:custom-model:id",
  messages=[{"role": "user", "content": "..."}]
)

Schritt 4: Evaluation & Testing

Nach dem Training: Testen Sie systematisch! Nicht nur auf Training-Daten.

Hold-Out Set: 10-20% Daten für Testing reservieren
Known Cases: Läuft es auf Ihren Beispiel-Inputs?
Edge Cases: Was passiert bei ungewöhnlichen Inputs?
Human Evaluation: Lassen Sie Ihr Team die Outputs bewerten

Advanced: LoRA & PEFT

LoRA (Low-Rank Adaptation) ist eine Technik, bei der Sie nicht das ganze Modell neu trainieren, sondern nur kleine Adapter-Schichten hinzufügen.

Full Fine-Tuning

Training: Alle 7B+ Parameter updaten
GPU: Braucht viel VRAM (>40GB)
Zeit: Langsam (Stunden-Tage)
Kosten: Hoch

LoRA Fine-Tuning

Training: Nur Adapter (1-2% der Parameter)
GPU: Consumer-GPU (16GB) reicht
Zeit: Schneller (Minuten-Stunden)
Kosten: 10-100x günstiger

Trade-off: LoRA erreicht ca. 90-95% der Qualität von Full Fine-Tuning bei 1% der Kosten. Für die meisten Use Cases ausreichend.

Fine-Tuning vs. Alternativen

Wann Fine-Tuning NICHT nutzen

Faktenwissen updaten: Nutze RAG statt Fine-Tuning
Zu wenig Daten: Unter 50 Beispiele? Few-Shot Prompting nutzen
Häufige Updates: Wenn Daten sich täglich ändern? RAG
Exploration-Phase: Wenn Sie noch nicht wissen, was Sie brauchen? Prompting erst
Budget-Constraints: Fine-Tuning kostet (Training + höhere Inference-Kosten)

          Decision Tree
          Brauchen Sie neues Wissen? RAG
Brauchen Sie Style/Format/Konsistenz? Fine-Tuning
Brauchen Sie beides? RAG + Fine-Tuned Model
Geht es auch mit gutem Prompting? Start dort (günstig, schnell)

        

Best Practices Zusammenfassung

        Start mit Prompting - Teste Few-Shot erst. Fine-Tune nur wenn nötig.
Qualität über Quantität - 500 perfekte Beispiele > 5000 schlechte.
Test/Train Split - Immer 10-20% für Testing reservieren.
Monitor in Production - Track Accuracy, User Feedback, Edge Cases.
Iteriere - Fine-Tuning ist nie "fertig". Sammle neue Daten, retraine.
Nutze LoRA für große Modelle - Spart Kosten & Zeit.

      

Fine-Tuning in der Praxis meistern?

Im 1:1 KI-Sparring entwickeln wir gemeinsam Ihre Fine-Tuning-Strategie und setzen sie um.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.