Training

Fine-Tuning

Trainieren Sie LLMs auf Ihre spezifischen Aufgaben. Fine-Tuning macht Modelle konsistenter, günstiger und besser an Ihren Use Case angepasst.

Lesedauer: ca. 12 Minuten | Level: Fortgeschritten

Fine-Tuning - Präzisionsarbeit an KI-Modellen

Executive Summary

Fine-Tuning bedeutet, ein vortrainiertes LLM mit Ihren eigenen Daten weiterzutrainieren. Das Modell lernt spezifische Muster, Styles oder Domänenwissen, das über sein ursprüngliches Training hinausgeht.

Wann sinnvoll: Fine-Tuning ist ideal für Style/Konsistenz, spezifische Formate und Domänenwissen. Für faktisches Wissen ist RAG oft die bessere Wahl.

Was ist Fine-Tuning?

Fine-Tuning ist wie ein Spezialisierungskurs für das Modell - es wird Experte für Ihre Aufgabe. Das Modell lernt aus Ihren Beispieldaten, wie es sich verhalten soll.

Ohne Fine-Tuning (Standard-Prompting):

Sie: "Schreibe eine Produktbeschreibung für Blaue Sneakers."
GPT: [Generische Beschreibung, variiert jedes Mal, nicht Ihr Brand-Voice]

Mit Fine-Tuning:

Sie: "Schreibe eine Produktbeschreibung für Blaue Sneakers."
Fine-Tuned Model: [Perfekt im Stil Ihres Shops, konsistent,
nutzt Ihre Fachbegriffe, folgt Ihrem Format]

Warum Fine-Tuning nutzen?

Vorteile

  • Bessere Qualität: Modell passt perfekt zu Ihrer Aufgabe
  • Konsistenz: Gleicher Style, Format, Tonalität
  • Kürzere Prompts: Kontext ist "eingebrannt"
  • Kostenersparnis: Weniger Tokens pro Request
  • Geschwindigkeit: Kürzere Prompts = schneller
  • Domänenwissen: Spezifische Terminologie lernen

Ideal für

  • Brand Voice: Marketing-Texte im Firmen-Stil
  • Strukturierte Outputs: JSON, XML, spezifische Formate
  • Classification: Sentiment, Intent, Kategorisierung
  • Domain Expertise: Medizin, Recht, Finanzen
  • Code Generation: In Ihrer Codebase-Struktur
  • Instruction Following: Komplexe Task-Patterns

Einfaches Beispiel

Use Case: Kundenservice-Bot zur Ticket-Kategorisierung

Sie wollen einen Bot, der Support-Tickets in Kategorien einsortiert - und zwar genau so, wie Ihr Team es macht.

Training-Daten (Beispiele):

{"prompt": "Mein Login funktioniert nicht", "completion": "AUTH_ISSUE"}
{"prompt": "Rechnung fehlt für Bestellung #1234", "completion": "BILLING"}
{"prompt": "Produkt ist beschädigt angekommen", "completion": "DEFECT"}
{"prompt": "Wann wird mein Paket geliefert?", "completion": "SHIPPING_TRACKING"}
...
[500-1000 solche Beispiele]

Nach Fine-Tuning:

Input: "Ich kann mich nicht einloggen, Passwort falsch"
Output: "AUTH_ISSUE"

Accuracy: 95%+ (vs. 70% mit Standard-Prompting)

Das Modell hat gelernt, wie Sie kategorisieren - inklusive Edge Cases und Nuancen.

Fine-Tuning Schritt für Schritt

Schritt 1: Daten sammeln & vorbereiten

Fine-Tuning steht und fällt mit der Datenqualität. Mehr Daten ungleich besser. Qualität vor Quantität.

Wie viele Daten brauche ich?

  • Classification: 50-500 Beispiele pro Kategorie
  • Text Generation: 500-2000 Beispiele (mindestens)
  • Instruction Following: 1000-5000 diverse Tasks
  • Domain Adaptation: 10k+ Beispiele für komplexe Domänen

Schritt 2: Modell & Hyperparameter wählen

Welches Base-Model?

  • GPT-3.5-turbo: Günstig, schnell, gut für die meisten Tasks
  • GPT-4: Höchste Qualität, aber teurer im Training & Inference
  • Llama 2/3: Open Source, selbst hosten, volle Kontrolle
  • Mistral: Starkes Open-Source Modell, gute Balance

Schritt 3: Training durchführen

OpenAI Fine-Tuning (einfachste Option)

# 1. Daten hochladen
openai api fine_tuning.jobs.create \
  -t "train.jsonl" \
  -m "gpt-3.5-turbo"

# 2. Training läuft (5-60 Minuten)

# 3. Fine-Tuned Model nutzen
response = openai.ChatCompletion.create(
  model="ft:gpt-3.5-turbo:your-org:custom-model:id",
  messages=[{"role": "user", "content": "..."}]
)

Schritt 4: Evaluation & Testing

Nach dem Training: Testen Sie systematisch! Nicht nur auf Training-Daten.

  • Hold-Out Set: 10-20% Daten für Testing reservieren
  • Known Cases: Läuft es auf Ihren Beispiel-Inputs?
  • Edge Cases: Was passiert bei ungewöhnlichen Inputs?
  • Human Evaluation: Lassen Sie Ihr Team die Outputs bewerten

Advanced: LoRA & PEFT

LoRA (Low-Rank Adaptation) ist eine Technik, bei der Sie nicht das ganze Modell neu trainieren, sondern nur kleine Adapter-Schichten hinzufügen.

Full Fine-Tuning

  • Training: Alle 7B+ Parameter updaten
  • GPU: Braucht viel VRAM (>40GB)
  • Zeit: Langsam (Stunden-Tage)
  • Kosten: Hoch

LoRA Fine-Tuning

  • Training: Nur Adapter (1-2% der Parameter)
  • GPU: Consumer-GPU (16GB) reicht
  • Zeit: Schneller (Minuten-Stunden)
  • Kosten: 10-100x günstiger

Trade-off: LoRA erreicht ca. 90-95% der Qualität von Full Fine-Tuning bei 1% der Kosten. Für die meisten Use Cases ausreichend.

Fine-Tuning vs. Alternativen

Wann Fine-Tuning NICHT nutzen

  • Faktenwissen updaten: Nutze RAG statt Fine-Tuning
  • Zu wenig Daten: Unter 50 Beispiele? Few-Shot Prompting nutzen
  • Häufige Updates: Wenn Daten sich täglich ändern? RAG
  • Exploration-Phase: Wenn Sie noch nicht wissen, was Sie brauchen? Prompting erst
  • Budget-Constraints: Fine-Tuning kostet (Training + höhere Inference-Kosten)

Decision Tree

  1. Brauchen Sie neues Wissen? RAG
  2. Brauchen Sie Style/Format/Konsistenz? Fine-Tuning
  3. Brauchen Sie beides? RAG + Fine-Tuned Model
  4. Geht es auch mit gutem Prompting? Start dort (günstig, schnell)

Best Practices Zusammenfassung

  1. Start mit Prompting - Teste Few-Shot erst. Fine-Tune nur wenn nötig.
  2. Qualität über Quantität - 500 perfekte Beispiele > 5000 schlechte.
  3. Test/Train Split - Immer 10-20% für Testing reservieren.
  4. Monitor in Production - Track Accuracy, User Feedback, Edge Cases.
  5. Iteriere - Fine-Tuning ist nie "fertig". Sammle neue Daten, retraine.
  6. Nutze LoRA für große Modelle - Spart Kosten & Zeit.

Weiterführende Themen

Fine-Tuning in der Praxis meistern?

Im 1:1 KI-Sparring entwickeln wir gemeinsam Ihre Fine-Tuning-Strategie und setzen sie um.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.