Was ist RAG einfach erklärt?

RAG (Retrieval Augmented Generation) ist eine Technik, bei der ein LLM vor der Antwortgenerierung relevante Dokumente aus einer Wissensdatenbank abruft. So kann die KI auf aktuelle, unternehmensspezifische Informationen zugreifen, die nicht in ihrem Training enthalten waren - und gibt präzisere, faktisch korrekte Antworten.

RAG vs Fine-Tuning - Wann verwende ich was?

RAG eignet sich für: aktuelle Informationen, häufig wechselnde Daten, Transparenz (Quellenangaben). Fine-Tuning eignet sich für: spezifischen Schreibstil, domänenspezifisches Verhalten, wenn Daten sich selten ändern. Für die meisten Unternehmensanwendungen ist RAG die bessere Wahl - günstiger, flexibler und ohne Modell-Training.

Wie kann ich KI Halluzinationen vermeiden?

RAG ist die effektivste Methode gegen Halluzinationen: Die KI antwortet basierend auf abgerufenen Fakten statt aus ihrem Training. Zusätzlich helfen: niedrigere Temperature-Einstellung, explizite Anweisung 'Sage wenn du es nicht weißt', und Quellenangaben einfordern.

Was ist eine Vector Database?

Eine Vector Database speichert Texte als mathematische Vektoren (Embeddings), die ihre semantische Bedeutung repräsentieren. Dies ermöglicht die Suche nach ähnlichen Inhalten - nicht nach exakten Wörtern, sondern nach Bedeutung. Beispiele: Pinecone, Weaviate, Chroma, pgvector.

RAG vs Fine-Tuning - Wann verwenden?

Executive Summary

Retrieval Augmented Generation (RAG) ist eine Technik, bei der ein LLM nicht nur auf sein Trainingswissen zurückgreift, sondern zusätzlich relevante Dokumente abruft und diese als Kontext für die Antwort nutzt. Das Modell "liest" zuerst externe Quellen, bevor es antwortet.

Warum wichtig: RAG reduziert Halluzinationen drastisch, ermöglicht Zugriff auf aktuelle Informationen und macht Antworten durch Quellenangaben nachvollziehbar.

Was ist RAG?

RAG kombiniert Information Retrieval (Dokumentensuche) mit Generation (LLM-Antwort) - daher der Name. Statt sich nur auf Trainingswissen zu verlassen, sucht das System zuerst in einer Dokumentenbasis nach relevanten Informationen.

Klassisches LLM (ohne RAG):

User: Wer hat die letzte Wahl in Österreich gewonnen?
LLM: [Halluziniert oder veraltet, da Trainingsdaten begrenzt]

Mit RAG:

1. System sucht in aktueller Wahlberichtsdatenbank
2. Findet relevante Artikel: "ÖVP gewinnt mit 28%..."
3. LLM erhält Artikel als Kontext
4. LLM: "Laut den aktuellen Wahlergebnissen..."

Warum RAG so wichtig ist

Vorteile

Aktuelle Informationen: Zugriff auf neueste Daten
Weniger Halluzinationen: Antworten basieren auf echten Dokumenten
Quellenangaben: Nachvollziehbar durch Referenzen
Keine Neuschulung nötig: Einfach Dokumente aktualisieren
Kosteneffizient: Günstiger als Fine-Tuning

Ideal für

Dokumenten-Chatbots (FAQ, Support)
Wissensdatenbanken (Internes Wiki)
Research Tools (Paper-Analyse)
Customer Support (Ticket-Datenbank)
Legal/Compliance (Gesetzestexte)
Produktdokumentation (Tech-Support)

Einfaches RAG-Beispiel

Szenario: Firmen-FAQ Chatbot

User-Frage:

"Wie viele Urlaubstage habe ich?"

RAG-System (Schritt 1: Retrieval):

Suche in Dokument-DB nach "Urlaub", "Urlaubstage"
Findet: HR-Handbuch, Seite 42
"Vollzeitmitarbeiter erhalten 25 Urlaubstage pro Jahr."

LLM (Schritt 2: Generation):

Antwort: Laut HR-Handbuch stehen Ihnen als Vollzeitmitarbeiter
25 Urlaubstage pro Jahr zu. (Quelle: HR-Handbuch, S. 42)

Ohne RAG würde das LLM raten oder halluzinieren. Mit RAG hat es echte Daten als Grundlage.

RAG-Architektur im Detail

Ein RAG-System besteht aus drei Hauptkomponenten, die zusammenarbeiten.

1. Dokument-Indexierung (Offline)

Chunking: Dokumente in kleinere Teile zerlegen (z.B. 500 Tokens)
Embedding: Jeden Chunk in einen Vektor umwandeln (z.B. mit OpenAI text-embedding-3)
Speicherung: Vektoren in Vector Database speichern (Pinecone, Weaviate, Qdrant)

2. Retrieval (Query-Zeit)

Query Embedding: User-Frage in Vektor umwandeln
Similarity Search: Top-K ähnlichste Dokumente finden (meist Cosine Similarity)
Re-Ranking (optional): Ergebnisse mit Cross-Encoder neu sortieren

3. Generation

Prompt Construction: Kontext + Frage kombinieren
LLM Call: Antwort generieren lassen
Citation Extraction: Quellenangaben hinzufügen

Chunking-Strategien

Die Aufteilung von Dokumenten in Chunks ist kritisch für RAG-Performance. Zu klein = Kontext fehlt. Zu groß = irrelevante Informationen.

Fixed-Size Chunking

Dokumente alle 500 Tokens splitten, mit 50 Token Overlap.

Pro: Einfach, schnell

Contra: Kann Sätze durchschneiden

Semantic Chunking

Nach semantischen Einheiten splitten (Absätze, Sections).

Pro: Erhält Kontext

Contra: Chunks unterschiedlich groß

Hierarchical Chunking

Mehrere Ebenen (Dokument, Kapitel, Absatz).

Pro: Mehr Kontext möglich

Contra: Aufwendig

Faustregel: Starten Sie mit 500-1000 Tokens pro Chunk und 10-20% Overlap. Testen Sie verschiedene Strategien mit Ihrem Use Case.

Advanced Retrieval: Hybrid Search & Re-Ranking

Hybrid Search

Reines Vektor-Search hat Limits: Es findet semantisch ähnliche Texte, aber verpasst manchmal exakte Keywords.

Dense Retrieval: Vektor-Suche (Embeddings)
Sparse Retrieval: Keyword-Suche (BM25)
Fusion: Kombiniere beide Ergebnisse

Effekt: +10-30% bessere Retrieval-Qualität bei spezifischen Fragen.

Re-Ranking

Vektor-Suche ist schnell, aber nicht perfekt. Re-Ranking bewertet die Top-K Ergebnisse nochmal.

Vektor-Search liefert Top-100 Kandidaten (schnell)
Cross-Encoder bewertet jeden mit Query (genau)
Nehme nur Top-5 für LLM-Kontext

Effekt: +15-40% bessere Antwortqualität.

RAG Stack: Tools & Libraries

Frameworks

LangChain

Riesiges Ecosystem, viele Integrationen. Gut für Prototyping.

LlamaIndex

Speziell für RAG gebaut. Einfachere API, bessere Docs.

Haystack

Enterprise-ready, starke Search-Integration.

Vector Databases

Pinecone

Managed, einfaches Setup. Wahl für Schnellstart.

Weaviate

Open Source, Hybrid Search nativ. Wahl für Flexibilität.

Qdrant

Rust-basiert (schnell!), gute Filtering-Features.

Chroma

Embedded DB (kein Server nötig). Wahl für Prototyping.

Grenzen von RAG

Retrieval Quality: Garbage in, garbage out - schlechte Docs = schlechte Antworten
Context Window Limits: Sie können nur Top-K Docs übergeben (meist 5-10)
Latenz: Retrieval + Generation = langsamer als reines LLM
Kosten: Embeddings + Vector DB + LLM = teurer
Komplexität: Mehr Moving Parts = mehr kann kaputt gehen

Wann RAG NICHT nutzen: Bei sehr einfachen Tasks, wenn das LLM-Wissen ausreicht, oder wenn Sie mit Fine-Tuning bessere Ergebnisse erzielen.

RAG-Systeme in der Praxis implementieren?

Im 1:1 KI-Sparring entwickeln wir gemeinsam Ihre RAG-Architektur für Ihren spezifischen Use Case.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.

RAG - Retrieval Augmented Generation