Architektur

RAG - Retrieval Augmented Generation

Erweitern Sie LLMs mit externem Wissen. RAG kombiniert Dokumentensuche mit Sprachmodellen für aktuelle, faktenbasierte Antworten ohne Halluzinationen.

Lesedauer: ca. 10 Minuten | Level: Fortgeschritten

RAG - Retrieval Augmented Generation für faktengenaue KI-Antworten

Executive Summary

Retrieval Augmented Generation (RAG) ist eine Technik, bei der ein LLM nicht nur auf sein Trainingswissen zurückgreift, sondern zusätzlich relevante Dokumente abruft und diese als Kontext für die Antwort nutzt. Das Modell "liest" zuerst externe Quellen, bevor es antwortet.

Warum wichtig: RAG reduziert Halluzinationen drastisch, ermöglicht Zugriff auf aktuelle Informationen und macht Antworten durch Quellenangaben nachvollziehbar.

Was ist RAG?

RAG kombiniert Information Retrieval (Dokumentensuche) mit Generation (LLM-Antwort) - daher der Name. Statt sich nur auf Trainingswissen zu verlassen, sucht das System zuerst in einer Dokumentenbasis nach relevanten Informationen.

Klassisches LLM (ohne RAG):

User: Wer hat die letzte Wahl in Österreich gewonnen?
LLM: [Halluziniert oder veraltet, da Trainingsdaten begrenzt]

Mit RAG:

1. System sucht in aktueller Wahlberichtsdatenbank
2. Findet relevante Artikel: "ÖVP gewinnt mit 28%..."
3. LLM erhält Artikel als Kontext
4. LLM: "Laut den aktuellen Wahlergebnissen..."

Warum RAG so wichtig ist

Vorteile

  • Aktuelle Informationen: Zugriff auf neueste Daten
  • Weniger Halluzinationen: Antworten basieren auf echten Dokumenten
  • Quellenangaben: Nachvollziehbar durch Referenzen
  • Keine Neuschulung nötig: Einfach Dokumente aktualisieren
  • Kosteneffizient: Günstiger als Fine-Tuning

Ideal für

  • Dokumenten-Chatbots (FAQ, Support)
  • Wissensdatenbanken (Internes Wiki)
  • Research Tools (Paper-Analyse)
  • Customer Support (Ticket-Datenbank)
  • Legal/Compliance (Gesetzestexte)
  • Produktdokumentation (Tech-Support)

Einfaches RAG-Beispiel

Szenario: Firmen-FAQ Chatbot

User-Frage:

"Wie viele Urlaubstage habe ich?"

RAG-System (Schritt 1: Retrieval):

Suche in Dokument-DB nach "Urlaub", "Urlaubstage"
Findet: HR-Handbuch, Seite 42
"Vollzeitmitarbeiter erhalten 25 Urlaubstage pro Jahr."

LLM (Schritt 2: Generation):

Antwort: Laut HR-Handbuch stehen Ihnen als Vollzeitmitarbeiter
25 Urlaubstage pro Jahr zu. (Quelle: HR-Handbuch, S. 42)

Ohne RAG würde das LLM raten oder halluzinieren. Mit RAG hat es echte Daten als Grundlage.

RAG-Architektur im Detail

Ein RAG-System besteht aus drei Hauptkomponenten, die zusammenarbeiten.

1. Dokument-Indexierung (Offline)

  1. Chunking: Dokumente in kleinere Teile zerlegen (z.B. 500 Tokens)
  2. Embedding: Jeden Chunk in einen Vektor umwandeln (z.B. mit OpenAI text-embedding-3)
  3. Speicherung: Vektoren in Vector Database speichern (Pinecone, Weaviate, Qdrant)

2. Retrieval (Query-Zeit)

  1. Query Embedding: User-Frage in Vektor umwandeln
  2. Similarity Search: Top-K ähnlichste Dokumente finden (meist Cosine Similarity)
  3. Re-Ranking (optional): Ergebnisse mit Cross-Encoder neu sortieren

3. Generation

  1. Prompt Construction: Kontext + Frage kombinieren
  2. LLM Call: Antwort generieren lassen
  3. Citation Extraction: Quellenangaben hinzufügen

Chunking-Strategien

Die Aufteilung von Dokumenten in Chunks ist kritisch für RAG-Performance. Zu klein = Kontext fehlt. Zu groß = irrelevante Informationen.

Fixed-Size Chunking

Dokumente alle 500 Tokens splitten, mit 50 Token Overlap.

Pro: Einfach, schnell

Contra: Kann Sätze durchschneiden

Semantic Chunking

Nach semantischen Einheiten splitten (Absätze, Sections).

Pro: Erhält Kontext

Contra: Chunks unterschiedlich groß

Hierarchical Chunking

Mehrere Ebenen (Dokument, Kapitel, Absatz).

Pro: Mehr Kontext möglich

Contra: Aufwendig

Faustregel: Starten Sie mit 500-1000 Tokens pro Chunk und 10-20% Overlap. Testen Sie verschiedene Strategien mit Ihrem Use Case.

Advanced Retrieval: Hybrid Search & Re-Ranking

Hybrid Search

Reines Vektor-Search hat Limits: Es findet semantisch ähnliche Texte, aber verpasst manchmal exakte Keywords.

  1. Dense Retrieval: Vektor-Suche (Embeddings)
  2. Sparse Retrieval: Keyword-Suche (BM25)
  3. Fusion: Kombiniere beide Ergebnisse

Effekt: +10-30% bessere Retrieval-Qualität bei spezifischen Fragen.

Re-Ranking

Vektor-Suche ist schnell, aber nicht perfekt. Re-Ranking bewertet die Top-K Ergebnisse nochmal.

  1. Vektor-Search liefert Top-100 Kandidaten (schnell)
  2. Cross-Encoder bewertet jeden mit Query (genau)
  3. Nehme nur Top-5 für LLM-Kontext

Effekt: +15-40% bessere Antwortqualität.

RAG Stack: Tools & Libraries

Frameworks

LangChain

Riesiges Ecosystem, viele Integrationen. Gut für Prototyping.

LlamaIndex

Speziell für RAG gebaut. Einfachere API, bessere Docs.

Haystack

Enterprise-ready, starke Search-Integration.

Vector Databases

Pinecone

Managed, einfaches Setup. Wahl für Schnellstart.

Weaviate

Open Source, Hybrid Search nativ. Wahl für Flexibilität.

Qdrant

Rust-basiert (schnell!), gute Filtering-Features.

Chroma

Embedded DB (kein Server nötig). Wahl für Prototyping.

Grenzen von RAG

  • Retrieval Quality: Garbage in, garbage out - schlechte Docs = schlechte Antworten
  • Context Window Limits: Sie können nur Top-K Docs übergeben (meist 5-10)
  • Latenz: Retrieval + Generation = langsamer als reines LLM
  • Kosten: Embeddings + Vector DB + LLM = teurer
  • Komplexität: Mehr Moving Parts = mehr kann kaputt gehen

Wann RAG NICHT nutzen: Bei sehr einfachen Tasks, wenn das LLM-Wissen ausreicht, oder wenn Sie mit Fine-Tuning bessere Ergebnisse erzielen.

Weiterführende Themen

RAG-Systeme in der Praxis implementieren?

Im 1:1 KI-Sparring entwickeln wir gemeinsam Ihre RAG-Architektur für Ihren spezifischen Use Case.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.