Glossar

KI-Sprache. Kurz erklärt.

Über hundert Begriffe, die in KI-Gesprächen fallen — ohne Jargon erklärt. Für Entscheider, die mitreden wollen, ohne Entwickler werden zu müssen.

Bibliothek — Hintergrund für das Glossar

Accuracy: Anteil korrekter Antworten auf einem Testdatensatz. Schneller Gradmesser — aber blind für Nuancen, Kontext und seltene Fehler.
Adversarial Attack: Gezielt manipulierte Eingabe, die ein Modell in die Irre führt — etwa ein Prompt, der Sicherheitsregeln umgeht, oder ein Bild, das einen Klassifikator täuscht.
Agent: Ein KI-System, das mehrere Schritte selbst entscheidet, Tools benutzt und Zwischenergebnisse bewertet — statt nur einmal zu antworten.
AGI: Artificial General Intelligence. Hypothetische KI, die jede geistige Aufgabe so gut wie ein Mensch löst. Existiert nicht — Zieldebatte, nicht Produkt.
Algorithmus: Eine Folge von Schritten, die ein Computer abarbeitet, um aus einer Eingabe ein Ergebnis zu erzeugen — der Begriff geht auf al-Chwarizmi im 9. Jahrhundert zurück. Bei klassischer Software vom Menschen vorgeschrieben und nachvollziehbar; bei KI-Modellen aus Daten gelernt und genau deshalb oft schwer zu durchschauen.
Alignment: Die Anstrengung, ein Modell so zu trainieren, dass es menschlichen Absichten und Werten folgt — nicht nur dem Wortlaut des Prompts.
API: Application Programming Interface. Die Schnittstelle, über die ein Programm ein KI-Modell anspricht. Bepreist meist pro Token.
Attention: Mechanismus, der Modelle dazu bringt, beim Generieren auf die relevanten Teile des Inputs zu achten. Kern jeder Transformer-Architektur.
AutoML: Automatisiertes Trainieren und Optimieren von Modellen. Senkt die Einstiegshürde, ersetzt aber kein Domänenverständnis.
Backpropagation: Das Standardverfahren, mit dem neuronale Netze lernen: Fehler am Ausgang werden durch das Netz zurück propagiert, Gewichte angepasst.
Batch: Eine Gruppe von Trainingsbeispielen, die gemeinsam durch das Modell geschickt werden. Batch-Größe beeinflusst Lernqualität und Speicherbedarf.
Benchmark: Standardisierter Test, mit dem Modelle verglichen werden — MMLU, HELM, HumanEval. Nützlich als Richtwert, kein Proxy für Alltagsnutzen.
Bias: Systematische Verzerrung in Modellen — entstanden durch unausgewogene Trainingsdaten. Kein Bug, sondern ein Abbild der Welt, aus der die Daten kommen.
Black Box: Modelle, deren innere Entscheidungslogik nicht direkt einsehbar ist. Kernproblem von Explainability und Governance.
Chain-of-Thought: Eine Technik, bei der das Modell sein Denken „laut" in Zwischenschritten ausspricht, bevor es antwortet. Oft genauer — aber langsamer und teurer.
ChatGPT: Der Chat-Assistent von OpenAI, der 2022 den öffentlichen KI-Durchbruch auslöste. Heute Synonym für Konversations-KI — obwohl nur eines von vielen Produkten.
Claude: Die Modellfamilie von Anthropic. Bekannt für lange Kontextfenster und konsequente Sicherheits-Trainingsmethodik (Constitutional AI).
Constitutional AI: Trainings-Ansatz von Anthropic: Das Modell bekommt eine „Verfassung" aus Prinzipien und lernt, sich anhand dieser Prinzipien selbst zu kritisieren.
Context Engineering: Die bewusste Gestaltung von Kontext — welche Rolle, welche Regeln, welche Daten das Modell bekommt. Oft wichtiger als das Modell selbst.
Context Window: Die maximale Textmenge, die ein Modell gleichzeitig „im Kopf" hat. Wird sie überschritten, werden ältere Inhalte vergessen.
Copilot: KI-Assistent, der Fachkräfte beim Arbeiten im Hintergrund unterstützt — Code, Text, E-Mails. Ergänzt, ersetzt nicht.
Copyright: Ungelöster Streit: Wer besitzt die Rechte an KI-generiertem Output? Und: Darf ein Modell auf urheberrechtlich geschützten Daten trainieren? Rechtslage in Bewegung.
Corpus: Die Gesamtheit der Texte, auf denen ein Modell trainiert wurde. Qualität und Vielfalt des Korpus prägen, was das Modell kann — und woher es voreingenommen ist.
Data Governance: Wie ein Unternehmen sicherstellt, dass Daten korrekt, sicher und regelkonform behandelt werden — Rollen, Prozesse, Verantwortlichkeiten plus die Erfüllung von Regularien wie DSGVO oder Sarbanes-Oxley. Bei KI-Projekten oft das, was vorher hätte geklärt sein müssen.
Data Labeling: Das manuelle Annotieren von Trainingsdaten — Bilder beschriften, Texte kategorisieren, Fehler markieren. Zeit- und kostenintensiv, aber entscheidend für Qualität.
Dataset: Ein strukturierter Datensatz, auf dem ein Modell trainiert, evaluiert oder verfeinert wird. Qualität und Repräsentativität sind Erfolgsvoraussetzungen.
Dataset Shift: Modelle werden auf bestimmten Daten trainiert; die Realität in Produktion verschiebt sich aber mit der Zeit — Kundenverhalten ändert sich saisonal, neue Begriffe tauchen auf, Märkte drehen. Vorhersagen werden dann schleichend ungenauer, oft ohne dass jemand es bemerkt. Auch Modelle altern.
Deep Learning: Teilgebiet des maschinellen Lernens mit tiefen neuronalen Netzen — viele Schichten, Millionen bis Milliarden Parameter. Basis aller modernen KI-Durchbrüche.
Diffusion Model: Modell-Typ, der Bilder durch schrittweises „Entrauschen" erzeugt. Technik hinter Midjourney, Stable Diffusion, DALL-E.
Distillation: Ein kleines Modell lernt vom großen — Lehrer-Schüler-Prinzip. Ergebnis: vergleichbare Qualität bei deutlich geringerer Rechenlast.
Embedding: Eine numerische Darstellung von Text, die Bedeutung kodiert. Grundlage für Suche, RAG und Ähnlichkeitsvergleich.
Encoder: Die Eingangsseite eines Modells, die Text in Vektoren übersetzt. Gegenstück: Decoder. Viele moderne Modelle verwenden beides.
Epoch: Ein vollständiger Durchlauf des Trainingsdatensatzes durch das Modell. Mehrere Epochen sind nötig, zu viele führen zu Overfitting.
EU AI Act: EU-Verordnung, die KI-Systeme nach Risikoklassen reguliert — Verbote, Auflagen, Transparenzpflichten. Seit 2024 schrittweise in Kraft.
Evaluation: Die systematische Prüfung, ob ein Modell das tut, was es soll — mit Benchmarks, menschlichen Bewertungen oder A/B-Tests in der Praxis.
Explainability: Die Eigenschaft eines Modells, seine Entscheidungen nachvollziehbar zu machen. Kritisch in regulierten Bereichen (Medizin, Finanz, Recht).
Feature Engineering: Rohdaten so aufbereiten, dass ein Modell die für die Aufgabe relevanten Signale tatsächlich sieht. Im klassischen Machine Learning ein zeitaufwendiger, von Domänenwissen getragener Prozess — bei Deep-Learning- und LLM-Modellen weitgehend automatisch, aber sorgfältige Datenvorbereitung bleibt Pflicht.
Federated Learning: Statt alle Daten an einem zentralen Ort zu sammeln, trainieren mehrere lokale Knoten — Smartphones, Spital-Server, Bankrechner — das Modell auf ihren eigenen Daten. Nur die gelernten Modell-Parameter wandern zentral, die Daten selbst bleiben, wo sie sind. Wichtig dort, wo Daten aus Datenschutz-, Vertrauens- oder Compliance-Gründen den lokalen Kontext nicht verlassen dürfen.
Few-Shot Prompting: Dem Modell zwei bis fünf Beispiele mitgeben, bevor es die Aufgabe löst. Oft genauer als Zero-Shot, aber teurer im Token-Verbrauch.
Fine-Tuning: Ein Modell mit eigenen Daten nachtrainieren. Mächtig, aber aufwändig — meist reicht RAG oder besseres Prompting.
Foundation Model: Ein großes, allgemein trainiertes Basismodell, das als Ausgangspunkt für viele Anwendungen dient — GPT, Claude, Llama. Breit statt spezialisiert.
Function Calling: Ein Modell entscheidet, welche externe Funktion (Tool, API, Datenbank) es aufrufen soll, um eine Aufgabe zu erfüllen — statt sie erfinden zu müssen.
Gemini: Die multimodale Modellfamilie von Google. Stark integriert in Google-Produkte (Workspace, Search, Android).
Generative AI: Überbegriff für KI-Systeme, die neue Inhalte erzeugen — Text, Bild, Audio, Video, Code. Im Gegensatz zu reinen Klassifikations- oder Prognose-Modellen.
GPT: Generative Pre-trained Transformer. Ursprünglich Modellname von OpenAI, heute Gattungsbegriff für Textgenerierungs-Modelle auf Transformer-Basis.
GPU: Graphics Processing Unit. Hardware für parallele Rechenaufgaben — Engine des KI-Trainings. Nvidia dominiert den Markt.
Gradient Descent: Das Optimierungsverfahren, mit dem Modelle lernen: Fehler minimieren, indem Parameter Schritt für Schritt in Richtung kleineren Fehlers angepasst werden.
Guardrails: Regeln und Filter, die verhindern, dass ein Modell unerwünschte Ausgaben produziert — Toxizität, Halluzinationen, vertrauliche Daten.
Hackathon: Wortschöpfung aus „Hack" und „Marathon", ursprünglich aus der Software-Entwicklung. Ein zeitlich eng begrenzter Arbeitssprint — meist 24 bis 72 Stunden — in dem Teams unter Zeitdruck an einem konkreten Problem arbeiten und am Ende etwas Greifbares präsentieren: Prototyp, Konzept, Lösung. Heute eingesetzt als Innovations-Format in Unternehmen, als Community-Event oder als Team-Building-Instrument.
Halluzination: Wenn ein Modell etwas selbstbewusst behauptet, das nicht stimmt. Kein Bug, sondern Nebenwirkung statistischer Sprache.
Human-in-the-Loop: Design-Prinzip: ein Mensch prüft, korrigiert oder bestätigt die KI-Ausgabe, bevor sie wirksam wird. Standard in kritischen Anwendungen.
Hyperparameter: Trainings-Einstellungen, die nicht aus den Daten gelernt, sondern vorher festgelegt werden — Lernrate, Batch-Größe, Schichtanzahl. Beeinflussen das Ergebnis stark.
Inference: Die Anwendung eines trainierten Modells: Input rein, Output raus. Im Gegensatz zum Training rechenökonomisch — in Summe aber teuer bei hohem Traffic.
In-Context Learning: Die Fähigkeit eines Modells, aus Beispielen im Prompt zu lernen — ohne Nachtraining. Grundlage aller Few-Shot-Techniken.
Jailbreak: Prompt-Technik, die Sicherheitsleitplanken eines Modells umgeht, um verbotene Ausgaben zu erzeugen. Wettrüsten zwischen Angreifern und Modellbetreibern.
Knowledge Graph: Strukturierte Darstellung von Wissen als Knoten und Kanten (Entität — Beziehung — Entität). Grundlage semantischer Suche und erklärbarer KI-Systeme.
Latency: Zeit zwischen Anfrage und erster Antwort eines Modells. Entscheidend für interaktive Anwendungen — zu hoch, bricht die User-Experience.
Llama: Die Open-Weights-Modellfamilie von Meta. Kostenlos nutzbar, populär für selbst gehostete KI-Anwendungen im Unternehmen.
LLM: Large Language Model. Ein auf riesigen Textmengen trainiertes neuronales Netz, das Sprache vorhersagt — GPT, Claude, Gemini.
LoRA: Low-Rank Adaptation. Fine-Tuning-Methode, die nur kleine Zusatzgewichte trainiert — ressourcenschonend und kombinierbar.
Machine Learning: Oberbegriff: Systeme, die aus Daten lernen, statt explizit programmiert zu werden. KI heute ist fast immer Machine Learning.
MCP: Model Context Protocol. Offener Standard, mit dem KI-Systeme auf externe Werkzeuge, Daten und Dienste zugreifen — unabhängig vom Modell-Anbieter.
Memory: Die Fähigkeit eines KI-Systems, Informationen über einen einzelnen Dialog hinaus zu speichern. Grundlage personalisierter Assistenten — und Governance-Risiko.
Mistral: Die französische Modellfamilie von Mistral AI. Mischung aus Open-Weights- und proprietären Modellen, europäisch verortet.
MLOps: Operative Disziplin für den Betrieb von KI-Modellen: Deployment, Monitoring, Versionierung, Rollback. Pendant zu DevOps im Software-Bereich.
Model Card: Datenblatt für ein KI-Modell: Fähigkeiten, Grenzen, Trainingsdaten, bekannte Risiken. Transparenz-Instrument — gesetzlich gefordert durch EU AI Act.
Model Collapse: Qualitätsverfall, wenn Modelle überwiegend mit KI-generierten Daten weitertrainiert werden — jedes Mal rutscht die Verteilung ein Stück weiter von der Realität weg.
MoE: Mixture of Experts. Modellarchitektur, bei der pro Anfrage nur ein Teil des Netzes aktiv ist. Ermöglicht sehr große Modelle ohne proportional steigenden Rechenaufwand.
Multi-Agent: Mehrere KI-Agenten arbeiten zusammen oder im Gegensatz — Diskussion, Rollen-Aufteilung, Prüf-Instanzen. Erhöht Qualität, aber auch Kosten und Komplexität.
Multimodal: Ein Modell, das nicht nur Text, sondern auch Bilder, Audio oder Video verarbeitet — innerhalb einer Konversation.
Neural Network: Mathematisches Modell, das lose vom Nervensystem inspiriert ist — Schichten aus miteinander verbundenen „Neuronen", die lernen, Muster zu erkennen.
One-Shot Prompting: Dem Modell genau ein Beispiel geben, bevor es die Aufgabe löst. Mittelweg zwischen Zero-Shot und Few-Shot.
Open Source: Modell, dessen Gewichte (und oft auch Trainings-Code) öffentlich verfügbar sind — Llama, Mistral. Ermöglicht Self-Hosting, Prüfung und Anpassung.
Orchestration: Die Koordination mehrerer KI-Komponenten in einem Ablauf — welches Modell wann, mit welchem Kontext, gefolgt von welcher Aktion. Kern moderner KI-Anwendungen.
Overfitting: Ein Modell lernt die Trainingsdaten zu gut — reproduziert sie exakt, versagt aber bei Neuem. Zeichen mangelnder Generalisierung.
Parameter: Die lernbaren Gewichte eines Modells. Mehr Parameter = mehr Kapazität, aber auch mehr Rechenaufwand. Moderne Modelle: Milliarden bis Billionen Parameter.
PEFT: Parameter-Efficient Fine-Tuning. Oberbegriff für Verfahren, die Modelle mit minimalem Ressourcenaufwand anpassen — LoRA, Adapter, Prompt-Tuning.
Perplexity: Maß dafür, wie sehr ein Modell von den tatsächlichen Daten „überrascht" ist. Niedrig = gut vorhergesagt. Klassischer Benchmark-Wert für Sprachmodelle.
PII: Personally Identifiable Information. Daten, die eine Person identifizierbar machen — Name, E-Mail, IP. KI-Systeme müssen mit PII besonders vorsichtig umgehen.
Positional Encoding: Technik, die Transformer-Modellen die Reihenfolge der Tokens mitgibt — ohne sie wüsste das Modell nicht, welches Wort zuerst kommt.
Pre-training: Die erste Trainings-Phase eines Modells auf riesigen, allgemeinen Datensätzen. Schafft das Grundverständnis — teuer, selten selbst gemacht, meist von Foundation-Model-Anbietern.
Prompt: Die Anweisung an ein KI-Modell. Qualität des Prompts entscheidet über Qualität der Antwort — oft mehr als das Modell selbst.
Prompt Engineering: Die Disziplin, einem Modell so klare und strukturierte Anweisungen zu geben, dass verlässliche Ergebnisse entstehen. Eigenes Handwerk — näher an Redaktion als an Entwicklung.
Prompt Injection: Eine manipulierte Eingabe, die die ursprünglichen Anweisungen eines Modells überschreibt — oft durch versteckte Texte in Dokumenten oder Webseiten. Hauptangriffsvektor für Agenten.
Quantization: Verdichtung der Modellgewichte auf weniger Bits (z. B. 4-bit statt 16-bit). Macht Modelle kleiner und schneller — mit leichten Qualitätseinbußen.
RAG: Retrieval-Augmented Generation. Das Modell sucht bei jeder Frage erst in Ihren Dokumenten, dann antwortet es. Reduziert Halluzinationen massiv.
Reasoning Model: Ein Modell, das auf mehrstufiges Überlegen optimiert ist — verbringt Rechenzeit auf Zwischenschritten, bevor es antwortet. Gut bei Mathematik, Logik, Code.
Red Teaming: Systematisches Angreifen eines Modells durch ein dediziertes Team — um Schwachstellen vor dem Live-Gang zu finden. Pflicht für risikoreiche KI-Systeme.
Reinforcement Learning: Lernen durch Belohnung und Bestrafung — ein Modell probiert, bekommt Feedback, verbessert sich. Basis von RLHF und Agenten-Training.
Responsible AI: Der Anspruch an KI-Systeme, mehr zu sein als nur funktionstüchtig: dass ihre Entscheidungen nachvollziehbar bleiben, dass Bias getestet wird, dass am Ende jemand haftet. Konkret heißt das Audit-Pfade, Erklärbarkeits-Standards, Datenschutz-Mechanik. Wichtig vor allem dort, wo viel auf dem Spiel steht — Medizin, Personalauswahl, Justiz, Kreditentscheidungen.
Retrieval: Das Finden relevanter Informationen in einer Datenquelle — klassisch per Stichwort, heute per Embedding. Kern jeder RAG-Anwendung.
RLHF: Reinforcement Learning from Human Feedback. Menschen bewerten Modellantworten, das Modell lernt daraus. Die Methode, die ChatGPT hilfreich wirken lässt.
Role Prompting: Dem Modell eine Rolle zuweisen („Du bist ein erfahrener Jurist …") — um Ton, Fokus und Annahmen zu steuern. Einfachster Hebel für bessere Ergebnisse.
Sampling: Der Prozess, wie ein Modell aus den möglichen nächsten Tokens auswählt. Gesteuert durch Temperature, Top-k und Top-p.
Scaling Laws: Empirische Gesetze, die zeigen, wie Modellleistung mit Größe, Daten und Rechenbudget zusammenhängt. Grundlage der Entscheidung, größer zu trainieren.
Semantic Search: Suche nach Bedeutung statt nach Wortlaut. Nutzt Embeddings, um ähnliche Inhalte zu finden — auch wenn die Begriffe nicht exakt übereinstimmen.
Self-Supervised Learning: Lernverfahren, das sich seine Labels aus den Daten selbst erzeugt — zum Beispiel ein Wort verstecken und vom Modell vorhersagen lassen. Basis allen LLM-Vortrainings.
Stop Sequence: Eine festgelegte Zeichenfolge, bei deren Erscheinen das Modell zu generieren aufhört. Technische Kontrolle über Ausgabelänge und Format.
Supervised Learning: Lernen mit gelabelten Beispielen: Für jeden Input kennt das Modell die gewünschte Ausgabe während des Trainings.
Sycophancy: Die Tendenz eines Modells, dem Nutzer nach dem Mund zu reden — Positionen zu bestätigen, statt sie zu hinterfragen. Bekannte Nebenwirkung von RLHF: freundlich bewertete Antworten werden als „richtig" gelernt.
Synthetic Data: Künstlich erzeugte Trainingsdaten — oft von anderen Modellen generiert. Nützlich bei Datenknappheit, riskant bei Modellkollaps.
System Prompt: Die unsichtbare Dauer-Anweisung, die das Verhalten des Modells in einer Anwendung festlegt — Ton, Regeln, Grenzen.
Temperature: Regler für Kreativität. 0 = deterministisch, wiederholbar. 1+ = experimentell, variabel. Für Fakten niedrig, für Ideen hoch.
Token: Die kleinste Einheit, in die Modelle Text zerlegen — oft ein Wortteil. Bepreisung und Context Window werden in Tokens gemessen.
Tokenizer: Algorithmus, der Rohtext in Tokens zerlegt. Wie er schneidet, bestimmt, wie viel Text in ein Context Window passt — und wie teuer Anfragen werden.
Tool Use: Die Fähigkeit eines Modells, externe Werkzeuge zu bedienen — Rechner, Datenbank, Suche, API. Verwandelt ein Modell in einen handlungsfähigen Agenten.
Top-k / Top-p: Zwei Regler für die Vielfalt beim Generieren. Top-k: wähle nur aus den k wahrscheinlichsten Tokens. Top-p: wähle nur aus Tokens, deren kumulierte Wahrscheinlichkeit p übersteigt.
Training: Der Prozess, durch den ein Modell aus Daten lernt — Gewichte werden angepasst, bis Fehler minimiert sind. Rechenintensivste Phase im Lebenszyklus.
Training Data: Der Datensatz, mit dem ein Modell lernt. Grenze des Modells: es kann nur wiedergeben, was in den Daten (und deren Transformation) vorkam.
Transfer Learning: Ein vortrainiertes Modell für eine neue Aufgabe anpassen — statt bei Null anzufangen. Standardvorgehen in moderner KI-Entwicklung.
Transformer: Die Architektur hinter nahezu allen heutigen LLMs. 2017 von Google vorgestellt. Zentral: der Attention-Mechanismus, der Kontext-Bezüge berechnet.
Underfitting: Ein Modell hat zu wenig gelernt, um die Daten zu erklären — unterdurchschnittliche Leistung auf Training und Test. Zeichen von zu geringer Kapazität oder zu kurzem Training.
Unsupervised Learning: Lernen ohne Labels: Das Modell sucht selbst Strukturen in den Daten. Grundlage von Pre-Training und Clustering.
Validation Set: Ein abgetrennter Teil des Datensatzes, mit dem das Training überwacht wird, ohne die Testdaten zu „verbrennen". Wichtig gegen Overfitting.
Vector: Eine Liste von Zahlen, die in der KI Bedeutung kodiert. Embeddings sind Vektoren — in hochdimensionalen Räumen bedeutet Nachbarschaft Ähnlichkeit.
Vector Database: Datenbank, die Embeddings speichert und schnelle Ähnlichkeitssuche darüber erlaubt — Pinecone, Weaviate, pgvector. Infrastruktur-Rückgrat von RAG-Systemen.
Weights: Die Zahlenwerte, die während des Trainings angepasst werden und das Wissen des Modells kodieren. Ein Modell herausgeben heißt: seine Weights teilen.
Workflow Automation: Geschäftsprozesse durch KI-Komponenten orchestrieren — E-Mails triagen, Reports erstellen, Entscheidungen vorbereiten. Meist höherer ROI als einzelne Chat-Anfragen.
Zero-Shot: Eine Aufgabe lösen, ohne dem Modell Beispiele zu zeigen. Schnell, aber anfälliger für Fehler als Few-Shot.

Und jetzt?

KontextDenkwerkstattWie die Begriffe sich in der Praxis verhalten — sechs Artikel zu Architekten-Illusion, Halluzination, Souveränität.Zur Denkwerkstatt →AnwendenIm Sparring klärenBegriffe verstehen ist leichter als sie anzuwenden. Wenn es konkret werden soll: Termin vorschlagen.Sparring →