SAFweb2-Release 2.1.17

Wie Funktioniert KI

Ein GPT‑Modell (Generative Pre‑trained Transformer) funktioniert im Wesentlichen in drei Phasen:


1. Vorverarbeitung & Tokenisierung

  • Eingabetext wird in Tokens zerlegt (Wörter, Wortteile oder Zeichen). (de.wikipedia.org, de.wikipedia.org)
  • Jedes Token wird in einen hochdimensionalen Embedding‑Vektor umgewandelt – eine Art Zahlencode, der Wortbedeutung und Kontext einfängt. (reddit.com)

2. Transformer‑Architektur: Self‑Attention & Feed‑Forward

  • Self‑Attention: Jeder Token‑Vektor vergleicht sich mit allen anderen Token‑Vektoren im Satz (über Query/Key/Value), um zu gewichten, welche Wörter wichtig sind. So versteht das Modell, wie Wörter miteinander zusammenhängen – auch bei weitem Abstand im Text. Das geschieht parallel in mehreren „Attention Heads“. (winder.ai)
  • Feed‑Forward‑Netzwerke: Jeder Vektor wird nochmals individuell durch dichte neuronale Netze geschickt, die in jeder Schicht lernen, komplexe Muster zu erkennen. (de.wikipedia.org)
  • Diese Prozesse wiederholen sich über viele Schichten – z. B. über Hunderte – um immer abstraktere Sprachverständnis‑Ebenen aufzubauen. 

3. Training: Vortrainieren + Feintuning (RLHF)

  • Unüberwachtes Vortraining: Das Modell erhält riesige Textmengen (z. B. Bücher, Wikipedia, Internet) und lernt, das nächste Token im Text vorherzusagen. Fehler werden per Backpropagation korrigiert. (techtarget.com)
  • Fine-Tuning: Anpassung an spezifische Aufgaben oder Dialog‑Daten, um z. B. Antworten in Chat‑Form zu produzieren.

  • RLHF (Reinforcement Learning from Human Feedback): Menschliche Rückmeldungen bewerten Modellantworten. Ein Reward‑Model lernt, was gute Antworten sind, und optimiert das GPT‑Modell über Algorithmen wie PPO. Das verbessert Qualität, Kohärenz und Sicherheit der Antworten. (de.wikipedia.org)

4. Generierung von Antworten

  • Der Nutzer‑Prompt wird zusammen mit dem bisherigen Kontext als Token‑Sequenz eingegeben.
  • GPT erzeugt fortlaufend Token für Token, wobei auf jeder Stufe das wahrscheinlichste nächste Token ausgewählt wird (mit etwas Variation für Kreativität).
  • Dieser Vorgang endet bei Erreichen eines Stop‑Tokens oder wenn genug Text generiert wurde. 

🔍 Wichtige Konzepte & Begriffe:

  • Parameters (Gewichte): Milliarden bis Billionen skalare Werte, die das Modell steuern – je mehr Parameter, desto leistungsfähiger das Modell. GPT‑3 hatte ~175 Mrd., GPT‑4 vermutlich ~1 Tsd Mrd. + 
  • Self‑Attention: Kernmechanismus, der Worte in Relation setzt.
  • Embeddings: Numerische Repräsentationen von Tokens.
  • Feed‑Forward Layers: Tiefe neuronale Netze für Kontextverarbeitung.
  • RLHF: Feinschliff durch menschliches Feedback.
  • Halluzination: Plausibel klingende, aber falsche Antworten – ein bekanntes Problem statistischer Modelle, da sie Wahrscheinlichkeiten maximieren, nicht Fakten prüfen. (wired.com, jeffreyianwilson.com, winder.ai)

✅ Fazit:

GPT‑Modelle funktionieren wie extrem leistungsfähige, kontext‑sensitive Autovervollständiger:

  • Sie lernen aus riesigen Text‑Datensätzen Patterns und Wortverbindungen.
  • Die Transformer‑Architektur (insbesondere Self‑Attention) erlaubt tiefes Verständnis von Kontext.
  • Das Training mit menschlichem Feedback stellt sicher, dass die Antworten möglichst nützlich, relevant und „menschlich“ wirken.