Modul 2 · KI verstehen
Vom einzelnen Neuron bis zum Sprachmodell — technisch, aber zugänglich.
Pfeiltasten oder Buttons zum Navigieren · ESC für Kursübersicht
Eine Frage
Genauer gesagt: Es berechnet, welches Wort als nächstes am wahrscheinlichsten kommt — Milliarden Mal, in Millisekunden. Das klingt simpel. Aber wie entsteht daraus etwas, das Gedichte schreibt, Code debuggt und philosophische Fragen beantwortet?
Teil 1 von 5
Von der biologischen Nervenzelle zum künstlichen neuronalen Netz — wie das Vorbild in Mathematik übersetzt wurde.
Einstieg
KI ist ein sehr guter Mustererkenner und Musterfortsetzer — aufgebaut aus Millionen von Parametern, trainiert auf riesigen Datensätzen.
Grundlagen
Ein Neuron empfängt Signale über Dendriten, summiert sie, und feuert einen Output über das Axon — aber nur wenn eine Schwelle überschritten wird.
86 Milliarden solcher Neuronen im Gehirn — je bis zu 10.000 Verbindungen
Grundlagen
Jeder Input x bekommt ein Gewicht w. Das Neuron summiert alle gewichteten Inputs, addiert einen Bias, und schickt das Ergebnis durch eine Aktivierungsfunktion.
Gewichte bestimmen wie wichtig ein Input ist. Das Lernen = die Gewichte so anpassen, dass die Ausgabe stimmt.
Ohne Aktivierungsfunktion wäre das Netz nur eine lineare Gleichung — egal wie viele Schichten. Aktivierungen ermöglichen Nichtlinearität.
Grundlagen
Kein Mensch hat diese Muster programmiert — das Netz findet sie selbst durch Training auf Daten.
Training
Stelle dir einen Ball der einen Hügel hinunterrollt — immer in Richtung des steilsten Gefälles. Gradient Descent rollt die Gewichte in Richtung des kleinsten Fehlers.
GPT-4 wurde auf ~13 Billionen Tokens trainiert. Jedes Token = ein Backpropagation-Schritt.
Teil 2 von 5
Training, Fehler, Gradient Descent — wie ein Netz durch Milliarden von Korrekturen immer besser wird.
Schlüsselkonzept
Der Fehler sinkt mit jedem Trainingsschritt
Das Netz macht eine Vorhersage → misst seinen Fehler → passt alle Gewichte minimal an, um den Fehler zu verringern.
GPT-4 wurde auf ~13 Billionen Tokens trainiert. Das bedeutet: 13 Billionen solcher Korrekturen — jede winzig, zusammen: ein Sprachmodell.
Deep Learning
Kann einfache Muster lernen. Scheitert an komplexen Zusammenhängen. Braucht riesige Breite.
Lernt Hierarchien von Merkmalen. Jede Schicht baut auf der vorherigen auf. Effizienter bei gleicher Leistung.
2012: AlexNet gewinnt ImageNet mit 8 Schichten. Davor undenkbar. Tiefe + Daten + GPU = Revolution.
Deep Learning ist nicht neu (Ideen aus den 80ern) — aber erst mit genug Daten und Rechenleistung entfaltete es seine Stärke.
Teil 3 von 5
Wie Computer lernen, Bilder zu verstehen — und warum die Lösung aussieht wie der visuelle Kortex.
Spezialarchitekturen
Standard-Netze behandeln jeden Pixel unabhängig. CNNs schauen auf kleine Ausschnitte und suchen nach lokalen Mustern — egal wo im Bild.
Teil 4 von 5
Transformer, Attention, Token-Vorhersage — wie Sprachmodelle Sprache verarbeiten und wie ChatGPT aus GPT wird.
Das Problem
Ältere Ansätze (RNNs) verarbeiteten Text sequenziell — Wort für Wort. Problem: Bei langen Texten vergessen sie den Anfang.
„Der Mann, der gestern mit meiner Schwester, die übrigens seit Jahren in Berlin lebt, gesprochen hat, war müde."
Das Netz muss wissen: „war" bezieht sich auf „Mann" — nicht auf „Schwester" oder „Berlin".
Statt sequenziell — alle Wörter gleichzeitig betrachten und gezielt "aufmerksam" sein.
Transformer
Für jedes Wort: Auf welche anderen Wörter soll ich achten? Das Ergebnis ist ein Gewicht für jede Wort-Wort-Beziehung.
„war" → schaut hauptsächlich auf „Mann" (0.72)
Jedes Wort erzeugt drei Vektoren:
Query — „Wonach suche ich?"
Key — „Was biete ich an?"
Value — „Was ist mein Inhalt?"
Transformer
Text wird in Tokens zerlegt (Wörter, Wortteile). Jeder Token bekommt einen Zahlenvektor (Embedding).
Jeder Token schaut auf alle anderen — mit mehreren parallelen "Köpfen" (Multi-Head Attention). Kontext entsteht.
Ergebnis durch ein kleines neuronales Netz, dann normalisiert. Das Ganze wiederholt sich N-mal (GPT-4: ~96 Schichten).
Das Entscheidende: Alles passiert parallel, nicht sequenziell. Das macht Transformer schnell trainierbar — und skalierbar auf Millionen von GPU-Stunden.
Sprachmodelle
Ein Sprachmodell wurde trainiert eine einzige Aufgabe zu lösen:
Sage vorher: Was kommt als nächstes?
Input: „Die Hauptstadt von Deutschland ist"
Output-Wahrscheinlichkeiten: „Berlin" 94%, „München" 3%, „Hamburg" 2%, ...
Das Modell wählt ein Token, fügt es an, und wiederholt — Token für Token, bis der Text fertig ist.
Steuert wie "kreativ" das Sampling ist. Niedrig = deterministisch. Hoch = überraschend (manchmal zu überraschend).
Umstrittene Frage. Das Modell hat keine Absichten — aber die Muster die es gelernt hat, sind nicht trivial.
Von GPT zu ChatGPT
Ein Sprachmodell direkt nach dem Training ist kein guter Assistent. Es setzt Muster fort — auch unangenehme. Ein zweiter Trainingsschritt ändert das:
Ouyang et al. (2022) „Training language models to follow instructions", OpenAI
Warum Claude höflich ist, Grenzen hat und keine Hassrede produziert — nicht weil es das "versteht", sondern weil dieses Verhalten beim Training belohnt wurde.
Teil 5 von 5
Was passiert wenn Modelle wachsen — und wo auch die größten Systeme an strukturelle Wände stoßen.
Warum immer größer?
Mehr Parameter + mehr Daten + mehr Rechenleistung = vorhersagbar bessere Modelle. Das ist empirisch robust — und überraschend gleichmäßig.
GPT-2 (2019): 1.5B Parameter
GPT-3 (2020): 175B Parameter
GPT-4 (2023): ~1.8T Parameter (geschätzt)
Claude 3 Opus: ähnliche Größenordnung
Ab bestimmten Größen tauchen Fähigkeiten auf die man nicht explizit trainiert hat: Mehrsprachigkeit, Analogieschlüsse, einfaches Schlussfolgern.
Niemand hat verstanden warum genau bestimmte Fähigkeiten bei bestimmten Schwellen entstehen. Das ist aktive Forschungsfrage.
Grenzen
Diese Grenzen sind kein Bug — sie sind aus der Architektur ableitbar. Wer KI nutzt sollte wissen wo das System strukturell schwach ist.
KI als Werkzeug, nicht als Autorität. Outputs prüfen. Kritisch bleiben. Das ist keine Vorsicht — das ist technisches Verständnis.
So what?
Wer versteht wie ein Sprachmodell „denkt", schreibt bessere Prompts und erkennt wann das Modell halluziniert.
Hype von Substanz trennen. Medienberichte über „KI die fühlt" richtig einordnen. Nicht überängstlich, nicht blauäugig.
Als Gesellschaft, als Organisation, als Individuum: Wer versteht was KI kann und was nicht, entscheidet informierter.
KI-Kompetenz ist keine Nischen-Fähigkeit mehr. Es ist das neue Grundwissen — wie Lesen und Schreiben für das digitale Zeitalter.
Modul 2 abgeschlossen