Lernen — Forward & Backpropagation
Wie ein neuronales Netz aus Fehlern lernt — vorwärts rechnen, rückwärts korrigieren.
Der Lernzyklus
Training eines neuronalen Netzes ist ein wiederholter Vier-Schritt-Tanz pro Trainingsbeispiel (oder Batch):
Forward Pass
Input wandert durch alle Schichten. Jedes Neuron berechnet seine gewichtete Summe + Aktivierung. Am Ende fällt eine Vorhersage heraus.
Loss berechnen
Vergleiche mit dem echten Label über eine Loss-Funktion . Der Loss ist eine einzige Zahl — die „Strafe” für diese Vorhersage.
Backward Pass
Berechne für jedes Gewicht im Netz — per Kettenregel rückwärts von der Output-Schicht zum Input.
Gewichte anpassen
Jedes Gewicht wird in die Richtung verschoben, die den Loss reduziert. Wiederhole für viele Beispiele und Epochen.
Forward Propagation
Pro Neuron in einer Schicht: gewichtete Summe der Inputs, dann Aktivierung.
Schritt 1: Netto-Input
Die Matrix enthält die Gewichte zwischen Schicht und Schicht , ist die Aktivierung der vorigen Schicht.
Schritt 2: Aktivierung anwenden
Mit als Aktivierungsfunktion (Sigmoid, ReLU, Tanh — je nach Layer). Die Ausgabe wird zum Input der nächsten Schicht.
Schritt 3: Bis zum Output
Die finale Vorhersage ist die Aktivierung der letzten Schicht:
Backpropagation
Sobald der Loss berechnet ist, muss das Netz wissen: „Welches Gewicht hat wie viel zum Fehler beigetragen?” Die Antwort liefert die Kettenregel der Differentialrechnung, rückwärts durchs Netz angewendet.
Mean Squared Error
Für jeden Output-Neuron wird der Beitrag zum Loss berechnet — der Gradient ist der erste Schritt der Rückwärts-Reise.
Gewichts-Gradient via Kettenregel
Jeder Term ist lokal berechenbar — die Magie ist, dass die Kettenregel die Gradienten effizient rückwärts durch alle Schichten propagiert.
Gradient Descent — Gewichte updaten
Mit dem Gradienten in der Hand: jedes Gewicht wird einen kleinen Schritt gegen die Steigung verschoben.
Die Update-Regel
ist die Lernrate — der wichtigste Hyperparameter. Zu groß: das Modell oszilliert. Zu klein: das Training dauert ewig.
Backpropagation ist nicht der eigentliche Lern-Algorithmus — sie ist nur die effiziente Gradienten-Berechnung. Den tatsächlichen Lern-Schritt macht der Optimizer (SGD, Adam, …), der den Gradienten in ein Gewichts-Update übersetzt.