Lernen — Forward & Backpropagation · Neuronale Netze

Der Lernzyklus

Training eines neuronalen Netzes ist ein wiederholter Vier-Schritt-Tanz pro Trainingsbeispiel (oder Batch):

1. Vorwärts

Forward Pass

Input wandert durch alle Schichten. Jedes Neuron berechnet seine gewichtete Summe + Aktivierung. Am Ende fällt eine Vorhersage $\hat{y}$ heraus.

2. Bewerten

Loss berechnen

Vergleiche $\hat{y}$ mit dem echten Label $y$ über eine Loss-Funktion $\mathcal{L}$ . Der Loss ist eine einzige Zahl — die „Strafe” für diese Vorhersage.

3. Rückwärts

Backward Pass

Berechne $\partial \mathcal{L}/\partial w$ für jedes Gewicht im Netz — per Kettenregel rückwärts von der Output-Schicht zum Input.

4. Update

Gewichte anpassen

Jedes Gewicht wird in die Richtung verschoben, die den Loss reduziert. Wiederhole für viele Beispiele und Epochen.

Forward Propagation

Pro Neuron in einer Schicht: gewichtete Summe der Inputs, dann Aktivierung.

Schritt 1: Netto-Input

z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}

Die Matrix $W^{(l)}$ enthält die Gewichte zwischen Schicht $l-1$ und Schicht $l$ , $a^{(l-1)}$ ist die Aktivierung der vorigen Schicht.

Schritt 2: Aktivierung anwenden

a^{(l)} = f(z^{(l)})

Mit $f$ als Aktivierungsfunktion (Sigmoid, ReLU, Tanh — je nach Layer). Die Ausgabe $a^{(l)}$ wird zum Input der nächsten Schicht.

Schritt 3: Bis zum Output

Die finale Vorhersage ist die Aktivierung der letzten Schicht:

\hat{y} = a^{(L)}

Backpropagation

Sobald der Loss berechnet ist, muss das Netz wissen: „Welches Gewicht hat wie viel zum Fehler beigetragen?” Die Antwort liefert die Kettenregel der Differentialrechnung, rückwärts durchs Netz angewendet.

Beispiel-Loss

Mean Squared Error

\mathcal{L} = \frac{1}{2} (\hat{y} - y)^2

Für jeden Output-Neuron wird der Beitrag zum Loss berechnet — der Gradient $\partial \mathcal{L}/\partial \hat{y}$ ist der erste Schritt der Rückwärts-Reise.

Gewichts-Gradient via Kettenregel

\frac{\partial \mathcal{L}}{\partial w_{ij}^{(l)}} = \frac{\partial \mathcal{L}}{\partial a^{(l)}} \cdot \frac{\partial a^{(l)}}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial w_{ij}^{(l)}}

Jeder Term ist lokal berechenbar — die Magie ist, dass die Kettenregel die Gradienten effizient rückwärts durch alle Schichten propagiert.

Gradient Descent — Gewichte updaten

Mit dem Gradienten in der Hand: jedes Gewicht wird einen kleinen Schritt gegen die Steigung verschoben.

Die Update-Regel

w_{\text{neu}} = w_{\text{alt}} - \alpha \cdot \frac{\partial \mathcal{L}}{\partial w}

$\alpha$ ist die Lernrate — der wichtigste Hyperparameter. Zu groß: das Modell oszilliert. Zu klein: das Training dauert ewig.

Backpropagation ist nicht der eigentliche Lern-Algorithmus — sie ist nur die effiziente Gradienten-Berechnung. Den tatsächlichen Lern-Schritt macht der Optimizer (SGD, Adam, …), der den Gradienten in ein Gewichts-Update übersetzt.