🧠 Neuronale Netze

Aktivierungsfunktionen

Warum Netze ohne Nicht-Linearität nur lineare Modelle bleiben — und welche Funktionen sich durchgesetzt haben.

Warum brauchen wir Nicht-Linearität?

Ohne Aktivierungsfunktion ist jedes Netz, egal wie tief, mathematisch äquivalent zu einem einzelnen linearen Layer. Die Verkettung linearer Funktionen ist wieder linear:

Lineare Verkettung kollabiert

f(x) = W_2 (W_1 x + b_1) + b_2 = (W_2 W_1) x + (W_2 b_1 + b_2)

Zwei lineare Layer = ein einzelnes lineares Layer mit $W = W_2 W_1$ . Erst eine nichtlineare Aktivierung zwischen den Layern macht das Netz ausdrucksstärker.

Die drei Klassiker

Sanft, beschränkt

Sigmoid

\sigma(z) = \frac{1}{1 + e^{-z}}

Output-Range: $(0, 1)$ . Klassisch für Wahrscheinlichkeiten am Output. In Hidden Layers heute selten — Vanishing-Gradient-Problem bei großen $|z|$ .

Sanft, zentriert

Tanh

\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}

Output-Range: $(-1, 1)$ . Bessere Gradient-Eigenschaften als Sigmoid in Hidden Layers — hat aber für tiefe Netze auch ihre Grenzen.

Hart, schnell

ReLU

\text{ReLU}(z) = \max(0, z)

Output-Range: $[0, \infty)$ . De-facto-Standard in modernen Deep-Learning-Architekturen. Schnell zu berechnen, leidet aber unter „Dying ReLUs”.

Visueller Vergleich

Drei Kurven, gleicher Input-Bereich

x-Achse: $z$ von −5 bis +5

SigmoidTanhReLU

Faustregel: Im Output-Layer bestimmt die Aufgabe die Funktion (Sigmoid für binär, Softmax für Multi-Klasse, linear für Regression). In Hidden Layers ist ReLU fast immer der erste Versuch.