🧠 Neuronale Netze

Aktivierungsfunktionen

Warum Netze ohne Nicht-Linearität nur lineare Modelle bleiben — und welche Funktionen sich durchgesetzt haben.

Warum brauchen wir Nicht-Linearität?

Ohne Aktivierungsfunktion ist jedes Netz, egal wie tief, mathematisch äquivalent zu einem einzelnen linearen Layer. Die Verkettung linearer Funktionen ist wieder linear:

Lineare Verkettung kollabiert

f(x)=W2(W1x+b1)+b2=(W2W1)x+(W2b1+b2)f(x) = W_2 (W_1 x + b_1) + b_2 = (W_2 W_1) x + (W_2 b_1 + b_2)

Zwei lineare Layer = ein einzelnes lineares Layer mit W=W2W1W = W_2 W_1. Erst eine nichtlineare Aktivierung zwischen den Layern macht das Netz ausdrucksstärker.

Die drei Klassiker

Sanft, beschränkt

Sigmoid

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

Output-Range: (0,1)(0, 1). Klassisch für Wahrscheinlichkeiten am Output. In Hidden Layers heute selten — Vanishing-Gradient-Problem bei großen z|z|.

Sanft, zentriert

Tanh

tanh(z)=ezezez+ez\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}

Output-Range: (1,1)(-1, 1). Bessere Gradient-Eigenschaften als Sigmoid in Hidden Layers — hat aber für tiefe Netze auch ihre Grenzen.

Hart, schnell

ReLU

ReLU(z)=max(0,z)\text{ReLU}(z) = \max(0, z)

Output-Range: [0,)[0, \infty). De-facto-Standard in modernen Deep-Learning-Architekturen. Schnell zu berechnen, leidet aber unter „Dying ReLUs”.

Visueller Vergleich

Drei Kurven, gleicher Input-Bereich

x-Achse: zz von −5 bis +5

SigmoidTanhReLU

Faustregel: Im Output-Layer bestimmt die Aufgabe die Funktion (Sigmoid für binär, Softmax für Multi-Klasse, linear für Regression). In Hidden Layers ist ReLU fast immer der erste Versuch.