Aktivierungsfunktionen
Warum Netze ohne Nicht-Linearität nur lineare Modelle bleiben — und welche Funktionen sich durchgesetzt haben.
Warum brauchen wir Nicht-Linearität?
Ohne Aktivierungsfunktion ist jedes Netz, egal wie tief, mathematisch äquivalent zu einem einzelnen linearen Layer. Die Verkettung linearer Funktionen ist wieder linear:
Lineare Verkettung kollabiert
Zwei lineare Layer = ein einzelnes lineares Layer mit . Erst eine nichtlineare Aktivierung zwischen den Layern macht das Netz ausdrucksstärker.
Die drei Klassiker
Sigmoid
Output-Range: . Klassisch für Wahrscheinlichkeiten am Output. In Hidden Layers heute selten — Vanishing-Gradient-Problem bei großen .
Tanh
Output-Range: . Bessere Gradient-Eigenschaften als Sigmoid in Hidden Layers — hat aber für tiefe Netze auch ihre Grenzen.
ReLU
Output-Range: . De-facto-Standard in modernen Deep-Learning-Architekturen. Schnell zu berechnen, leidet aber unter „Dying ReLUs”.
Visueller Vergleich
Drei Kurven, gleicher Input-Bereich
x-Achse: von −5 bis +5
Faustregel: Im Output-Layer bestimmt die Aufgabe die Funktion (Sigmoid für binär, Softmax für Multi-Klasse, linear für Regression). In Hidden Layers ist ReLU fast immer der erste Versuch.