Parameter vs. Hyperparameter

Interne Variablen vs. externe Konfiguration eines Modells.

Parameter lernt das Modell während des Trainings selbst. Hyperparameter legst du vorher fest — sie ändern sich während des Trainings nicht.

Intern

Parameter ( $\theta$ )

Die Variablen, die das Modell während des Trainings selbst lernt — z.B. Gewichte und Biases.

Extern

Hyperparameter ( $\alpha$ )

Die Einstellungen, die wir vor dem Training festlegen — z.B. die Lernrate.

Parameter ( $\theta$ )

Die Variablen, die durch Optimierung (z.B. Gradient Descent) angepasst werden. Mathematisch oft als $\theta$ zusammengefasst: $\theta = (w_1, w_2, \dots, b)$ .

Modell	Parameter
Lineare Regression	Gewichte $w_1, \dots, w_n$ und Bias $b$
Logistische Regression	Wie oben, plus Sigmoid-Ausgabe
Neuronales Netz	Alle Gewichte und Biases jeder Schicht
Decision Tree	Split-Punkte und Schwellenwerte

Trainingsziel

\theta^* = \arg\min_{\theta} \; \mathcal{L}(\theta; D)

Finde die Parameter $\theta^*$ , die den Loss $\mathcal{L}$ auf den Trainingsdaten $D$ minimieren.

Hyperparameter

Die Stellschrauben außerhalb des Modells — sie steuern, wie gelernt wird. Du wählst sie per Experiment, Heuristik oder automatisierter Suche (Grid Search, Random Search, Bayesian Optimization).

Hyperparameter	Symbol	Wirkung
Lernrate	$\alpha$	Wie groß sind die Update-Schritte beim Gradient Descent?
Anzahl Epochen	—	Wie oft sieht das Modell die kompletten Trainingsdaten?
Batch-Size	—	Wie viele Beispiele werden pro Update verarbeitet?
Regularisierung	$\lambda$	Wie stark werden große Gewichte bestraft?
Layer-Anzahl	—	Wie tief ist das neuronale Netz?

Warum die Unterscheidung wichtig ist

Parameter brauchen Daten

Parameter werden vom Optimizer geschätzt — ohne Trainingsdaten kann das Modell sie nicht lernen.

Hyperparameter brauchen Suche

Hyperparameter wählst du per Experiment oder automatisierter Suche — Grid Search, Random Search oder Bayesian Optimization.

Eine gute Hyperparameter-Wahl kann den Unterschied zwischen einem Modell ausmachen, das gar nicht lernt, und einem, das State-of-the-Art ist — selbst wenn die Architektur identisch ist.

Parameter (θ\thetaθ)

Hyperparameter (α\alphaα)

Parameter (θ\thetaθ)

Trainingsziel

Hyperparameter

Warum die Unterscheidung wichtig ist

Parameter ( $\theta$ )

Hyperparameter ( $\alpha$ )

Parameter ( $\theta$ )