date-created: 2024-05-07 02:12:54 date-modified: 2024-07-02 12:55:39 topic: introduction_machine_learning

Regression |

anchored to 116.00_anchor_machine_learning

Motivation | Overview

Ist ein wiederkehrendes Thema, was wir in allen Facetten des machines learnings finden können. Sogar bei 116.14_deep_learning tritt es wieder auf, weil die Idee der Regression oft angewandt wird, um eine Optimierung stattfinden zu lassen –> etwa, wenn wir beim Gradientenabstieg!

Grundkonzept

[!Definition] Grundidee | Supervised Regression

Betrachten wir folgende Grafik:

Unter Betrachtung dieser: Welche Rolle spielt die Regression, was sit die Ausgabe? Was macht der Loss? #card

Wir befinden uns im Kontext des supervised learnings, was heißt, dass wir ein Netz trainieren, welches weiterhin immer die gewünschten Ausgaben erhält und sich daran dann verbessern kann.

Wir müssen hier bestimmte Dinge beachten:

passende Datensatze auswählen ( so aufteilen, dass wir Test und Validierungs-Daten haben)

ein Modell - und die Struktur dessen - welches uns die entsprechende Funktion “bestimmen” soll, die Eingaben auf die gewünschten Ausgaben mapped

einen Optimizer –> welcher die Gewichte des verwendeten Modells nimmt und dafür verwendet es zu verbessern

eine Loss-Funktion, die bei jeder Prediction betrachtet / evaluiert, wie weit die Prediction von dem gewünschten Wert ist

In diesem Zusammenspiel werden wir die Regression erleben, als Aspekt, der uns das Modell bestimmen kann.

Das heißt wir betrachten eine Menge von Datenpunkten. Wir möchten in dieser Betrachtung jetzt durch Inputs und Outputs, einen Loss entscheiden können, welcher uns dabei hilft, einen Optimizer umsetzen zu können.

–> Mit der Loss-Funktion können wir Distanzen zum Raum messen – und somit vergleichen wo es ist und wo es sein sollte.

Der Optimizer ist dafür da den Loss zu betrachten und daran dann das Model zu optimieren bzw mehr Informationen erhalten und verarbeiten zu könen. –> Es wird also durch den Parameter des Loss aktualisiert und verbessert.

Datensätze und Eingabe / Ausgabe

[!Beweis] Grundlegende Definition

Wir betrachten primär zwei Räume:

Der Eingaberaum $x = [x_{1}, \dots, x_{D}]^{T} \in R^{D}$ ( welcher den Datensatz und seine Eigenschaften / Parameter beschreibt)

Der Ausgaberaum $y = [y_{1}, \dots, y_{K}]^{T} \in R^{K}$ (welcher die Ausgabedimension, also die Werte, die wir aus den Daten “ziehen” wollen, enthält)

Wie modellieren wir jetzt einen Datensatz und einzelne Einträge? #card

Ferner betrachten wir also einen konkreten Datensatz ${x^{1}, \dots, x^{N}}, x^{t} \in R^{D}$ und entsprechende Ausgaben: ${y^{1}, \dots, y^{N}}, y^{t} \in R^{K}$

Ein Einzelner Datenpunkt wird beschrieben mit: $t \in N, : {x^{t}, y^{t}}$

grafisch etwa:

der obere Index T gibt an, welcher Datenpunkt es ist – also der erste / zweite / dritte etcetc.

Lineare Regression

Wir möchten zuerst die Idee einer Linearen Regression betrachten und definieren:

[!Definition] Lineare Regression

Gegeben eines Datensatzes, gehen wir davon aus, dass es eine unbekannte Funktion gibt: $f : R^{D} \to R^{K}$ die uns Datenpunkte aus dem einen Raum in den anderen (etwa die Prediction) abbilden kann.

wie können wir sie durch lineare Regression bestimmen?Was benötigt es innerhalb der Funktion? #card

Vorab betrachten wir jetzt nur eindimensionale Regression! Also $K = 1$ !

Wir wollen folgendes Modell definieren, was uns unsere Predictions passend beschreiben und auswerten kann: $\overset{y}{^} = g (x ∣ w) = w_{0} + w_{1} \cdot x_{1} + \dots + w_{D} \cdot x_{D}$

Folgende Eigenschaften können wir hier erkennen

Wir haben also eine einfache lineare Funktion, die für jeden Eingabewert unter Betrachtung eines Gewichtes ( wie stark dieser Wert verwendet wird) eine Summe bildet, die dann $\overset{y}{^}$ ergibt.

es ist ein parametrisches Modell -> es enthält Parameter/Bias und weiterhin auch Gewichte und Regressionskoeffizienten

$w = w_{0}, w_{1}, \dots, w_{D}$ beschreibt dabei den Gewichtsvektor!

Der Bias ist meist mit $w_{0}$ gegeben –> das kommt aber darauf an, bei welchem Wert in der Matrix wir eine 0 setzen, sodass er ohne Veränderung übernommen wird.

Das Modell ist in seinen Parametern linear!, also: $g (x ∣ w) = w^{T} \cdot \overline{x}, \overline{x} = [1, x]^{T}$

-> Wir meinen hiermit, dass eine Reihe von 1 am Anfang der Matrix gesetzt wird –> Da hier der obig angesprochene Bias $w_{0}$ oder ähnliches einfach übernommen wird.

Man könnte diese Reihe von Einsen auch in eine andere setzen.

Loss | Optimizer

[!Req] Definition

Wir haben jetzt das Modell als Form einer lineare Regression beschrieben.

Jedoch müssen wir jetzt noch die Parameter/Gewichte bestimmen und optimieren.

Wie können wir das umsetzen? Was meint das kleinste-quadrate-Problem (least-square-Problem). Wo kann man es anwenden? #card

Wie aus unserer obigen Abbildung entstanden, möchten wir die Gewichte unter Betrachtung einer Fehlerfunktion (Loss-Funktion) nach und nach verbessern.

Wir beschreiben folgend eine Loss-Funktion: $L (w) = \frac{1}{2} t = 1 \sum N (y^{t} - g (x^{t} ∣ w)_{L^{t}}^{= \overset{y}{^}^{t}})^{2}$

Also wir summieren die Fehler für jeden einzelnen Datenpunkt auf. (Bedenke, dass $^{t}$ ein Indikator für den $t$ -ten Eintrag ist!)

Wir sehen hier auch noch, dass man dann das Problem folgend lösen kann:

Least-Square-Problem:

Wir wollen ein Optimum also so bestimmen, indem wir die besten Gewichte finden, die den kleinsten Loss aufweisen! $w^{*} = a r g w min L (w)$

–> Wir wählen $w$ also so, sodass die Summe der quadratischen Fehler zwischen dem Modell und der Daten minimal ist!

Dabei kann man jetzt $w^{*}$ analytisch oder mit dem Gradientenabstieg bestimmen.

Modellerweiterung | höhere Dimensionen

Lifting inputs to feature space

Wir können gerade in Räumen gerade nur lineare Geraden / Ebenen finden, die mögliche Datenpunkte passend abdecken bzw. treffen und beschreiben können.

Wir wollen jetzt schauen, ob wir auch nichtlinear Funktionen modellieren können?

[!Definition] Basisfunktionsmodell

Wir möchten jetzt nichtlineare Funktionen modellieren, solche die also u.U. mehrere Dimensionen abdecken können. wie folgend zu sehen:

Wie können wir das umsetzen, was beschreibt das Basisfunktionsmodell? #card

Wir wollen unsere Eingabewerte $x$ jetzt also in einen Merkmalsraum $R^{M}$ übertragen –> also verschieben / verändern.

Dafür definieren wir die Basisfunktion $ϕ_{j} (\cdot)$

$g (x ∣ w) = j = 0 \sum M - 1 (w_{j} ϕ_{j} = w^{t} \cdot ϕ (x))$

Wobei hier dann also: $ϕ (x) = {ϕ_{0} (x), ϕ_{1} (x), \dots, ϕ_{M - 1} (x)}^{T}$ es ist also eine Abbildung mit $R^{D} \to R^{M}$

(primär verändern wir also die Dimension unserer Eingabewerte und könnten so etwa Polynome zum modellieren verwenden)

[!Tip] Konstruktion einer passenden Regression mit Basisfunktionen Wir betrachten und setzen diverser Basisfunktionen voraus - etwa quadratisch, linear, kubisch etc. Ferner können wir jetzt in dieser Betrachtung ein Basisfunktionenmodell erzeugen, indem wir einfach eine lineare Kombination von diversen Basisfunktionen erstellen. Das heißt also, dass wir einfach viele Grundlegende Funktionen zusammenpacken, um so eine mögliche ANnäherung erhalten zu können.

Basisfunktionen sind schon gegeben und wir möchten die Parameter finden, sodass sie möglich nah dem Space von Daten, die wir erhalten haben, angepasst bzw nahe wird. Regression halt.

Gründe warum man Funktionen als Summe von skalierten Funktionen modellieren kann, wird etwa in folgendem Video gut erklärt: link link

Beispiel | Basisfunktionsmodell

Man kann so etwa die normale Struktur, dass der Mekrmalsraum gleich des Eingangsraumes ist, modellieren mit: $M = D$ $ϕ (x) = {1, x}^{T} \to g (x ∣ w) = w^{T} \cdot \overline{x}$ wobei $\overline{x} = {1, x}^{T}$ war!

Man kann aber auch eine Polynom-Regression damit modellieren. Dann wäre folgend: $g (x ∣ w) = w \cdot {1, x, x^{2}, \dots, x^{M - 1}}^{T}$

man kann Quadratische Funktionen in $2 D$ etwa folgend darstellen: $x \in R^{2} g (x ∣ w) = w \cdot ϕ (x) {1, x_{1}, x_{2}, x_{1}^{2}, x_{2}^{2}, x_{1}, x_{2}}$ –> Wir sehen hier, dass wir jede Eingabe aus $x$ entsprechend verwertet, um einen neuen Vektor zu bilden.

Bekannte Basisfunktionen

Folgend betrachten wir einige bekannte / oft genutzt Basisfunktionen, die man hier oft / gut anwenden kann.

[!Tip] Gaussfunktion

Wir kennen die Gaussfunktion schon aus Normalverteilung also Stochastik

Wie ist sie beschrieben? #card

Wir beschreiben sie mit: $ϕ_{j} (x) e \cdot (- \frac{( x - μ _{j} ) ^{2}}{2 σ ^{2}})$

(Wir nehmen sie hier nicht als PDF, wie bei Stochastik!) sondern es ist eine deterministische Basisfunktion!

(Variation dafür, mit einer breiteren Verteilung, wäre etwa die radikale Basisfunktion (RBF))

Wir wissen, dass $ϕ_{j}$ nur einen lokalen Effekt auf $g (x ∣ w)$ nahe $μ_{j}$ , denn wir haben ja einen starken Abstieg außerhalb dieser Mitte ( die Gausfunktion fällt ja sehr sehr schnell ab!)

Sie ist eher lokal angedacht und nutzbar, weil sie nur sehr lokal Änderungen hat und sich da ausbreite.

Im Gegensatz könnte eine kleine Änderung einer quadratischen Funktion sehr viel im gesamten Raum bewirken.

Eine zweite wichtige Basisfunktion beschreibt hier etwa die Sigmoids Funktion:

[!Req] Sigmoid-Funktion

wie wird die Sigmoid beschrieben? Was macht sie im Wertebereich aus? #card

Wir beschreiben die Sigmoid folgend: $ϕ_{j} (x) = σ (\frac{x - μ _{j}}{s}), σ () = \frac{1}{1 + exp ( - z )}$

Wichtig: Sie verläuft zwischen 1 und 0 und ist dabei nur in diesem Übergang $\neq = 0 \neq = 1$ , sonst nimmt sie links nur 0 und rechts nur 1 ein:

Neben dieser gibt es dann noch viele weitere Funktionen die wir hier nicht weiter betrachten.

Multidimensionales Modell |

Wir möchten jetzt unser lineares Modell, die Idee und Struktur der Loss-Funktion für höhere Dimensionen beschreiben!

Warum? Weil wir oft hoch-dimensionale Eingaben haben, die wir dann entsprechend verarbeiten müssen / wollen.

[!Req] Definition

Für $K > 1 : (y^{t})^{T} = ω^{T} ψ (x^{t}) \lor y^{t} = ψ (x^{t})^{T} w$

(Bedenke, dass $K$ die Ausgabe-, $D$ die Eingabe-, $M$ die Merkmaldimension und $N$ die Menge von Daten ist! )

Wir möchten ferner nochmal die obige betrachtete Funktion (für eine 1-Dimensionale Ausgabe, also $K = 1$ ) folgend umschreiben ( als Matrizenmultiplikation): $R^{N} Y = R^{N \times M} Φ \cdot R^{M} w$ Was wir folgend als Matrix schreiben können: $Y = > y_{1}^{1} y^{2} 1 ⋮ y_{1}^{N} >, Φ = > ϕ_{0} (x^{1}) > ϕ_{0} (x^{2}) > ⋮ > ϕ_{0} (x^{N}) ϕ_{1} (x^{1}) ϕ_{1} (x^{2}) ⋮ ϕ_{1} (x^{N}) \dots \dots ⋱ \dots ϕ_{M - 1} (x^{1}) ϕ_{M - 1} (x^{2}) ⋮ ϕ_{M - 1} (x^{N}) >, w = > w_{0} w_{1} ⋮ w_{M - 1} >>$

Wie können wir jetzt eine Multidimensionale Ausgaben angeben? Spezifisch, wie sieht dann Y und w aus? #card

Sofern wir jetzt $K > 1$ haben, haben wir folgende Shapes: $R^{N \times K} Y = R^{N \times M} Φ c d o t R^{M \times K} w$ und ferner als Matriz also: $> Y = > y_{1}^{1} > y_{1}^{2} > ⋮ > y_{1}^{N} y_{2}^{1} y_{2}^{2} ⋮ y_{2}^{N} \dots \dots ⋱ \dots y_{K}^{1} y_{K}^{2} ⋮ y_{K}^{M}, w = > w_{0, 0} > w_{1, 0} > ⋮ > w_{M - 1, 0} > w_{0, 1} w_{1, 1} ⋮ w_{M - 1, 1} \dots \dots ⋱ \dots w_{0, K - 1} w_{1, K - 1} ⋮ w_{M - 1, K - 1} >$

Das wollen wir noch anhand der folgenden Methode herleiten!:

Least-Squares Method

[!Beweis] Beschreibung: Problem of least-squares

Wir wollen uns nochmal die Idee der Least-Squares Problematik vor Augen führen.

Gegeben einer Loss-Funktion und Gewichten, die das lineare Modell dieser beeinflussen: wie finden wir folgend die besten Gewichte $w$ : $w^{*} = ar g w min L (w), L (w) = \frac{1}{2} t = 1 \sum N (y^{t} - g (x^{t} ∣ w))^{2}$

Finden des $w_{i}$ , dass die Summe der quadratischen Fehler minimieren kann!

Wir möchten jetzt eine Minimierung durchführen:

[!Feedback] Definition | Minimierung der Fehlerfunktion

Wir wissen, dass $e_{i} = y^{t} - g (x^{t} ∣ w) = y^{t} - w^{T} ϕ (x^{t})$ , sodass also für alle Datenpunkte gilt: $Y = Φ \cdot w$ und somit dann $e = Y - Φ \cdot w$

Wie können wir dann die Loss-Funktion entsprechend umschreiben? Erinnerung, wie sie aussieht: $L (w) = \frac{1}{2} t = 1 \sum N (y^{t} - g (x^{t} ∣ w))^{2}$ #card

Wir können unter obiger Prämisse die Loss-Funktion folgend umschreiben: $L (w) = \frac{1}{2} t = 1 \sum N (e_{1}^{2}) = \frac{1}{2} e^{T} \cdot e = \frac{1}{2} (Y - Φ \cdot w)^{T} \cdot (Y - Φ \cdot w)$

Damit haben wir eine Grundlage, die wir folgend durch eine Minimierung (Hier also durch Gradienten!) umsetzen möchten.

[!Satz] Minimierung der Fehlerfunktion

Wir haben die Fehlerfunktion $L (w)$ soeben als Matrix-Operation umgeschrieben. Ferner möchten wir aber weiterhin das Minima dieser finden.

Unser Zwischenergebnis war also: $\frac{1}{2} (Y - Φ \cdot w)^{T} \cdot (Y - Φ \cdot w)$

Was können wir machen, um sie entsprechend abzuleiten? und somit das Minima berechnen zu können? #card

$> \nabla_{w} L (w) > > > > = \frac{\partial L ( w )}{\partial w} = - Φ^{T} \cdot (Y - Φ \cdot w) - Φ^{T} \cdot (Y - Φ \cdot w_{L S}) = 0 ⟺ Φ^{T} \cdot Φ \cdot w_{L S} = Φ^{T} \cdot Y ⟺ w_{L S} = (Φ^{T} \cdot Φ)^{- 1} \cdot Φ^{T} \cdot Y Gradient berechnen! Gradient auf Null setzen sofern sie vollen Rang haben: Φ^{T} Φ >$

Damit lässt sich dann also das Minimum berechnen und man kann somit ein LGS aufstellen!

[!Tip] Folgende Terme sind äquivalent! #card $> a > a = b^{T} c^{T} = c^{t} b >$

hierbei ändert sich halt der Ausgangswert -> ist ein Zeilenvektor oder vielleicht eine multi-Zeilen Vektor.

Der Spaltenvektor: von $Y$ ist also äquivalent zu einer Dimension, weswegen wir hier also aus einer Dimension “quasi nur auf mehrere Dimensionen erweitern”

$[y_{0} y_{1}^{1} \dots Y_{k_{1}}^{n}] = [ψ_{0} (x) \dots ψ_{1} (x) \dots] \cdot [w_{0} w_{1} \dots w_{n}]$

Also Abstrakt: $Y_{N x K} = Ψ_{N x M} \cdot w_{M \cdot K}$

BSP: $ψ (x) = [a x]^{T} x = [03]^{T} [12] = [110300] \cdot [w_{0} w_{1}]$ wir sehen hier, dass wir quasi eine Basiswechselmatrix eingeführt haben und betrachten.

Matrix $W_{L S}$ nimmt die Fehler, die wir beobachtet haben und mapped sie auf einen anderen Raum.

Beispiel zum Verständnis

Betrachten wir nochmal alle Werte und wie wir sie definieren

die Funktion $ϕ (x)$ mapped auf jeden Eingabepunkt auf verschiedene Bereiche im Feature-space. –> Dabei mapped es für jeden entsprechenden Punkt im Feature-Raum

das einfachste für eine $ϕ (x)$ funktion wäre etwa: $ϕ (x) = x$ –> Die Eingabedaten sind dann einfach die Features der Dimension

$ϕ (x) = [1, x^{2}]^{T}$ sind die Basisfunktionen eine Eingangsdim mit zwei Datenpunkten Datenkpunkte: $x = [x^{1} x^{2}] = [03]$ –> wir haben zwei Datenpunkte und einen Vektor.

$N = 2, D = 1$ $Y = [y^{1} y^{2}] = [40]$

$[40] = [1109] \cdot [w_{0}, w_{1}]$ $ϕ (x)$ ist im Einfachsten Fall: Einfach die Datenpunkte mit einem Parameter multipliziert. Und das sollte die Ausgangsdaten ergeben. Wir haben also relativ einfach translatiert. $X = [03] \cdot w_{0}$ Jede Zeile ist einer der feature vektoren

Orthogonale Projektionen

[!Req] orthogonale Projektion

Wir wissen, dass wir soeben ein linerares Modell mit $Y = Φ \cdot w$ beschreiben / beschrieben haben.

Ferner haben wir nun auch eine Lösung dessen mit $w_{L S} = (Φ^{T} Φ)^{- 1} \cdot Φ^{T} \cdot Y$ beschrieben.

Wenn wir jetzt $w_{L S}$ in unser Modell einfügen, so erhalten wir dann folgend: $\hat{Y} = P \cdot Y; P := Φ \cdot (Φ^{T} Φ)^{- 1} \cdot Φ^{T}$

Was können wir dann ferner mit $P (Φ)$ beschreiben? Was gilt für diesen Ausdruck? Was gilt für $⟨ P x^{1}, P_{N} x^{2} ⟩$ ? #card

Mit $P (Φ)$ beschreiben wir hier eine orthogonale Projektion!

Wobei sie eine orthogonale Projektion auf den Wertebereich - Spaltenraum / Bild - von $Φ$ abbildet.

Grafisch etwa:

-Eine Projektion ist symmetrisch $(P = P^{T})$ und auch idempotent (also $P = P^{2}$ ) Mit $P_{N} = I - P$ bilden wir Vektoren auf den Nullraum - Kern! - von $Φ$ ab –> Sodass dann $Φ \cdot P_{N} x = 0$ ist

Ferner gilt für beliebige $x^{1}, x^{2} \in R^{M}$ $⟨ P x^{1}, P_{N} x^{2} ⟩ = 0$ !

Regularisierung | Ridge-Regression

[!Beweis] Gründe für Regularisierung:

Betrachten wir die verschiedenen Funktionen, die sich auf die Eingabe-Werte mappen (wollen) –> eine Regression umsetzen.

(M meint die Merkmalsdimension!)

Was können wir hier erkennen? Wie kann man es durch Regularisierung beheben? Wie wird sie umgesetzt? #card

wenn wir zuuu viele Basisfunktionen haben. dann sehen wir, dass mit steigendem $M$ die Funktion viel zu stark an die Datenpunkte angepasst wird und somit kommt es zu Overfitting.

Wir haben also perfektes matching zu den Daten, aber können nur sehr schlecht adaptieren und somit nicht zwingend gut auf neue Datenpunkte reagieren.

Mittels Regularisierung können wir dagegen vorgehen: Wir beschreiben sie folgend mit einem neuen Wert $λ$ : $L (w) = bekannt: Loss \frac{1}{2} t = 1 \sum N (g (x^{t} ∣ w) - y^{t})^{2} + \frac{λ}{2} ∥ w ∥^{2} Regularisier$

Mit diesem Regularisierer können wir die Komplexität unserer Basisfunktionen bzw der Zielfunktion beeinflussen, wie folgend ersichtlich ist:

Wir passen hier also primär die Loss-Funktion an!

Overfitting vermeiden

Wir möchten uns drei Punkte / Möglichkeiten anschauen, wie man Overfitting verringern / vermindern kann:

[!Definition] Feature-Auswahl

Was wird mit dieser Methode beschrieben, was ist ihre Idee? Probleme? #card

Wir können einfach die Datendimensionalität verringern, indem wir bestimmte Dimensionen löschen / etnfernen.

Problem:

Welche Dimensionen sind nicht wichtig?

Wegwerfen von Daten ist selten gut –> man kann wichtige Informationen daraus erhalten / verlieren!

ist sehr vom Datensatz abhängig und kann nicht generalisiert werden!

[!Idea] Dimensionreduktion

Was sagen wir mit dieser Idee aus. Wo liegen Probleme? #card

Die Idee besteht darin:

Datendimensionalität anders reduzieren, indem wir etwa die Hauptachsentransformation nutzen!

Probleme dabei:

man kann hier Strukturen von Daten durch die Konversion verlieren (muss man also mit aufpassen!)

wenige Dimensionen könnten unzureichend sein

[!Beweis] Regularisierung

Was sagen wir mit dieser Idee aus. Wo lieen Probleme? #card

Wir versuchen Overfitting durhc ein robustes Machine learning model zu etablieren.

–> Das ist meist eine gute Idee!

Robustheit

Wir gehen jetzt folgend davon aus, dass wir folgende Matrize betrachten:

[!Tip]

$Φ := X = > x_{0}^{1} > x_{0}^{2} > ⋮ > x_{0}^{N} x_{1}^{1} x_{1}^{2} ⋮ x_{1}^{N} \dots \dots ⋱ \dots x_{D}^{1} x_{D}^{2} ⋮ x_{D}^{N} >$

Ferner möchten wir bestimmte Fragen stellen:

[!Question]

Was beschreiben wir mit der Robustheit von Modellparametern? #card

Sofern wir die Robustheit solcher Parameter in Frage stellen, wollen wir wissen, wie robust die Parameter $w = (X \cdot X^{T})^{- 1} \cdot X \cdot \hat{Y}, X = Φ$ gegen kleine Änderungen in den Trainingsdaten $X$ sind!

[!Tip] Robustheit von Vorhersagen

Was beschreiben wir mit der Robustheit von Vorhersagen/Predictions? #card

Wie robust sind die Vorhersagen $g (x ∣ w) w^{T} ϕ (x)$ gegen kleine Änderungen von $x$ ??

Robustheit von Parametern

[!Definition]

Was bestimmt die Konditionszahl im Bezug auf Robustheit? Wie wird sie berechnet? #card

Die Robustheit der Parameter $w = (X \cdot X^{T})^{- 1} \cdot X \cdot \hat{Y}$ wird durch die Konditionszahl von $X \cdot X^{T}$ beschrieben.

Wir definieren sie mit: $K = \frac{σ _{ma x} ( X \cdot X ^{T} )}{σ _{min} ( X \cdot X ^{T} )}$

Ferner können wir das etwa visualisieren:

-> bei echten Daten ist die $k$ oft groß, außer $N ≫ D$ –> Denn Noise in $X$ kann $w$ beeinflussen!

Eine kleine regularisierung erhöht die Robustheit stark! (im BSP etwa mit $λ = 0.0001 n$ )

Konditionszahl ist ein Indikator davon, wie sehr sich die Daten ändern, wenn wir die Trainingsdaten anpassen.

[!Hinweis] Bestimmung der Robustheit von Predictions durch Norm

Für jedes lineare Modell wird die Robustheit der Vorhersagen $g (x ∣ w) = w^{T} x$ durch die Norm des Gewichtsvektors $∥ w ∥$ bestimmt.

Wie können wir dann die Robustheit der Vorhersage definieren? Was schließen wir daraus? #card

Wir bestimmen sie dann mit: $\frac{g ( x + ε ∣ w ) - g ( x ∣ w )}{∥ ε ∥} = \frac{⟨ w , x + ε ⟩ - ⟨ w , x ⟩}{∥ ε ∥} = \frac{⟨ w , ε ⟩}{∥ ε ∥} \leq \frac{∥ w ∥ \cdot ∥ ε ∥}{∥ ε ∥} =∥ w ∥$

–> Wenn viele verschiedene $w$ auf den Trainingsdaten gut funktionieren, bevorzugen Sie den mit kleiner $∥ w ∥$ !

Regularisierung

Bis dato haben wir Parameter durch die Minimierung des Fehlers auf Trainignsdaten gelernt.

Ferner möchten wir jetzt die Robustheit verbessern indem wir die Minimierung des Fehlers auf Parametern betrachten.

[!Req] Regularisierte Least Squares Regression | Ridge Regression

Wie definieren wir die regularisierte least squares regression? #card

Für ein $λ \geq 0$ (was der Regularisierungsparameter ist), lösen wir folgend:

$w \in R^{D} min Trainingsfehler t \sum N (w^{T} \cdot x^{t} - y^{t})^{2} + λ \cdot Regularisator ∥ w ∥^{2}$

–> Je größer $λ$ , desto mehr betonen wir die Robustheit gegenüber des Trainingsfehlers!

Sofern $λ 0$ , haben wir keine Regularisierung, und einfach LSR!

Is $λ \to \infty$ , dann wird der Trainingsfehler komplett ignoriert und somit die Wichtung also auch $w \to 0$ .

Dafür ist unser Modell maximal Robust, die Vorhersage ist immer null

Wir stellen uns weiter die Frage, wie man dann das Optimale $λ$ für den Regularizer finden können!

Dafür wenden wir auch wieder Ableitungen zum Finden von Nullstellen an:

[!Beweis] Ridge Regression | Ableitung für minimale Fehlerfunktion!

Wir beginnen damit, dass wir die Fehlerfunktion berechnen: $L (w) = L_{L S} (w) + λ L_{R} (w), λ \geq 0$ wobei hier $L_{D} (w) = \frac{1}{2} (y - Φ \cdot w)^{T} \cdot (Y - Φ \cdot w), L_{R} = \frac{1}{2} \cdot w^{T} \cdot w$

Welchen Schritt verfolgen wir als nächstes? #card

Wir wollen nun das Minimum der Fehlerfunktion bestimmen.

–> Ableitung dieser bestimmen:

$> \nabla_{w} L (w) > = \nabla_{w} L_{L S} (w) + \nabla_{w} \cdot λ \cdot L_{R} (w) = - Φ^{T} \cdot (Y - Φ \cdot w) + λ \cdot w >$

Was wir dann gleich Null setzen müssen!:

$> > > > - Φ^{T} \cdot (Y - Φ \cdot w) + λ w = 0 = Φ^{T} \cdot Φ \cdot w + λ \cdot w = Φ^{T} \cdot Y = (Φ^{T} \cdot Φ + λ I) \cdot w = Φ^{T} \cdot Y w = (Φ^{T} \cdot Φ + λ I)^{- 1} \cdot Φ^{T} \cdot Y >$ (unter Annahme, dass $Φ^{T} Φ + λ I$ vollen Rang hat!)

Maximum Likelihood Schätzung

Idee: -> MLE versucht jetzt die Gauß-Verteilung auf die Verteilungen von Punkten zu legen und somit eine Wahrscheinlichkeitsverteilung dafür zu betrachten, statt direkter Distanzen o.ä.

Wir werden sehen, dass MLE gleich LSR ist!

[!Idea] Hinführung

Wir haben bis dato nur ein linear, deterministisches Modell betrachten, beschrieben mit $y^{t} = w^{T} \cdot ϕ (x^{t})$

Wir nehmen dann an, dass $y^{t}$ Gauß-Verteilt mit Mittelwert $w^{T} \cdot ϕ (x)$ ist und ferner der Varianz $σ^{2}$ , was uns dann ein probabilistisches Modell erzeugt!

Wir können dann also die Wahrscheinlichkeit aufstellen, dass ein Wert und Betrachtung von Gewichten einen bestimmten Ausgabewert erzielt.

Wie beschreiben wir das? Wie können wir dann die Wahrscheinlichkeit als produkt beschreiben und modellieren? #card

Wir können dann die WSK, dass wir auf $y$ unter Betrachtung von $x, w$ “landen” folgend berechnen: $p (y ∣ x, w) = w^{t} ϕ (x) + ε, ε \sim N (0, σ^{2})$ also $= N (y, w^{T} ϕ (x), σ^{2})$

Wir können jetzt die Likelihood folgend berechnen ( unter der Annahme, dass alle $y^{t}$ unabhängig sind!) $> p (Y ∣ Φ, w, σ) > > > = t = 1 \prod N p (y^{t} ∣ ϕ (x^{t}), w, σ) = t = 1 \prod N (2 π \cdot σ^{2})^{\frac{- 1}{2}} \cdot e^{\frac{- 1}{2 \cdot σ ^{2}} \cdot (y^{t} - w^{t} \cdot ϕ (x^{t}))^{2}} = (2 π σ^{2})^{- \frac{N}{2}} \cdot e^{\frac{- 1}{2 σ ^{2}} \cdot i = 1 \sum N (y^{t} - w^{t} ϕ (x^{t}))^{2}} = (2 π σ^{2})^{- \frac{N}{2}} \cdot e^{- \frac{1}{2 σ ^{2}} \cdot (Y - Φ w)^{T} \cdot (Y - Φ w)} >>$

Und Visuell also:

Das war soweit die Herleitung, die wir zur folgenden Betrachtung der MLE - Maximum-Likelihood-Schätzung benötigen!

Maximum-Likelihood-Schätzung (MLE)

[!Definition]

Wir haben jetzt unsere Likelihood für Daten unter einem linearen Modell gegeben mit: $p (Y ∣ Φ, w, σ) = (2 π σ^{2})^{- \frac{N}{2}} \cdot e^{- \frac{1}{2 σ ^{2}} (Y - Φ w)^{T} \cdot (Y - Φ w)}$

wir wollen jetzt hierfür auch eine Lösung zu $w$ finden!

Wie gehen wir vor, mit welchem Term resultieren wir bei der MLE Likelihood? Wozu nutzen wir Log? #card

Wir berechnen zuerst die Log-Likelihood (Sie hilft uns etwa Produkte in Summen umzuwandeln, kann aber auch ganz kleine WSK in solche Größen umwandeln, dass sie bei Berechnungen mit Computern durch Rundungsfehler weniger beeinträchtigt werden)

$L (w) = lo g (p (Y ∣ Φ, w, σ)) = - \frac{N}{2} \cdot lo g (2 π σ^{2}) - \frac{1}{2 σ ^{2}} \cdot (Y - Φ w)^{T} \cdot (Y - Φ w)$

Und jetzt leiten wir nach $w$ ab und setzen danach $= 0$ :

$> \frac{\partial L ( w )}{\partial w} >⟺ 0 > w_{M L} = 0 - \frac{1}{2 σ ^{2}} \cdot [2 Φ^{T} (Y - Φ \cdot w_{M L})] = 0 = Φ^{T} Y + Φ^{T} \cdot Φ \cdot w_{M L} = (Φ^{T} Φ)^{- 1} \cdot Φ^{T} \cdot Y >$

–> Was so der wichtigste Term ist, den wir bei dieser Berechnung benötigen werden!

MLE = LSR

[!Tip] Äquivalenz

Was folgt für die MLE und LSR Methode? #card

Ferner sehen wir jetzt also, dass $w_{L Q} = (Φ^{T} \cdot Φ)^{- 1} Φ^{T} \cdot Y = w_{M L}$ ist, also beide Probleme sind äquivalent in ihrer Lösung!

–> Wir können also Regression aus Sicht der Stochastik und Analytik sehen!

Further Resources

Nähere Betrachtung 116.05_MLE
116.09_decision_trees

scattered-lenity

date-created: 2024-05-07 02:12:54 date-modified: 2024-07-02 12:55:39 topic: introduction_machine_learning