Notebook

Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva

Strojno učenje¶

http://www.fer.unizg.hr/predmet/su

Ak. god. 2015./2016.

Bilježnica 5: Regresija¶

Verzija: 0.3 (2015-11-09)

In [1]:

import scipy as sp
import scipy.stats as stats
import matplotlib.pyplot as plt
import pandas as pd
%pylab inline

Populating the interactive namespace from numpy and matplotlib

Sadržaj:¶

Uvod
Osnovni pojmovi
Model, funkcija gubitka i optimizacijski postupak
Postupak najmanjih kvadrata
Probabilistička interpretacija regresije
Poopćeni linearan model regresije
Odabir modela
Regularizirana regresija
Sažetak

Osnovni pojmovi¶

Označen skup podataka: $\mathcal{D}=\{(\mathbf{x}^{(i)},y^{(i)})\},\quad \mathbf{x}\in\mathbb{R}^n,\quad y\in\mathbb{R}$
Hipoteza $h$ aproksimira nepoznatu funkciju $f:\mathbb{R}^n\to\mathbb{R}$
Idealno, $y^{(i)}=f(\mathbf{x}^{(i)})$, ali zbog šuma: $$y^{(i)}=f(\mathbf{x}^{(i)})+\varepsilon$$
$\mathbf{x}$ - ulazna varijabla (nezavisna, prediktorska)
$y$ - izlazna varijabla (zavisna, kriterijska)

Vrste regresije¶

Broj ulaznih (nezavisnih) varijabli:
- Univarijatna (jednostavna, jednostruka) regresija: $n=1$
- Multivarijatna (višestruka, multipla) regresija: $n>1$
Broj izlaznih (zavisnih) varijabli:
- Jednoizlazna regresija: $f(\mathbf{x}) = y$
- Višeizlazna regresija: $f(\mathbf{x})=\mathbf{y}$

Model, funkcija gubitka i optimizacijski postupak¶

(1) Model¶

Linearan model regresije: $h$ je linearna funkcija parametara

$\mathbf{w} = (w_0,\dots,w_n)$

Linearna regresija: $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$$
Polinomijalna regresija:
- Univarijatna polinomijalna: $$h(x|\mathbf{w}) = w_0 + w_1 x + w_2 x^2 + \dots + w_d x^d\quad (n=1)$$
- Multivarijatna polinomijalna: $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_1 x_2 + w_4 x_1^2 + w_5 x_2^2\quad (n=2, d=2)$$
  - Modelira međuovisnost značajki (cross-terms $x_1 x_2, \dots$)
Općenite bazne funkcije: $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1\phi_1(\mathbf{x}) + \dots + w_m\phi_m(\mathbf{x})$$

(2) Funkcija gubitka (funkcija pogreške)¶

Kvadratni gubitak (engl. quadratic loss)

$$ L(y^{(i)},h(\mathbf{x}^{(i)})) = \big(y^{(i)}-h(\mathbf{x}^{(i)})\big)^2 $$

Funkcija pogreške (proporcionalna s empirijskim očekivanjem gubitka):

$$ E(h|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(y^{(i)}-h(\mathbf{x}^{(i)})\big)^2 $$

(3) Optimizacijski postupak¶

Postupak najmanjih kvadrata (engl. least squares)

$$ \mathrm{argmin}_{\mathbf{w}} E(\mathbf{w}|\mathcal{D}) $$

Rješenje ovog optimizacijskog problema postoji u zatvorenoj formi

Postupak najmanjih kvadrata¶

Razmotrimo najprije linearnu regresiju:

$$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n = \sum_{i=1}^n w_i x_i + w_0$$

Izračun je jednostavniji ako pređemo u matrični račun
- Svaki vektor primjera $\mathbf{x}^{(i)}$ proširujemo dummy značajkom $x^{(i)}_0 = 1$, pa je model onda:

$$h(\mathbf{x}|\mathbf{w}) = \mathbf{w}^\intercal \mathbf{x}$$

Skup primjera:

$$ \mathbf{X} = \begin{pmatrix} 1 & x^{(1)}_1 & x^{(1)}_2 \dots & x^{(1)}_n\\ 1 & x^{(2)}_1 & x^{(2)}_2 \dots & x^{(2)}_n\\ \vdots\\ 1 & x^{(N)}_1 & x^{(N)}_2 \dots & x^{(N)}_n\\ \end{pmatrix}_{N\times (n+1)} = \begin{pmatrix} 1 & (\mathbf{x}^{(1)})^\intercal \\ 1 & (\mathbf{x}^{(2)})^\intercal \\ \vdots\\ 1 & (\mathbf{x}^{(N)})^\intercal \\ 1 & \end{pmatrix}_{N\times (n+1)} $$

Matricu primjera $\mathbf{X}$ zovemo dizajn-matrica
Vektor izlaznih vrijednosti:

$$ \mathbf{y} = \begin{pmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(N)}\\ \end{pmatrix}_{N\times 1} $$

Egzaktno rješenje¶

Idealno, tražimo egzaktno rješenje, tj. rješenje za koje vrijedi

$$ (\mathbf{x}^{(i)}, y^{(i)})\in\mathcal{D}.\ h(\mathbf{x}^{(i)}) = y^{(i)} $$

odnosno $$ (\mathbf{x}^{(i)}, y^{(i)})\in\mathcal{D}.\ \mathbf{w}^\intercal \mathbf{x} = y^{(i)} $$

Možemo napisati kao matričnu jednadžbu ($N$ jednadžbi s $(n+1)$ nepoznanica):

$$ \mathbf{X}\mathbf{w} = \mathbf{y} $$$$ \begin{pmatrix} 1 & x^{(1)}_1 & x^{(1)}_2 \dots & x^{(1)}_n\\ 1 & x^{(2)}_1 & x^{(2)}_2 \dots & x^{(2)}_n\\ \vdots\\ 1 & x^{(N)}_1 & x^{(N)}_2 \dots & x^{(N)}_n\\ \end{pmatrix} \cdot \begin{pmatrix} w_0\\ w_1\\ \vdots\\ w_n\\ \end{pmatrix} = \begin{pmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(N)}\\ \end{pmatrix} $$

Egzaktno rješenje ovog sustava jednadžbi je

$$ \mathbf{w} = \mathbf{X}^{-1}\mathbf{y} $$

Međutim, rješenja nema ili ono nije jedinstveno ako:

(1) $\mathbf{X}$ nije kvadratna, pa nema inverz. U pravilu:
- $N>(n+1)$
  $\Rightarrow$ sustav je preodređen (engl. overdetermined) i nema rješenja
- $N<(n+1)$
  $\Rightarrow$ sustav je pododređen (engl. underdetermined) i ima višestruka rješenja
(2) $\boldsymbol{X}$ jest kvadratna (tj. $N=(n+1)$), ali ipak nema inverz (ovisno o rangu matrice)
$\Rightarrow$ sustav je nekonzistentan

Rješenje najmanjih kvadrata¶

Približno rješenje sustava $\mathbf{X}\mathbf{w}=\mathbf{y}$
Funkcija pogreške:

$$ E(\mathbf{w}|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(\mathbf{w}^\intercal\mathbf{x}^{(i)} - y^{(i)}\big)^2 $$

Matrični oblik:

\begin{align*} E(\mathbf{w}|\mathcal{D}) =& \frac{1}{2} (\mathbf{X}\mathbf{w} - \mathbf{y})^\intercal (\mathbf{X}\mathbf{w} - \mathbf{y})\\ =& \frac{1}{2} (\mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{X}\mathbf{w} - \mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{y} - \mathbf{y}^\intercal\mathbf{X}\mathbf{w} + \mathbf{y}^\intercal\mathbf{y})\\ =& \frac{1}{2} (\mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{X}\mathbf{w} - 2\mathbf{y}^\intercal\mathbf{X}\mathbf{w} + \mathbf{y}^\intercal\mathbf{y}) \end{align*}

Jednakosti linearne algebre:

$(A^\intercal)^\intercal = A$

$(AB)^\intercal = B^\intercal A^\intercal$

Minimizacija pogreške:

$$ \begin{align*} \nabla_{\mathbf{w}}E &= \frac{1}{2}\Big(\mathbf{w}^\intercal\big(\mathbf{X}^\intercal\mathbf{X}+(\mathbf{X}^\intercal\mathbf{X})^\intercal\big) - 2\mathbf{y}^\intercal\mathbf{X}\Big) = \mathbf{X}^\intercal\mathbf{X}\mathbf{w} - \mathbf{X}^\intercal\mathbf{y} = \mathbf{0} \end{align*} $$

Jednakosti linearne algebre:

$\frac{\mathrm{d}}{\mathrm{d}x}x^\intercal A x=x^\intercal(A+A^\intercal)$

$\frac{\mathrm{d}}{\mathrm{d}x}A x=A$

Dobivamo sustav tzv. normalnih jednadžbi:

$$ \mathbf{X}^\intercal\mathbf{X}\mathbf{w} = \mathbf{X}^\intercal\mathbf{y} $$

Rješenje:

$$ \mathbf{w} = (\mathbf{X}^\intercal\mathbf{X})^{-1}\mathbf{X}^\intercal\mathbf{y} = \color{red}{\mathbf{X}^{+}}\mathbf{y} $$

Matrica $\mathbf{X}^{+}=(\mathbf{X}^\intercal\mathbf{X})^{-1}\mathbf{X}^\intercal$ je pseudoinverz (Moore-Penroseov inverz) matrice $\mathbf{X}$
Q: Kojih je dimenzija matrica $(\mathbf{X}^\intercal\mathbf{X})^{-1}$?
Q: Što utječe na složenost izračuna inverza matrice: broj primjera $N$ ili broj dimenzija $n$?

Probabilistička interpretacija regresije¶

Ograničimo se BSO na univarijatnu ($n=1$) linearnu regresiju:

$$ h(x|w_0, w_1) = w_0 + w_1 x $$

Zbog šuma u $\mathcal{D}$:

$$ y^{(i)} = f(x^{(i)}) + \color{red}{\varepsilon} $$

Prepostavka:

$$ \color{red}{\varepsilon}\ \sim\ \mathcal{N}(0, \sigma^2) $$

Posjedično:

$$ \color{red}{y|x}\ \sim\ \mathcal{N}\big(f(x), \sigma^2\big) $$

odnosno $$ \color{red}{p(y|x)} = \mathcal{N}\big(f(x), \sigma^2\big) $$

Vrijedi

$$\mathbb{E}[y|x] = \mu = f(x)$$

Naš cilj je: $h(x|\mathbf{w}) = f(x)$
[Skica]
$p(y^{(i)}|x^{(i)})$ je vjerojatnost da je $f(x^{(i)})$ generirala vrijednost $y^{(i)}$
- (Formulacija nije baš točna, jer je $x$ kontinuirana varijabla a $p$ je gustoća vjerojatnosti.)

Log-izglednost¶

$$ \begin{align*} \ln\mathcal{L}(\mathbf{w}|\mathcal{D}) &= \ln p(\mathcal{D}|\mathbf{w}) = \ln\prod_{i=1}^N p(x^{(i)}, y^{(i)}) = \ln\prod_{i=1}^N p(y^{(i)}|x^{(i)}) p(x^{(i)}) \\ &= \ln\prod_{i=1}^N p(y^{(i)}|x^{(i)}) + \underbrace{\color{gray}{\ln\prod_{i=1}^N p(x^{(i)})}}_{\text{Ne ovisi o $\mathbf{w}$}} \\ & \Rightarrow \ln\prod_{i=1}^N p(y^{(i)}|x^{(i)}) = \ln\prod_{i=1}^N\mathcal{N}\big(h(x^{(i)}|\mathbf{w}),\sigma^2\big)\\ &= \ln\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp\Big\{-\frac{\big(y^{(i)}-h(x^{(i)}|\mathbf{w})\big)^2}{2\sigma^2}\Big\}\\ &= \underbrace{\color{gray}{-N\ln(\sqrt{2\pi}\sigma)}}_{\text{konst.}} - \frac{1}{2\color{gray}{\sigma^2}}\sum_{i=1}^N\big(y^{(i)}-h(x^{(i)}|\mathbf{w})\big)^2\\ & \Rightarrow -\frac{1}{2}\sum_{i=1}^N\big(y^{(i)}-h(x^{(i)}|\mathbf{w})\big)^2 \end{align*} $$

Uz pretpostavku Gaussovog šuma, maksimizacija izglednosti odgovara minimizaciji funkcije pogreške definirane kao zbroj kvadratnih odstupanja:

$$ \begin{align*} \mathrm{argmax}_{\mathbf{w}} \ln\mathcal{L}(\mathbf{w}|\mathcal{D}) &= \mathrm{argmin}_{\mathbf{w}} E(\mathbf{w}|\mathcal{D})\\ E(h|\mathcal{D}) &=\frac{1}{2} \sum_{i=1}^N\big(y^{(i)}-h(x^{(i)}|\mathbf{w})\big)^2\\ L\big(y,h(x|\mathbf{w})\big)\ &\propto\ \big(y - h(x|\mathbf{w})\big)^2 \end{align*} $$

$\Rightarrow$ Probabilističko opravdanje za kvadratnu funkciju gubitka
Rješenje MLE jednako je rješenju koje daje postupak najmanjih kvadrata!

Poopćeni linearan model regresije¶

Zanima nas poopćenje na $n>1$ koje obuhvaća sve multivarijatne linearne modele regresije: univarijatna regresija, linearna regresija, polinomijalna regresija, ...
- $h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$
- $h(x|\mathbf{w}) = w_0 + w_1 x + w_2 x^2 + \dots + w_d x^d$
- $h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_1 x_2 + w_4 x_1^2 + w_5 x_2^2$
- ...
Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):

$$ \{\phi_0, \phi_1, \phi_2, \dots, \phi_m\} $$

gdje $\phi_j:\mathbb{R}^n\to\mathbb{R}$

Dogovorno: $\phi_0(\mathbf{x}) = 1$
Svaki vektor primjera u $n$-dimenzijskom originalnom ulaznom prostoru (engl. input space) $\mathcal{X}$:

$$ \mathbf{x} = (x_1, x_2, \dots, x_n) $$

preslikavamo u nov, $m$-dimenzijski prostor, tzv. prostor značajki (engl. feature space): $$ \boldsymbol{\phi}(\mathbf{x}) = \big(\phi_0(\mathbf{x}), \phi_1(\mathbf{x}), \dots, \phi_m(\mathbf{x})\big) $$

Funkija preslikavanja (vektor baznih funkcija)

$$ \begin{align*} \boldsymbol{\phi}&:\mathbb{R}^n\to\mathbb{R}^m:\\ \boldsymbol{\phi}(\mathbf{x}) &= \big(\phi_0(\mathbf{x}),\dots,\phi_m(\mathbf{x})\big)\\ \end{align*} $$

Poopćen linearan model:

$$ h(\mathbf{x}|\mathbf{w}) = \sum_{j=0}^m w_j\phi_j(\mathbf{x}) = \mathbf{w}^\intercal\boldsymbol{\phi}(\mathbf{x}) $$

Uobičajene funkcije preslikavanja¶

Linearna regresija:

$$ \boldsymbol{\phi}(\mathbf{x}) = (1,x_1,x_2,\dots,x_n) $$

Univarijatna polinomijalna regresija:

$$ \boldsymbol{\phi}(x) = (1,x,x^2,\dots,x^m) $$

Polinomijalna regresija drugog stupnja:

$$ \boldsymbol{\phi}(\mathbf{x}) = (1,x_1,x_2,x_1 x_2, x_1^2, x_2^2) $$

Gaussove bazne funkcije (RBF):

$$ \phi_j(x) = \exp\Big\{-\frac{(x-\mu_j)^2}{2\sigma^2}\Big\} $$

[Skica: RBF]

Prostor značajki¶

Funkcija preslikavanja značajki $\mathbf{\phi} : \mathbb{R}^n \to \mathbb{R}^m $ preslikava primjere iz $n$-dimenzijskog ulaznog prostora u $m$-dimenzijski prostor značajki
Tipično je $m>n$
Tada je funkcija koja je linearna u prostoru značajki nelinearna u ulaznom prostoru
Dakle, možemo koristiti linearan model za nelinearne probleme
Imamo unificiran postupak, neovisno koju funkciju $\boldsymbol{\phi}$ odaberemo

Primjer: Preslikavanje iz ulaznog prostora u prostor značajki¶

$\mathcal{X} = \mathbb{R}$
$n=1$, $m=3$
$\boldsymbol{\phi} : \mathbb{R} \to \mathbb{R}^3$
$\boldsymbol{\phi}(x) = (1,x,x^2)$
[Skica]

In [261]:

def f(x) : return 3*(x - 2)**2 + 1

x1 = 1
x2 = 2
x3 = 3

In [262]:

xs = linspace(0, 4)
y = f(xs)
plt.ylim(0,5)
plt.plot(xs, y)
plt.plot(x1, f(x1), 'ro')
plt.plot(x2, f(x2), 'go')
plt.plot(x3, f(x3), 'bo')
plt.show()

In [263]:

def phi(x): return sp.array([1, x, x**2])

In [264]:

phi(x1)

Out[264]:

array([1, 1, 1])

In [265]:

phi(x2)

Out[265]:

array([1, 2, 4])

In [266]:

phi(x3)

Out[266]:

array([1, 3, 9])

In [267]:

xs1 = linspace(0, 5)
xs2 = linspace(0, 10)
X1, X2 = np.meshgrid(xs1, xs2)

In [268]:

phi_X = 3*X2 - 12*X1 + 13

In [286]:

plt.contour(X, Y, phi_X, levels=[1,4])
plt.scatter(phi(x1)[1], phi(x1)[2], c='r')
plt.scatter(phi(x2)[1], phi(x2)[2], c='g')
plt.scatter(phi(x3)[1], phi(x3)[2], c='b')
plt.legend()
plt.show()

Optimizacijski postupak¶

Ništa se ne mijenja u odnosu na ono što smo već izveli, samo umjesto $\mathbf{X}$ imamo dizajn-matricu $\boldsymbol{\Phi}$
Dizajn-matrica:

$$ \boldsymbol{\Phi} = \begin{pmatrix} 1 & \phi_1(\mathbf{x}^{(1)}) & \dots & \phi_m(\mathbf{x}^{(1)})\\ 1 & \phi_1(\mathbf{x}^{(2)}) & \dots & \phi_m(\mathbf{x}^{(2)})\\ \vdots\\ 1 & \phi_1(\mathbf{x}^{(N)}) & \dots & \phi_m(\mathbf{x}^{(N)})\\ \end{pmatrix}_{N\times m} = \begin{pmatrix} \mathbf{\phi}(\mathbf{x}^{(1)})^\intercal \\ \mathbf{\phi}(\mathbf{x}^{(2)})^\intercal \\ \vdots\\ \mathbf{\phi}(\mathbf{x}^{(N)})^\intercal \\ \end{pmatrix}_{N\times m} $$

Prije smo imali:

$$ \mathbf{w} = (\mathbf{X}^\intercal\mathbf{X})^{-1}\mathbf{X}^\intercal\mathbf{y} = \color{red}{\mathbf{X}^{+}}\mathbf{y} $$

a sada imamo: $$ \mathbf{w} = (\boldsymbol{\Phi}^\intercal\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^\intercal\mathbf{y} = \color{red}{\boldsymbol{\Phi}^{+}}\mathbf{y} $$ gdje $$ \boldsymbol{\Phi}^{+}=(\boldsymbol{\Phi}^\intercal\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^\intercal $$

Odabir modela¶

Poopćeni linearan model regresije ima jedan hiperparametar: funkciju preslikavanje $\boldsymbol{\phi}$
Alternativno, možemo reći da se radi o dva hiperparametra:
- izgled baznih funkcija $\phi_j$
- broj baznih funkcija $m$ (dimenzija prostora značajki)
Hiperparametre treba namjestiti tako da odgovaraju podatcima, odnosno treba

dobro odabrati model

U suprotnom model može biti podnaučen ili prenaučen
Ako model ima mnogo parametra, lako ga je prenaučiti
Sprečavanje prenaučenosti:
1. Koristiti više primjera za učenje
2. Odabrati model unakrsnom provjerom
3. Regularizacija
4. Bayesovska regresija (bayesovski odabir modela) $\Rightarrow$ nećemo raditi

Regularizirana regresija¶

Ideja¶

Opažanje: kod linearnih modela, što je model složeniji, to ima veće vrijednosti parametara $\mathbf{w}$
Prenaučeni linearni modeli imaju:
- ukupno previše parametara (težina) i/ili
- prevelike vrijednosti pojedinačnih parametara
Ideja: ograničiti rast vrijednosti parametara kažnjavanjem hipoteza s visokim vrijednostima parametara
Time ostvarujemo kompromis između točnosti i jednostavnosti modela i to već pri samom učenju modela
Efektivno se graničava složenost modela i sprečava se prenaučenost
Cilj: što više parametara (težina) pritegnuti na nulu $\Rightarrow$ rijetki modeli (engl. sparse models)
Rijetki modeli su:
- teži za prenaučiti
- računalno jednostavniji
- interpretabilniji

Regularizacija¶

U funkciju pogreške (koju minimiziramo) ugrađujemo mjeru složenosti modela:

$$ E' = \textrm{empirijska pogreška} + \color{red}{\lambda\times\textrm{složenost modela}} $$$$ E'(\mathbf{w}|\mathcal{D}) = E(\mathbf{w}|\mathcal{D}) + \underbrace{\color{red}{\lambda E_R(\mathbf{w})}}_{\text{reg. izraz}} $$

$\lambda$ je regularizacijski faktor
- $\lambda=0\ \Rightarrow$ neregularizirana funkcija pogreške
- Veća vrijednost regularizacijskog faktora $\lambda$ uzrokuje smanjuje efektivne složenost modela
[Skica: Regularizirana regresija]
Općenit regularizacijski izraz: p-norma vektora težina

$$ E_R(\mathbf{w}) = \|\mathbf{w}\|_p = \Big(\sum_{j=\color{red}{1}}^m |w_j|^p\Big)^{\frac{1}{p}} $$

L2-norma ($p=2$):

$$\|\mathbf{w}\|_2 = \sqrt{\sum_{j=\color{red}{1}}^m w_j^2} = \sqrt{\mathbf{w}^\intercal\mathbf{w}}$$

L1-norma ($p=1$):

$$\|\mathbf{w}\|_1 = \sum_{j=\color{red}{1}}^m |w_j|$$

L0-norma ($p=0$):

$$\|\mathbf{w}\|_0 = \sum_{j=\color{red}{1}}^m \mathbf{1}\{w_j\neq 0\}$$

NB: Težina $w_0$ se ne regularizira
- Q: Zašto?

Regularizirani linearni model regresije¶

L2-regularizacija ili Tikhononova regularizacija $\Rightarrow$ Ridge regression:

$$ E(\mathbf{w}|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(\mathbf{w}^\intercal\boldsymbol{\phi}(\mathbf{x}^{(i)}) - y^{(i)}\big)^2 + \color{red}{\frac{\lambda}{2}\|\mathbf{w}\|^2_2} $$

ima rješenje u zatvorenoj formi
L1-regularizacija $\Rightarrow$ LASSO regularization (engl. least absolute shrinkage and selection operator)

$$ E(\mathbf{w}|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(\mathbf{w}^\intercal\boldsymbol{\phi}(\mathbf{x}^{(i)}) - y^{(i)}\big)^2 + \color{red}{\frac{\lambda}{2}\|\mathbf{w}\|_1} $$

nema rješenje u zatvorenoj formi!
L0-regularizacija

$$ E(\mathbf{w}|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(\mathbf{w}^\intercal\mathbf{\phi}(\mathbf{x}^{(i)}) - y^{(i)}\big)^2 + \color{red}{\frac{\lambda}{2}\sum_{j=1}^m\mathbf{1}\{w_j\neq0\}} $$

NP-potpun problem!

L2-regularizacija¶

Linearna regresija sa L2-regularizacijom ima rješenje u zatvorenoj formi:

$$ \begin{align*} E'(\mathbf{w}|\mathcal{D}) &= \frac{1}{2} (\boldsymbol{\Phi}\mathbf{w} - \mathbf{y})^\intercal (\boldsymbol{\Phi}\mathbf{w} - \mathbf{y}) + \color{red}{\frac{\lambda}{2}\mathbf{w}^\intercal\mathbf{w}}\\ &= \frac{1}{2} (\mathbf{w}^\intercal\boldsymbol{\Phi}^\intercal\boldsymbol{\Phi}\mathbf{w} - 2\mathbf{y}^\intercal\boldsymbol{\Phi}\mathbf{w} + \mathbf{y}^\intercal\mathbf{y} + \color{red}{\lambda\mathbf{w}^\intercal\mathbf{w}})\\ \nabla_{\mathbf{w}}E' &= \boldsymbol{\Phi}^\intercal\boldsymbol{\Phi}\mathbf{w} - \boldsymbol{\Phi}^\intercal\mathbf{y} + \color{red}{\lambda\mathbf{w}} \\ &= (\boldsymbol{\Phi}^\intercal\boldsymbol{\Phi} + \color{red}{\lambda\mathbf{I}})\mathbf{w} - \boldsymbol{\Phi}^\intercal\mathbf{y} = 0 \\ \mathbf{w} &= (\boldsymbol{\Phi}^\intercal\boldsymbol{\Phi} + \color{red}{\lambda\mathbf{I}})^{-1}\boldsymbol{\Phi}^\intercal\mathbf{y}\\ \end{align*} $$

Napomene¶

Iznos parametra $w_j$ odgovara važnosti značajke, a predznak upućuje na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje složenost modela na način da prigušuje vrijednosti pojedinih značajki, odnosno efektivno ih izbacuje (kada $w_j\to0$)
- Ako je model nelinearan, to znači smanjivanje nelinearnosti
Težinu $w_0$ treba izuzeti iz regularizacijskog izraza (jer ona definira pomak) ili treba centrirati podatke tako da $\overline{y}=0$, jer onda $w_0\to0$
L2-regularizacija kažnjava težine proporcionalno njihovom iznosu (velike težine više, a manje težine manje) Teško će parametri biti pritegnuti baš na nulu. Zato L2-regularizacija ne rezultira rijetkim modelima
L1-regularizirana regresija rezultira rijetkim modelima, ali nema rješenja u zatvorenoj formi (međutim mogu se koristiti iterativni optimizacijski postupci
Regularizacija je korisna kod modela s puno parametara, jer je takve modele lako prenaučiti
Regularizacija smanjuje mogućnost prenaučenosti, ali ostaje problem odabira hiperparametra $\lambda$
- Taj se odabir najčešće radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za $\lambda$ bismo dobili kada bismo optimizaciju radili na skupu za učenje?

Sažetak¶

Linearan model regresije linearan je u parametrima
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju rješenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih baznih funkcija (preslikavanjem ulaznog prostora u prostor značajki
Uz pretpostavku normalno distribuiranog šuma, MLE je istovjetan postupku najmanjih kvadrata, što daje probabilističko opravdanje za uporabu kvadratne funkcije gubitka
Regularizacija smanjuje prenaučenost ugradnjom dodatnog izraza u funkciju pogreške kojim se kažnjava složenost modela