Notebook

Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva

Strojno učenje¶

http://www.fer.unizg.hr/predmet/su

Ak. god. 2015./2016.

Bilježnica 2: Osnovni koncepti strojnog učenja¶

Verzija: 0.7 (2015-10-21)

In [1]:

import scipy as sp
import scipy.stats as stats
import matplotlib.pyplot as plt
from numpy.random import normal
%pylab inline

Populating the interactive namespace from numpy and matplotlib

Sadržaj:¶

Tipični koraci primjene algoritma SU
Prostor primjera
Hipoteza i model
Empirijska pogreška
Prostor inačica
Složenost modela
Induktivna pristranost
Tri komponente svakog algoritma SU
Primjer: regresija
Problem šuma
Odabir modela

Tipični koraci primjene algoritma SU¶

Priprema podataka
(Označavanje podataka za učenje i ispitivanje)
(Redukcija dimenzionalnosti)
Odabir modela
Učenje modela
Vrednovanje modela
Dijagnostika i ispravljanje (debugging)
Instalacija (deployment)

Naš fokus su koraci 4-7

Prostor primjera¶

Prostor primjera (ulazni prostor): $\mathcal{X}$
Dimenzija ulaznog prostora: $n$
Primjer je vektor u ulaznom prostoru: $\mathbf{x} = (x_1, x_2, \dots, x_n)^T \in \mathcal{X}$
Oznaka (engl. label) klase (za klasifikaciju) ili ciljna vrijednost (za regresiju): $y$
Skup oznaka klase: $\mathcal{Y} = \{0, \dots, K\}$
- Broj klasa: $K$
- Binarna klasifikacija: $K=2$, $\mathcal{Y} = \{0,1\}$
Broj primjera: $N$
Skup označenih primjera za učenje: $\mathcal{D} = \big\{(x^{(i)}, y^{(i)})\big\}_{i=1}^N \subseteq \mathcal{X}\times\mathcal{Y}$
Matrično:

\begin{array}{lllll|l} &x_1 & x_2 & \cdots & x_n & \mathbf{y}\\ \hline \mathbf{x}^{(1)} = & x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)} & y^{(1)}\\ \mathbf{x}^{(2)} = & x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)} & y^{(2)}\\ & \vdots\\ \mathbf{x}^{(N)} = & x_1^{(N)} & x_2^{(N)} & \cdots & x_n^{(N)} & y^{(N)}\\ \end{array}

Matrica $\mathcal{D}$ sastavljena je od matrice $\mathbf{X}_{N\times n}$ i vektora $\mathbf{y}_{N\times 1}$

Hipoteza i model¶

Hipoteza: $h : \mathcal{X} \to \mathcal{Y}$
- Funkcija koja svakom primjeru (iz prostora primjera) dodjeljuje oznaku klase (iz skupa oznaka klase)
Binarna klasifikacija: $h : \mathcal{Y} \to \{0, 1\}$
- Definicija: Primjer $\mathbf{x}\in\mathcal{X}$ zadovoljava hipotezu $h$ akko $h(\mathbf{x})=1$
- Definicija: Hipoteza $h$ je konzistentna s primjerom $(\mathbf{x}, y)$ akko $h(\mathbf{x})=y$
Općenitije: $h(\mathbf{x} | \theta)$
- Funkcija parametrizirana parametrima $\theta$ (vektor parametara)
- Npr.:
  - Linearna regresija: $h(x) = \theta_1 x + \theta_0$
  - Linearan klasifikacijski model: $h(x_1,x_2|\theta_0,\theta_1,\theta_2) = \mathbf{1}\{\theta_1 x_1 + \theta_2 x_2 + \theta_0 \geq 0\}$
Model $\mathcal{H}$: skup hipoteza $h$
Formalno: $\mathcal{H} = \big\{ h(\mathbf{x} | \theta)\big\}_{\theta}$
- Familija funkcija parametriziranih s $\theta$
Učenje (treniranje modela) svodi se na pretraživanje prostora hipoteza $\mathcal{H}$ i nalaženje najbolje hipoteze $h\in \mathcal{H}$
- Najbolja hipoteza: ona koja najtočnije klasificira primjere (klasifikacija) odnosno daje vrijednosti najbliže ciljnim vrijednostima (regresija)
- Optimizacijski problem!
[Primjer: Ulazni prostor + prostor parametara]
$\mathcal{H}$ je vrlo velik, pa nam često treba heuristička optimizacija

Empirijska pogreška¶

Iskazuje koliko točno hipoteza klasificira primjere (klasifikacija) ili koliko su vrijednosti blizu ciljnih vrijednosti (regresija)
Pogreška klasifikacija (engl. misclassification error):

$$ E(h|\mathcal{D}) = \frac{1}{N} \sum_{i=1}^N \mathbf{1}\{h(\mathbf{x})^{(i)} \neq y^{(i)}\} $$

Specifično, za binarnu klasifikaciju s $\mathcal{Y}=\{0,1\}$:

$$ E(h|\mathcal{D}) = \frac{1}{N} \sum_{i=1}^N |h(\mathbf{x})^{(i)} - y^{(i)}| $$

[Primjer]
Vrijednost pogreške načinjene na pojedinačnom primjeru (funkcija unutar sume) zove se funkcija gubitka (engl. loss function)
- Gubitak $\mathbf{1}\{h(\mathbf{x})^{(i)} \neq y^{(i)}\}$ zove se gubitak nula-jedan (engl. zero-one loss)

Prostor inačica (engl. version space)¶

$\mathit{VS}_{\mathcal{H},\mathcal{D}} \subseteq \mathcal{H}$
Skup hipoteza iz $\mathcal{H}$ koje su konzistentne s primjerima za učenje $\mathcal{D}$

$$ \mathit{VS}_{\mathcal{H},\mathcal{D}} = \Big\{h\in\mathcal{H} \mid \forall(\mathbf{x},y)\in\mathcal{D}.\ \big(h(\mathbf{x})=y\big)\Big\} $$

[Primjer]

Složenost modela¶

Idealno, u modelu $\mathcal{H}$ postoji hipoteza $h$ koja je konzistentna s $\mathcal{D}$, tj. hipoteza za koju vrijedi $E(h|\mathcal{D}) = 0$
No, moguće je da takva $h$ ne postoji, tj. $\forall h\in\mathcal{H}. E(h|\mathcal{D}) > 0$
Tada kažemo da model $\mathcal{H}$ nije dovoljne složenosti (ili kapaciteta)
[Primjer]
[Zadatak: 6 primjera]

Induktivna pristranost (engl. inductive bias)¶

Učenje hipoteze je loše definiran problem: $h$ ne slijedi deduktivno iz $\mathcal{D}$
Primjer 1: Učenje Booleove funkcije

\begin{array}{ccc|c} x_1 & x_2 & x_3 & y\\ \hline 0&0&0&\color{red}{\textbf{?}}\\ 0&0&1&\color{red}{\textbf{?}}\\ 0&1&0&1\\ 0&1&1&0\\ 1&0&0&1\\ 1&0&1&0\\ 1&1&0&\color{red}{\textbf{?}}\\ 1&1&1&1\\ \end{array}

$N = |\mathcal{D}|=5$, $n=3$, $\mathcal{X} = \{0,1\}^3$, $|\mathit{VS}| = 2^{2^n - N} = 8$
Generalizacija - sposobnost klasifikacije još neviđenih primjera
Učenje i generalizacija nisu mogući bez dodatnih pretpostavki
- Futility of bias-free learning
Induktivna pristranost (engl. inductive bias)
- $\mathcal{L}$ - algoritam učenja
- $h_\mathcal{L}$ - hipoteza inducirana pomoću $\mathcal{L}$ na $\mathcal{D}$
- $h_\mathcal{L}(\mathbf{x})$ - klasifikacija primjera $\mathbf{x}\in\mathcal{X}$
- Induktivna pristranost od $\mathcal{L}$ je bilo koji skup minimalnih pretpostavki $\mathcal{B}$ takvih da

$$ \forall \mathcal{D}.\,\forall\mathbf{x}\in \mathcal{X}.\,\big((\mathcal{B}\land\mathcal{D}\land\mathbf{x})\ \vdash\ h_\mathcal{L}(\mathbf{x})\big) $$

Skup pretpostavki koje od indukcije čine dedukciju
Dvije vrste induktivne pristranosti:
- Pristranost jezika (pristranost ograničenjem): odabiremo model $\mathcal{H}$ koji ograničava skup prikazivih hipoteza
- Pristranost preferencijom (pristranost pretraživanja): definiramo način pretraživanja unutar $\mathcal{H}$
Većina aloritama SU kombinira obje vrste pristranosti
[Primjer 2: Ulazni prostor + prostor parametara]
Zadatak 3:
- Učenje Booleove funkcije u $\mathcal{X}=\{0,1\}$, $\mathcal{H}$ je skup pravaca
- Q: Koja je ovo vrsta pristranosti?
- Q: Koliko različitih hipoteza postoji?
- Q: Postoji li za svako označavanje konzistentna hipoteza u $\mathcal{H}$?
Razmotrimo opet Primjer 1, uz $\mathcal{H} = \text{skup ravnina u $\mathbb{R}^3$}$

Tri komponente svakog algoritma SU¶

(1) Model $\mathcal{H}$
- $\mathcal{H} = \big\{ h(\mathbf{x} | \theta)\big\}_{\theta}$
(2) Funkcija gubitka $L(y, h(\mathbf{x}))$
- Izračunava kolika je pogreška hipoteze (naučenog modela) na primjeru $\mathbf{x}^{(i)}$
- Uobičajene funkcije gubitka:
  - Kvadratno odstupanje (regresija): $L\big(y,h(\mathbf{x}^{(i)}|\theta)\big)=(h(\mathbf{x}^{(i)}|\theta) - y^{(i)})^2$
  - Gubitak 0-1 (klasifikacija): $L\big(y,h(\mathbf{x}^{(i)}|\theta)\big) = \mathbf{1}\{h(\mathbf{x})^{(i)} \neq y^{(i)}\}$
Funkcija pogreške definirana je kao očekivana vrijednost funkcije gubitka na primjerima iz $\mathcal{X}\times\mathcal{Y}$

$$ E(h) = \mathbb{E}_{\mathbf{x},y}[L] $$

Međutim, prava distribucija primjera i oznaka, $P(\mathbf{x}, y)$ je nepoznata, pa umjesto toga računamo empirijsku pogrešku (pogrešku na skupu označenih primjera $\mathcal{D}$)

$$E(h|\mathcal{D}) = \mathbb{E}_{D}[L] = \frac{1}{N} \sum_{i=1}^N L\big(y^{(i)}, h(\mathbf{x}^{(i)})\big)$$

Budući da su hipoteze indeksirane preko parametara $\theta$, možemo pisati

$$E(\color{red}{\theta}|\mathcal{D}) = \mathbb{E}_{D}[L] = \frac{1}{N} \sum_{i=1}^N L\big(y^{(i)}, h(\mathbf{x}^{(i)}|\color{red}{\theta})\big)$$

(3) Optimizacijski postupak
- Postupak kojim nalazimo hipotezu $h^*$ koja minimizira empirijsku pogrešku

$$ h^* = \mathrm{argmin}_{h\in\mathcal{H}} E(h|\mathcal{D}) $$

tj. $$ \theta^* = \mathrm{argmin}_{\theta} E(\theta|\mathcal{D}) $$

Optimizacija može biti analitička ili heuristička
- Analitičke postupke koristimo kada postoji rješenje u zatvorenoj formi
Gornje tri komponente definiraju i induktivnu pristranost svakog algoritma
- Q: Koja vrsta induktivne pristranosti je vezana uz koje komponente?

Primjer: regresija¶

$y \in \mathbb{R}$
Na temelju $\mathcal{D}=\{(\mathbf{x}^{(i)},y^{(i)})\}$ učimo funkciju $h$ koja aproksimira nepoznatu funkciju $f:\mathcal{X}\to\mathbb{R}$
Idealno, $y^{(i)}=f(\mathbf{x}^{(i)})$, ali zbog šuma $y=f(\mathcal{x}^{(i)})+\varepsilon$
[Primjeri: Box Office Revenue, prosjek ocjena, cijena automobila]
Funkcija gubitka je kvadratna:

$$ L(y, h(\mathbf{x})) = (y - h(\mathbf{x}))^2 $$

pa je empirijska pogreška hipoteze $$ E(h|\mathcal{D})=\color{red}{\frac{1}{2}}\sum_{i=1}^N\big(y^{(i)}-h(\mathbf{x}^{(i)})\big)^2 $$ NB: Umjesto $1/N$, kod pogreške regresije koristimo $1/2$ zbog kasnije matematičke jednostavnosti. To međutim nema utjecaja na optimizaciju (radi se o konstanti)

Linearan model: hiperravnina u $\mathbb{R}^n$

$$ h(\mathbf{x}|\mathbf{w}) = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + w_0 = \sum_{i=1}^n w_i x_i + w_0 = \mathbf{w}^T\mathbf{x} + w_0 $$

Za $n=2$ imamo $\mathcal{X}=\mathbb{R}$. Model je

$$ h(x|\mathbf{w}) = w_1 x + w_0 $$

funkcija gubitka je $$ L(y^{(i)}, h(x^{(i)})) = \big(y^{(i)}-(w_1 x^{(i)} + w_0)\big)^2 $$ a pogreška je

$$ E(h|\mathcal{D})=\frac{1}{2} \sum_{i=1}^N\big(y^{(i)}-(w_1 x^{(i)} + w_0)\big)^2 $$

(1) Model:

In [2]:

def h(x, w): return w[1] * x + w[0]

(2) Funkcija gubitka (i njoj odgovarajuća funkcija pogreške):

In [3]:

def quadratic_loss(y, hx):
    return (y - hx)**2
    
def error(h, X, y):
    err = 0
    for xi, yi in zip(X, y):
        err += quadratic_loss(yi, h(xi))
    return 0.5 * err

Funkcija koja generira podatke (i koju zapravo želimo naučiti):

In [4]:

def f(x): return 3 * x + 2
xs = sp.linspace(0, 10)
plt.plot(xs, f(xs));

Skup primjera za učenje $\mathcal{D}=(\mathbf{X},\mathbf{y})$ dobiven je iz $f(x)$, uz dodatan šum:

In [5]:

X = linspace(0, 10)
y = f(X) + 2 * stats.norm.rvs(scale=3, size=50)

In [6]:

Out[6]:

array([  0.        ,   0.20408163,   0.40816327,   0.6122449 ,
         0.81632653,   1.02040816,   1.2244898 ,   1.42857143,
         1.63265306,   1.83673469,   2.04081633,   2.24489796,
         2.44897959,   2.65306122,   2.85714286,   3.06122449,
         3.26530612,   3.46938776,   3.67346939,   3.87755102,
         4.08163265,   4.28571429,   4.48979592,   4.69387755,
         4.89795918,   5.10204082,   5.30612245,   5.51020408,
         5.71428571,   5.91836735,   6.12244898,   6.32653061,
         6.53061224,   6.73469388,   6.93877551,   7.14285714,
         7.34693878,   7.55102041,   7.75510204,   7.95918367,
         8.16326531,   8.36734694,   8.57142857,   8.7755102 ,
         8.97959184,   9.18367347,   9.3877551 ,   9.59183673,
         9.79591837,  10.        ])

In [7]:

len(_)

Out[7]:

In [8]:

Out[8]:

array([  0.67064434,   7.31239169,   9.56400499,   0.2890283 ,
         6.96746129,  14.86178311,  12.60975181,  -0.28934441,
         6.44890713,   7.28992995,  13.72389263,  19.61341887,
        15.62669111,  14.43066191,   8.76710654,  19.48489724,
        -1.27170224,  10.81539578,  21.36130674,  14.3632114 ,
        14.6825962 ,  12.37886072,   5.04860612,  27.01349903,
        14.15906195,   8.62295154,  16.36435167,  15.92878647,
        12.01783068,  25.11064324,  24.71867488,  25.64192171,
        21.53657671,  26.70048261,  30.36258764,  22.37268596,
        27.29906374,  32.14498482,  12.14117217,  16.54494565,
        32.29949169,  13.98599392,  26.27138558,  28.5969641 ,
        29.10679964,  26.91455084,  32.36537598,  31.40052367,
        29.39580935,  23.59296505])

In [6]:

plt.plot(xs, f(xs), '--')
plt.scatter(X, y)
plt.show()

/usr/local/lib/python2.7/dist-packages/matplotlib/collections.py:590: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future will perform elementwise comparison
  if self._edgecolors == str('face'):

Dvije hipoteze iz našeg modela:

In [7]:

def h1(x): return h(x, [0,1])
def h2(x): return h(x, [0,2])

In [8]:

weights = [[0,1], [0,2], [1,2]]
plt.plot(xs, f(xs), '--')
plt.scatter(X, y)
plt.plot(xs, h1(xs), 'r', label='h1')
plt.plot(xs, h2(xs), 'g', label='h2')
plt.legend();

Empirijske pogreške hipoteza na skupu $\mathcal{D}$:

In [9]:

error(h1, X, y)

Out[9]:

5025.9784792784731

In [10]:

error(h2, X, y)

Out[10]:

2156.5878715137965

(3) Optimizacijski postupak

Tražimo $h\in\mathcal{H}$ koja minimizira empirijsku pogrešku

$$ h^* = \mathrm{argmin}_{h\in\mathcal{H}} E(h|\mathcal{D}) = \mathrm{argmin}_{h\in\mathcal{H}} \frac{1}{2} \sum_{i=1}^N\big(y^{(i)}-h(x^{(i)})\big)^2 $$

Hipoteza $h$ je indeksirana parametrima $(w_0, w_1)$, dakle zapravo tražimo

$$ (w_0,w_1)^* = \mathrm{argmin}_{w_0,w_1} \frac{1}{2} \sum_{i=1}^N\big(y^{(i)}-(w_1 x^{(i)} + w_0)\big)^2 $$

U ovom slučaju postoji analitičko rješenje (rješenje u zatvorenoj formi)

\begin{eqnarray*} && \nabla_{w_0,w_1} E(h|\mathcal{D})=0\\ &&\frac{\partial}{\partial w_0}\Big[ \frac{1}{2}\sum_i^N\big(y^{(i)}-(w_1 x^{(i)}+ w_0)\big)^2\Big] = 0 \\ &&\frac{\partial}{\partial w_1}\Big[\frac{1}{2}\sum_i^N\big(y^{(i)}-(w_1 x^{(i)}+ w_0)\big)^2\Big] = 0\\ &&\vdots\\ && w_0= \bar{y} - w_1\bar{x}\\ && w_1 = \frac{\sum_i^N x^{(i)}y^{(i)} - N\bar{x}\bar{y} } {\sum_i^N(x^{(i)})^2 - N\bar{x}^2} \end{eqnarray*}

In [11]:

N = len(X)
x_mean = sp.mean(X)
y_mean = sp.mean(y)
w1 = (np.dot(X, y) - N * x_mean * y_mean) / (sum(X**2) - N * (x_mean**2))
w0 = sp.mean(y) - w1 * sp.mean(X)

In [12]:

print w1, w0

2.82127363032 2.57918900236

In [13]:

def h_best(x): return h(x, [w0,w1])

In [14]:

plt.plot(xs, f(xs), '--')
plt.scatter(X, y)
plt.plot(xs, h_best(xs), 'r');

In [15]:

error(h_best, X, y)

Out[15]:

892.91671935457725

U gornjem primjeru radili smo s modelom prvog stupnja

$$ h_1(x) = w_1 x + w_0 $$

Međutim, mogli smo odabrati i složeniji model, npr. polinom drugog stupnja:

$$ h_2(x) = w_2 x^2 + w_1 x + w_0 $$

ili četvrtog stupnja: $$ h_4(x) = w_4 x^4 + w_3 x^3 + w_2 x^2 + w_1 x + w_0 $$

Ovo je i dalje linearna regresija, i dalje ima analitičko rješenje

In [16]:

from SU import PolyRegression

In [18]:

X1 = X.reshape((50,1))
h2 = PolyRegression(2).fit(X1, y)
h4 = PolyRegression(4).fit(X1, y)

In [19]:

plt.plot(xs, f(xs), '--')
plt.scatter(X, y)
plt.plot(X1, h2.predict(X1), 'r');
plt.plot(X1, h4.predict(X1), 'g');

In [20]:

error(h2, X, y)

Out[20]:

885.87751643487434

In [21]:

error(h4, X, y)

Out[21]:

845.62372708741623

Možemo očekivati da vrijedi:

$$ E(h_4|\mathcal{D}) \leq E(h_2|\mathcal{D}) \leq E(h_1|\mathcal{D}) $$

Q: Zašto?

Q: Koji model odabrati u ovom slučaju?
Q: Koji model općenito odabrati za neke podatke $\mathcal{D}$?

Problem šuma¶

Šum je neželjena anomalija u podacima
Mogući uzroci:
- Nepreciznost pri mjerenju značajki
- Pogreške u označavanju (engl. teacher noise)
- Postojanje skrivenih značajki (latentnih varijabli)
- Nejasne granice klasa (subjektivnost)
Zbog šuma je granica između pozitivnih i negativnih primjera složenija nego što bi idealno bila!
[Primjer 1: binarna klasifikacija po značajkama dobi i prihoda]
Jednostavni modeli ne mogu doseći $E(h|\mathcal{D})=0$
S druge strane, složeni modeli uče šum, a ne pravu klasifikaciju!
[Primjer 2]
Šum u načelu nije moguće odvojiti od pravih podataka
- Moguće je samo za stršeće vrijednosti (engl. outliers)

Odabir modela¶

Moramo odabrati model $\mathcal{H}$ (učenje bez pristranosti je uzaludno)!
Često radimo odabir modela unutar neke familije modela (npr. kod regresije: odabir stupnja polinoma)
Stupanj polinoma je hiperparametar modela ($w_i$ su parametri)
** Odabir modela = optimizacija modela, optimizacija hiperparametara **

Primjer: regresija¶

In [22]:

def g(x): return x**3 - 10 * x**2 + 2 * x - 2
xs = sp.linspace(0, 10)
plt.plot(xs, g(xs));

In [23]:

X = sp.linspace(0,10)
y = g(X) + 5 * stats.norm.rvs(scale=3, size=50)
plt.plot(xs, g(xs), '--')
plt.scatter(X, y)
plt.show()

In [24]:

plt.plot(xs, g(xs), '--')
plt.scatter(X, y)

X1 = X.reshape((50,1))
for degree in range(1, 8):
    h = PolyRegression(degree).fit(X1, y)
    plt.plot(X1, h.predict(X1), label="d=%d" % degree);
    print "error(h%d) = %.2f" % (degree, error(h, X, y))
plt.legend()
plt.show()

error(h1) = 45943.12
error(h2) = 12409.02
error(h3) = 4554.71
error(h4) = 4480.06
error(h5) = 4262.50
error(h6) = 3971.45
error(h7) = 3663.57

Model koji odgovara pravoj funkciji koja je generirala podatke je $h_3$, tj. optimalan hiperparametar je $d=3$
Modeli $h_1$ i $h_2$ imaju veću pogrešku od $h_3$ i njih sigurno ne bismo uzeli
Međutim, modeli $h_4$ i $h_5$ imaju manju pogrešku od $h_3$
Očito, što je veći kapacitet modela $\mathcal{H}$, to je manja pogreška $E(h|\mathcal{D})$, $h\in\mathcal{H}$
Ali model mora moći generalizirati!
Preferiramo jednostavne modele
- bolja generalizacija
- lakše učenje/uporaba
- lakše tumačenje
Occamova britva

Trebamo odabrati model koji točno odgovara pravoj složenosti funkcije koju nastojimo naučiti
Dvije krajnosti:
- Podnaučenost (engl. underfitting) - $\mathcal{H}$ je prejednostavan u odnosu na stvarnu funkciju $\Rightarrow$ loša klasifikacija na viđenim i neviđenim primjerima
- Prenaučenost (engl. overfitting) - $\mathcal{H}$ je previše složen u odnosu na stvarnu funkciju $\Rightarrow$ loša klasifikacija na neviđenim primjerima (loša generalizacija)
[Primjer: Podnaučenost/prenaučenost kod klasifikacije]
Drugi pogled:
- Jednostavan model ima visoku pristranost (engl. high bias)
- Složen model ima visoku varijancu (engl. high variance)
- Odabir modela $\Rightarrow$ kompromis između pristranosti i varijance (engl. bias-variance tradeoff)
- Optimalan model minimizira zajednički pristranost i varijancu
Pretpostavka induktivnog učenja
- Ako je (1) pogreška hipoteze na dovoljno velikom skupu primjera za učenje mala i (2) ako model nije suviše složen, hipoteza će dobro klasificirati i nove, (3) slične primjere

Unakrsna provjera (engl. cross-validation)¶

Metoda za procjenu sposobnosti generalizacije modela
- Skup primjera dijelimo na skup za učenje i skup za ispitivanje
$$ \mathcal{D} = \mathcal{D}_{\mathrm{train}} \cup \mathcal{D}_{\mathrm{test}} $$
- Model učimo na skupu za učenje, a ispitujemo na skupu za ispitivanje
- Primjeri iz skupa za ispitivanje model dosad nije vidio, pa na tom skupu dobivamo dobru (pravednu) procjenu pogreške generalizacije
Računamo dvije pogreške za $h\in\mathcal{H}$:
- Pogreška učenja (engl. train error): empirijska pogreška hipoteze na skupu za učenje, $P(h|\mathcal{D}_{\mathrm{train}})$
- Ispitna pogreška (engl. test error): empirijska pogreška hipoteze na skupu za ispitivanje, $P(h|\mathcal{D}_{\mathrm{test}})$
$P(h|\mathcal{D}_{\mathrm{train}})$ pada sa složenošću modela, dok $P(h|\mathcal{D}_{\mathrm{test}})$ tipično prvo opada a zatim raste
Optimalan model je onaj koji minimizira $P(h|\mathcal{D}_{\mathrm{test}})$
[Graf: Pogreške s obzirom na složenost modela]
Što ako želimo optimirati parametre modela?
- Ne možemo to raditi na skupu za provjeru!
- Trebamo još jedan skup: skup za provjeru (engl. validation set)
- Tročlana particija skupa primjera:
$$ \mathcal{D} = \mathcal{D}_{\mathrm{train}} \cup \mathcal{D}_{\mathrm{val}} \cup \mathcal{D}_{\mathrm{test}} $$ $$ \mathcal{D}_{\mathrm{train}} \cap \mathcal{D}_{\mathrm{val}} = \mathcal{D}_{\mathrm{train}} \cap \mathcal{D}_{\mathrm{test}} = \mathcal{D}_{\mathrm{val}} \cap \mathcal{D}_{\mathrm{test}} = \emptyset $$

Primjer: Regresija¶

In [25]:

XY = np.column_stack((X1, y))
np.random.shuffle(XY)

In [28]:

X_train, y_train = XY[:30,0:1], XY[:30,1]
X_test, y_test = XY[30:,0:1], XY[30:,1]

In [29]:

len(X_train), len(X_test)

Out[29]:

(30, 20)

In [30]:

plt.plot(xs, g(xs), '--')
plt.scatter(X_train, y_train, c='b')
plt.scatter(X_test, y_test, c='r');

In [31]:

plt.plot(xs, g(xs), '--')
plt.scatter(X_train, y_train, c='b')
plt.scatter(X_test, y_test, c='r');

for degree in range(1, 8):
    h = PolyRegression(degree).fit(X_train, y_train)
    plt.plot(X1, h.predict(X1), label="d=%d" % degree);
    print "train_error(h%d) = %.2f; test_error(h%d) = %.2f" % (degree, error(h, X_train, y_train), degree, error(h, X_test, y_test))
plt.legend()
plt.show()

train_error(h1) = 29464.92; test_error(h1) = 17336.67
train_error(h2) = 7791.35; test_error(h2) = 4718.77
train_error(h3) = 3002.65; test_error(h3) = 1657.94
train_error(h4) = 2912.17; test_error(h4) = 1787.16
train_error(h5) = 2612.13; test_error(h5) = 1754.30
train_error(h6) = 2158.16; test_error(h6) = 2150.77
train_error(h7) = 1937.27; test_error(h7) = 1916.90

In [32]:

train_errors = []
test_errors = []
degrees = range(1,8)
for degree in degrees:
    h = PolyRegression(degree).fit(X_train, y_train)
    train_error = error(h, X_train, y_train)
    test_error = error(h, X_test, y_test)
    train_errors.append(train_error)
    test_errors.append(test_error)

In [33]:

plt.plot(list(degrees), train_errors, label="train_error")
plt.plot(list(degrees), test_errors, label="test_error")
plt.legend()
plt.show()

Odabir modela kao minimizacija rizika*¶

Pogled na problem optimizacije modela iz statističke teorije učenja
Rizik = očekivanje gubitka = pogreška hipoteze
Empirijski rizik $R_{\mathrm{emp}}$ = procjena pogreške na skupu primjera, $E(h|\mathcal{D})$
Strukturni rizik $R_{\mathrm{struct}}$ = kvantifikacija složenosti modela
- Npr.: broj parametara, veličina zapisa modela i sl.
- Što je model složeniji, to je veći strukturni rizik
Želimo modele $\mathcal{H}$ koji (za naučenu $h\in\mathcal{H}$) minimiziraju i empirijski i strukturni rizik

$$ R_{\mathrm{emp}}(h) + \lambda R_{\mathrm{struct}}(h) $$

gdje $\lambda$ definira važnost empirijskog rizika u odnosu na strukturni

[Grafikon: empirijska + strukturna pogreška]
Dakle, umjesto minimizacije

$$ h^* = \mathrm{argmin}_{h\in\mathcal{H}} E(h|\mathcal{D}) $$

imamo $$ h^* = \mathrm{argmin}_{h\in\mathcal{H}} E(h|\mathcal{D}) + \lambda R_{\mathrm{struct}}(h) $$

Minimizacija strukturnog rizika je alternativa unakrsnoj provjeri
U praksi ipak koristimo unakrsnu provjeru (jer je pouzdanija)
Često kombiniramo unakrsnu provjeru s minimizacjom strukturnog rizika (tzv. regularizacija)

Sažetak¶

Hipoteza je funkcija koja klasificira primjere (kod klasifikcije) ili daje brojčanu vrijednost (kod regresije), a model je skup hipoteza
Različiti modeli imaju različite složenosti (kapacitete)
Učenje nije moguće bez induktivne pristranosti, koja može pristranost jezika ili pristranost preferencijom
Svaki algoritam SU ima tri komponente: model, funkciju gubitka i optimizacijski postupak
Empirijsku pogrešku hipoteze izračunavamo kao očekivanje funkcije gubitka na skupu primjera
Učenje modela svodi se na optimizaciju parametara modela s empirijskom pogreškom kao kriterijem
- Konkretno, kod regresije postoji analitičko rješenje za taj problem
Model koji je podnaučen ili prenaučen loše generalizira
Odabir modela svodi se na optimiranje hiperparametara modela
Unakrsnom provjerom možemo procijeniti pogreška generalizacije i odabrati optimalan model