Oppimisen matemaattinen kaava â ja sen inhimillinen ulottuvuus
Ainut hetki, joka on, on nyt
IhmisellĂ€ on kuitenkin kyky ajatella tulevaa. ElĂ€villĂ€ olennoilla on olemassa malli maailmasta â se perustuu kokemuksiin ja havaintoihin:
Pallo putoaa maahan. Aurinko nousee aamulla.
Malli voi olla mitĂ€ tahansa, mutta se on aina ennusteiden perusta. Joskus kokemukset ovat ristiriidassa mallin kanssa â ja silloin, kun opimme, me korjaamme tuota mallia. TĂ€tĂ€ voisi kutsua oppimisnopeudeksi â α.
Jos meillÀ on tavoitteita, suunnittelemme toimintamme mallin pohjalta. Tavoitteen saavuttaminen on palkintomme. Emme kuitenkaan yleensÀ tiedÀ tarkalleen, miten tavoitteemme saavutamme.
Kun yritĂ€mme jotain uutta, poikkeamme vanhasta mallista â ja jos uusi kokeilu toimii, mallimme maailmasta muuttuu.
Esimerkki: hetkellinen vs. tuleva palkinto
Kirjoittaessani tÀtÀ haluaisin kovasti lÀhteÀ ulos. LykkÀÀn kuitenkin tuota ulos lÀhtemisen palkintoa, koska haluan saada tÀmÀn tekstin valmiiksi.
Lyhyen tĂ€htĂ€imen palkinto olisi siis nousta heti ylös, mutta olen valmis tinkimÀÀn nykyhetkestĂ€ saavuttaakseni suuremman palkinnon myöhemmin. TĂ€mĂ€ on kurinalaisuutta â samaa mielen toimintaperiaatetta, jonka koneoppimisessa kuvaisi discount kerroin (Îł).
𧟠Q-learningin pÀivityskaava
Q(s, a) â Q(s, a) + α [ r + Îł Ă max(Q(sâ, aâ)) â Q(s, a) ]
Arvio siitÀ, kuinka hyvÀ on tehdÀ toiminto a tilassa s.
α
Oppimisnopeus
Kuinka paljon uusi tieto painaa vanhan rinnalla.
r
Palkkio
Hetkellinen palkinto toiminnosta.
Îł
Kurinalaisuus (discount factor)
Kuinka paljon tulevia palkintoja arvostetaan nykyhetkeen verrattuna.
sâ
Uusi tila
Tila, johon pÀÀdytÀÀn toiminnon jÀlkeen.
max(Q(sâ, aâ))
Paras arvio seuraavan tilan Q-arvosta
Arvio parhaasta mahdollisesta toiminnosta uudessa tilassa.
Emme oikeastaan tiedĂ€, mitĂ€ palkintoa tavoittelemme. Mutta joka hetki, kun toimimme, pĂ€ivitĂ€mme malliamme maailmasta. Juuri tĂ€mĂ€ jatkuva mallin hienosÀÀtö on oppimista â ihmisellĂ€ ja algoritmilla.
Ja lisĂ€tÀÀn nyt vielĂ€ loppuun, ettĂ€ koko ajatus on minusta lĂ€hinnĂ€ hauska â ei mitÀÀn sen vakavampaa. TĂ€llaisesta on kyllĂ€ keskusteltu ja vĂ€itelty vaikka kuinka paljon, esimerkiksi LeCunin ja Suttonin toimesta.
Tietysti tÀmÀn algoritmin avaaminen johtaa vielÀ mieleinkiintoisempii kysymyksiin: Kuten mikÀ on se tavoiteltava palkinto ja mitÀ tarkelleen ottaen on ympÀristön tila juuri nyt ja kuinka oikea on meidÀn mailmankuvamme.