🧠 Ihminen Q-learning-agenttina

Oppimisen matemaattinen kaava – ja sen inhimillinen ulottuvuus


Ainut hetki, joka on, on nyt

IhmisellÀ on kuitenkin kyky ajatella tulevaa.
ElĂ€villĂ€ olennoilla on olemassa malli maailmasta – se perustuu kokemuksiin ja havaintoihin:

Pallo putoaa maahan.
Aurinko nousee aamulla.

Malli voi olla mitÀ tahansa, mutta se on aina ennusteiden perusta.
Joskus kokemukset ovat ristiriidassa mallin kanssa – ja silloin, kun opimme, me korjaamme tuota mallia.
TĂ€tĂ€ voisi kutsua oppimisnopeudeksi – α.


Jos meillÀ on tavoitteita, suunnittelemme toimintamme mallin pohjalta.
Tavoitteen saavuttaminen on palkintomme.
Emme kuitenkaan yleensÀ tiedÀ tarkalleen, miten tavoitteemme saavutamme.

Kun yritĂ€mme jotain uutta, poikkeamme vanhasta mallista – ja jos uusi kokeilu toimii, mallimme maailmasta muuttuu.


Esimerkki: hetkellinen vs. tuleva palkinto

Kirjoittaessani tÀtÀ haluaisin kovasti lÀhteÀ ulos.
LykkÀÀn kuitenkin tuota ulos lÀhtemisen palkintoa, koska haluan saada tÀmÀn tekstin valmiiksi.

Lyhyen tÀhtÀimen palkinto olisi siis nousta heti ylös,
mutta olen valmis tinkimÀÀn nykyhetkestÀ saavuttaakseni suuremman palkinnon myöhemmin.
TĂ€mĂ€ on kurinalaisuutta – samaa mielen toimintaperiaatetta, jonka koneoppimisessa kuvaisi discount kerroin (Îł).


🧼 Q-learningin pĂ€ivityskaava

Q(s, a) ← Q(s, a) + α [ r + Îł × max(Q(s’, a’)) – Q(s, a) ]


đŸ§© Selitys suomeksi

SymboliMerkitysSelitys
Q(s, a)Q-arvo (”quality”) (s=state, a=action)Arvio siitĂ€, kuinka hyvĂ€ on tehdĂ€ toiminto a tilassa s.
αOppimisnopeusKuinka paljon uusi tieto painaa vanhan rinnalla.
rPalkkioHetkellinen palkinto toiminnosta.
ÎłKurinalaisuus (discount factor)Kuinka paljon tulevia palkintoja arvostetaan nykyhetkeen verrattuna.
s’Uusi tilaTila, johon pÀÀdytÀÀn toiminnon jĂ€lkeen.
max(Q(s’, a’))Paras arvio seuraavan tilan Q-arvostaArvio parhaasta mahdollisesta toiminnosta uudessa tilassa.

Emme oikeastaan tiedÀ, mitÀ palkintoa tavoittelemme.
Mutta joka hetki, kun toimimme, pÀivitÀmme malliamme maailmasta.
Juuri tĂ€mĂ€ jatkuva mallin hienosÀÀtö on oppimista — ihmisellĂ€ ja algoritmilla.

Ja lisĂ€tÀÀn nyt vielĂ€ loppuun, ettĂ€ koko ajatus on minusta lĂ€hinnĂ€ hauska – ei mitÀÀn sen vakavampaa.
TÀllaisesta on kyllÀ keskusteltu ja vÀitelty vaikka kuinka paljon, esimerkiksi LeCunin ja Suttonin toimesta.

Tietysti tÀmÀn algoritmin avaaminen johtaa vielÀ mieleinkiintoisempii kysymyksiin: Kuten mikÀ on se tavoiteltava palkinto ja mitÀ tarkelleen ottaen on ympÀristön tila juuri nyt ja kuinka oikea on meidÀn mailmankuvamme.

Keskustellaan niistĂ€’ tÀÀllĂ€ 🙂