Učenje z okrepitvijo
Biologijo učenja z nagrajevanjem lahko najdete na spletnih straneh Operantno pogojevanje in Nagrajevanje.
Učenje z ojačitvami (Reinforcement learning - RL) je učenje programskega agenta, kako naj se obnaša v okolju, tako da mu sporočate, kako dobro se obnaša. To je področje strojnega učenja, ki se zgleduje po behavioristični psihologiji.
Učenje z okrepitvijo se razlikuje od nadzorovanega učenja, saj nikoli ne prikažemo pravilnih vhodov in izhodov. Poleg tega se okrepljeno učenje v nasprotju z nadzorovanim učenjem običajno uči sproti (spletno učenje). To pomeni, da mora agent izbirati med raziskovanjem in vztrajanjem pri tem, kar najbolje pozna.
Uvod
Sistem učenja z ojačitvami je sestavljen iz politike ( π {\displaystyle \pi } ), funkcije nagrajevanja ( R {\displaystyle R} ), funkcije vrednosti ( v {\displaystyle v} ) in neobveznega modela okolja.
Pravilnik agentu pove, kaj naj stori v določeni situaciji. To je lahko preprosta tabela pravil ali zapleteno iskanje pravilnega dejanja. Politike so lahko celo stohastične, kar pomeni, da politika namesto pravil vsakemu dejanju pripisuje verjetnost. Politika sama po sebi lahko agenta prisili, da nekaj naredi, vendar se sama ne more učiti.
Funkcija nagrajevanja določa cilj agenta. Funkcija prevzame stanje (ali stanje in dejanje, izvedeno v tem stanju) in vrne število, imenovano nagrada, ki agentu pove, kako dobro je, da je v tem stanju. Naloga agenta je, da na dolgi rok dobi največjo možno nagrado. Če dejanje prinaša nizko nagrado, bo agent v prihodnosti verjetno izvedel boljše dejanje. Biologija uporablja signale nagrajevanja, kot sta užitek ali bolečina, da zagotovi, da organizmi ostanejo živi za razmnoževanje. Signali nagrajevanja so lahko tudi stohastični, kot igralni avtomati v igralnici, kjer se včasih izplačajo, včasih pa ne.
Funkcija vrednosti agentu pove, koliko nagrade bo dobil, če bo sledil politiki π {\displaystyle \pi } , ki se začne v stanju s {\displaystyle s} . Predstavlja, kako zaželeno je biti v določenem stanju. Ker vrednostna funkcija agentu ni dana neposredno, mora na podlagi dosedanjega nagrajevanja dobro ugibati ali oceniti. Ocena funkcije vrednosti je najpomembnejši del večine algoritmov za učenje z okrepitvijo.
Model je agentova mentalna kopija okolja. Uporablja se za načrtovanje prihodnjih dejanj.
Če to vemo, lahko govorimo o glavni zanki za okrepljeno učenje. Agent sodeluje z okoljem v diskretnih časovnih korakih. Predstavljajte si to kot "tiktakanje" ure. Pri diskretnem času se stvari dogajajo samo med "tikanjem" in "taktanjem", ne pa tudi vmes. V vsakem času t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } agent opazuje stanje okolja S t {\displaystyle S_{t}} in izbere dejanje A t {\displaystyle A_{t}} na podlagi politike π {\displaystyle \pi } . V naslednjem časovnem koraku agent prejme nagradni signal R t + 1 {\displaystyle R_{t+1}} in novo opazovanje S t + 1 {\displaystyle S_{t+1}} . Funkcija vrednosti v ( S t ) {\displaystyle v(S_{t})} se posodobi z uporabo nagrade. To se nadaljuje, dokler ni doseženo končno stanje S T {\displaystyle S_{T}} .