Biologijo učenja z nagrajevanjem lahko najdete na spletnih straneh Operantno pogojevanje in Nagrajevanje.

Učenje z ojačitvami (Reinforcement learning - RL) je učenje programskega agenta, kako naj se obnaša v okolju, tako da mu sporočate, kako dobro se obnaša. To je področje strojnega učenja, ki se zgleduje po behavioristični psihologiji.

Učenje z okrepitvijo se razlikuje od nadzorovanega učenja, saj nikoli ne prikažemo pravilnih vhodov in izhodov. Poleg tega se okrepljeno učenje v nasprotju z nadzorovanim učenjem običajno uči sproti (spletno učenje). To pomeni, da mora agent izbirati med raziskovanjem in vztrajanjem pri tem, kar najbolje pozna.

Osnovni pojmi in sestavine

  • Agent: entiteta, ki sprejema odločitve (ukrepe).
  • Okolje (environment): vse, s čimer agent interagira; vrača opazovanja in nagrade.
  • Stanje (state): opis položaja agenta v okolju (lahko delno ali popolno opazno).
  • Akcija (action): ukrep, ki ga izbere agent.
  • Nagrada (reward): signal, ki ocenjuje dobroto posameznega dejanja glede na cilj.
  • Politika (policy): funkcija ali pravilo, ki preslika stanja v verjetnosti ukrepov. Označimo jo π.
  • Funkcija vrednosti (value): pričakovana vsota prihodnjih nagrad — pomaga oceniti, katera stanja ali akcije so koristne.
  • Model: (če obstaja) napoveduje naslednje stanje ali nagrado; ločimo model-bazirano in model-brez učenje.

Ključne težave in izzivi

  • Raziskovanje proti izkoriščanju (exploration vs exploitation): agent mora uravnotežiti poskuse novih dejanj z izkoriščanjem že znanih dobrih strategij (npr. ε-greedy, softmax, UCB).
  • Kreditna razdelitev (credit assignment): kako pripisati zasluge za končno nagrado posameznim prejšnjim dejanjem, zlasti pri zamujenih nagradah.
  • Delno opazna okolja: agent morda ne vidi celotnega stanja (POMDP), zato mora upoštevati zgodovino ali graditi notranje reprezentacije.
  • Učinkovitost vzorčenja: koliko interakcij z okoljem je potrebnih; RL je pogosto neučinkovit glede števila vzorcev.
  • Stabilnost in konvergenca: uporaba funkcijskih aproksimatorjev (npr. nevronskih mrež) lahko povzroči nestabilnosti brez ključnih tehnik (replay buffer, target network).

Glavne metode in algoritmi

  • Model-free:
    • Vrednostno temeljeni: Q-learning, SARSA (uči Q(s,a)).
    • Politika-temeljeni: REINFORCE (policy gradients) — neposredno optimizira politiko.
    • Actor-Critic: kombinacija politika (actor) in funkcije vrednosti (critic) — primeri: A2C, A3C.
  • Model-based: agent uči model okolja in ga uporablja za načrtovanje (npr. Dyna, monte-carlo tree search v AlphaGo).
  • Deep RL: uporaba globokih nevronskih mrež za aproksimacijo politik ali vrednosti — primeri: DQN (Deep Q-Network), PPO (Proximal Policy Optimization), SAC (Soft Actor-Critic).

Praktični primeri in uporabe

  • Klasični primer: Gridworld — agent se premika po mreži, išče cilj in prejme nagrade/strahovanja.
  • Igre: učenje igranja video iger (Atari, Go — AlphaGo), kjer so RL algoritmi dosegli človeško ali nadčloveško raven.
  • Robotika: nadzor gibanja, hoja, manipulacija z objekti.
  • Industrija in optimizacija: upravljanje skladišč, načrtovanje poti, dinamično določanje cen.
  • Sistemi priporočanja in oglaševanja: RL za prilagajanje vsebine v realnem času z upoštevanjem dolgoročnih ciljev.

Priporočene tehnike in dobre prakse

  • Reward shaping: previdno oblikovanje nagrad, da agentu olajšamo učenje, vendar pazimo na uvajanje nezaželenih motivacij.
  • Uporaba replay buffer in target network za stabilnost učenja v deep RL (npr. DQN).
  • Normalizacija vhodov in nagrad, regularizacija in nadzor hitrega pozabljanja (catastrophic forgetting).
  • Hiperparametri in evalvacija: merjenje uspešnosti preko več semenskov (seeds), več epizod in ustreznih metrik (povprečna nagrada, robustnost).

Omejitve in etični premisleki

  • RL agenti lahko odkrijejo nepričakovane ali varnostno tvegane strategije, če nagradna funkcija ne zajema vseh omejitev.
  • Visoka poraba podatkov in stroški simulacij v resničnem svetu (robotika) zahtevajo varnostne ukrepe in simulacijske modele.
  • Pri aplikacijah, ki vplivajo na ljudi, je potrebno upoštevati etiko, pristranskost in transparentnost odločitev agenta.

Kratek primer poteka učenja (po korakih)

  • Agent opazuje trenutno stanje s.
  • Agent izbere akcijo a po politiki π(a|s) (lahko z raziskovanjem).
  • Okolje vrne novo stanje s' in nagrado r.
  • Agent posodobi svojo politiko ali funkcijo vrednosti glede na (s, a, r, s').
  • Ponavlja se, dokler agent ne doseže zadostne zmogljivosti ali konvergenče.

Zaključek

Učenje z ojačitvami povezuje teorijo odločanja, optimizacije in statistike s praktičnimi aplikacijami v igrah, robotiki in industriji. Kljub velikim uspehom v simulacijah in igrah ostajajo izzivi v varnosti, učinkovitosti vzorčenja in prenosu znanja v resnične situacije. Če začnete z RL, je koristno najprej preizkusiti osnovne algoritme na enostavnih simulacijah (Gridworld, OpenAI Gym) in postopoma preiti na kompleksnejše modele ter tehnike globokega učenja.