Spodbujevano učenje: razlika med redakcijama

brez povzetka urejanja
m (Smihael je premaknil stran Okrepitveno učenje na Spodbujevano učenje: pravilni prevod)
Oznaka: Izboljšani urejevalnik wikikode
Po analogiji iz [[behaviorizem|behaviorizma]], je '''okrepljenospodbujevano učenje''' ([[angleščina|angleško]] ''reinforcment learning'', okrajšava ''RL'') področje [[strojno učenje|strojnega učenja]], katerega cilj je priučitev vedenja oziroma optimizacija vedenja na podlagi povratne informacije prek nagrajevanja oz. kaznovanja. Problem v [[software|računalniških sistemih]] omogoča optimizacijo enostavnih vzorcev vedenja in postopno priučitev kompleksnejših potekov obnašanja. Zaradi svoje splošnosti je kot '''aproksimacijsko dinamično programiranje''' obravnavan v številnih drugih disciplinah ([[teorija iger]], [[teorija nadzora]], [[teorija informacij]], stimulacijsko podprta [[optimizacija]], [[statistika]] in [[evolucijski algoritmi]]).
 
Pri RL gre najpogosteje za priučitev kompleksnejših potekov vedenja, ki jih je mogoče izraziti skozi načrtovanje posledic vedenja. V nasprotju s tem se za neposredno optimizacijo vedenja pogosto uporablja postopke [[policy gradient]]ov, ki vedenjske vzorce optimizirajo neposredno (brez ocenjevanja končnega vzorca vedenja) s spreminjanjem parametrov nekega vedenjskega vzorca.