Redakcija: 12:46, 26. februar 2019 uredi Smihael (pogovor \| prispevki) 20.097 urejanj m Smihael je premaknil stran Okrepitveno učenje na Spodbujevano učenje: pravilni prevod ← Starejše urejanje		Redakcija: 12:48, 26. februar 2019 uredi razveljavi Smihael (pogovor \| prispevki) 20.097 urejanj Brez povzetka urejanja Oznaka: Izboljšani urejevalnik wikikode Novejše urejanje →
Vrstica 1: Po analogiji iz [[behaviorizem\|behaviorizma]], je '''~~okrepljeno~~spodbujevano učenje''' ([[angleščina\|angleško]] ''reinforcment learning'', okrajšava ''RL'') področje [[strojno učenje\|strojnega učenja]], katerega cilj je priučitev vedenja oziroma optimizacija vedenja na podlagi povratne informacije prek nagrajevanja oz. kaznovanja. Problem v [[software\|računalniških sistemih]] omogoča optimizacijo enostavnih vzorcev vedenja in postopno priučitev kompleksnejših potekov obnašanja. Zaradi svoje splošnosti je kot '''aproksimacijsko dinamično programiranje''' obravnavan v številnih drugih disciplinah ([[teorija iger]], [[teorija nadzora]], [[teorija informacij]], stimulacijsko podprta [[optimizacija]], [[statistika]] in [[evolucijski algoritmi]]). Pri RL gre najpogosteje za priučitev kompleksnejših potekov vedenja, ki jih je mogoče izraziti skozi načrtovanje posledic vedenja. V nasprotju s tem se za neposredno optimizacijo vedenja pogosto uporablja postopke [[policy gradient]]ov, ki vedenjske vzorce optimizirajo neposredno (brez ocenjevanja končnega vzorca vedenja) s spreminjanjem parametrov nekega vedenjskega vzorca.

Spodbujevano učenje: Razlika med redakcijama