Spodbujevano učenje: Razlika med redakcijama
Izbrisana vsebina Dodana vsebina
m Smihael je premaknil stran Okrepitveno učenje na Spodbujevano učenje: pravilni prevod |
Brez povzetka urejanja Oznaka: Izboljšani urejevalnik wikikode |
||
Vrstica 1:
Po analogiji iz [[behaviorizem|behaviorizma]], je '''
Pri RL gre najpogosteje za priučitev kompleksnejših potekov vedenja, ki jih je mogoče izraziti skozi načrtovanje posledic vedenja. V nasprotju s tem se za neposredno optimizacijo vedenja pogosto uporablja postopke [[policy gradient]]ov, ki vedenjske vzorce optimizirajo neposredno (brez ocenjevanja končnega vzorca vedenja) s spreminjanjem parametrov nekega vedenjskega vzorca.
|