Introdução a vários algoritmos de aprendizagem por reforço (Q-Learning, SARSA, DQN, DDPG)

(Q-learning, SARSA, DQN, DDPG)





Aprendizagem por reforço (RL, doravante RL) refere-se a um tipo de método de aprendizagem de máquina em que um agente recebe uma recompensa diferida na próxima etapa de tempo, a fim de avaliar sua ação anterior. Foi usado principalmente em jogos (por exemplo, Atari, Mario), com desempenho igual ou até superior aos humanos. Recentemente, quando o algoritmo é desenvolvido em combinação com redes neurais, ele é capaz de resolver problemas mais complexos.





Devido ao fato de haver um grande número de algoritmos OP, não é possível comparar todos eles entre si. Portanto, este artigo discutirá brevemente apenas alguns algoritmos bem conhecidos.





1. Aprendizagem por reforço





Um OP típico tem dois componentes, Agente e Ambiente.





– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .





. , , .





:





1.      Action (A, a): , ()





2.      State (S,s):





3.      Rewrd (R,r): ,





4.    Policy (π ): -  , , (a’) .





5.      Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )





6.      Q-value (Q): Q V, , a ( ). Qπ(s, a)   π   s a





* MCTS (modelo de passo de tempo de Monte Carlo), dentro da política (um algoritmo em que o Agente está incluído na política, ou seja, aprende com base nas ações derivadas da política atual), fora da política (O Agente aprende com base nas ações recebidas de outros política
* MCTS (- ), on-policy (, , .. , ), off-policy ( ,





.  T(s1|(s0, a)) S0   a S1 . , , , a . , , (S*S*A )





, . / .





2.   





2.1.    Q-learning





Q-learning , :





E na equação acima se refere ao valor esperado e  é o fator de desconto.
E ,  - .

Q-value:





Q, Q*, :





, Q-. Q-value, , Q-learning.









.





V « » . , , (action – a), V (). . .





(V)





, V, .





, , .





, p, , . , , , , . Q-Learning ?





a () (.. ) Q-learning (v). . (p).





, a’ Q- , . Q-learning (off-Policy).





2.2.    State-Action-Reward-State-Action (SARSA)





SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .





Q





Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]





SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]





at+1 st+1 .





, , Q- learning Q-, , a, Q- Q (st + 1, a).





SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).





, SARSA – on-policy , +1. , Q-.





Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q





, , . , Q-learning , Q . , SARSA - , (on-policy).





2.3.    Deep Q Network (DQN)





Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .





DQN Q-. , - Q .





2013 DeepMind DQN Atari, . . , . Q- , .





: ?





, Q-learning. , Q Q-learning:





φ s, θ , . , Q Q .





DQN:





1.      : (RL) , . . , , « » .





2.     : Q , , . C, , . , , .





2.4.    Deep Deterministic Policy Gradient (DDPG)





DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .





DDPG «-» - . ? , .





(TD)





u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q





DDPG DQN. DDPG , . (action).





À esquerda, o ruído é adicionado às ações, à direita aos parâmetros.
,

, , , OpenAI.








All Articles