(Q-learning, SARSA, DQN, DDPG)
Aprendizagem por reforço (RL, doravante RL) refere-se a um tipo de método de aprendizagem de máquina em que um agente recebe uma recompensa diferida na próxima etapa de tempo, a fim de avaliar sua ação anterior. Foi usado principalmente em jogos (por exemplo, Atari, Mario), com desempenho igual ou até superior aos humanos. Recentemente, quando o algoritmo é desenvolvido em combinação com redes neurais, ele é capaz de resolver problemas mais complexos.
Devido ao fato de haver um grande número de algoritmos OP, não é possível comparar todos eles entre si. Portanto, este artigo discutirá brevemente apenas alguns algoritmos bem conhecidos.
1. Aprendizagem por reforço
Um OP típico tem dois componentes, Agente e Ambiente.
– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .
. , , .
:
1. Action (A, a): , ()
2. State (S,s):
3. Rewrd (R,r): ,
4. Policy (π ): - , , (a’) .
5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )
6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a
. T(s1|(s0, a)) S0 a S1 . , , , a . , , (S*S*A )
, . / .
2.
2.1. Q-learning
Q-learning , :
Q-value:
Q, Q*, :
, Q-. Q-value, , Q-learning.
.
V « » . , , (action – a), V (). . .
(V)
, V, .
, , .
, p, , . , , , , . Q-Learning ?
a () (.. ) Q-learning (v). . (p).
, a’ Q- , . Q-learning (off-Policy).
2.2. State-Action-Reward-State-Action (SARSA)
SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .
Q
Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]
SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
at+1 – st+1 .
, , Q- learning Q-, , a, Q- Q (st + 1, a).
SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).
, SARSA – on-policy , +1. , Q-.
Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q
, , . , Q-learning , Q . , SARSA - , (on-policy).
2.3. Deep Q Network (DQN)
Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .
DQN Q-. , - Q .
2013 DeepMind DQN Atari, . . , . Q- , .
: ?
, Q-learning. , Q Q-learning:
φ s, θ , . , Q Q .
DQN:
1. : (RL) , . . , , « » .
2. : Q , , . C, , . , , .
2.4. Deep Deterministic Policy Gradient (DDPG)
DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .
DDPG «-» - . ? , .
(TD)
u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q
DDPG DQN. DDPG , . (action).
, , , OpenAI.