Introdução a vários algoritmos de aprendizagem por reforço (Q-Learning, SARSA, DQN, DDPG)

(Q-learning, SARSA, DQN, DDPG)

Aprendizagem por reforço (RL, doravante RL) refere-se a um tipo de método de aprendizagem de máquina em que um agente recebe uma recompensa diferida na próxima etapa de tempo, a fim de avaliar sua ação anterior. Foi usado principalmente em jogos (por exemplo, Atari, Mario), com desempenho igual ou até superior aos humanos. Recentemente, quando o algoritmo é desenvolvido em combinação com redes neurais, ele é capaz de resolver problemas mais complexos.

Devido ao fato de haver um grande número de algoritmos OP, não é possível comparar todos eles entre si. Portanto, este artigo discutirá brevemente apenas alguns algoritmos bem conhecidos.

1. Aprendizagem por reforço

Um OP típico tem dois componentes, Agente e Ambiente.

– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .

. , , .

:

1. Action (A, a): , ()

2. State (S,s):

3. Rewrd (R,r): ,

4. Policy (π ): - , , (a’) .

5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )

6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a

* MCTS (modelo de passo de tempo de Monte Carlo), dentro da política (um algoritmo em que o Agente está incluído na política, ou seja, aprende com base nas ações derivadas da política atual), fora da política (O Agente aprende com base nas ações recebidas de outros política — * MCTS (- ), on-policy (, , .. , ), off-policy ( ,

. T(s₁|(s₀, a)) S₀ a S₁. , , , a . , , (S*S*A )

, . / .

2.

2.1. Q-learning

Q-learning , :

E na equação acima se refere ao valor esperado e  é o fator de desconto. — E ,  - .

Q-value:

Q, Q*, :

, Q-. Q-value, , Q-learning.

.

V « » . , , (action – a), V (). . .

(V)

, V, .

, , .

, p, , . , , , , . Q-Learning ?

a () (.. ) Q-learning (v). . (p).

, a’ Q- , . Q-learning (off-Policy).

2.2. State-Action-Reward-State-Action (SARSA)

SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .

Q

Q-learning: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxaQ(s_t₊₁,a)−Q(s_t,a_t)]

SARSA: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γQ(s_t+1,a_t+1)−Q(s_t,a_t)]

a_t+1– s_t+1 .

, , Q- learning Q-, , a, Q- Q (s_{t + 1}, a).

SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (s_{t + 1}, a_t+1). ( SARSA, State-Action-Reward-State-Action).

, SARSA – on-policy , +1. , Q-.

Q-learning , a, , a s , a, Q (s_t₊₁, a). , Q-learning (, , ), Q

, , . , Q-learning , Q . , SARSA - , (on-policy).

2.3. Deep Q Network (DQN)

Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .

DQN Q-. , - Q .

2013 DeepMind DQN Atari, . . , . Q- , .

: ?

, Q-learning. , Q Q-learning:

φ s, θ , . , Q Q .

DQN:

1. : (RL) , . . , , « » .

2. : Q , , . C, , . , , .

2.4. Deep Deterministic Policy Gradient (DDPG)

DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .

DDPG «-» - . ? , .

(TD)

u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q

DDPG DQN. DDPG , . (action).

À esquerda, o ruído é adicionado às ações, à direita aos parâmetros. — ,

, , , OpenAI.

All Articles