Pessoal ou social? Como obter cooperação em um ambiente multiagente

Ei! Meu nome Ă© Dmitry, e quero falar sobre nosso artigo “Equilibrando PreferĂȘncias Racionais e Outros-Referentes a Ambientes Cooperativos-Competitivos”, que foi recentemente admitido na conferĂȘncia AAMAS (A *). 





Neste artigo, exploramos como um grupo de agentes pode ser treinado para atingir seus próprios objetivos em ambientes mistos, sem interferir ou mesmo ajudar uns aos outros. Analisamos vårias soluçÔes existentes e oferecemos as nossas. A postagem acabou sendo de alto nível, os detalhes técnicos estão no artigo .





Quem somos nĂłs

Meu nome é Dmitry Ivanov , sou um estudante de graduação do terceiro ano em economia na HSE de São Petersburgo. Trabalho no grupo de Sistemas de Agentes e Aprendizagem por Reforço na JetBrains Research, bem como no Laboratório Internacional de Teoria de Jogos e Tomada de Decisão em HSE.





  , 1 “ ” — -, , . JetBrains Research, -- .





, : , . , . — (. 1).





FIG.  1. O dilema do prisioneiro.
. 1.  .

. , : , . , 3 . , 2 . , , , 4 . : , , .. . .





— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .





, , — ( , ?) , . , ? : ?





: , (Rashid et al., 2018). : , . . (SW = Social Welfare): 





SW (r) = \ sum_i r_i

SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,





, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .





Cooperative Reward Shaping

— , , . , , , λ:





( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .





, : , credit assignment . : , , — . , . , — — . — QMIX COMA!





? , . , . , SW -, . . , , BAROCCO — ?





. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .





FIG.  2. Quarta-feira Eldorado
. 2. Eldorado

:





  1. BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .





  2. BAROCCO , .. λ. , , .





Expectativa de vida (total para 2 agentes) Índice de Gini (menos = mais justo)
( 2 ) ( = )

. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .





:





  1. BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .





  2. BAROCCO , , . , , - .





  3. CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .





  4. , λ ( ) . 0.5. .





Fonte - Deeps of Reddit.
— Reddit.

λ. , , -, ( ), -,  — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .





: . , , . , , , , .








All Articles