Ei! Meu nome Ă© Dmitry, e quero falar sobre nosso artigo âEquilibrando PreferĂȘncias Racionais e Outros-Referentes a Ambientes Cooperativos-Competitivosâ, que foi recentemente admitido na conferĂȘncia AAMAS (A *).
Neste artigo, exploramos como um grupo de agentes pode ser treinado para atingir seus prĂłprios objetivos em ambientes mistos, sem interferir ou mesmo ajudar uns aos outros. Analisamos vĂĄrias soluçÔes existentes e oferecemos as nossas. A postagem acabou sendo de alto nĂvel, os detalhes tĂ©cnicos estĂŁo no artigo .
Quem somos nĂłs
Meu nome é Dmitry Ivanov , sou um estudante de graduação do terceiro ano em economia na HSE de São Petersburgo. Trabalho no grupo de Sistemas de Agentes e Aprendizagem por Reforço na JetBrains Research, bem como no Laboratório Internacional de Teoria de Jogos e Tomada de Decisão em HSE.
, 1 â â â -, , . JetBrains Research, -- .
, : , . , . â (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
â , (Peysakhovich and Lerer, 2017). , . . , â âCooperateâ âDefectâ. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , â ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). â , . , . ââ ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , â , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement â , . â . SW , SW â . â , , .
Cooperative Reward Shaping
â , , . , , , λ:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , â â. , , credit assignment. , .
, : , credit assignment . : , , â . , . , â â . â QMIX COMA!
? , . , . , SW -, . . , , BAROCCO â ?
. , â Eldorado (. 2). . â 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. λ. , , .
. 3. Eldorado. â . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . â λ BAROCCO. â , â , . â .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, λ ( ) . 0.5. .
λ. , , -, ( ), -, â . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .