Introdução ou de qual IA estou falando
Estou principalmente interessado na IA universal como uma máquina para atingir objetivos complexos. Ou seja, algum tipo de complexo de hardware e software, que pode ser dito: fazer um avião que vai custar US $ 100, voar 1000 quilômetros a uma velocidade de 800 km / he transportar 5 pessoas. Ou assim: curar tal e tal pessoa do câncer em fase terminal.
A IA deve ser capaz de lidar com tais tarefas, se isso for fisicamente possível. E se for impossível, então alcance o resultado que seja o mais próximo possível daquele dado.
No momento, vejo duas maneiras de obter IA universal.
A primeira forma é através de sistemas como aprendizagem por reforço. Eles se conectam aos sensores e atuadores de algum robô e também têm um sinal de recompensa. A aprendizagem por reforço (doravante RL) opera para receber em média tantas recompensas quanto possível. E o canal de recompensa é a principal forma de dizer à IA o que queremos dele.
- , GPT-3, . . - , . , … GPT-3 “ - ” - . “ - ” - , . “ ?” GPT-3 , . GPT-3 .
Reinforcement Learning
.
- , RL , , , .
- . , .
,
, RL . - , 224224, , - . , , , , , . , - , , , - , , , . .
. :
1) , . , . ~1000-2000 . , , .
2) . - , “ ”, . , . , “ ”, , .
RL , .
RL . . RL - . - .
, RL . . RL , , .
?
-, RL . , , . - . .
- . RL , . , Doom, , , . RL , . RL - - , , . - - , , - , "" "".
, RL : Doom. .
RL , . , , - Exit.
RL , - , , , , , , Exit. , .
, , .
?
RL . . , .
, RL . , - - .
: RL , . , - , - . , RL - .
: , . , - . , RL , Exit. , “” - - , 5%, . , - , .
. , RL , . , , … : RL , , . , , , , , .
, RL , . . .
, , . - . : . -, . -, , , .
-. - Model-Based . “ ” - , , . ( , ) . , , -.
- , , ->, (, )-> .
.
. , . . RL , . , , , - . , RL , : , , .
, , , , , .
, , . , - RL.
? RL , , . , , . , - .
, . , , - , , . , - , - .
- - . , , .
- , . . , RL .
: ? , ?
: - , , … , .
: , , . , , , . , , , , 110 - , .
?
, : , , ( ). , “” “”.
, , . , , . “ , ”, - .
“ ” - , , . . , . , , . , , , . , -, “” , .
? ?
- . , -, , . , , RL . - , , - .
, . , . , RL “” - , , . ?
, . , - .
, , GAN. ( , - RL) , , . , . “” “” - , , - . .
, RL , - . , .
-
, , . , , , , - , .
, - RL - , . RL, . - - , RL.
RL . ( --) - : , , … , .
, . , , , .
, . , . . - “ ”, .
, , , , , . , , , - .
, RL . , . , RL - , , . , . .
, , , . , , -, . , . : 1000$ 100$ . ? , , . , . , . , - , - - . , , , . , , RL, , , , RL .
- , ( ) - , . , - , . RL - , . , - RL . , .
, , , . , .
, , .
Pretendo este artigo como uma forma de provocar o diálogo. Certamente estou errado em algum lugar e existem soluções mais astutas do que aquelas que consegui pensar. Portanto, comentários detalhados e debates interessantes são bem-vindos!