👖 🧒🏼 🍥 TabNet. Poucos detalhes 🌠 🧔🏽 🤦🏿

Rede neural profunda de alto desempenho para dados tabulares TabNet

Introdução

Redes neurais profundas (GNNs) tornaram-se uma das ferramentas mais atraentes para a criação de sistemas de inteligência artificial (SRI), por exemplo, reconhecimento de voz, comunicação natural, visão computacional [2-3], etc. Em particular, devido à seleção automática de GNS importante, definindo recursos, conexões de dados. Arquiteturas de rede neural (neocognitrônica, convolucional, confiança profunda, etc.), modelos e algoritmos para aprender GNS (autoencoders, máquinas de Boltzmann, recorrentes controlados, etc.) estão em desenvolvimento. Os GNSs são difíceis de treinar, principalmente devido a problemas de gradiente de desaparecimento.

O artigo discute a nova arquitetura canônica do GNS para dados tabulares (TabNet), projetada para exibir uma "árvore de decisão". O objetivo é herdar as vantagens dos métodos hierárquicos (interpretabilidade, seleção de recursos esparsos) e métodos baseados em GNS (aprendizado passo a passo e de ponta a ponta). Especificamente, o TabNet atende a duas necessidades principais - alto desempenho e interpretabilidade. Muitas vezes, o alto desempenho não é suficiente - o GNS deve interpretar e substituir métodos semelhantes a árvores.

TabNet é uma rede neural de camadas totalmente conectadas com um mecanismo de atenção sequencial que:

usa uma seleção esparsa de objetos por instâncias, obtida do conjunto de dados de treinamento;
cria uma arquitetura de estágios múltiplos sequencial em que cada etapa de decisão pode contribuir para a parte da decisão que é baseada nas funções selecionadas;
melhora a capacidade de aprendizagem por meio de transformações não lineares de funções selecionadas;
simula um conjunto, envolvendo medições mais precisas e mais etapas de melhoria.

Cada camada de uma determinada arquitetura (Fig. 1) é uma etapa de solução contendo um bloco com camadas totalmente conectadas para transformar características - um transformador de recurso e um mecanismo de atenção para determinar a importância das características originais de entrada.

1. Conversor de funções

1.1. Normalização em lote

- . . , (, ), , . (covariate shift).

. , — . ( ) , . , , , .

. , — , . , , ( , – ) . . - (batch normalization), 2015 [4].

- .

1. d: x = (x₁, . . . , x_d). k- x ( ):

2. . , . , , (

$σ (x) = \ frac {1} {1 + exp (−x)}$

[−1, 1] ).

, :

γ, β .

3. , , -,

$Onde \; B = \ {{x ^ k_ 1, ..., _ m} \} - atual \; mini lote \; para \; k-th \; neurônio, onde B = {x_1 ^ k, ..., m} - \; \ text {mini-lote atual para} \; neurônio k-th \;$

4. .

, , ;
, ;
, ;
.

1.2. GLU

[5] Gated Linear Unit, , , LSTM-.

GLU

, , , . H = [h₀ ,..., h_N]  w₀, ... ,w_N,  P (w_i |h_i).  f H  h_i = f(h_{i - 1} , w_{i - 1})  , i ( , ).

 f  H = f * w , , , , , . . , , [5] , , .

. 2 . ,  D ^{|V| x e},  |V| - ( ),  e - .  w₀, … , w_N,   E = [Dw₀, … , Dw_N].  h₀ , …h_L 

 m, n – , ,  k - , X ∈ R ^N×m -  h_l ( , ),

, σ - ⊗ .

,  h_i . , . , k-1, , - , , k - .

Figura 2. Arquitetura de rede convolucional fechada para modelagem de linguagem — 2.

X * W + b, σ(X * V + c). LSTM, X * W + b , . (GLU). E H = h_L◦. . .◦h₀ (E).

(GLU) , .

3.3 LSTM

LSTM (long short-term memory, – ) — , . LSTM    , , [5].

LSTM . — , !

.   , ,  tanh.

LSTM

LSTM .

LSTM , . , « ».  h  x  0 1  C. 1  « »,  0 — « ».

. , . , . , .

, . . , « », ,  .  tanh  - C, . .

, .

 C. , .

 f, ,   .  i*C. , , .

,   .

, , . . , , .  tanh ( [-1, 1]) .

, , , . ,   , ( ) .

TabNet

Figura 3.3 Descrição da operação GLU — 3.3 GLU

3.4. Split:

Feature Transformer , . , , Attentive Transformer , . (backpropagation) , «» , ( ). , . , Attentive Transformer . , "" , , .

SPLIT

:  (. . 1) .

, , ( ), , .

. 3 . FC BN (GLU) , . √0.5 , , . . BN, , , BN BV mB. , , BN. , , . 3,

. softmax ( argmax ).

4.

. (), ( ) Softmax, , , : , - , — .

, ,  h_t, t=1 …m,  d  , .

C  d   d_i−1 .

 s —  h_i  « ».

,  s  softmax. e=softmax(s)

softmax :

 cc ,  h_i   e_i.

. , , , , , . Softmax, Sparsemax. , , - , Softmax , . «» «» , - .

5. SPARSEMAX

, z z, . :

τ(z) S(z), p. softmax , , , softmax .

, . softmax , sparsemax :

, :

, sparsemax , , :

|S(z)| - S(z).

, , , , Sparsemax.

Figura 6. Representação do mecanismo de influência — 6.

6.

, , , , - . . , , . ( ), () , , , .

. , , , , . : M[i] · f. (. . 1) , , a[i − 1]:

Sparsemax [6] , .

h[i] - , . 4., FC, BN, P[i] - , , :

γ - : γ = 1, γ, . P[0] ,

- . ( ),  P[0]  , . :

ϵ - . λ, , .

, , . , , , - . , [5] , .

TabNet - . TabNet . , () , .

, , , .

.. // . : . 2017. .6, №3. .28–59. DOI: 10.14529/cmse170303
LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. Vol.521. Pp.436–444. DOI: 10.1038/nature14539.
Rav`ı D., Wong Ch., Deligianni F., et al. Deep Learning for Health Informatics // IEEE Journal of Biomedical and Health Informatics. 2017. Vol.21, No.1. PP.4–21. DOI: 10.1109/JBHI.2016.2636665.
Sergey Ioffe, Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal // Proceedings of The 32nd International Conference on Machine Learning (2015), pp.448-456.
Sercan O. Arik, Tomas Pfister. TabNet: Attentive Interpretable Tabular Learning // ICLR 2020 Conference Blind Submission 25 Sept 2019 (modified: 24 Dec 2019). URL:https://drive.google.com/file/d/1oLQRgKygAEVRRmqCZTPwno7gyTq22wbb/view?usp=sharing
Andre F. T. Martins and Ram´on Fern´andez Astudillo. 2016. From Softmax´ to Sparsemax: A Sparse Model of Attention and Multi-Label Classification. arXiv:1602.02068.

TabNet. Poucos detalhes