👨‍👦 🛸 ✅ Aprendizado de máquina. Redes Neurais (Parte 3) - Rede Convolucional sob o microscópio. Explorando a API Tensorflow.js 👄 🙆🏿 🧑‍🤝‍🧑

Veja também:

Aprendizado de máquina. Redes Neurais (Parte 1): O Processo de Aprendizagem Perceptron
Aprendizado de máquina. Redes neurais (parte 2): modelagem OR, XOR com TensorFlow.js

Em artigos anteriores, apenas um dos tipos de camadas de rede neural foi usado - densa, totalmente conectada, quando cada neurônio da camada original tem uma conexão com todos os neurônios das camadas anteriores.

Para lidar com uma imagem preto e branco 24x24, por exemplo, teríamos que transformar a representação da matriz da imagem em um vetor que contém 24x24 = 576 elementos. Como você pode imaginar, com essa transformação, perdemos um atributo importante - a posição relativa dos pixels nas direções vertical e horizontal dos eixos, e também, provavelmente, na maioria dos casos, o pixel localizado no canto superior esquerdo da imagem dificilmente tem qualquer efeito logicamente explicável no pixel em canto inferior direito.

Para eliminar essas deficiências, camadas convolucionais (CNN) são usadas para processamento de imagem.

O principal objetivo da CNN é extrair pequenas partes da imagem original que contenham recursos (recursos) de suporte (características), como arestas, contornos, arcos ou faces. Nos próximos níveis de processamento, fragmentos repetíveis mais complexos de texturas (círculos, formas quadradas, etc.) podem ser reconhecidos a partir dessas bordas, que podem então ser dobradas em texturas ainda mais complexas (parte do rosto, roda do carro, etc.).

Por exemplo, considere um problema clássico - reconhecimento de imagem de números. Cada número tem seu próprio conjunto de figuras características deles (círculos, linhas). Ao mesmo tempo, cada círculo ou linha pode ser composto de arestas menores (Figura 1)

Figura 1 - Princípio de funcionamento das camadas convolucionais conectadas sequencialmente, com a atribuição de feições características em cada um dos níveis. Cada uma das próximas camadas de um conjunto de camadas CNN encadeadas extrai padrões mais complexos com base nos previamente identificados. — 1 – , . CNN , .

1. (convolutional layer)

CNN ( ), c () , . – CNN – .

, 2x2 ( K) , 2x2 ( N), :

$\ left [\ begin {matrix} n_ {11} & n_ {12} \\ n_ {21} & n_ {22} \\\ end {matrix} \ right] \ ast \ left [\ begin {matrix} k_ {11} & k_ {12} \\ k_ {21} & k_ {22} \\\ fim {matriz} \ direita] = n_ {11} k_ {11} + n_ {12} k_ {12} + n_ {21} k_ {21 } + n_ {22} k_ {22}$

, .

, (fully-connected, dense layers):

${soma = \ \ vec {X}} ^ T \ vec {W} = \ sum_ {i = 1} ^ {n = 4} {x_iw_i} = x_1w_1 + x_2w_2 + x_3w_3 + x_4w_4$

, - , – - , ( ).

2. , , , .

Figura 2 - Computação em camadas convolucionais — 2 –

(kernel size) – 3, 5, 7.

(kernel) [k_h, k_w], [n_h, n_w], ( 3):

, . , . , .

, – (padding). , . , p_h p_w , :

, , , :

- . , (stride). – (stride).

, s_w, s_h, :

$c_w=\left \lfloor (n_w+p_w-k_w+s_w)/s_w \right \rfloor; c_h=\left \lfloor (n_h+p_h-k_h+s_h)/s_h \right \rfloor$

, ( – ). (). , (CONV1) 9x9x1 ( – - ), 2 1x1 (stride) (padding) , , . 9x9x2 2 – (. 6). CONV2 , , 2x2, , 2, 2x2x2. (CONV2) 9x9x4, 4 – .

, k_w k_h , n_wx n_hx n_d, n_d - , , k_w x k_h x n_d ( 6, CONV2).

7 , RGB, 3x3. , (3 ), 3x3x3.

TensorFlow.js

, : tf.layers.conv2d, – , :

- filter – number –

- kernelSize – number | number[] – , number, , –

- strides – number | number[] - , [1,1], .

- padding – ‘same’, ‘valid’ – , ‘valid’

'same'

, , () (stride) . , - 11 , – 5, 13/5=2.6, – 3 ( 8).

stride=1, ( 9), , ( 8).

'valid'

, strides , 8.

TensorFlow.js

, . :

- :

$\ left [\ begin {matrix} 1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1 \\\ end {matrix} \ right]$

- :

$\ left [\ begin {matrix} 1 & 1 & 1 \\ 0 & 0 & 0 \\ - 1 & -1 & -1 \\\ end {matrix} \ right]$

, , tf.browser.fromPixels. , img canvas .

<img src="./sources/itechart.png" alt="Init image" id="target-image"/>
<canvas id="output-image-01"></canvas>

<script>
   const imgSource = document.getElementById('target-image');
   const image = tf.browser.fromPixels(imgSource, 1);
</script>

, , , 3x3, “same” ‘relu’:

const model = tf.sequential({
    layers: [
        tf.layers.conv2d({
            inputShape: image.shape,
            filters: 1,
            kernelSize: 3,
            padding: 'same',
            activation: 'relu'
        })
    ]
});

[NUM_SAMPLES, WIDTH, HEIGHT,CHANNEL], tf.browser.fromPixel [WIDTH, HEIGHT, CHANNEL], – ( , ):

const input = image.reshape([1].concat(image.shape));

. , setWeights Layer, :

model.getLayer(null, 0).setWeights([
    tf.tensor([
         1,  1,  1,
         0,  0,  0,
        -1, -1, -1
    ], [3, 3, 1, 1]),
    tf.tensor([0])
]);

, , 0-255, NUM_SAMPLES:

const output = model.predict(input);

const max = output.max().arraySync();
const min = output.min().arraySync();

const outputImage = output.reshape(image.shape)
    .sub(min)
    .div(max - min)
    .mul(255)
    .cast('int32');

canvas, tf.browser.toPixels:

tf.browser.toPixels(outputImage, document.getElementById('output-image-01'));

2. (pooling layer)

, ( ), , . , , (pooling layer, subsample layer), . MaxPooling .

, .

. (kernel) , (stride) 1x1, . , (. 10).

Figura 10 - Transformação na camada de subamostra — 10 –

, 4x4, 2x2 (stride) , 2x2, .

, ( 11) . , , MaxPooling . (translation invariance). , , 50%. , , MaxPooling .

Figura 11 - Suavização de deslocamentos espaciais após a camada MaxPooling — 11 – MaxPooling

, .

, , – (stride).

MaxPooling AveragePooling, , , . , MaxPooling. AveragePooling , , MaxPooling .

TensorFlow.js (pooling layer)

tf.layers.maxPooling2d tf.layers.averagePooling2d. – , :

- poolSize - number | número [] - a dimensão do filtro, se o número for especificado, a dimensão do filtro assume a forma quadrada; se for especificado como uma matriz, a altura e a largura podem ser diferentes

- passadas - número | number [] é um passo à frente, um parâmetro opcional e por padrão tem a mesma dimensão que o poolSize especificado.

- preenchimento - 'mesmo', 'válido' - configuração de preenchimento zero, por padrão 'válido'

Aprendizado de máquina. Redes Neurais (Parte 3) - Rede Convolucional sob o microscópio. Explorando a API Tensorflow.js

1. (convolutional layer)

TensorFlow.js

'same'

'valid'

TensorFlow.js

2. (pooling layer)

TensorFlow.js (pooling layer)

More articles: