Uma revolução silenciosa e um novo oeste selvagem na ComputerVision

Parece que já houve uma revolução com a Visão Computacional. Em 2012, algoritmos baseados em redes neurais convolucionais foram acionados . A partir de 2014 chegaram à produção e a partir de 2016 encheram tudo . Mas, no final de 2020, uma nova rodada aconteceu. Desta vez, não em 4 anos, mas em um. vamos falar sobre Transformers no ComputerVision. O artigo fornecerá uma visão geral dos novos produtos que surgiram no ano passado. Se for mais conveniente para alguém, o artigo está disponível em vídeo no youtube.

Os transformadores são um tipo de rede neural criada em 2017. Inicialmente, eles foram usados para traduções :

Mas, como se viu, eles funcionaram simplesmente como um modelo universal da linguagem. E lá vamos nós. Na verdade, o famoso GPT-3 é um produto de transformadores.

ComputerVision?

. , . - , . . , . CV.

DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :

, ReInspect 2015 - , BackBone . - ReInspect Detr. .

, , DETR ( , ). .

, DETR ComputerVision. ? ? :

- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).

DETR Visual Transformer ( + ) . Feature map backbone:

Visual Transformer , . backbone .

VIT

. ViT:

2020 (). -. . - 16*16. “”, .

, , . ( state-of-art). 14 - .

. FaceBook - Deit. .

- https://paperswithcode.com/paper/going-deeper-with-image-transformers

- . , ~2-3 , . ResNet .

CLIP

. CLIP. . CLIP . , . , - :

, . . :

:

, - :

ResNet50. , 100 .

, /. CLIP . CLIP . . , :

Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .

/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :

---------------------------------------

. - :

1-2

- / . .

PoseFormer

Pose3D. , , :

3 . CherryLabs ( ) 3 , , . , , . - 3D, :

- . ( ). .

, . / .

TransPose

, . TransPose - :

. . , , :

SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :

, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision

LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:

, :

, , , . : (Video Transformer Network, ActionBert). MMAction.

. , . , - STARK:

, . . , , . , , . . BBOX + , ,

TransTrack

TransT

.

ReID

, . 20 ReID - .

:

. VIT (1,2):

(1,2):

- OCR . , - :

state-of-art . . - 2 . - .

, . , , :

ComputerVision. , , .

. . , - , 2 . , -

, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).

, , youtube:

All Articles