Uma revolução silenciosa e um novo oeste selvagem na ComputerVision

Parece que já houve uma revolução com a Visão Computacional. Em 2012, algoritmos baseados em redes neurais convolucionais foram acionados . A partir de 2014 chegaram à produção e a partir de 2016 encheram tudo . Mas, no final de 2020, uma nova rodada aconteceu. Desta vez, não em 4 anos, mas em um. vamos falar sobre Transformers no ComputerVision. O artigo fornecerá uma visão geral dos novos produtos que surgiram no ano passado. Se for mais conveniente para alguém, o artigo está disponível em vídeo no youtube.





Os transformadores são um tipo de rede neural criada em 2017. Inicialmente, eles foram usados ​​para traduções :









Mas, como se viu, eles funcionaram simplesmente como um modelo universal da linguagem. E lá vamos nós. Na verdade, o famoso GPT-3 é um produto de transformadores.





ComputerVision?

. , . - , . . , . CV.





DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :





, ReInspect 2015 - , BackBone . - ReInspect Detr. . 





, , DETR ( , ). .

, DETR ComputerVision. ? ? :





  1. - , .  Deformable DETR.





  2. DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).





DETR Visual Transformer ( + ) . Feature map backbone:





Visual Transformer , . backbone . 





VIT

. ViT:





2020 (). -. . - 16*16. “”, . 





, , . ( state-of-art). 14 - .

. FaceBook - Deit. .





- https://paperswithcode.com/paper/going-deeper-with-image-transformers





- . , ~2-3 , . ResNet  . 





CLIP

. CLIP. . CLIP . , . , - :





, . . :





:





, - :





ResNet50. , 100 .





, /. CLIP . CLIP . . , :





Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .





/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :





---------------------------------------

. - :

















  • 1-2





- / . .





PoseFormer

Pose3D. , , :





3 . CherryLabs ( ) 3 , , . , , . - 3D, :





- . ( ). .





, . / .





TransPose

, . TransPose - :





( OpenPose)





. . , , :





SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :





, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision





LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:









, :





, , , . : (Video Transformer Network, ActionBert). MMAction.





. , . , - STARK:





, . . , , . , , . . BBOX + , ,





TransTrack
TransTrack
TransT
TransT

.





ReID

, .  20 ReID - .





:





. VIT (1,2):





(1,2):





- OCR . , - :





state-of-art . . - 2 . - .





, . , , :





ComputerVision. , , . 





. . , - , 2 . , -





, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).





, , youtube:








All Articles