As principais tendências da Data Science em 2020, que serão relevantes em 2021

Hello Habr! Hoje contarei como o campo da Ciência de Dados está se desenvolvendo. 2020 tornou-se um ponto de inflexão não só para o mundo como um todo, o setor de dados está melhorando ativamente e hoje já podemos resumir os resultados do ano. Conheça as tendências do DS em 2020-2021.







Fiz o KDPV e depois o processei usando uma rede neural. Quem reconheceu o filme - aquele sujeito! :-)




IA e redes neurais



A inteligência artificial ainda tem dificuldades com o teste de Turing, mas há sucessos neste campo.


Em maio de 2020, a equipe OpenAI lançou o novo algoritmo de processamento de linguagem natural GPT-3. É, sem dúvida, o melhor algoritmo disponível hoje para esse fim.



As melhorias do sistema em relação à versão anterior do GPT-2 são enormes. O número de parâmetros do algoritmo aumentou mais de 100 vezes. O GPT-3 usa 175 bilhões de parâmetros, enquanto o GPT-2 usa apenas 1,5 bilhão.







E se antes uma rede neural podia gerar texto que se assemelhava apenas aproximadamente a um humano, agora suas capacidades são muito mais amplas.



Um aluno em sua conta Apolos postou artigos escritos por GPT-3. Não é muito difícil, no estilo de um treinador motivacional. E apenas um em dezenas de milhares de leitores suspeitou que os artigos não foram escritos por uma pessoa.







Na verdade, é por isso que o OpenAI não libera o algoritmo para acesso gratuito - ele pode simplesmente enterrar a Internet sob as avalanches de notícias falsas.



Os benefícios potenciais do GPT-3 são enormes. Desde a criação de uma nova geração de assistentes de voz até o desenvolvimento de mecânicas de jogo adaptáveis ​​que levarão o RPG a um nível totalmente novo.



A propósito, você já experimentou o AI Dungeon , um jogo baseado em texto jogado pelo GPT-3? Se não, experimente, é uma experiência muito interessante. Este artigo descreve uma dessas experiências.


Inteligência de decisão



A ciência da decisão é uma disciplina relativamente recente que estuda teorias científicas sobre a tomada de decisão. Para que as decisões não sejam tomadas com base na experiência subjetiva ou sentimentos do tomador de decisão, mas através da análise e comparação de dados.



O DI permite automatizar a tomada de decisões rotineiras e operacionais, dispensando o tomador de decisões.



InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .



InferVision, 5 . , . . , , , .



A inteligência de decisão é baseada em IA e aprendizado profundo. A InferVision, por exemplo, foi treinada em 100 mil casos.



É claro que, com o atual desenvolvimento da tecnologia, a IA ainda não pode tomar decisões objetivamente melhores em sistemas com múltiplas variantes. Ele simplesmente não tem o poder e os dados de entrada para análise. Mas em muitos momentos permite excluir a impulsividade de uma pessoa, seu preconceito e erros de pensamento banais. E também para automatizar os processos de tomada de decisão de rotina e economizar o tempo de um especialista para resolver problemas complexos.



Análise de nuvem



Sistemas de análise em nuvem já existiam antes, mas em 2020 a dinâmica de seu desenvolvimento aumentou muito.



A análise de nuvem simplifica o processo de uso de grandes conjuntos de dados que são atualizados com frequência. Um sistema analítico unificado para todas as divisões da empresa ajuda a atualizar os resultados analíticos e acelerar seu uso.



A análise em tempo real é a próxima etapa que muitas empresas buscam. Melhor operar com resultados de análises quentes feitas há alguns segundos. Afinal, a análise feita ontem pode já estar imprecisa.



A análise de nuvem é uma ferramenta promissora para gigantes de negócios que possuem departamentos de análise em todas as filiais. Portanto, grandes empresas como a IBM hoje estão intimamente envolvidas no desenvolvimento de tais sistemas.



Marketplaces de dados



Análise relacionada à nuvem, mas um fenômeno separado. 



A qualidade dos dados é crítica para a análise. Se uma startup não tiver a oportunidade de realizar pesquisas de marketing global, corre o risco de se mover às cegas, sem conhecer as reais necessidades do público-alvo. 



Mas agora a análise pode ser comprada. Os mercados de dados são mercados de informação completos. O famoso Statista é um dos primeiros desses mercados, mas agora a indústria está crescendo em um ritmo tremendo.



Naturalmente, ninguém vende dados pessoais (pelo menos legalmente). Nomes e sobrenomes, endereços residenciais, números de telefone e e-mail são protegidos por lei. Mas dados anônimos podem ser vendidos. E há muitas coisas úteis para os negócios. Idade e gênero, status social, preferências, esfera de trabalho, hobbies, nacionalidade e centenas de outros parâmetros que você deixa na rede, até a escolha dos gadgets no iOS ou Android. Lembramos a velha verdade - se algo na rede é gratuito, então talvez você mesmo seja o pagamento.


O mercado de Big Data em 2020 é de US $ 138,9 bilhões. Os especialistas prevêem que em 2025 ela crescerá para 229,4 bilhões.Esta é uma escala colossal, em que a maior parte será ocupada pela venda de informações, e não sua mineração.



Blockchain em análises



O hype do blockchain já foi um pouco. Em 2017, apenas os preguiçosos não queriam lançar sua própria criptomoeda e, em 2020, o blockchain é usado para fins mais pragmáticos.



A combinação de blockchain e big data é chamada de união perfeita. O Blockchain está focado em extrair e registrar dados confiáveis, a ciência de dados analisa grandes quantidades de dados para encontrar padrões de desenvolvimento e fazer previsões.



Big data é quantidade e blockchain é qualidade.

Há uma série de benefícios potenciais em integrar o blockchain à análise de big data:



  • Melhorar a segurança dos dados e resultados analíticos.

  • Manter a integridade máxima dos dados.

  • Prevenindo o uso de dados falsos.

  • Análise em tempo real. 

  • Melhorar a qualidade do big data.



Blockchain para KYC (conheça seus clientes). A tecnologia é usada por bancos e agências governamentais. Mas, como não há data warehouse comum entre diferentes organizações, cada uma delas deve ser identificada separadamente. Blockchain resolve esse problema. 



A plataforma Nexleger da Samsung , lançada na Coréia, simplifica esse esquema. Agora basta passar por todo o processo de identificação em apenas um banco ou organização. Se você precisar criar uma conta bancária, que está incluída no sistema de projetos, isso pode ser feito em alguns minutos. Agora, todos os círculos do inferno burocrático precisam passar apenas uma vez - isso é tudo.


Bancos de dados gráficos



Não é o tipo de DBMS mais popular e difundido. Ele é projetado especificamente para armazenar topologias que incluem nós e seus relacionamentos. Não é apenas um conjunto de dados no formato de tabela clássico. Sua própria essência é diferente.



Os gráficos são baseados em relacionamentos entre entidades, não nas próprias entidades.











E este é apenas um klondike para marketing. Afinal, a análise de banco de dados de gráficos pode ser usada para analisar formadores de opinião e influenciadores em redes sociais, personalizar anúncios, programas de fidelidade, analisar campanhas virais, aprimorar o SEO e muito mais.



Os gráficos permitem que você analise estruturas hierárquicas complexas que seriam problemáticas para modelar usando bancos de dados relacionais.



Em 2020, a análise gráfica foi usada ativamente para rastrear a disseminação do vírus na China e além. O estudo baseia-se em dados dinâmicos de 200 países, o que permite prever a evolução futura da situação no mundo e tomar medidas para mitigar as consequências. Se estiver interessado, o estudo completo está aqui .


Em 2020, o interesse em DBMSs gráficos aumentou significativamente. Eles são usados ​​pelo Ebay, Airbnb, IBM, Adobe, NBC News e dezenas de outras grandes empresas. E especialistas que sabem trabalhar bem com bancos de dados gráficos valem seu peso em ouro.



Python em ciência de dados



Python continua conquistando o mercado global de análises e desenvolvimento. E sua posição está ficando cada vez mais forte. Você pode ler mais neste artigo .



No ranking PYPL, o Python, que analisa o Google Trends, está na liderança. 



Python ocupa o segundo lugar na classificação do GitHub quanto ao número de solicitações de pull: 15,9% do número total de todas as solicitações de pull. Para efeito de comparação, a linguagem R, com a qual o Python sempre compete em análises, já está em 33º lugar e responde por apenas 0,09% das solicitações pull. 



Especialistas com proficiência em Python em análise são mais necessários. Recentemente, analisamos o mercado de trabalho de Data Science na Rússia e descobrimos que o conhecimento de Python é necessário em 81% das vagas, mas R (sem Python) é necessário apenas em 3% dos casos.



R continua sendo uma boa linguagem para análise, mas Python conquistou quase completamente o mercado. Se em 2012 eles estavam aproximadamente na mesma posição, agora a liderança do Python é inegável. E isso deve ser levado em consideração.



2020 trouxe muitas coisas novas para a ciência de dados, porque o próprio campo da análise de big data está se desenvolvendo ativamente. Claro, essas estão longe de todas as tendências que vale a pena mencionar. E uma pergunta separada para cientistas de dados - quais tendências profissionais mais influenciaram seu trabalho este ano? Estamos muito interessados ​​em ouvir.



imagem













All Articles