Todos esses data lake (pântano de dados), QCD (cemitério corporativo de dados), mineração de dados (olhe, não prejudique), governança de dados (torne-se um escravo de seus dados) e semelhantes não desaparecem de suas histórias, substituindo periodicamente uns aos outros. A vida útil de outro HYIP raramente ultrapassa um ou dois anos, mas se você desejar, qualquer tecnologia quase esquecida será desenterrada para você com grande prazer.
Ao mesmo tempo, o grande encontro é vendido como um baú mágico do qual você pode obter vários milagres: um tapete voador ou botas de caminhada, ou mesmo uma rainha shamakhan (o que é relevante). Mas, via de regra, um tapete voador é comido por uma mariposa mágica - e não voa mais, as solas das botas caem - e andar com elas é inconveniente, mas nada há a dizer sobre a decrépita rainha.
Neste artigo, tentarei falar sobre as boas e velhas tecnologias que ainda funcionam. Sobre o que pode ser aprendido com as tecnologias HYIP acima - e como usar tudo isso para meros mortais, como nós, sem contratar uma multidão de Scientologists de dados com salários> 10 mil $ por mês.
O artigo continua o ciclo:
Construindo uma Empresa de Sonho: Dados Mestres e Integração
Construindo uma Empresa de Sonho: Gerenciando a Qualidade de Dados
Contente
1. Big data: declaração do problema
2. Dados principais: um clássico imortal
3. Como armazenar dados: você precisa de QCD
4. Normalização ou por que você precisa de pântanos de dados
5. Por que um cientista de dados consegue mais analistas e faz menos ?
6. Barramento de dados vs microsserviços
7. Como não entrar no hype?
1. Big data: declaração do problema
O papel do big data no desenvolvimento da civilização moderna é impressionante. Mas não pelo motivo que você pensa.
Se a Internet em cada aldeia e cada telefone apareceu graças à pornografia e às redes sociais (mensageiros), então o big data doou trilhões de dólares para fabricantes de discos rígidos e RAM.
O problema é que os benefícios reais do big data moderno (no sentido amplo da palavra) para toda a humanidade estão próximos dos benefícios da pornografia, ou seja, com algumas exceções ... zero!
Como assim, você ficará surpreso. Afinal, qualquer consultor e vendedor conta uma dúzia de exemplos, desde a General Electric, com seus diagnósticos das condições dos motores de aeronaves, até a publicidade direcionada do Google!
O problema, mais precisamente, é a repetibilidade dos resultados. Vou lhe contar um segredo que os vendedores de Big Data têm um banco pequeno. Se você pedir a eles mais alguns exemplos, a lista terminará no segundo dez. Tenho certeza que eles serão capazes de citar muito mais mensageiros e sites pornôs :) porque simplesmente existem mais deles fisicamente.
Claro, há um resultado do trabalho dos cientistas de dados, mas raramente satisfaz os clientes. Porque, tendo passado um ano de trabalho e vários milhões em equipamentos e salários, no final eles fornecem conclusões e padrões completamente triviais que são óbvios para qualquer gerente de linha ou especialista de campo. Por exemplo, que o produto mais vendido seja colocado ao nível do olho humano.
E a General Electric construiu sua vantagem competitiva com base nos métodos de análise matemática e estatística que podem ser encontrados em qualquer curso de matemática da universidade. O conceito de big data ainda não existia.
Mas você não pode exagerar no cálculo, e é improvável que os grandes gerentes ouçam sobre os métodos de duzentos anos de Fourier e Cauchy. Afinal, tudo ali é enfadonho, enfadonho, é preciso pensar muito, e definitivamente não existe bala de prata e pílula mágica.
O que fazer? Trabalhos! Por muito tempo, entediante e deprimente, tentando criar uma atmosfera que encorajasse o pensamento ativo. Como nos exemplos canônicos do Bell Labs ou do mesmo GE. Isso é bem possível, aliás, as pessoas mais comuns, como você e eu, são capazes disso, se você os motivar da maneira certa.
E você precisa começar com ...
2. Dados principais: um clássico imortal
Os dados mestres são uma abordagem para estruturar informações que estão em uma empresa. Se em algum momento você descobrir que uma ou outra entidade é usada simultaneamente em dois ou mais sistemas em sua empresa (por exemplo, uma lista de funcionários em um site interno, no banco de dados 1C-Contabilidade ou em um sistema CRM), você precisa coloque-o em um sistema de dados mestre (MDM) separado - e force todos os sistemas a usarem apenas este diretório. Ao longo do caminho, será necessário que todos os participantes concordem sobre os campos e atributos obrigatórios, bem como criem muitas regras para controlar a qualidade desses dados.
Os cientistas de dados com menos de 30 anos acreditam que a janela para a adoção do MDM começou por volta de 2008 e terminou por volta de 2012-15. Depois disso, surgiram tantas ferramentas novas (todos os tipos de hadoop e faísca) que você não precisa mais se preocupar com os dados mestre, não precisa negociar com os proprietários de todos os sistemas, pense nas consequências de escolher o Arquitetura MDM e cada atributo específico em cada diretório.
Infelizmente para eles e felizmente para você, esta janela não fechou. Os sistemas MDM ainda são tão relevantes quanto os sistemas de contabilidade ou de interação com o cliente. E você ainda precisa pensar e negociar.
3. Como armazenar dados: você precisa de QCD
Não, você não precisa de cemitérios de dados corporativos.
A ideia de que, para fins analíticos, você precisa ter conjuntos especialmente preparados de todos os dados (os ideólogos da QCD não apenas destacam essa palavra em negrito, mas também a sublinham com uma linha dupla) em sua empresa é absurda. A taxa de utilização real desses dados é mínima, 99% deles nunca são usados.
No entanto, a ideia de conjuntos de dados pré-fabricados é boa por si só. Apenas eles devem ser preparados antes do uso potencial, não antes. E, claro, você precisa ter uma metodologia de trabalho para esse treinamento.
4. Normalização, ou por que você precisa de pântanos de dados
Esta é a seção sobre "data lake" ou "data swamp". As lendas dizem que você pode despejar todos os dados indiscriminadamente em um grande heap. Não há necessidade de converter todos os dados em um formato, nem de normalizar e limpar!
E que existe um software especial que permite tirar conclusões úteis a partir desse despejo de dados e obter, como um mágico, as regularidades de que precisa.
Na prática, a conclusão mais "valiosa" que você pode tirar do data lake é que sua empresa quase não funciona durante os feriados de janeiro.
E a questão principal é como alguns vigaristas conseguiram convencer pelo menos alguém da eficiência dessa abordagem. Eu tendo hipnose :)
5. Por que um cientista de dados obtém mais análises e faz menos?
Marketing, apresentação competente, máxima autoconfiança. Eu também não descarto a hipnose :)
6. Barramento de dados vs microsserviços
Meu exemplo favorito de mau uso da tecnologia. Em qualquer empresa razoavelmente grande, em um determinado estágio de desenvolvimento, um barramento de dados aparece. Não necessariamente o mesmo e "na ciência", mas a função em si está sendo implementada com sucesso. Você pode ler mais e sistematicamente sobre a abordagem no último artigo .
Como alternativa, empresas jovens e em crescimento com sucesso podem usar microsserviços ou conjuntos de APIs abertas, diferentes para cada sistema usado.
Sim, os microsserviços são muito úteis quando você está escrevendo um produto mono com o qual outros podem se integrar. Os microsserviços tendem a ser bastante fáceis de escrever, fáceis de testar e não precisam ser negociados durante o desenvolvimento. Por isso, eles são amados por desenvolvedores e gerentes.
Como mostra a prática, quaisquer dois sistemas são perfeitamente integrados por meio de microsserviços. Quaisquer três são bons. Qualquer cinco é tolerável se você documentar tudo com muito cuidado e pendurá-lo com autotestes.
Já em dez sistemas, a arquitetura que parecia ótima no início, a abordagem se transforma em uma espécie de emaranhado, uma teia, quando certos fluxos caem e não funcionam por meses.
Em várias dezenas de sistemas (a figura só parece impressionante, em qualquer empresa são usados muito mais sistemas de informação), a abordagem se enterra. E depois de alguns anos, existe uma espécie de centralização e um ônibus. Via de regra, isso é feito por outras pessoas.
7. Como não entrar no hype?
Você viu vários exemplos de exagero quando alguma abordagem ou tecnologia pode ser inútil. E isso levando em consideração o fato de que, de acordo com as estatísticas mundiais, a parcela de projetos concluídos com sucesso para o desenvolvimento e implementação em TI raramente ultrapassa 40%.
O gosto residual de projetos fracassados ou inúteis pode acabar sendo tal que a empresa irá abandonar temporariamente as iniciativas de TI de uma vez - até que outro gerente influente “transite” em outro exagero.
Para não entrar no hype, antes da próxima implementação, você precisa descobrir o seguinte:
- a tecnologia tem uma grande "bancada". O número de exemplos de aplicação bem-sucedida deve ultrapassar algumas dúzias, e eles não devem dar a impressão de que “algum tipo de mágica está acontecendo aqui”;
- a tecnologia deve passar no "teste da avó" (a explicação da essência deve ser tão clara que até sua avó possa dominá-la - repito, nenhuma mágica);
- a tecnologia deve ter uma lista digitalizada específica de realizações que sua empresa receberá como resultado. Implementadores de MDM, CRM ou o mesmo departamento de contabilidade 1C podem passar horas falando sobre os benefícios de sua solução usando o exemplo de suas tarefas específicas. Os implementadores de big data "em geral" começam a dizer que primeiro coletaremos um monte de dados e depois veremos o que fazer com eles;
- e, finalmente, a tecnologia deve ser falsificada (no sentido do critério de Popper ), ou seja, o implementador deve compreender claramente o escopo de sua aplicação e relevância - e ser capaz de argumentar contra(!) implementação. Não há necessidade de martelar pregos com microscópio e, em geral, por exemplo, se você tem poucos clientes, precisa de um CRM super duper?
Em geral, isso já é suficiente para continuar apenas trabalhando e não se distrair com HYIPs.
Você pode sugerir algum outro critério?
Eu convido você para a discussão!