
Olá, sou Ildar Raimanov e sou o chefe do departamento do Grupo BARS, responsável pelo desenvolvimento de soluções de BI na empresa. Tendo larga experiência no trabalho com dados, bem como possuindo conhecimentos de indústria, decidimos tentar formar um centro de competência, que, permitindo-nos processar grandes quantidades de dados, venha a prestar um serviço de formação de conhecimento para determinados assuntos pedidos dos clientes.
Data-Officeinclui vários componentes ao mesmo tempo - este é um armazenamento bem desenvolvido que inclui um "big data lake" e marts preparados, processos para preencher dados de sistemas de origem, mecanismos para verificar a qualidade dos dados; uma equipe de metodologistas que entendem o que esses ou aqueles números estão falando de acordo com as especificidades do setor e, claro, um conjunto de várias ferramentas de software, a principal das quais é a plataforma de business intelligence Alpha BI desenvolvida pelo BARS Group.
Para tornar as informações ainda mais compreensíveis, tentarei revelar em linguagem simples os termos-chave enfatizados no texto.
Se falarmos mais detalhadamente sobre abordagens e etapas, então no âmbito do Data-Office definimos a seguinte sequência:
1. Análise da área temática - destaque A equipe de metodologistas , que descreve a área temática, as entidades principais, prepara um modelo lógico de dados para o armazenamento principal .
Quem são metodologistas ? Esses são essencialmente especialistas do setor que entendem a essência dos dados. Se, por exemplo, estamos falando sobre finanças, então podem ser contadores e financistas, mas se estamos falando sobre medicina, então são médicos e outros profissionais qualificados. É a compreensão deles que permite construir um modelo de dados lógico., ou seja, um conjunto de entidades que serão analisadas em conjunto com relacionamentos - que relação uma entidade pode ter em relação a outra.
2. Com base no modelo de dados lógico , um modelo físico normalizado é preparado , os arquitetos de dados são conectados . Aqui, é claro, os especialistas em TI são necessários, porque são eles que traduzem um conjunto de entidades em tabelas, criam as chaves estrangeiras, atributos, índices necessários - ou seja, eles apenas constroem o chamado modelo físico .
3. Um modelo de fluxo de dados está sendo elaborado , fontes e opções de integração são estabelecidas. Um modelo de fluxo de dados é um conjunto de dados transmitidos com as regras descritas: de onde e para onde, em que condições, com que frequência.
4. Via de regra, como estamos falando de uma grande quantidade de dados, inicialmente os dados das fontes caem no formato “como estão” no buffer de dados - a primeira camada de “dados brutos” . Aqui, tanto o objetivo de reduzir o tempo de carregamento de dados é perseguido quanto o objetivo é ter um conjunto de dados primários para preservar a capacidade, se necessário, de desenrolar a cadeia de análise até o primeiro valor.
5. As questões de transformação de dados do buffer para a segunda camada - armazenamento normalizado, bem como a frequência de atualização e armazenamento de informações no buffer estão sendo resolvidas, a questão da atualização incremental é resolvida imediatamente. Problemas de qualidade de dados , métodos e ferramentas também estão sendo resolvidos . Sob a qualidade dos dadosa correspondência de informações com o conteúdo lógico necessário está implícita. Tudo começa com validações de controle lógico de formato simples e termina com padrões metodológicos mais complexos.
6. Os metodologistas analisam os casos de consumo e, com base nisso, são descritos os possíveis data marts , ou seja, conjuntos de dados especialmente preparados que devem ajudar a responder a certas questões.
A equipe de desenvolvimento de BI já está formando diretamente um conjunto de data marts, que é um data warehouse analítico - a terceira camada.
7. Deve-se notar que em paralelo está em andamento o trabalho de formação do Glossário de Dados(com uma descrição metodológica detalhada) e atualização constante da ligação entre as próprias entidades do repositório com esta descrição metodológica mais detalhada.
8. A caixa de ferramentas durante o processo acima pode ser diferente dependendo do aplicativo. A plataforma de business intelligence Alpha BI é usada principalmente, com base na qual as camadas de armazenamento em PostgreSQL são construídas e as tarefas de ETL são resolvidas usando a própria plataforma.
9. O trabalho direto com vitrines preparadas também passa pelo Alpha BI. Recebendo a necessidade de aquisição de conhecimento - inicialmente, a equipe de metodologistas analisa a tarefa e a impõe no modelo lógico existente, depois a equipe de desenvolvedores de BI, tendo recebido uma configuração orientada para o assunto, implementa as seleções necessárias, OLAP-Cubes, painéis, relatórios com base em vitrines. Acontece que a vitrine é um pouco transformada, ou uma nova é criada, se a situação assim o exigir.
Se falamos de ferramentas e big data, não podemos deixar de mencionar a experiência de trabalhar com o "BigData" da moda na cozinha há vários anos, Hadoop - uma camada para armazenar uma grande quantidade de dados históricos brutos.
Do ponto de vista técnico, a interação do Alpha BI com o Hadoop é realizada através de uma camada construída com base no DBMS analítico massivamente paralelo Greenplum usando o protocolo PXF (Platform Extension Framework).

Da mesma forma, com o Greenplum, é implementada a possibilidade de análise online e trabalho com hot data, que, por exemplo, é atualizado a cada 10 segundos. No caso de dados quentes, a interação através do Greenplum é construída com o banco de dados Apache Ignite na memória, também usando o protocolo PXF.
No final do dia, os dados da tabela do Ignite são transferidos para o HDFS e removidos do Ignite.

Resumindo, gostaria de resumir mais uma vez - os dados devem funcionar e ser úteis. A fim de extrair o conhecimento deles tanto quanto possível, deve-se prestar atenção a todos os aspectos acima: abordar com competência a construção de um armazenamento, determinar os fluxos de dados ideais, compreender a área de assunto dos "números", selecionar uma ferramenta para a tarefa.
Ao mesmo tempo, é claro, vale a pena prestar atenção especial à formação da Equipe e sua segmentação em diferentes tipos de tarefas, em cada uma das quais profissionais com o mesmo espírito devem trabalhar.
E então seus dados, com seus milhões e bilhões de linhas e terabytes de memória, realmente começarão a funcionar, dar conhecimento e, portanto, ser úteis!
Terei todo o prazer em responder às suas perguntas nos comentários!)