Construindo uma empresa dos sonhos: gestão de qualidade de dados

O erro mais caro da história, causado por dados iniciais incorretos, é considerado a queda do foguete Ariane 5. O dano total resultante desse incidente é estimado em US $ 0,5 bilhão a preços do início de 1996.



Outro, talvez o mais curioso, foi o erro na enorme encomenda da SNCF das ferrovias francesas de 2 mil trens em 2014. A equipe que formou os requisitos técnicos mediu pessoalmente as dimensões dos aventais em várias dezenas de estações. Querendo aumentar o conforto, eles ajustam a largura das composições ao máximo. Fizeram medições nas proximidades de Paris - e que nas regiões de muitas estações os aventais ficam mais próximos dos trilhos, aprenderam já durante os testes. O preço do erro é a modernização de toda a infraestrutura por centenas de milhões de euros. Estariam lá MDM com as características das estações ...



imagem



Seguem-se um grande número de erros cambiais e bancários, quando os dados incorretos nos dados, nos números e no valor das ações colocadas levavam a perdas de bilhões de dólares ou mesmo à falência.



Este artigo continua o artigo " dados mestre e integração " - e aborda com mais detalhes a questão do controle de qualidade dos dados, principalmente - dados mestre. O artigo será de interesse particular para executivos de TI, arquitetos, integradores, bem como para todos que trabalham em empresas razoavelmente grandes.



Contente



1. Dicionário, tipos de dados de negócios: dados mestre, informações de referência regulamentares, dados operacionais.

2. Resumidamente sobre o que são erros.

3. Arquitetura de soluções DQS.

4. Métodos técnicos e não técnicos de tratamento de erros:

4.1. NSI.

4.2. Dados mestre.

4.3. Sistema operacional.

5. O que fazer quando nenhuma das opções acima ajudou - implementar o DQS.

6. E como compartilhar responsabilidades?



Se você já estiver familiarizado com a terminologia e os problemas, pule direto para a Parte 3, sobre a arquitetura DQS.



1. Dicionário, tipos de dados de negócios



Há algumas décadas, os evangelistas de TI têm nos convencido de que os dados são o novo óleo. Que qualquer empresa depende cada vez mais das informações que possui. Departamentos analíticos e de dados aparecem não apenas em empresas de TI, mas também em setores industriais e industriais, o mais longe possível da "figura".



Muitas pessoas já ficaram magoadas com o exemplo de como a General Electric e a Boeing criam subsidiárias "digitais" e ganham com a enorme quantidade de informações coletadas dos proprietários de seus equipamentos - aeronaves, turbinas, usinas de energia. Esses dados permitem aumentar a confiabilidade do equipamento, prever possíveis falhas, economizando muito em danos potenciais e, finalmente, simplesmente salvar a vida das pessoas!



Os dados estão se tornando cada vez mais numerosos e seu acúmulo depende não linearmente do crescimento dos negócios, o crescimento está ultrapassando. Qualquer empresa em crescimento em um determinado estágio de seu desenvolvimento (aproximadamente no nível 6-7 na escala do artigo anterior ) enfrenta problemas com dados incorretos, e sempre há vários casos em que o custo desses erros acaba sendo bastante alto.



imagem

A imagem tradicional de crescimento de dados é quase sempre exponencial.



No curso dos negócios, três tipos de dados são de particular importância para a empresa:



  • - — , , . , ( : , , ), , , ..;
  • - () — -, . , : () , , , ;
  • dados operacionais (também conhecidos como transacionais) - o fato da venda de um produto específico para um cliente específico, faturas e atos, cursos realizados, pedidos de correio e corridas de táxi - dependendo do que sua empresa está fazendo.


Se o NSI puder ser comparado a um esqueleto de suporte, dados principais com veias e artérias, então o sistema operacional é o sangue que corre por essas veias.



A diferenciação dos tipos de dados de negócios é necessária pelo motivo de que cada um terá sua própria abordagem para trabalhar os erros, sobre isso a seguir.



imagem



2. Resumidamente sobre o que são erros



Os erros são inevitáveis, surgem sempre e em toda parte e, aparentemente, refletem a natureza caótica do próprio universo. Você pode considerá-los algo ruim, ficar chateado por causa deles, mas pense nisso: os erros estão no cerne da evolução! Sim, cada espécie seguinte é a anterior com vários erros aleatórios no DNA, apenas as consequências desses erros se mostraram úteis sob certas condições.


Os principais tipos de erros que uma empresa sofre:



  • fator humano. Erros de digitação de todos os tipos, campos confusos e informações perdidas. Ações e etapas esquecidas ou acidentalmente perdidas ao inseri-lo (você também tem 50 campos em seu cartão de cliente?) Estaticamente, esse é o tipo de erro mais provável, portanto, a frequência e o efeito deles podem ser os maiores. Felizmente, o maior número de métodos foi inventado para combatê-los;
  • . , , . , — , . , , . … , , ? , , , CRM : ! !
  • erros deliberados. O funcionário transferiu deliberadamente vários milhões para si mesmo - e desapareceu. Este é, obviamente, um exemplo extremo, um crime, mas há muitos passos no caminho para isso. Por exemplo, um dos clientes no CRM recebe um desconto excessivamente alto ou o custo do item é definido abaixo do preço de custo.


E se o terceiro é o tema do serviço de segurança da informação, ele tem seus próprios métodos, então trabalharemos substantivamente com o fator humano e incompletude.



3. Arquitetura de soluções DQS



DQM - gerenciamento de qualidade de dados, gerenciamento de qualidade de dados.

DQS - sistema de qualidade de dados, sistema de qualidade de dados [gerenciamento].


Antes de falar diretamente sobre sistemas de gerenciamento de qualidade de dados (DQS não é tanto um software específico quanto uma abordagem para trabalhar com dados), descreverei a arquitetura de TI.



Normalmente, quando surge o problema de gerenciamento de qualidade de dados, o cenário de TI é o seguinte:



imagem

(diagrama do artigo anterior)



Onde MDM é um sistema para manter dados mestres e regulamentações e ESB é um único barramento de dados corporativos. Uma situação frequente é quando nem todos os fluxos de dados e informações entre os sistemas ainda estão envolvidos em um loop comum e alguns sistemas se comunicam diretamente uns com os outros - isso precisará ser resolvido, caso contrário, vários processos serão um "ponto cego" para DQS.



Tradicionalmente, no primeiro estágio, o DQS é conectado ao sistema MDM, uma vez que o gerenciamento da qualidade dos dados mestre é considerado uma prioridade mais alta do que o sistema operacional. Porém, futuramente, será incluído no barramento de dados comum como uma das etapas dos processos, ou apresentará seus "serviços" no formato API. Em números concretos, há aproximadamente uma diferença de dez vezes na quantidade de dados entre o primeiro e o segundo esquema, ou um nível na escala do artigo anterior.



4. Métodos técnicos e não técnicos para lidar com erros.



A próxima frase conterá o pensamento mais triste deste artigo. Não há bala de prata. Não existe tal botão ou sistema que você insere e os erros irão desaparecer. Em geral, não existe uma solução simples e inequívoca para este problema complexo. O que funciona bem para uma visualização ou conjunto de dados será inútil para outro.



No entanto, a boa notícia é que o conjunto de métodos técnicos e organizacionais descritos neste artigo a seguir reduzirá drasticamente os erros. As empresas que implementam a abordagem DQM reduzem o número de erros detectados em 50-500 vezes. O valor específico é o resultado de um equilíbrio razoável entre efeito, custo e usabilidade.



4.1. Informação de referência.



No caso de informações normativas e de referência (na verdade, classificadores de estado), existe uma solução maximamente categórica e é universal: você não precisa manter os documentos normativos você mesmo! Nunca, em hipótese alguma!



O padrão deve ser sempre e estritamente carregado de fontes externas, e sua principal tarefa é implementar tal carregamento e estabelecer monitoramento operacional em caso de falhas.



#1. . : ( ), ( ), ( ).



, , ( - ) . , — ( ).



, : . - , . , . , , … .



( — ), (), (), (), , ( ) — API , .


Como resultado dessas medidas, ninguém em sua empresa deve pensar em inserir, por exemplo, a taxa de câmbio dólar / rublo de ontem manualmente. Apenas uma seleção de guias baixados de fontes oficiais.



imagem



A natureza categórica deste ponto se deve ao fato de que sua implementação elimina quase todos os erros da norma. E se os erros nos dados mestre não podem ser superados completamente, então no NSI é possível reduzir o número de erros para um ou dois por ano - e esses não serão mais seus erros, mas erros nos dados de estado.



4.2. Dados mestre



A principal estratégia para dados mestre pode parecer paradoxal: transformá-los em normativos!



#2. — , ( 5-6 — , ).



MDM, : , . — .



, . . . (, , ) — (). — . -, (, -). , , .



, . , .
#3. , . , , . , , .



- . ? — . . : . , .



Uma continuação natural dessa história será um fluxo eletrônico de documentos pessoais - uma caderneta de trabalho eletrônica, licença médica eletrônica etc., que economizará significativamente os custos de mão de obra para os oficiais de pessoal. No limite, isso permitirá que um oficial de pessoal atenda não a 200-300 funcionários, mas a mais de 1000.



Além disso, todos os funcionários recebem automaticamente chaves de assinatura eletrônica - e poderão usá-las tanto em processos internos de negócios quanto no gerenciamento de documentos com clientes.



Informações sobre dívidas, condenações, etc. disponível em formato aberto via API acc. serviços governamentais, a integração com eles é extremamente simples e permitirá que sua empresa feche um grande número de riscos de uma só vez.


4.3. Sistema operacional



Já existem mais abordagens aqui. O primeiro é semelhante ao anterior - para conectar fontes externas de informação.



#4. — , — , — — . - ? .



. . , — , . , , .. .



— -. , . ( , !)



(, ).



, - - ? ( , ) — . , -, , .
#5. : , .



— , , -, ( , ). -, API , . — , . .. , .


Sim, nem em todos os processos será possível encontrar rapidamente as fontes de informação necessárias, serão necessárias pesquisas e análises. Além disso, as fontes podem acabar sendo pagas, e então os prós e os contras são pesados, mas a abordagem está funcionando e foi testada repetidamente na prática.



A informação (dados) é um novo óleo, e todos os estados se esforçam para obter o máximo possível de informações sobre seus sujeitos, inclusive sobre os negócios, sobre todos os processos dos quais participam.



É até difícil para nós imaginar quais informações o estado coleta, só posso dizer que, no momento da redação deste artigo, cerca de 20 mil conjuntos de dados são apresentados no portal russo de dados abertos. E a Rússia está apenas no início desse caminho, então, em um portal semelhante da União Europeia, mais de um milhão de conjuntos de dados abertos estão disponíveis!



imagem

www.europeandataportal.eu/en



- Onde está DQS aqui, - um leitor atento perguntará?



E não havia nada sobre ela ainda.



Todos os itens acima são, na verdade, ferramentas e métodos padrão para organizar processos de negócios com um número mínimo de erros.



5. O que fazer quando nenhuma das opções acima ajudou - implementar DQS



Sun Tzu ensina que a melhor batalha é aquela que se evita.


A situação com a implementação do DQS é um tanto semelhante.



Sua tarefa é tentar maximizar a transformação de dados mestre e até mesmo sistemas operacionais em dados de referência e, em alguns setores, especialmente no setor de serviços, isso é quase 100% possível. Acima de tudo no setor bancário, portanto, o grau de automação dos processos de negócios é muito maior do que o de muitos outros.



No entanto, se a batalha não puder ser evitada, você precisa se preparar para ela da maneira mais adequada possível.



Em que nível de desenvolvimento da empresa o DQS deve ser introduzido? Como um processo DQM - por 4-5 (antes dos sistemas MDM!), Como uma função organizacionalmente dedicada - por 7-8.



5.1. DQM como um processo



Se sua empresa tiver um sistema de contabilidade ou pessoal, você terá um processo DQM de alguma forma. Todos esses sistemas possuem um conjunto integrado de regras para dados de entrada. Por exemplo, o formato obrigatório e estrito da data de nascimento para o empregado, o nome obrigatório para as contrapartes.



Sua tarefa neste estágio será construir o processo DQM. Ele é o próximo:



  • venha com uma regra;
  • testar a regra para aplicabilidade e adequação, testá-la em casos;
  • desenvolver regulamentos para a aplicação da regra, comunicar-se com os usuários, justificar;
  • implementar na produção;
  • monitorar tentativas de contornar a regra.


Se já conseguiste implementar o MDM na empresa, os pontos a partir do segundo não te devem causar dificuldades especiais, este é o trabalho sistemático actual.



As maiores dificuldades, neste caso, surgem com a criação de novas regras.



5,2 as regras



Se, para uma entidade como um nome completo, sua imaginação se limitar ao nome e sobrenome obrigatórios, e por uma data - para verificar “não mais de cem anos”, não desanime!



Existe uma ótima técnica para desenvolver novas regras para testar os dados mais inimagináveis. Para dominá-lo, você não precisa estar com sete polegadas na testa - e, como mostra a prática, qualquer sistema ou analista de negócios novato, mesmo os operadores que inserem dados mestre, podem dominá-los.



Na verdade, este é um script passo a passo, que na entrada tem a definição de seus dados, e na saída - um conjunto de regras para todas as ocasiões. A técnica, conhecida como taxonomia de dados sujos, foi desenvolvida por um grupo de cientistas de dados europeus no início do século XXI.



A essência da abordagem, bem como exemplos práticos, são fornecidos em seu artigo de sistema, felizmente já publicado em tradução aqui em Habré - habr.com/ru/post/548164



Se o problema de qualidade de dados não é uma frase vazia para você , então, após uma leitura cuidadosa desse artigo, você se encontrará em um estado próximo de alcançar o nirvana :)



Exemplo # 6 . Digitação forte. Se o tipo de dados "data" for usado na referência, a estrutura da data deve ser o mais explícita possível. Se você decidiu salvar dois segundos para os operadores e fez um modelo como “__.__.__” com uma dica “dia, mês, ano”, certifique-se de que logo no primeiro dia os registros “18.04.21”, “ 21.04.18 ”e“ 04.18.21 ”.


Uma boa maneira de inserir uma data são três campos com uma designação explícita (dia, mês, ano) e um salto rápido ao inserir dois números em cada um dos campos. Se você já pagou algo com cartão na Internet, você vai entender.



Exemplo # 7 . Caracteres proibidos na lista de campos mais ampla possível, verificações de dicionário. Por exemplo, se estamos falando de educação (posição), e os classificadores de especialidades não ajudaram, você permite que o usuário insira dados no campo de texto, mesmo que pontos, aspas e travessões sejam proibidos lá ( a lista não está completa). Um exemplo de informação cuja qualidade está a aumentar: “Doutor em Ciências Técnicas”, “Doutor em Ciências Técnicas”, “DTN”, “Dr. ciências ”, etc.




#8. (NULL) — . , / , / — , . — “ ”.



, , . , “”, “”, “”, “” ( .) , , . (“ ”, “, ”) (“ ”, “-”, “ ”). — . , , “” “” — , — . “”, “”…



, , . , , , .


6. DQS?



Em matéria de gestão e responsabilidade, não existem respostas certas, mas tudo depende de equipas e indivíduos específicos. Um engenheiro de foguetes pode ser um contador-chefe, um artista pode ser um diretor financeiro e um professor de escola primária pode ser um chefe de segurança.



A questão da responsabilidade pelo processo de DQM é, na verdade, ainda mais geral: quem é o responsável pela qualidade dos dados na empresa? Tradicionalmente, os usuários de negócios e o departamento de TI atuam como antagonistas ao responder a essa pergunta.



As empresas costumam iniciar um diálogo com a afirmação “notamos um erro no seu sistema de dados de meteoros”.



O serviço de TI, por outro lado, acredita que sua tarefa é garantir o bom funcionamento dos sistemas, e quais dados específicos os usuários de negócios inserem no sistema são de responsabilidade do negócio.



Estabelecer um processo de DQM funcional e executar o DQS é um compromisso que satisfaz ambas as partes. O desafio para TI e analistas é desenvolver tantas regras e restrições quanto possível na entrada de dados para minimizar o risco de erro.



A atitude “empresarial” geralmente é causada pela falta de transparência nos processos de DQM. No entanto, se você reduzi-lo a uma demonstração clara do erro, a posição suaviza. E pode chegar a um acordo no caso de demonstrar as consequências a quem entra os dados primários.



Um exemplo incrível de motivação e mesmo de visualização das consequências dos erros é dado no artigo habr.com/ru/post/347838 - neste exemplo, um serviço de TI com competências avançadas de análise de negócios é responsável pelo processo de DQM. Além disso, as competências de DQM em si não são difíceis e podem ser desenvolvidas por qualquer analista em alguns meses.



Outro exemplo, interessante porque o processo de DQM também inclui o gerenciamento da qualidade do processo de negócios, é fornecido no artigo habr.com/ru/company/otus/blog/526174 .



Resultados



As conclusões gerais deste artigo são paradoxais.



Se a sua empresa foi questionada sobre “quem é o responsável pela qualidade dos dados”, então você caiu na armadilha. Não há uma resposta correta para isso, tk. a pergunta em si está errada. Se você tentar seguir esse caminho, acabará percebendo que a única resposta apropriada para essa pergunta (“tudo”) não lhe dará nada na prática.



A abordagem correta é dividir a questão em dois blocos.



O primeiro é construir o DQM como um processo, implementar o DQS, formar regras (não em uma base ad hoc, mas como um processo contínuo). Esta unidade reside onde as funções de análise são fortes, geralmente em TI, mas não necessariamente.



O segundo bloco - a entrada dos próprios dados primários - é o local onde as decisões são tomadas sobre dados específicos, mas não aleatoriamente, mas com base em todas as regras. Assim, a implementação do DQS é um passo importante em direção a uma empresa orientada a dados.



Eu convido você para a discussão!



All Articles