Lago, armazém e data mart

Vamos considerar três tipos de armazenamento de dados em nuvem, suas diferenças e aplicativos.







Lago de dados



Um data lake é um grande repositório de dados brutos brutos, não estruturados e semiestruturados. Os dados são coletados de várias fontes e simplesmente armazenados. Eles não são modificados para um propósito específico e não são convertidos para nenhum formato. A análise desses dados requer uma longa pré-preparação, limpeza e formatação para torná-los homogêneos. Os lagos de dados são ótimos recursos para governos municipais e outras organizações que armazenam informações relacionadas a interrupções de infraestrutura, tráfego, crime ou dados demográficos. Os dados podem ser usados ​​posteriormente para fazer alterações no orçamento ou revisar recursos alocados para concessionárias ou serviços de emergência.



Banco de dados



Um data warehouse são dados agregados de diferentes fontes em um único repositório central que os unifica em termos de qualidade e formato. Cientistas de dados podem aproveitar dados de armazenamento em áreas como mineração de dados , inteligência artificial (IA) , aprendizado de máquinae, claro, em business intelligence. Armazéns de dados podem ser usados ​​em grandes cidades para coletar informações sobre transações eletrônicas de vários departamentos, incluindo dados sobre multas por excesso de velocidade, impostos especiais de consumo e muito mais. Armazéns de dados também podem ser usados ​​por desenvolvedores para coletar terabytes de dados gerados por sensores automotivos. Isso os ajudará a tomar as decisões certas ao desenvolver tecnologias para uma direção autônoma.



Data Showcase



Um data mart é um data warehouse projetado para um círculo específico de usuários em uma empresa ou divisão. O data mart pode ser usado pelo departamento de marketing de uma empresa de manufatura para identificar públicos-alvo ao desenvolver planos de marketing. Também pode ser usado pelo departamento de manufatura para analisar o desempenho e as taxas de erro para criar condições para a melhoria contínua do processo. Os conjuntos de dados em um data mart são frequentemente usados ​​em tempo real para análises e resultados acionáveis.



Lake, Warehouse e Data Mart: Principais diferenças



Todos os repositórios mencionados são usados ​​para armazenar dados, mas existem diferenças significativas entre eles. Por exemplo, um data warehouse e um data lake são grandes repositórios, mas um lago geralmente é mais econômico em termos de custos de implementação e manutenção porque armazena principalmente dados não estruturados. 



A arquitetura de data lake evoluiu nos últimos anos e agora é capaz de suportar mais dados e computação em nuvem. Grandes quantidades de dados fluem de fontes diferentes para um repositório centralizado. 



Um data warehouse pode ser organizado de três maneiras:



  1. Como um serviço gerenciado oferecido por provedores de nuvem.
  2. , .
  3. , , .


Os dados em um warehouse são mais fáceis de usar para finalidades diferentes do que os dados em um lago. Isso ocorre porque os dados no warehouse são estruturados e mais fáceis de recuperar e analisar.



Um data mart contém uma pequena quantidade de dados em comparação com um warehouse e um lago, que é categorizado para uso por um grupo específico de pessoas ou uma divisão de uma empresa. Um data mart pode ser representado por vários esquemas (estrelas, flocos de neve ou abóbadas) que são definidos por uma estrutura de dados lógica. O formato de cofre de dados é o mais flexível, versátil e escalonável.



Existem três tipos de data marts:



  1. Um data mart dependente que consiste em partes de um data warehouse empresarial. Ele contém conjuntos de dados primários para o warehouse.
  2. , , .
  3. , . .


A escolha do tipo e estrutura do repositório de dados depende muito das necessidades e requisitos da empresa. Se isso é o que importa para você, aproveite as vantagens do armazenamento em nuvem híbrida , que é flexível e escalonável, bem como uma abordagem mais abrangente e informada para resolução de problemas e tomada de decisões.



A IBM oferece uma variedade de soluções de armazenamento em nuvem e data mining. Tanmay Sinha Diretora de Programa, Db2 Portfólio Blog Link


























All Articles