Hoje, os bancos de dados da classe Massive Parallel Processing são o padrão da indústria para armazenar Big Data e resolver vários problemas analíticos baseados neles.
Os casos de uso para bancos de dados mpp são diversos: eles podem ser um "burro de carga" de BI corporativo e uma ferramenta para centralizar dados de centenas de fontes em um DWH, e até mesmo usados para interação "quente" com modelos de ML trabalhando em um ambiente produtivo.
Essa classe de tecnologias é um elemento necessário no kit de ferramentas de um engenheiro de dados moderno.
Em uma aula de demonstração, analisaremos em detalhes o que é um banco de dados mpp, quais soluções estão no mercado hoje e até mesmo nos aprofundaremos em um exemplo prático de uso de um dos sistemas mpp mais inovadores da atualidade: ClickHouse.
Convidamos todos a participarem da lição de demonstração "Introdução aos bancos de dados MPP usando ClickHouse como exemplo".
IT- . , , , . , , , , , .
. ( ) , ( ). , , , SQL-, , , — data science , ..
, , , , . , , 20 , . , .
…
, . , !
, - , . Gartner, 2019 66 , 24% — — . Pitchbook, 30 5 8 35 .
, 2015-2020 .
: , , , a16z, , , , . , a16z, : https://a16z.com/investments/.
. , Linkedin 2019 . NewVantage Partners 60% Fortune 1000 , 12% 2012 , McKinsey .
, ( ) - — , .
- , . , , . , .
, : () , () , .
:
Unified Architecture for Data Infrastructure
: (OLTP), SaaS- . , .
:
— , . . - , — .
, .
, AI/ML ?
: - ( ) , ( ).
. (data warehouse). -, SQL ( Python ). (data lake) . , , , . , Java/Scala, Python, R SQL.
, ( ). , , — , , , ACID-, SQL . .
: ? ? , - . , - , .
, , , - , SaaS . , . (, ETL-) .
, . ( ) .
, «» (blueprints) — , , , , .
. -, . , , , . AI ML .
1: -
- - - , , .
. , .
, , SQL ( Python) .
, , . , , data science, / .
2:
, , , Hadoop-
, .
, .
-, , AI/ML, , / , ( , ) (Java/Scala, Python, SQL).
, , , . , - , .
3: .
, , .
, , . , .
, - (. . ), .
, , , / . , , , , - .
. . , -, , , , . , .
, , , , , , , .
- "Data Engineer".
« MPP- ClickHouse».