Como a prática de dados foi construída no EPAM

A EPAM trabalha com dados há muito tempo, os primeiros grandes clientes com projetos de Big Data surgiram em 2001. Na época, as renomadas empresas de analytics Gartner e Forrester, assim como os principais fornecedores Oracle, Microsoft e IBM, observaram que as empresas deveriam caminhar para o Big Data, já que essas tecnologias são indispensáveis ​​em todas as áreas relacionadas ao processamento de grandes quantidades de dados. Desde então, a equipe de especialistas da EPAM tem crescido continuamente, trabalhando em projetos cada vez mais complexos e oferecendo soluções comprovadas e produtos de qualidade para trabalhar com big data. Hoje, apenas na EPAM russa, mais de 500 pessoas trabalham na prática de Dados. Sobre como tudo começou, quais projetos encontramos, quais falhas aconteceram, o que os especialistas em dados devem se preparar e que tipo de especialistas em dados existem,Falei com o chefe da EPAM Data Practice na Rússia -Ilya Gerasimov .  





Carreira 

Conte-nos como você chegou à direção de dados

Ingressei na EPAM em 2006 como desenvolvedor júnior em .NET e MS SQL Server, antes trabalhei em uma empresa de produtos e ocupei o cargo de líder de equipe desenvolvendo software para automação de hotéis e restaurantes. Mas na EPAM, comecei minha carreira do zero. Em 2013, tornei-me líder de equipe e estava em busca de novas oportunidades para meu desenvolvimento em EPAM, e foi nessa época que me encontrei na SEC em Minsk com o chefe do centro de competência de Big Data e concordamos que esta área deve ser desenvolvida na Rússia.   





Então éramos dois ou três. Colegas de outros países nos ajudaram, nos deram cursos e nos envolveram em várias atividades relacionadas a esta área. Tive que estudar muito e depois espalhar o conhecimento adquirido.  





Por que você trabalha na empresa há tanto tempo?

Data , - . , , . - — , .





Data?

   —  Data,  Data.  :)





Data-?

   Data-: Data Science, Machine Learning, Business Intelligence, Enterprise Search, DevOps in Data, Data Quality, Business Data Analysis.   500 —        .  





     .     «»  ,  «»  .  





 Data-  Data governance, ..  , , ,    .   , ,  ,  .. 





 —  .  





, , . ,    —  , ,  , Data Science  .  





, , ,

2013-2014 , - , , , , Data Science.





, Scala , DevOps, , . , , , .





?

. , . Java, Python, DevOps- .





« », , . , 2012 — , . , , , . , . , , , , -, EPAM.





— Data Analytics, , Data Engineering, Data Science , — EPAM.





, , . — , .





? ?

, - , - , - , . , . , . . Cadence, , , , , , .





, Reinforcement Learning. . 2- , . , . , , Reinforcement Learning. , , , .





« », Data-. . , , «» . , « » — . , , , . , , Theano, TensorFlow, Theano - .





  •  Apache  , ,  —  Spark, Cassandra, Elasticsearch  .  





  • Yarn, HDFSMapReduceHiveKafkaZooKeeper —   , .   Hadoop  ,     ,   ,  ,  . 





  •     —  Amazon, Microsoft Azure, GCP —   Hadoop, .  





  • ,  Kerberos, Knox, Ranger.  





  • ,  NoSQL  NewSQL  — Cassandra,  (  ), Snowflake, Amazon Redshift, HBase, MongoDBTeradata





  • DevOps  — Kubernetes, Docker, Jenkins.  





  • : Power BI, Tableau, QlikView. 





  •  Data Science  ,  TensorFlow  Google BERT (  « »,   ), PyTorchKeras.  





  •  Streaming. Streaming    Data,    — Spark Streaming, Kafka Streams, Apache Flink, Apache Storm.   





.   





SQL ( ), DWH ( — , , Data Vault,  ..), ( ,   , , ), , DWH, Data Mart, Data Lake.  





, . , AWS, Azure, GCP. 





, ETL ( ) ETL ELT, , ,  slowly changed dimension. ETL (PL/SQL, T-SQL, pgSQL, Python, Spark), (, Airflow), ,  , (TalendInformatica Power CenterPentaho, etc.). 





(Data Analytics and Visualization), 2- (Power BI, Tableau, TIBCO Spotfire, MicroStrategy, Pentaho,  ..)   (, Storytelling). 





- ?

   Apache —  Spark, NiFi, Elasticsearch . .   ,  ,  — - Open Source .  





,     Open Source , , Open Data Analytics Hub (ODAHU) , ML .  





?

- ,    Data —     ,   . (blueprint) . ,  ,   .  ,  ,        , , . 





  blueprint   -  , ,      , ,   Data Scientists, ,   .. 





?

    , ,   , e-commerce,  ,  ,  Life Science   —  , -.  , ,  blueprints  , .   





,     , , .    , ,   .





2020 ?

, ,      XXI .  2020 , (late majority),   ,    . 





A difusão de inovações segundo Rogers.  (Da Wikipedia)
The diffusion of innovations according to Rogers. (From Wikipedia)

, : , ?

, ,    , . , ,   ,    .  





,   ,   Data,  Java, Scala  Python. 





- EPAM , Data Engineering, Data Science, BI, Python , .





, Data EPAM?

. ,  Data  —  Java, Scala  Python (, ),  SQL, , , ,  DevOps- ,      Machine Learning  .   








All Articles