Como conseguir uma entrevista com um cientista de dados na Amazon em 2021

imagem



Decidi escrever um artigo para qualquer pessoa que estivesse tentando encontrar perguntas e respostas relevantes para entrevistas na Amazon. Eu respondi a algumas perguntas da entrevista que foram feitas nos últimos meses e tentei fornecer respostas concisas e claras a elas. Existem perguntas difíceis, existem perguntas simples, mas em qualquer caso, ambas podem ser úteis.



P: O casal tem dois filhos e sabe que um dos filhos é um menino. Qual é a probabilidade de a outra criança ser um menino?



Não há pegadinha aqui. A probabilidade de uma criança ser menino é independente da outra, portanto é de 50%. Você pode ficar confuso com a pergunta de Leonard Mlodinov , onde a resposta é um terço, mas esta é uma pergunta completamente diferente, não relacionada à nossa.



Q: Explique o que é um valor p.



Se você pesquisar no Google o que é um valor p, obterá a seguinte resposta: “Esta é a probabilidade de obter para um determinado modelo probabilístico da distribuição de valores de uma variável aleatória o mesmo valor ou mais extremo das estatísticas média, mediana, etc.), em comparação com o observado anteriormente, desde que a hipótese nula esteja correta. "



Resposta detalhada, porque p tem um significado muito específico e muitas vezes é mal interpretado.



Uma definição mais simples de um valor p é: "Esta é a probabilidade de que a estatística observada ocorra ao acaso, dada a distribuição da amostra."



Alfa define o padrão de como os valores extremos devem ser antes que a hipótese nula possa ser rejeitada. O valor p indica o extremo dos dados.



P: Existem 4 bolas vermelhas e 2 azuis, qual a probabilidade de que sejam iguais em duas eleições?



A resposta é a probabilidade de que ambos sejam vermelhos, mais a probabilidade de que ambos sejam azuis. Vamos supor que essa pergunta não seja substituída.



  • Probabilidade de 2 vermelhos = (4/6) * (3/6) = 1/3 ou 33%
  • Probabilidade de 2 azul = (2/6) * (1/6) = 1/18 ou 5,6%


Portanto, a probabilidade de as bolas serem iguais é de aproximadamente 38,6%.



P: Descreva árvore, SVM e floresta aleatória. Conte-nos sobre suas vantagens e desvantagens.



Árvores de decisão: um modelo de árvore usado para modelar decisões com base em uma ou mais condições.



Prós: Fácil de implementar, intuitivo, lida com valores ausentes.

Contras: alta variação, impreciso



Prós: alta precisão dimensional

Contras: tendência a sobreajuste, não estima diretamente a probabilidade



Prós: pode alcançar maior precisão, lidar com valores ausentes, sem necessidade de escalonamento de função, pode determinar a importância da função.

Contras: caixa preta, computação intensiva.



A redução de dimensionalidade é o processo de redução do número de recursos em um conjunto de dados. Isso é importante principalmente quando você deseja reduzir a variância do seu modelo (overfitting).



A Wikipedia afirma quatro benefícios da redução de dimensionalidade:



  • Reduz o tempo e o espaço de armazenamento necessários.
  • A remoção da multicolinearidade melhora a interpretação dos parâmetros do modelo de aprendizado de máquina.
  • Torna-se mais fácil visualizar os dados quando reduzidos para dimensões muito pequenas, como 2D ou 3D.
  • Evita a maldição da dimensão.


Precisamos fazer algumas suposições sobre esta questão antes de podermos respondê-la. Suponha que haja dois locais possíveis para comprar um determinado item na Amazon e a probabilidade de encontrá-lo no local A é 0,6 e B é 0,8. A probabilidade de encontrar um produto na Amazon pode ser explicada da seguinte forma:



Podemos reformular o acima como P (A) = 0,6 e P (B) = 0,8. Além disso, vamos supor que sejam eventos independentes, o que significa que a probabilidade de um evento não depende de outro. Podemos então usar a fórmula ...



P (A ou B) = P (A) + P (B) - P (A e B)

P (A ou B) = 0,6 + 0,8 - (0,6 * 0, 8)

P (A ou B) = 0,92



P: Se houver 8 bolas de igual peso e 1 bola que pesa um pouco mais (9 bolas no total), quantas pesagens são necessárias para determinar qual bola é a mais pesada?







Duas pesagens são necessárias (consulte as Partes A e B acima):



Você deve dividir as nove bolas em três grupos de três e pesar dois grupos. Se a balança estiver equilibrada (opção 1), você sabe que a bola pesada pertence ao terceiro grupo de bolas. Caso contrário, você escolherá um grupo com um peso grande (opção 2).

Em seguida, você segue a mesma etapa, mas terá três grupos de um balão em vez de três grupos de três.



P: O que é "retreinamento"?



Overfitting é um erro quando um modelo "se ajusta" muito bem aos dados, resultando em um modelo com alta variância e baixo viés. Como consequência, o modelo de sobreajuste irá prever de forma imprecisa novos pontos de dados, mesmo se tiver alta fidelidade nos dados de treinamento.



P: Temos dois modelos, um com 85% de precisão e outro com 82% de precisão. Qual deles você vai escolher?



Se nos preocupamos apenas com a precisão do modelo, a resposta é 85%. Mas se o entrevistador perguntou sobre isso, provavelmente vale a pena descobrir em que contexto a pergunta é feita, ou seja, o que o modelo está tentando prever. Isso nos dará uma ideia melhor se a métrica de pontuação deve realmente ser de precisão ou outra métrica como recall ou pontuação f1.



P: O que é um algoritmo bayesiano ingênuo?



O Naive Bayesian Classifier é um classificador popular usado em Data Science. A ideia por trás disso é baseada no teorema de Bayes:



imagem



Em termos simples, essa equação é usada para responder à próxima pergunta. “Qual é a probabilidade de y (minha variável de saída) com X (minhas variáveis ​​de entrada)? E por causa da suposição ingênua de que as variáveis ​​são independentes para uma determinada classe, você pode dizer que:



imagem



Além disso, removendo o denominador, podemos dizer que P (y | X) é proporcional ao lado direito.



imagem



Portanto, o objetivo é encontrar a classe com a maior probabilidade proporcional.





P: Como a alteração da taxa básica de associação afetará o mercado?



Não tenho 100% de certeza sobre a resposta a esta pergunta, mas vou tentar o meu melhor!



Vamos dar um exemplo de aumento da taxa básica de associação - há duas partes envolvidas: compradores e vendedores.



Para os compradores, o impacto de um aumento na taxa básica de adesão depende, em última análise, da elasticidade-preço da demanda pelos compradores. Se a elasticidade de preço for alta, um determinado aumento de preço levará a uma queda significativa na demanda e vice-versa. Os compradores que continuam comprando taxas de assinatura são provavelmente os clientes mais leais e ativos da Amazon - eles provavelmente também prestarão mais atenção aos produtos premium.



Os vendedores sofrerão porque o custo de compra de uma cesta de produtos da Amazon agora está mais alto. Isso tornará alguns alimentos mais afetados, enquanto outros não. É provável que os produtos premium que os clientes mais leais da Amazon estão comprando não sejam tão atingidos quanto os eletrônicos.



Obrigado pela atenção!



O que adoro nessas entrevistas e nos problemas com que lidam são duas coisas:

  • Eles o ajudam a aprender novos conceitos com os quais você não estava familiarizado antes.
  • Eles abrem conceitos que você conhece de um novo ângulo.


Espero que tudo isso ajude você a se preparar para sua jornada no mundo da Ciência de Dados!



, Data Science AR- Banuba - Skillbox.



, -: , , . «» .



« ». . , , , .



:

1) , ?

2) ?

3) ?

4) , , -?

5) , ?



, .




All Articles