Decidi escrever um artigo para qualquer pessoa que estivesse tentando encontrar perguntas e respostas relevantes para entrevistas na Amazon. Eu respondi a algumas perguntas da entrevista que foram feitas nos últimos meses e tentei fornecer respostas concisas e claras a elas. Existem perguntas difíceis, existem perguntas simples, mas em qualquer caso, ambas podem ser úteis.
P: O casal tem dois filhos e sabe que um dos filhos é um menino. Qual é a probabilidade de a outra criança ser um menino?
Não há pegadinha aqui. A probabilidade de uma criança ser menino é independente da outra, portanto é de 50%. Você pode ficar confuso com a pergunta de Leonard Mlodinov , onde a resposta é um terço, mas esta é uma pergunta completamente diferente, não relacionada à nossa.
Q: Explique o que é um valor p.
Se você pesquisar no Google o que é um valor p, obterá a seguinte resposta: “Esta é a probabilidade de obter para um determinado modelo probabilístico da distribuição de valores de uma variável aleatória o mesmo valor ou mais extremo das estatísticas média, mediana, etc.), em comparação com o observado anteriormente, desde que a hipótese nula esteja correta. "
Resposta detalhada, porque p tem um significado muito específico e muitas vezes é mal interpretado.
Uma definição mais simples de um valor p é: "Esta é a probabilidade de que a estatística observada ocorra ao acaso, dada a distribuição da amostra."
Alfa define o padrão de como os valores extremos devem ser antes que a hipótese nula possa ser rejeitada. O valor p indica o extremo dos dados.
P: Existem 4 bolas vermelhas e 2 azuis, qual a probabilidade de que sejam iguais em duas eleições?
A resposta é a probabilidade de que ambos sejam vermelhos, mais a probabilidade de que ambos sejam azuis. Vamos supor que essa pergunta não seja substituída.
- Probabilidade de 2 vermelhos = (4/6) * (3/6) = 1/3 ou 33%
- Probabilidade de 2 azul = (2/6) * (1/6) = 1/18 ou 5,6%
Portanto, a probabilidade de as bolas serem iguais é de aproximadamente 38,6%.
P: Descreva árvore, SVM e floresta aleatória. Conte-nos sobre suas vantagens e desvantagens.
Árvores de decisão: um modelo de árvore usado para modelar decisões com base em uma ou mais condições.
Prós: Fácil de implementar, intuitivo, lida com valores ausentes.
Contras: alta variação, impreciso
Prós: alta precisão dimensional
Contras: tendência a sobreajuste, não estima diretamente a probabilidade
Prós: pode alcançar maior precisão, lidar com valores ausentes, sem necessidade de escalonamento de função, pode determinar a importância da função.
Contras: caixa preta, computação intensiva.
A redução de dimensionalidade é o processo de redução do número de recursos em um conjunto de dados. Isso é importante principalmente quando você deseja reduzir a variância do seu modelo (overfitting).
A Wikipedia afirma quatro benefícios da redução de dimensionalidade:
- Reduz o tempo e o espaço de armazenamento necessários.
- A remoção da multicolinearidade melhora a interpretação dos parâmetros do modelo de aprendizado de máquina.
- Torna-se mais fácil visualizar os dados quando reduzidos para dimensões muito pequenas, como 2D ou 3D.
- Evita a maldição da dimensão.
Precisamos fazer algumas suposições sobre esta questão antes de podermos respondê-la. Suponha que haja dois locais possíveis para comprar um determinado item na Amazon e a probabilidade de encontrá-lo no local A é 0,6 e B é 0,8. A probabilidade de encontrar um produto na Amazon pode ser explicada da seguinte forma:
Podemos reformular o acima como P (A) = 0,6 e P (B) = 0,8. Além disso, vamos supor que sejam eventos independentes, o que significa que a probabilidade de um evento não depende de outro. Podemos então usar a fórmula ...
P (A ou B) = P (A) + P (B) - P (A e B)
P (A ou B) = 0,6 + 0,8 - (0,6 * 0, 8)
P (A ou B) = 0,92
P: Se houver 8 bolas de igual peso e 1 bola que pesa um pouco mais (9 bolas no total), quantas pesagens são necessárias para determinar qual bola é a mais pesada?
Duas pesagens são necessárias (consulte as Partes A e B acima):
Você deve dividir as nove bolas em três grupos de três e pesar dois grupos. Se a balança estiver equilibrada (opção 1), você sabe que a bola pesada pertence ao terceiro grupo de bolas. Caso contrário, você escolherá um grupo com um peso grande (opção 2).
Em seguida, você segue a mesma etapa, mas terá três grupos de um balão em vez de três grupos de três.
P: O que é "retreinamento"?
Overfitting é um erro quando um modelo "se ajusta" muito bem aos dados, resultando em um modelo com alta variância e baixo viés. Como consequência, o modelo de sobreajuste irá prever de forma imprecisa novos pontos de dados, mesmo se tiver alta fidelidade nos dados de treinamento.
P: Temos dois modelos, um com 85% de precisão e outro com 82% de precisão. Qual deles você vai escolher?
Se nos preocupamos apenas com a precisão do modelo, a resposta é 85%. Mas se o entrevistador perguntou sobre isso, provavelmente vale a pena descobrir em que contexto a pergunta é feita, ou seja, o que o modelo está tentando prever. Isso nos dará uma ideia melhor se a métrica de pontuação deve realmente ser de precisão ou outra métrica como recall ou pontuação f1.
P: O que é um algoritmo bayesiano ingênuo?
O Naive Bayesian Classifier é um classificador popular usado em Data Science. A ideia por trás disso é baseada no teorema de Bayes:
Em termos simples, essa equação é usada para responder à próxima pergunta. “Qual é a probabilidade de y (minha variável de saída) com X (minhas variáveis de entrada)? E por causa da suposição ingênua de que as variáveis são independentes para uma determinada classe, você pode dizer que:
Além disso, removendo o denominador, podemos dizer que P (y | X) é proporcional ao lado direito.
Portanto, o objetivo é encontrar a classe com a maior probabilidade proporcional.
P: Como a alteração da taxa básica de associação afetará o mercado?
Não tenho 100% de certeza sobre a resposta a esta pergunta, mas vou tentar o meu melhor!
Vamos dar um exemplo de aumento da taxa básica de associação - há duas partes envolvidas: compradores e vendedores.
Para os compradores, o impacto de um aumento na taxa básica de adesão depende, em última análise, da elasticidade-preço da demanda pelos compradores. Se a elasticidade de preço for alta, um determinado aumento de preço levará a uma queda significativa na demanda e vice-versa. Os compradores que continuam comprando taxas de assinatura são provavelmente os clientes mais leais e ativos da Amazon - eles provavelmente também prestarão mais atenção aos produtos premium.
Os vendedores sofrerão porque o custo de compra de uma cesta de produtos da Amazon agora está mais alto. Isso tornará alguns alimentos mais afetados, enquanto outros não. É provável que os produtos premium que os clientes mais leais da Amazon estão comprando não sejam tão atingidos quanto os eletrônicos.
Obrigado pela atenção!
O que adoro nessas entrevistas e nos problemas com que lidam são duas coisas:
- Eles o ajudam a aprender novos conceitos com os quais você não estava familiarizado antes.
- Eles abrem conceitos que você conhece de um novo ângulo.
Espero que tudo isso ajude você a se preparar para sua jornada no mundo da Ciência de Dados!
, Data Science AR- Banuba - Skillbox.
, -: , , . «» .
« ». . , , , .
:
1) , ?
2) ?
3) ?
4) , , -?
5) , ?
, .