Testando a hipótese de igualdade de médias com variância desigual em R

(assumindo distribuição normal)

O problema de determinar a igualdade das médias sob a condição de variâncias iguais é um problema clássico da estatística matemática, que se resolve em escolas técnicas e universidades. No entanto, o MS como ciência é muito semelhante a um pântano - quando você tenta pular para o lado de um problema classicamente resolvido, você pode ficar atolado ou se afogar completamente.





O problema em consideração é um destes. Na verdade, matemáticos atenciosos já desenvolveram cerca de duas dezenas de testes estatísticos diferentes para resolver este tipo de problemas, o que levanta a questão da categoria de "qual usar"





Um estudo preliminar (o texto do estudo está disponível no GitHub ) mostrou que, dependendo da combinação específica de valores médios, variância e as especificidades da definição do problema, quase qualquer um dos testes considerados no artigo "Cavus, M. , Yazici, B. Testando a igualdade de grupos normais distribuídos e independentes 'significa sob variâncias desiguais por pacote doex / The R Journal. 2020. No. 2 (12). P. 134-155 " .





Para resolver este problema, foi desenvolvido um procedimento que permite determinar o melhor teste estatístico para cada caso específico. Isso será demonstrado usando o exemplo do banco de dados GrowthDJ contendo dados sobre o crescimento econômico. Vamos testar o pressuposto sobre a igualdade dos valores médios de crescimento econômico (variável gdpgrowth) dependendo da disponibilidade de dados de alta qualidade nos países (variável inter )





As primeiras etapas do estudo são verificar a normalidade das distribuições e encontrar estatísticas descritivas:





library("tibble")







library("AER")







library("WRS2")







library("doex")







data("GrowthDJ")







XX<-na.omit(GrowthDJ)







library("psych")







describeBy(XX$gdpgrowth, XX$inter)







shapiro.test(XX[XX$inter=='yes',6])







shapiro.test(XX[XX$inter=='no',6])







Conseguimos que nossos dados são distribuídos normalmente, o que significa que os testes podem ser aplicados





Método de verificação

  1. Defina duas médias e dois valores de variância (com base nos dados disponíveis por grupo)





  2. ( 70 ). – № 1 № 1, – № 1 № 2, – № 2 № 2.





  3. 0.01. p- 0.01, , 0.01 – . . p- 0.01, , 0.01 – . 100 , .





( , ):





  • accuracy ( );





  • selectivity ( , );





  • precision ( );





  • recall ( , );





  • FOR ( );





  • F- ( precision recall, ).





( .R )









, :





  • , AF FA- ( , F-score





  • - (.. ), RGF-





  • - (.. ), 8 (AF,BA,CF,FA,JF,MBF,SS,WA)





  • , 8





  • , RGF-





- AF- (Approximate F-test)





0.0003 -








All Articles