(assumindo distribuição normal)
O problema de determinar a igualdade das médias sob a condição de variâncias iguais é um problema clássico da estatística matemática, que se resolve em escolas técnicas e universidades. No entanto, o MS como ciência é muito semelhante a um pântano - quando você tenta pular para o lado de um problema classicamente resolvido, você pode ficar atolado ou se afogar completamente.
O problema em consideração é um destes. Na verdade, matemáticos atenciosos já desenvolveram cerca de duas dezenas de testes estatísticos diferentes para resolver este tipo de problemas, o que levanta a questão da categoria de "qual usar"
Um estudo preliminar (o texto do estudo está disponível no GitHub ) mostrou que, dependendo da combinação específica de valores médios, variância e as especificidades da definição do problema, quase qualquer um dos testes considerados no artigo "Cavus, M. , Yazici, B. Testando a igualdade de grupos normais distribuídos e independentes 'significa sob variâncias desiguais por pacote doex / The R Journal. 2020. No. 2 (12). P. 134-155 " .
Para resolver este problema, foi desenvolvido um procedimento que permite determinar o melhor teste estatístico para cada caso específico. Isso será demonstrado usando o exemplo do banco de dados GrowthDJ contendo dados sobre o crescimento econômico. Vamos testar o pressuposto sobre a igualdade dos valores médios de crescimento econômico (variável gdpgrowth) dependendo da disponibilidade de dados de alta qualidade nos países (variável inter )
As primeiras etapas do estudo são verificar a normalidade das distribuições e encontrar estatísticas descritivas:
library("tibble")
library("AER")
library("WRS2")
library("doex")
data("GrowthDJ")
XX<-na.omit(GrowthDJ)
library("psych")
describeBy(XX$gdpgrowth, XX$inter)
shapiro.test(XX[XX$inter=='yes',6])
shapiro.test(XX[XX$inter=='no',6])
Conseguimos que nossos dados são distribuídos normalmente, o que significa que os testes podem ser aplicados
Método de verificação
Defina duas médias e dois valores de variância (com base nos dados disponíveis por grupo)
( 70 ). – № 1 № 1, – № 1 № 2, – № 2 № 2.
0.01. p- 0.01, , 0.01 – . . p- 0.01, , 0.01 – . 100 , .
( , ):
accuracy ( );
selectivity ( , );
precision ( );
recall ( , );
FOR ( );
F- ( precision recall, ).
( .R )
, :
, AF FA- ( , F-score
- (.. ), RGF-
- (.. ), 8 (AF,BA,CF,FA,JF,MBF,SS,WA)
, 8
, RGF-
- AF- (Approximate F-test)
0.0003 -