10 Hipotézisvizsgálatok: átlagok elemzése

Átlagok elemzésére szolgáló eljárásokat a Statistics → Means menüben találunk (10.1. ábra).

ábra Átlagok elemzése: *Statistics → Means*

10.1: ábra Átlagok elemzése: Statistics → Means

10.1 Egymintás t-próba

Példánkban az vizsgáljuk egymintás t-próbával (Statistics → Means → Single sample t-test…), hogy az elsőéves hallgatók átlagos tömege szignifikánsan nagyobb-e, mint 78 kg (10.2. ábra). Ehhez meg kell adnunk a következőket:

  • Variable (pick one) A vizsgálandó változó
  • Alternative Hypothesis) Az ellenhipotézis típusa
    • Population mean != mu0 \(H_1: \mu\neq \mu_0\)
    • Population mean < mu0 \(H_1: \mu < \mu_0\)
    • Population mean > mu0 \(H_1: \mu > \mu_0\)
  • Null hypothesis: mu = A tesztelendő hipotetikus érték (\(\mu_0\))
  • Confidence level A mintából becsült populáció átlagra vonatkozó konfidencia-intervallum megbízhatósági szintje
ábra Egymintás *t*-próba: *Statistics &rarr; Means &rarr; Single sample t-test...*

10.2: ábra Egymintás t-próba: Statistics → Means → Single sample t-test…

A teszt outputjában megkapjuk a \(t\)-statisztika értékét, a szabadsági fokot (df) és a p-értékek (p-value). Ezenkívül, kapunk egy – az alternatív hipotézis típusának megfelelő – konfidencia-intervallumot, valamint a mintaátlagot.

t.test(pop$tomeg, alternative='greater', mu=78, conf.level=.95)
## 
##  One Sample t-test
## 
## data:  pop$tomeg
## t = 5.238, df = 999, p-value = 9.895e-08
## alternative hypothesis: true mean is greater than 78
## 95 percent confidence interval:
##  79.24247      Inf
## sample estimates:
## mean of x 
##    79.812

(TK. 7.1.1. fejezet)

10.2 Két, független mintás t-próba

Példánkban az vizsgáljuk kétmintás t-próbával (Statistics → Means → Independent samples t-test…), hogy bizonyítják-e az alábbi minták, hogy a bikaborjak (b: bika) átlagos születéskori testtömege nagyobb, mint az üszőké (u: üsző). (10.3. ábra). Ehhez meg kell adnunk a következőket (borjak.csv).

ábra Kétmintás *t*-próba: *Statistics &rarr; Means &rarr; Independent samples t-test...*

10.3: ábra Kétmintás t-próba: Statistics → Means → Independent samples t-test…

  • Groups (pick one) Csoportosító változó (2 szintű faktor lehet)
  • Response variable (pick one) A vizsgálandó változó

Az Options fülre kattintva a megjelenő párbeszéd ablakban (10.4. ábra) pedig a következőket:

  • Difference: b-u A különbség
  • Alternative Hypothesis - Two-sided \(H_1: \mu_1 - \mu_2 \neq 0\) - Difference < 0 \(H_1: \mu_1 - \mu_2 < 0\) - Difference > 0 \(H_1: \mu_1 - \mu_2 > 0\)
  • Confidence level A mintákból becsült, populációs átlagok különbségére vonatkozó konfidencia-intervallum megbízhatósági szintje.
  • Assume equal variances? Feltételezzük-e a populációs varianciák egyezőségét? Ha nem, No (alapbeállítás, hagyjuk így!), akkor a Welch-próbát végzi el a program.
ábra Kétmintás *t*-próba: *Statistics &rarr; Means &rarr; Independent samples t-test... &rarr; Options*

10.4: ábra Kétmintás t-próba: Statistics → Means → Independent samples t-test… → Options

A teszt outputjában megkapjuk a \(t\) statisztika értékét, a szabadsági fokot (df) és a \(p\)-értékek (p-value). Ezenkívül kapunk, egy – az alternatív hipotézis típusának megfelelő – konfidencia-intervallumot a populációs átlagok különbségére, valamint a mintaátlagokat.

t.test(tomeg~ivar, alternative='greater', conf.level=.95, var.equal=FALSE, data=borjak)
## 
##  Welch Two Sample t-test
## 
## data:  tomeg by ivar
## t = 0.99115, df = 11.736, p-value = 0.1708
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -2.099368       Inf
## sample estimates:
## mean in group b mean in group u 
##        39.28571        36.66667

(TK. 7.1.2. fejezet, 7.2. példa)

10.3 Két, párosított mintás t-próba

Példánkban az vizsgáljuk páros t-próbával (Statistics → Means → Paired t-test…), hogy bizonyítják-e az adatok, hogy a második gyermek születéskori testtömege meghaladja az elsőét? (10.5. ábra, gyermek.csv). Ehhez meg kell adnunk a következőket:

ábra Páros *t*-próba: *Statistics &rarr; Means &rarr; Paired t-test...*

10.5: ábra Páros t-próba: Statistics → Means → Paired t-test…

  • First variable (pick one) Az egyik adatsort tartalmazó változó
  • Second variable (pick one) A másik adatsort tartalmazó változó

Az Options fülre kattintva a megjelenő párbeszéd ablakban pedig a következőket (10.6. ábra).

  • Alternative Hypothesis Alternatív hipotézis típusa - Two-sided \(H_1: \mu_1 - \mu_2 \neq 0\) - Difference < 0 \(H_1: \mu_1 - \mu_2 < 0\) - Difference > 0 \(H_1: \mu_1 - \mu_2 >0\)
  • Confidence level A mintákból becsült populációs átlagok különbségére vonatkozó konfidencia-intervallum megbízhatósági szintje.
ábra Páros *t*-próba: *Statistics &rarr; Means &rarr; Paired t-test... &rarr; Options*

10.6: ábra Páros t-próba: Statistics → Means → Paired t-test… → Options

A teszt outputjában megkapjuk a \(t\)-statisztika értékét, a szabadsági fokot (df) és a \(p\)-értékek (p-value). Ezenkívül kapunk, egy – az alternatív hipotézis típusának megfelelő – konfidencia intervallumot a populációs átlagok különbségére, valamint a különbségek átlagát.

t.test(gyermek$elso, gyermek$masodik, alternative='less', conf.level=.95, paired=TRUE)
## 
##  Paired t-test
## 
## data:  gyermek$elso and gyermek$masodik
## t = -1.6692, df = 9, p-value = 0.06471
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 12.47327
## sample estimates:
## mean of the differences 
##                    -127

(TK. 7.1.3. fejezet, 7.3. példa)

10.3.1 10.4. Egytényezős ANOVA

Több átlag összehasonlítását varianciaelemzéssel végezzük el (Statistics → Means → One-way ANOVA…),. Példánkban egy kísérletben egy tápoldatot tesztelünk! A kísérletet 12 növénnyel végezzük, amelyek közül sorsolással eldöntjük, hogy melyik kapjon tiszta vizet, és melyiket öntözzük tömény, illetve híg oldattal. A növények magasságát vizsgáljuk. (tapoldat.csv). Az elemzéshez meg kell adnunk a következőket (@(ref(fig:egyanova). ábra).

ábra Egytényezős ANOVA: *Statistics &rarr; Means &rarr; One-way ANOVA...*

10.7: ábra Egytényezős ANOVA: Statistics → Means → One-way ANOVA…

  • Enter name of model: A modell elnevezése
  • Groups (pick one) Csoportosító változó
  • Response variable (pick one) A vizsgálandó célváltozó
  • Pairwise comparisons of means Páronkénti összehasonlítások elvégzése
  • Welch F-test not assuming equal variances A hagyományos F-teszt elvégzése helyett lehet végezni, ha nagyon különbözőek a varianciák. Nagy mintaelemszámok esetén jó megoldás.

A teszt outputjában megkapjuk az ANOVA-táblázatot a \(p\)-értékkel (Pr(>F)). Ezenkívül kapunk egy táblázatot a mintaátlagokkal, szórásokkal és mintaelemszámokkal.

AnovaModel.1 <- aov(magassag ~ tapoldat, data=adat)
summary(AnovaModel.1)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## tapoldat     2  303.5  151.75   18.84 0.000607 ***
## Residuals    9   72.5    8.06                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
numSummary(adat$magassag , groups=adat$tapoldat, statistics=c("mean", "sd"))
##         mean       sd data:n
## hig    56.75 1.258306      4
## tomeny 61.75 3.304038      4
## viz    49.50 3.415650      4

A páronkénti összehasonlítások eredményeként teszteket és konfidencia-intervallumokat kapunk a páronkénti különbségekre, a homogén csoportokat (ahol azonos betű van, azok a csoportátlagok nem különböznek szignifikánsan), valamint egy ábrát a különbségekkel és konfidencia-intervallumaikkal (10.8. ábra).

.Pairs <- glht(AnovaModel.1, linfct = mcp(tapoldat = "Tukey"))
summary(.Pairs) # pairwise tests
## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: aov(formula = magassag ~ tapoldat, data = adat)
## 
## Linear Hypotheses:
##                   Estimate Std. Error t value Pr(>|t|)    
## tomeny - hig == 0    5.000      2.007   2.491   0.0798 .  
## viz - hig == 0      -7.250      2.007  -3.612   0.0139 *  
## viz - tomeny == 0  -12.250      2.007  -6.104   <0.001 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
confint(.Pairs) # confidence intervals
## 
##   Simultaneous Confidence Intervals
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: aov(formula = magassag ~ tapoldat, data = adat)
## 
## Quantile = 2.7888
## 95% family-wise confidence level
##  
## 
## Linear Hypotheses:
##                   Estimate lwr      upr     
## tomeny - hig == 0   5.0000  -0.5969  10.5969
## viz - hig == 0     -7.2500 -12.8469  -1.6531
## viz - tomeny == 0 -12.2500 -17.8469  -6.6531
cld(.Pairs) # compact letter display
##    hig tomeny    viz 
##    "b"    "b"    "a"
ábra Páronkénti különbségek konfidencia-intervallumokkal

10.8: ábra Páronkénti különbségek konfidencia-intervallumokkal

(TK. 10.1. fejezet, 10.1.-2. példa)

10.4 Többtényezős ANOVA

Az előző fejezet tápoldatos kísérletet megismételték úgy is, hogy a szóban forgó növény két fajtáját kezelték az oldatokkal (tapoldat2.csv). A kiértékelést a többtényezős ANOVA elemzéssel végezzük el (Statistics → Means → Multi-way ANOVA…). (A fajta változót faktorrá kell alakítani!) Az elemzéshez meg kell adnunk a következőket (10.9. ábra).

ábra Többtényezős ANOVA: *Statistics &rarr; Means &rarr; Multi-way ANOVA...*

10.9: ábra Többtényezős ANOVA: Statistics → Means → Multi-way ANOVA…

  • Enter name of model: A modell elnevezése
  • Factors (pick one or more) Tényezők (faktorok)
  • Response variable (pick one) A vizsgálandó célváltozó

A teszt outputjában megkapjuk az ANOVA-táblázatot a \(p\)-értékekkel (Pr(>F)). Ezenkívül kapunk egy-egy táblázatot a kezelés kombinációnkénti mintaátlagokkal, szórásokkal és mintaelemszámokkal.

AnovaModel.2 <- (lm(magassag ~ fajta*tapoldat, data=adat2))
Anova(AnovaModel.2)
## Anova Table (Type II tests)
## 
## Response: magassag
##                Sum Sq Df F value    Pr(>F)    
## fajta           42.67  1  5.4857   0.03087 *  
## tapoldat       777.58  2 49.9875 4.481e-08 ***
## fajta:tapoldat  13.08  2  0.8411   0.44751    
## Residuals      140.00 18                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
tapply(adat2$magassag, list(fajta=adat2$fajta, tapoldat=adat2$tapoldat),
     mean, na.rm=TRUE) # means
##      tapoldat
## fajta   hig tomeny   viz
##     1 56.75  61.75 49.50
##     2 55.25  60.00 44.75
tapply(adat2$magassag, list(fajta=adat2$fajta, tapoldat=adat2$tapoldat),
    sd, na.rm=TRUE) # std. deviations
##      tapoldat
## fajta      hig   tomeny     viz
##     1 1.258306 3.304038 3.41565
##     2 3.403430 2.160247 2.50000
tapply(adat2$magassag, list(fajta=adat2$fajta, tapoldat=adat2$tapoldat),
    function(x) sum(!is.na(x))) # counts
##      tapoldat
## fajta hig tomeny viz
##     1   4      4   4
##     2   4      4   4

(TK. 10.3. fejezet, 10.3. példa)