8 Leíró statisztikák

A leíró statisztikák kiszámítására szolgáló eljárásokat a Statistics → Summaries menüben találjuk (8.1. ábra).

8.1: ábra Leíró statisztikák: Statistics → Summaries

8.1 Aktív adattábla összegzése

Az aktív adattábla változóinak alapvető leíró statisztikáit írathatjuk ki (Statistics → Summaries → Active data set). Numerikus változók esetén a minimum (Min.), alsó kvartilis (1st Qu.), a medián (Median), az átlag (Mean), a felső kvartilis (3rd Qu.) és a maximum (Max.) értékeket. Faktor változók esetén pedig a kategóriák gyakoriságait.

summary(pop)

##      magas         tomeg            matek            biol      
##  Min.   :158   Min.   : 44.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.:174   1st Qu.: 72.00   1st Qu.:2.000   1st Qu.:2.000  
##  Median :178   Median : 80.00   Median :3.000   Median :3.000  
##  Mean   :178   Mean   : 79.81   Mean   :2.911   Mean   :2.953  
##  3rd Qu.:182   3rd Qu.: 88.00   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :197   Max.   :112.00   Max.   :5.000   Max.   :5.000

8.2 Leíró statisztikák numerikus változókra

Az alapvető leíró statisztikákat a Statistics → Summaries → Numerical summaries… segítségével egy kategóriás változó kategóriáira bontva is kiszámíttathatjuk. A lepke táblázat TAP kategóriái esetén mutatjuk be a funkció használatát (8.2., 8.3., 8.4. ábrák). 8.2. ábrán látható ablakban kell kiválasztani a változó(ka)t, illetve a Summarize by groups gomb megnyomása után a kategóriás változót (8.3.. ábra). Ezután, rákattintva a Statistics gombra, kiválaszthatjuk a kiszámítandó statisztikákat (8.4. ábra):

Mean Átlag
Standard Deviation Szórás
Standard Error of Mean Átlagos hiba átlag
Interquartile Range Interkontinentilis terjedelem
Coefficient of Variation Relatív szórás v. variációs együttható
Binned Frequency Counts Gyakoriságok osztályintervallumokban a hisztogramnak megfelelően (15.3. fejezet)
Skewness Ferdeség
Kurtosis Csúcsosság
Quantiles Valószínűségek kvantilisekhez

(A ferdeséget és csúcsosságot nem szoktuk használni.)

8.2: ábra Leíró statisztikák numerikus változókra: Statistics → Summaries → Numerical summaries…

8.3: ábra Csoportok beállítása: Statistics → Summaries → Numerical summaries… → Summarize by groups

8.4: ábra Leíró statisztikák kiválasztása: Statistics → Summaries → Numerical summaries… → Statistics

Az alábbi outputban az átlag (Mean), a szórás (sd), az interkvartilis terjedelem (IQR), a variációs együttható (cv), a kvartilisek (0%: minimum, 25%: alsó kvartilis, 50%: medián, 75%: felső kvartilis, 100%: maximum) és a kategóriák gyakoriságai (data:n) szerepelnek.

numSummary(lepke[,"BABTOMEG"], groups=lepke$TAP,
             statistics=c("mean", "sd", "IQR",  "quantiles", "cv"),
             quantiles=c(0,.25,.5,.75,1))

##                mean         sd     IQR         cv    0%    25%   50%
## adlibitum 0.3056667 0.02945404 0.02600 0.09635999 0.230 0.2915 0.309
## limitalt  0.1984231 0.02686138 0.03225 0.13537428 0.143 0.1830 0.195
##               75%  100% data:n
## adlibitum 0.31750 0.375     30
## limitalt  0.21525 0.252     26

(TK. 4.2. fejezet, 11.1.2. fejezet)

8.3 Gyakorisági eloszlások

Kategóriás (faktor, ha numerikusan kódolt, faktorrá kell először alakítani. ld. 7.3 fejezet) változók esetén gyakoriság táblázatot, illetve az eloszlás vizsgálatára szolgáló Khi-négyzet-próbát a Statistics → Summaries → Frequency distributions… párbeszédablak előhívásával írattathatunk ki, illetve végezhetünk (8.5. ábra). Ki kell választanunk a vizsgálandó változót (variables (pick one or more)). Ha Khi-négyzet próbát is szeretnénk végezni, akkor be kell jelölnünk a Chi-square goodness-of fit test (for one variable only) opciót.

8.5: ábra Gyakorisági táblázat: Statistics → Summaries → Frequency distributions

Az OK gomb megnyomása után felugró (8.6. ábra) meg kell adnunk az egyes kategóriákba tartozás hipotetikus valószínűségeit (alapbeállítás: egyenletes eloszlás).

8.6: ábra Hipotetikus valószínűségek beállítása Khi-négyzet próbához: Statistics → Summaries → Frequency distributions

Az output első részébe a gyakoriságok, majd a százalékos gyakoriságok, végül a Khi-négyzet próba eredménye kerül kiíratásra.

.Table <- table(pop$matek)
.Table  # counts for matek

## 
##   1   2   3   4   5 
## 232 198 188 191 191

round(100*.Table/sum(.Table), 2)  # percentages for matek

## 
##    1    2    3    4    5 
## 23.2 19.8 18.8 19.1 19.1

.Probs <- c(0.2,0.2,0.2,0.2,0.2)
chisq.test(.Table, p=.Probs)

## 
##  Chi-squared test for given probabilities
## 
## data:  .Table
## X-squared = 6.67, df = 4, p-value = 0.1544

(TK. 2.4.2. fejezet 2.2. példa; 4.1.1. fejezet; 7.3.1. fejezet)

8.4 Hiányzó adatok száma

A Statistics → Summaries → Count missing observations opcióval az aktív táblázat hiányzó adatait számoltathatjuk meg változónként.

8.5 Leíró statisztikák két faktor szerinti bontásban

A leíró statisztikákat egyesével, két kategóriás változó szerinti bontásban is kiszámíttathatjuk (8.7. ábra). Be kell állítanunk a faktorokat (Factors (pick one or more)), illetve a numerikus változókat (Response variables (pick one or more)), valamint ki kell választanunk a statisztika típusát (Statistic).

8.7: ábra Leíró statisztikák táblázata: Statistics → Summaries → Table of statistics…

tapply(lepke$BABTOMEG, list(HOM=lepke$HOM, TAP=lepke$TAP), mean,
         na.rm=TRUE)

##             TAP
## HOM          adlibitum  limitalt
##   hutott     0.3038000 0.1996667
##   melegitett 0.3104167 0.1906000
##   szobahom   0.3008750 0.2080000

(TK. 11.1.2. fejezet)

8.6 Korrelációs mátrix

8.8: Korrelációs mátrix: Statistics → Summaries → Correlation matrix…

Több numerikus változó páronkénti Pearson, Spearman, illetve parciális korrelációját számíttathatjuk ki, illetve tesztelhetjük (kétoldali tesztek) a Statistics → Summaries → Correlation matrix funkcióval (8.8. ábra). Meg kell adnunk két, vagy több változót (Variables (pick two or more)), a korrelációs együttható típusát, valamint azt, hogy a hiányzó adatokat hogy kezelje a program (Observations to Use). A Complete observations lehetőség választása esetén, a program kihagyja az összes olyan esetet, amelyben bármelyik kiválasztott változó esetén adathiány van. Ha a Pairwise-complete observations lehetőséget választjuk, akkor minden változó pár esetén a lehető legtöbb adatot felhasználja, vagyis csak azokat hagyja el, amikben valamelyik változó esetén hiány van. A Pairwise p-values bejelölése esetén a korrelációkat teszteli is.

Az output első részében a korrelációs együtthatókat, majd a mintaelemszámokat, utána a korrelációs együttható tesztelésére kapott p-értékeket, majd a többszörös tesztelés miatt a Holm módszerrel korrigált p-értékeket Adjusted p-values (Holm’s method) láthatjuk.

partial.cor(ozmeret[,c("MARMAG","OVMERET","TOMEG")], tests=TRUE, use="pairwise.complete")

## 
##  Partial correlations:
##          MARMAG OVMERET   TOMEG
## MARMAG  0.00000 0.19510 0.52434
## OVMERET 0.19510 0.00000 0.50112
## TOMEG   0.52434 0.50112 0.00000
## 
##  Number of observations: 
##         MARMAG OVMERET TOMEG
## MARMAG     109     107   109
## OVMERET    107     107   107
## TOMEG      109     107   109
## 
##  Pairwise two-sided p-values:
##         MARMAG OVMERET TOMEG
## MARMAG         0.045   0.000
## OVMERET 0.045          0.000
## TOMEG   0.000  0.000        
## 
##  Adjusted p-values (Holm's method)
##         MARMAG OVMERET TOMEG
## MARMAG         0.045   0.000
## OVMERET 0.045          0.000
## TOMEG   0.000  0.000

(TK. 9.8.2. fejezet 9.10. példa, 8. fejezet)

8.7 Korrelációs együttható tesztelés

8.9: ábra Korreláció tesztelés: Statistics → Summaries → Correlation test…

Két változó Pearson-, Spearman- illetve Kendall-féle korrelációját tesztelhetjük. Egyoldali tesztek is végezhetők (8.9. ábra). Ehhez a következőket kell beállítani:

Variables (pick two) Változók kiválasztása
Type of Correlation A korrelációs együttható típusa
Alternative Hypothesis Az ellenhipotézis típusa
- Two-sided \(H_1:\) Correlation \(\neq 0\)
- Correlation<0 \(H_1:\) Correlation \(<0\)
- Correlation>0 \(H_1:\) Correlation \(>0\)

cor.test(regr.kurz$SZULTOMEG, regr.kurz$TOMEG,
             alternative="two.sided", method="kendall")

## 
##  Kendall's rank correlation tau
## 
## data:  regr.kurz$SZULTOMEG and regr.kurz$TOMEG
## z = 2.3089, p-value = 0.02095
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.3725535

(TK. 8.2.1. fejezet 8.4. példa)

8.7.1 8.8. Normalitás tesztelése

Egy változó esetén végezhető el a Shapiro-Wilk-féle normalitás vizsgálat (Statistics → Summaries → Shapiro-Wilk test of normality…).