Előszó

Elektronikus tananyagunk alapját a Reiczigel Jenő - Harnos Andrea - Solymosi Norbert által jegyzett ,,Biostatisztika nem statisztikusoknak’’ című könyv adja, annak némileg rövidített, de összefoglalókkal kiegészített változata. A tanyagaghoz szorosan kapcsolódik egy interaktív R-es példatár, valamint egy tesztkérdéseket tartalmazó oldal. A könyv és ennek a tananyagnak a megírásához mind a motivációt, mind a tematikát az Állatorvostudományi Egyetemen (korábban Szent István Egyetem Állatorvos-tudományi Kara) tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia, most már biológia BSc szakos hallgatóknak tartott Biomatematika II és Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kísérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyamaink, illetve a Biostatisztikus szakképzésen tartott Lineáris modellek kurzus anyagát is.

Ezt a tananyagot elsősorban a bevezető statisztika kurzusok hallgatóinak szánjuk, de azoknak is hasznos lehet, akiknek munkájukhoz szükségük van a statisztika alkalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Cél az alapfogalmak és a legszükségesebb módszerek elsajátításában, valamint a statisztikai szemléletmód kialakításában.

Mivel magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus, orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal.

Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munkájukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről megismerkedni az R programcsomaggal. Az R egy ingyenes, több, mint 20 éve fejlesztett, s mára nagyon elterjedt, tökéletesen professzionális statisztikai programcsomag (R Core Team (2018)). Mi magunk ma már kizárólag ezt használjuk, egyre növekvő lelkesedéssel, mindennapi munkánkban. Az R nemcsak ingyenes volta miatt vonzó, hanem azért is, mert a statisztikai módszerek szinte végtelen választékát kínálja, és nagyon friss, tehát komoly esély van arra, hogy egy-egy vadonatúj statisztikai eljárás leghamarabb Rben válik elérhetővé.

Akiket elriaszt az R-től az, hogy menük nyitogatása és űrlapok kitöltögetése helyett kódokat kell begépelnie, ajánljuk az R Commander interfészt (Fox (2005), Fox (2017), Fox and Bouchet-Valat (2018)), amit az Rcmdr csomag R-be betöltésével indíthatunk el, illetve a Deducer interfészt (www.deducer.org). Az R Commander egy olyan interfész, melyben menük és űrlapok segítségével legenerálhatjuk az R kódokat, és futtathatjuk azokat. Rövidebb kurzusainkon mi magunk is ezt használjuk. Az R Commander-ről részletesebb információt a www.rcommander.com honlapon találhatnak. A tankönyv honlapjáról (www.biostatkonyv.hu) letölthető a tankönyvhöz készült R commander kézikönyv, online verziója pedig megtalálható a statR.e-akademia.hu-n.

Ezt egy olyan alkalmazott statisztika tananyagnak szántuk, amely igyekszik a miérteket is megválaszolni, de ahol csak lehet szemléletesen, a matematikai részletek tárgyalása nélkül, lehetőleg minél kevesebb elvont definícióval és képlettel terhelve az olvasót.

Törekedtünk arra is, hogy a tananyag megértéséhez elegendő legyen a középiskolai matematika anyag ismerete. Egyedül a mátrixokkal és vektorokkal kapcsolatos alapismereteket kell az felhasználónak máshonnan elsajátítani (ld. például Freud (1996) ).

Van néhány dolog, amit – bár nem lett volna ellenünkre – mégsem tudtunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől: - Terjedelmi okokból lemondtunk a valószínűségszámítás részletes tárgyalásáról, csak egy néhány oldalas összefoglalóban ismertetjük a legszükségesebb fogalmakat.
Mentségünkre szolgál, hogy a magyar szakkönyvpiacon valószínűségszámításból nagyobb a választék mint statisztikából (ld. például: Rényi (1973), Feller and Rejtő (1978), Solt (2006)), R-es bevezető statisztika könyv pedig a tankönyv írásakor még egyáltalán nem volt; mi elsősorban ezt a hiányt szerettük volna pótolni.

  • A matematikai precizitásból a legtöbb helyen engedtünk, amiért a matematikusoktól elnézést kérünk. Több definíción – a könnyebb érthetőség kedvéért – egyszerűsítettünk, vagy csak szemléletes definíciót adtunk. Ilyenkor megjegyzésben vagy apró betűs részben utalunk arra, hogy eltértünk a matematikai statisztikában szokásos definíciótól.

  • Egy-egy mondatnyi megjegyzéstől eltekintve egyáltalán nem foglalkozunk a bayesi statisztikával. Egyrészt terjedelmi okokból, másrészt azért, mert a statisztikával most először ismerkedők helyzetét nem akartuk azzal nehezíteni, hogy egyszerre két különböző szemléletmódot tárunk eléjük. Mentségünkre szolgál, hogy bayesi statisztika a bevezető kurzusok legtöbbjében egyáltalán nem, vagy legfeljebb csak az említés szintjén szerepel.

  • Az R szinte végtelenül gazdag lehetőségeinek bemutatása is meghaladja e könyv lehetőségeit (R Core Team (2018)). Ha a Kedves Olvasó az R-et már valamennyire tudja használni, akkor speciális problémáira – a túlélés-elemzéstől kezdve a genomikáig – az interneten nagyon sok kész R csomagot (értsd: kész programokat) találhat, amelyekhez készítőik részletes leírást is mellékeltek. Teljességre törekedni már csak azért is lehetetlen volna, mert az R-es közösség tagjainak munkája révén nap mint nap új R-csomagok készülnek. (A 2020 novemberében az elérhető csomagok száma meghaladja a 16500-at!) Lehet, hogy az R lelkes felhasználójává válván, egyszer majd a Kedves Olvasó is közzétesz egy saját fejlesztésű csomagot.

  • Könyvünk a kézi számoláshoz szükséges képletek közül csak a legalapvetőbbeket tartalmazza, lényegében csak azokat, amelyek a bevezető kurzusokon a feladatok megoldásához kellenek. Ma már a számítógépes programok alkalmazása mentesít a képletekkel való számolástól. A mai felhasználónak inkább azzal kell tisztában lennie, hogy mikor melyik módszert alkalmazhatja, mik a módszer alkalmazhatósági feltételei, és hogy hogyan értelmezze az eredményeket, mintsem a számítások részleteivel. Mégis, elsősorban a bevezető kurzusok hallgatóira gondolva, a legfontosabb képletek alkalmazására bemutatunk néhány kézi számolásos példát is. Hasonló a helyzet egyes klasszikus módszerekkel: a gyakorlatban már sohasem használjuk őket, mert ma már vannak sokkal hatékonyabb módszerek is, de a könyvből nem akartuk kihagyni, mert a bevezető kurzusokon – elsősorban didaktikai okokból – mégis ezeket tanítjuk.

  • Az eljárásokat ismertető eredeti közleményekre nem hivatkozunk, csak azt az R-függvényt adjuk meg, amellyel az eljárást végrehajthatjuk. Ha valakit az eljárások elméleti háttere érdekel, akkor azt ajánljuk, hogy az R-függvény leírásában (súgó) szereplő hivatkozásból induljon ki. Ezenkívül az irodalomjegyzékben megadunk néhány ,,alapművet’’, amelyekben sok módszer részletes leírása megtalálható.

A könyv elektronikus változata a bookdown R csomag segítségével készült (Xie (2016), Xie (2018)).

Könyvünk honlapjának címe: www.biostatkonyv.hu ahol a Kedves Olvasó a könyvben szereplő példák R-kódjait, további segédanyagokat és programokat találhat. Olvasóink visszajelzéseit is szívesen fogadjuk a honlapon megadott e-mail címen.

Köszönetnyilvánítás

Ezen könyv megszületése – bár csak három szerző jegyzi – nagyon sokak munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felsoroljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc, Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Erzsébet✝, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mándoki Míra, Nagy Péter, Kabai Péter.

Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket teremtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János✝, Fodor László, Harnos Zsolt✝, Kövér Szilvia, Demeter Márton, Szabó Gabriella. Külön köszönet Demeter Mártonnak a 3., Piross Imre Sándornak a 4. javított utánnyomáshoz nyújtott segítségéért.

Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Péter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda Krisztina és még sokan mások.

És természetesen hálával tartozunk családtagjainknak – Szekeres Zsuzsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Demeter Daninak – azért, hogy elviselték a könyvírás nehéz időszakát.

Könyvünk az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat keretében jelent meg, és a T049157 számú OTKA pályázat támogatásával készült.

Az elektronikus verzió létrejöttében nagy szerepe volt Demeter Mártonnak, Szécsi Barbarának és Süle Zsoltnak.

ÁTE Biomatematikai és Számítástechnikai Tanszék,

Budapest, 2020 november 22.

Reiczigel Jenő, Harnos Andrea, Solymosi Norbert

Szükséges előismeretek

A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tartjuk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal, hogy mit jelentenek – és mikor igazak – az ,,és’‘-sel, illetve ,,vagy’‘-gyal képzett összetett állítások és a ,,ha-akkor’’ típusú kijelentések. Azt is tudni kell, hogy hogyan képezhetjük az ilyen összetett állítások tagadását.

Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komplementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de legalább a faktoriális jelölést:

5! = 1 ⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5, k! = 1 ⋅ 2 ⋅ ⋯ ⋅ k

és a binomiális együtthatókat:
$$ \ {n \choose k}=\frac{n!}{k!\cdot (n-k)!},\quad{8 \choose 3}=\frac{8!}{3!\cdot 5!}=\frac{8\cdot7\cdot6}{3\cdot2\cdot1}=56. $$

Tudni kell hatványokkal és logaritmussal számolni, ismerni kell a természetes alapú (,,e’’ alapú: ln ) logaritmust is.

Reméljük, hogy valószínűségszámításból a középiskolás anyag – kiegészítve a könyv valószínűségszámítás fejezetével – elegendő a további részek megértéséhez.

Az utolsó fejezetekhez szükség lesz a mátrixokkal kapcsolatos alapismeretekre is, ezek azonban nem haladják meg a biológus, állatorvos stb. szakosok bevezető matematika előadásaiban foglaltakat.

Jelölések, írásmód

A tananyagban tizedesvessző helyett tizedespontot használunk, részint azért, mert az R is tizedespontot használ, részint pedig azért, mert a statisztikában sokszor kell felsorolnunk számokat, és tizedesvessző használata esetén ezek a felsorolások olvashatatlanná válnának.

Nagyon kicsi és nagyon nagy értékeket az R normálalakban ír ki: például a 0.00000000000689 szám normálalakja 6.89 ⋅ 10 − 12. Ennek másik szokásos formája a 6.89E-12, ahol az ,,E’’ az exponensre (= kitevő) utal. Figyelem, az R kis ,,e’’-vel írja, így: 6.89e-12!

Sokszor használjuk a szumma jelet, amely összegek tömör leírására szolgál. Két példa:
$$ \sum_{j=3}^6 \frac{1}{j} = \frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\frac{1}{6}=\frac{20+15+12+10}{60}=\frac{57}{60}\\ \sum_{k=1}^n p^k = p + p^2 + p^3 + \ldots + p^n. $$

Ha a jelnél nem írjuk ki, hogy mettől meddig összegzünk, akkor az azt jelenti, hogy az összes lehetséges értékre (például az összes mintaelemre) képezzük az összeget.

Igyekeztünk a statisztikában szokásos jelöléseket használni, így néhány dolgot görög betűvel jelölünk. Nevezetesen az alábbi görög betűket használjuk: α (alfa), β (béta), γ (gamma), ε (epszilon), λ (lambda), χ (khi), τ~(tau), μ (mű), σ (szigma), valamint Σ (nagy szigma).

Ha egy változót vastag álló betűvel jelölünk, akkor az kisbetű esetén vektort (például b1), nagybetű esetén mátrixot (például H) jelent.

A tananyagban szereplő fontosabb fogalmak definícióját kiemeltük, és a definícióval együtt az angol elnevezést is megadjuk. Sajnos ugyanarra a fogalomra gyakran mind a magyarban, mind az angolban több kifejezés is létezhet. Ilyen esetekben igyekeztünk mind magyarul, mind angolul az összes ismert elnevezést felsorolni, és rámutatni az esetleges értelmezésbeli különbségekre. Szintén kiemelten szedtünk olyan megállapításokat, amelyeket alapvető fontosságúnak tartunk.

Hogyan használjuk a tan­anya­got?

Minden résznek hasonló a szerkezete. Valamennyi témát egy általános bevezetővel kezdünk, majd az elmélet ismertetésével és példákkal való illusztrálásával folytatjuk.

A példáknak három fajtája van:

  1. Csupán az elmélet illusztrálását szolgáló példák, ezekkel az olvasónak nincs más teendője, csak az, hogy igyekezzék megérteni őket. E példák célja, hogy segítségükkel az elméleti definíciókat szemléletes tartalommal töltsük meg. Érdemes ezeken úgy végigmenni, hogy pontról pontra megnézzük, hogy az előzőekben definiált fogalmak minek felelnek meg a példában.

  2. Kézi számolással megoldható példák, amelyeket hasznos lenne, ha az olvasó maga is végigszámolna. Sokszor csak így derül ki ugyanis, hogy a módszer egyes részleteit is jól érti-e. A bevezető kurzusok hallgatóinak a példák végigszámolása a statisztika dolgozatra való felkészülés részeként mindenképpen ajánlatos.

  3. R-es példák, amelyeket – ha a Kedves Olvasó járatos az R-ben, vagy meg szeretné tanulni a használatát – mindenképpen hasznos lenne, ha kipróbálna. Azt ajánljuk azonban, hogy a Kedves Olvasó sajátkezűleg is írjon R-kódokat, mert ha csak a könyv honlapján találtakat másolja le és futtatja, akkor egyes fontos részletek (zárójelek, határoló jelek, matematikai műveleti jelek, kis- és nagybetűk használata stb.) könnyen elkerülhetik a figyelmét. Az interatív példatárban R-rel megoldandó interaktív feladatok és a feladatokhoz kapcsolódó tesztkérdések vannak.

A példákban szereplő R-függvényeknek mindig csak azokat a paramétereit ismertetjük, amelyeknek a szóban forgó példában szerepük van. A függvényeknek általában sokkal több paramétere van, amelyeknek az R súgójában lehet utánanézni. Ha egy példában valaminek a jelentése vagy használatának módja nem derül ki egyértelműen, akkor is az R súgóját ajánljuk, ahol általában további bemutató példákat találhatunk.

Ismerkedés az R-rel

A elektronikus tankönyv felület egy olyan szerveren fut, amelyen az R 3.5.0 fut.

Az R-ben a felhasználó szöveges parancsokkal vezérli a programot.

Önálló R futtatáskor a program kezelő felülete az RGui, ennek ,,R Console’’ ablakába írhatjuk be a parancsokat, és az eredményeket is itt kapjuk meg (az ábrák kivételével, amelyek az ,,R Graphics’’ ablakban jelennek meg). Az RGui ablakai minimális menürendszerrel rendelkeznek, amelyekben a szerkesztéshez, beállításokhoz, letöltésekhez, mentésekhez, súgóhoz stb. tartozó fontosabb funkciók érhetők el.

A menürendszerrel működő programokhoz képest az R tanulása nagyobb kezdeti befektetést igényel felhasználójától, cserébe azonban sokkal többet is nyújt. Egy elemzéshez szükséges parancsok sorozata (,,szkript’‘, ,,program’’ vagy ,,R-kód’‘) elmenthető és bármikor újrafuttatható. Ennek nagy előnye, hogy ha sokszor kell ugyanolyan típusú elemzést végeznünk, akkor elég egyszer elkészíteni a programot. Az R-kódokat célszerű részletes jegyzetekkel (kommentekkel) ellátni, hasonlóan a program forráskódokhoz. Ez a kezdeti ,,többlet’’ munka sokszorosan visszatérül, hiszen így sok évvel az elemzések elvégzése után is pontosan felidézhetjük elemzéseink legapróbb részleteit is.

A kódszerkesztést megkönnyíthetjük azzal, ha az RGui kódszerkesztőjét más szövegszerkesztővel helyettesíthetjük. Ilyen például a Tinn-R, RStudio vagy az RKWard, amelyek használata ingyenes, és többek között képes az R programozási nyelv szintaxisának megfelelő szövegkiemelésre, és egyszerre több szkriptet is szerkeszthetünk benne. Képesek az RGui-val kommunikálni, azaz kódjainkat egyből futtathatjuk is ezekből a kódszerkesztőkből.

A menürendszerrel működő programokhoz képest az R tanulása nagyobb kezdeti befektetést igényel felhasználójától, cserébe azonban sokkal többet is nyújt. A (statR.e-akademia.hu-n elérhető egy ingyenes interaktív R bevezető tananyag, melynek segítségével a Kedves Olvasó elsajátíthatja az R alapszintű használatához szükséges ismereteket.) Tapasztalataink szerint azok, akik R-rel kezdenek statisztikát tanulni, jóval többet értenek saját elemzéseikből, mint azok, akik menüvezérelt programokkal kezdenek (persze soha nem késő váltani).

Hogyan olvassuk az R-kó­do­kat?

Az R-kódokat – akár a törzsszövegben, akár példákban szerepelnek – betutípusukkal is megkülönböztettük, így a szövegbe beszúrt R-kifejezések (függvények neve, például t.test(), változónevek, például MAGASSAG, vagy kulcsszavak, például alternative = 'two.sided' ) kelloképpen elkülönülnek a szöveg többi részétol. A könyv R-es példáiban – a könnyebb tájékozódás kedvéért – a felhasználó által beírt szövegek (kódok, parancsok) dolt betuvel jelennek meg, míg a program válaszai (az eredmények) nem. A könyvben felhasznált kódok és adatok letölthetok a könyv honlapjáról. Ezek futtatásához az R telepítése, majd elindítása után az RGui menüjével (File/Change dir …) állítsuk be munkakönyvtárnak azt a könyvtárat, ahová a kódokat és adatokat letöltöttük! Ezután nyissuk meg a kipróbálni kívánt kódot (File/Open script)! Az utasításokat legegyszerubben úgy futtathatjuk, hogy rálépünk a kurzorral az adott kódsorra (több sor esetén kijelöljük a kódrészletet), és megnyomjuk az Ctrl-R vagy F5 billentyut, vagy a jobb egérgomb megnyomásával megnyíló kis menübol választjuk ki az elso menüpontot. És most lássuk, hogy mi mit jelent a kódokban!

Jel Jelentés
> Az úgynevezett „prompt”, az R ezzel jelzi (az „R Console” ablakban), hogy várja a felhasználó parancsait.
+ Akkor jelenik meg a prompt helyén, ha az előző sorban lévő utasítást az R nem találta teljesnek, folytatásra vár.
1:5 Az 1, 2, 3, 4, 5 értékekből álló vektor.
= Értékadás: például az a = 12 parancs azt jelenti, hogy az a változó értéke legyen 12, a b = 3:6 pedig azt, hogy a b legyen a 3, 4, 5, 6 számokból álló vektor. Lehet helyette használni a <-, illetve -> szimbólumokat is.
(…=…) Ha egy értékadó utasítást zárójelbe teszünk, akkor az R az értékadás végrehajtása mellett ki is írja az eredményt (célja csupán helytakarékosság).
^ Hatványozás, például a 2^3 jelentése 23.
() Függvényargumentumok határolója, például mean(b) a b vektor átlaga.
~ Formulában a függő és a magyarázó változó(ka)t vagy a belőlük készített kifejezést köti össze.
8.88e-16 8.88 · 10−16.
Inf Végtelen (az olyan nagy számot, amely már meghaladja az R számábrázolási lehetőségeit, így jelöli a program).
[ ] Index: vektorok, mátrixok és táblázatok egyes elemeinek jelölésére szolgál. Az előbbi b vektorral például, b[3] a vektorbeli harmadik érték, vagyis az 5. Mátrixoknak, táblázatoknak két indexe van, az első a sort, a második az oszlopot azonosítja. Ha valamelyiket elhagyjuk, akkor ez a mátrix egy teljes sorát, illetve oszlopát jelenti, például a [, 2] a második oszlopot. Az eredmények kiírásakor a sorok elején azt jelenti, hogy a sor elején álló szám az outputnak hányadik eleme. A kiírás első sorában ez mindig [1]. Ha a kiírt számok elférnek egy sorban, akkor nem is lenne rá szükség, de az R ekkor is kiírja.
$ Az adatmátrixot (táblázatot) és az abban levő oszlopot (változót) köti össze. Így tudjuk megmondani, hogy melyik mátrix melyik oszlopáról van szó, például a pop$magas a pop nevű adatmátrixban a magas nevű változó (= oszlop).
with() Például: with(regr.kurz,...), a regr.kurz adatmátrixszal végezzük el a . . . utasítást.
library() R-csomag betöltése.
as.numeric() Faktorból ideiglenesen numerikus változót állít elő (a változó értékei egész számok lesznek, a szintek belső kódjai).
legend() Ábrán cimkék pozicionálása, megadása és formázása.
par() Grafikus paraméterek beállítására szolgál, például a par(mfrow = c(2,2)) a grafikus ablak felosztása 4 részre (2 sorra és 2 oszlopra).
c(1,2,4) Vektorrá fűzi össze az argumentumokat.
rep() Ismétlés, például rep(3,4) a 3-at ismétli 4-szer, eredménye a (3, 3, 3, 3) vektor.
matrix() Mátrixot hoz létre egy számsorból.
cbind(), rbind() Vektorokat, mátrixokat vagy táblázatokat fűznek össze oszlopok, illetve sorok szerint.
data.frame() Vektorokat, mátrixokat, táblázatokat egy táblázattá fűz össze.
Gyakran használt függvényargumentumok
data Adatmátrix megadása.
T vagy TRUE Igaz.
F vagy FALSE Hamis.
xlab,ylab Ábrákon az x és y tengelyfeliratok.
pch Pontok típusának megadása.
bty A keret típusának megadása.
lty A vonal típusának megadása.
main A főcím megadása.
add Ha T-re (TRUE) állítjuk, akkor az előző ábrát írja felül.

1 Bevezetés

1.1 Miért tanuljunk statisztikát?

Erre a kérdésre több lehetséges válaszunk is van. Lássunk néhányat:

  1. Azért, hogy el tudjuk dönteni, elhiggyünk-e valamit, amit olvasunk, vagy hogy észrevegyük, hol van benne a hiba, vagyis hogy ne dőljünk be olyan könnyen a statisztikai bűvészkedéseknek, műtermékeknek és tévedéseknek. Lássunk néhány példát!

    1. ,,Egy 2002-es tanulmány szerint azok, akik naponta nyolc óránál többet alszanak, az átlagosnál jóval nagyobb valószínűséggel halnak meg.’’

    2. ,,A Nemzeti Autópálya Rt. adatai szerint a matricák 85 százalékát személygépkocsikra, 15 százalékát teherautókra veszik, ami azt jelzi, hogy a fizető utak tarifáit a személygépkocsik tulajdonosai elfogadták. Ez a százalékos eloszlás egyébként lényegében megfelel a gépjárműállomány összetételének.’’

    3. ,,Hihetetlen mértékben emelkedett részvényeink ára az utóbbi időben (1.1. ábra).’’

    4. ,,Tavaly drámaian csökkentek a lakosság megtakarításai az előző évhez képest (1.2. ábra).’’

    5. ,,Csalás az átlagjövedelem számításában? Kiderült, hogy az emberek többsége kevesebbet keres, mint az átlagjövedelem KSH által közölt értéke!’’

    6. ,,Alvászavart okozhat a papírzsebkendő használata! 1500 fős reprezentatív mintán végzett vizsgálatunkban a 30 és 40 év közötti vidéki diplomás férfiak körében erősen szignifikáns (p = 0.009) összefüggést találtunk a papírzsebkendő használata és az alvászavarok előfordulása között.’’

ábra. Részvényárak

1.1: ábra. Részvényárak

ábra. Lakossági megtakarítások

1.2: ábra. Lakossági megtakarítások

Reméljük, hogy a Kedves Olvasó nem sajnál némi fejtörést, hogy megtalálja a hibákat, illetve kifogásolható pontokat a fenti állításokban és következtetésekben (a megoldásokat lásd a következő részben).

  1. Azért, hogy jobban meg tudjuk ítélni, hogy szerencsénk volt-e, vagy pechünk – vagy éppen egyik sem: ami történt, az általában így szokott történni, ez a dolgok normális menete.

    *Az autóbusznak, amellyel nap mint nap járok, a tábla szerinti követési ideje 15 perc. Mivel nincs pontos menetrendje, úgy számoltam, hogy átlagosan hét és fél percet kell várnom rá, de egy idő után az volt az érzésem, hogy a helyzet ennél sokkal rosszabb. Nem voltam rest, lemértem 50 várakozási időt, és ezekből az jött ki, hogy átlagosan 11 percet kell várnom a buszra. Ilyen peches lennék? Vagy a tábla nem mond igazat? Vagy ez csupán véletlen? (a megoldást lásd a következő részben)

  2. Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit érdemes kockáztatni. (Érdemes megjegyezni, hogy a valószínűségszámítás kialakulásának idején – a tizenhetedik században – ezt az új tudományágat a szerencsejátékok rejtélyes világa inspirálta, és eredményeinek első alkalmazásai is a szerencsejátékok területén voltak.)

*Sorsjegyből 10000 db-ot nyomnak, közülük 1 fizet 1 millió forintot, 50 tízezret, 2449 pedig ezret (így ráírhatják, hogy ,,minden negyedik nyer legalább 1000, de akár 1 millió forintot’‘). A sorsjegyet 490 forintért árulják. Megéri-e játszani? Szerencsének tekintené-e, ha egy ilyen sorsjeggyel nyert? Pechnek tekintené-e, ha nem nyert? És ha vett tízet, és egyik sem nyert? Hogyan változnának a fenti kérdésekre adott válaszok, ha a 7500 ,,nem nyert’’ közül 1000-re azt írnák, hogy ,,újrahúzhat’’? (a megoldást lásd a következő részben)

  1. Azért, hogy pontosan értsük a szakirodalmat.

    1. ,,A kísérlet során az állatok átlagos tömeggyarapodása a kezelt csoportban 44.6 ± 8.7 kg (n = 44), a kontrollban pedig 40.7 ± 14.7 kg (n = 48) volt. A közel 10%-os különbség az átlagok között jelentős, de statisztikailag nem szignifikáns (kétmintás Welch-féle t-próbával p = 0.1279). Ugyanakkor a szórások között a különbség szignifikáns (F-próbával p = 0.0007).’’

    2. ,,A vizsgálat szerint cukorbetegség esetén a stroke relatív kockázata a nem cukorbetegekhez képest 2.56 (95%-os konfidencia-intervallum: (1.37, 5.26), p = 0.009).’’

  2. Azért, hogy saját vizsgálataink tervezését, illetve kiértékelését ügyesebben el tudjuk végezni.

    Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó adatot? Regresszió- vagy korrelációszámítást végezzek? A sok azonos célú – csak részleteiben különböző – varianciaelemzés modell közül melyiket használjam? Érdekes, váratlan eredményt kaptam: vajon most felfedeztem valamit, vagy csak a véletlen játéka, amit látok? Mennyire megbízható, mennyire pontos az eredmény, amit kaptam?

  3. Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget kiemelve tudjuk közölni.

    Az ember gyakran bizonytalan: elég, ha megadom az átlagokat és a szórásokat? Minden átlaghoz külön adjam meg a szórást vagy csak egy közöset? Vagy az átlag helyett jobb lenne a medián? Esetleg kellene az előadásba néhány táblázat vagy ábra is? Ha ábra, akkor kördiagram vagy oszlopdiagram?

Sokan megszokásból, mások pedig ellesett minták alapján döntenek: ,,láttam egy hasonló témájú cikket, abban mediánt számoltak, és egy ilyen és ilyen ábra volt…’’

Reméljük, hogy mindezekben a kérdésekben segít eligazodni ez a tananyag.

1.2 Megjegyzések a példákhoz

    1. A tudomány jelen állása szerint mindenki biztosan – tehát 1 valószínűséggel – meghal, azaz ennyi az elhalálozás átlagos valószínűsége is. És ezt már semmivel sem lehet növelni. Lehet, hogy a sok alvásnak van valamilyen kockázata, de az nem egyszerűen a halálozás valószínűségével kapcsolatos, hanem valamely betegségben való vagy az átlagosnál korábbi elhalálozáséval, esetleg az adott életkorban, adott egészségi állapot, életmód stb. melletti halálozási valószínűséggel. A cikkíró bizonyára minél rövidebben, a lényegtelen technikai részletek elhagyásával szerette volna összefoglalni a kutatás eredményeit, de sajnos épp az egyik legfontosabb részletet hagyta ki. (Az már más kérdés, hogy – még ha találtak is ilyen összefüggést – vajon ebből következik-e, hogy a magasabb kockázatnak valóban a sok alvás az oka. Oksági kapcsolat bizonyításához a statisztikai összefüggés kimutatása nem elegendő. Ezzel kapcsolatban lásd a 4.2.2. fejezetet is.)

    2. Ha az eladott matricák 85–15%-os megoszlása megfelel a gépjárműállomány összetételének, akkor a személygépkocsik és tehergépkocsik tulajdonosai pont ugyanannyira fogadták el a tarifákat. De hogy valójában mennyire, arról ez a százalékos megoszlás semmit sem mond, hiszen a következtetést levonhatták akár az első 100 vagy 200 matrica eladása után is. Ebből a szempontból az lenne informatív, hogy a személy-, illetve tehergépkocsik hány százalékára vásároltak matricát (vagy még inkább az, hogy az autópályát potenciálisan igénybe vevő gépkocsik hány százalékára).

    3. A perspektivikus ábrázolás, valamint az y tengely ,,ügyes’’ skálázása segít félrevezetni az olvasókat. A feltehetően megtévesztő szándékú előadó arra épít, hogy az ábra csak néhány másodpercig lesz látható, és ennyi idő a hallgatóságnak nem lesz elegendő a trükk leleplezésére. Az 1.3. ábra ugyanazokat az adatokat ábrázolja perspektíva nélkül, de megtartva az y tengely félrevezető skálázását. Az 1.4. ábrán látható a diagram úgy, hogy az y tengely 0-ról indul.

    4. A piktogram kombinálva a térbeli ábrázolással azt eredményezi, hogy az olvasó a pénzeszsákokat nem magasságuk, hanem vélt térfogatuk szerint hasonlítja össze. Így a valójában 16%-os csökkenés több, mint 40%-os csökkenésként érzékelhető. Ugyanez a csökkenés egy egyszerű oszlopdiagramon sokkal kevésbé látszik drámainak (1.5. ábra).

    5. Semmi különös nincs abban, hogy a népességnek több mint a fele helyezkedik el az átlag alatt. Soha nem állította senki az átlagról, hogy rendelkezne azzal a tulajdonsággal, hogy ugyanannyian vannak alatta, mint felette. Van ilyen statisztikai mutató is, de az nem az átlag, hanem a medián (további részletek a 4.2.1. fejezetben). Az átlag nem feltétlenül a tipikus, a hétköznapi, a leggyakoribb érték. Jól példázza ezt a következő meghökkentő állítás is: ,,Az emberek túlnyomó többségének az átlagosnál több lába van.’’ Valóban, különböző betegségek vagy balesetek miatt az emberek egy csekély hányada sajnálatos módon elveszíti egyik vagy mindkét lábát, aminek következtében az átlag egy kicsivel kettő alá csökken. Ugyanakkor az emberek túlnyomó többségének két lába van.

    6. A megfogalmazásból látszik, hogy a vizsgált 1500 fős mintát életkor, nem, iskolai végzettség és lakóhely szerint csoportokra bontották. Feltehetően nem szerint kettő, kor szerint – a 10 éves osztályszélességből következtetve – legalább öt, iskolai végzettség szerint legalább három, lakóhely szerint legalább két csoportot képeztek. Ez összesen 2 ⋅ 5 ⋅ 3 ⋅ 2 = 60 csoportot jelent. Ha ilyen sok csoport mindegyikében elvégezzük ugyanazt a statisztikai tesztet, akkor számítanunk kell arra, hogy néhányban – pusztán a véletlen folytán is – erős összefüggés mutatkozik. Ráadásul a szöveg azt sejteti, hogy a vizsgálat nem csupán a papírzsebkendőre és az alvászavarokra terjedt ki, hanem számos további adatra, tehát az elvégzett statisztikai tesztek száma akár több százra is rúghatott, vagyis nagyon valószínű, hogy a közölt eredmény semmit sem bizonyít (vö. a többszörös összehasonlításról írottakkal, 6.3.1. fejezet).

ábra. A részvényárak változásának grafikonja, ha az $y$ tengely skálázása nem nulláról indul

1.3: ábra. A részvényárak változásának grafikonja, ha az y tengely skálázása nem nulláról indul

ábra. A részvényárak változásának grafikonja, ha az $y$ tengely skálázása nulláról indul

1.4: ábra. A részvényárak változásának grafikonja, ha az y tengely skálázása nulláról indul

ábra. Az oszlopok magasságának aránya ugyanakkora, mint az 1.2. ábrán lévő pénzeszsákok magasságának aránya, a piktogramon a különbség mégis nagyobbnak látszik

1.5: ábra. Az oszlopok magasságának aránya ugyanakkora, mint az 1.2. ábrán lévő pénzeszsákok magasságának aránya, a piktogramon a különbség mégis nagyobbnak látszik

  1. Lehet, hogy peches vagyok, az is lehet, hogy a tábla nem mond igazat, de abból a megfigyelésből, hogy az átlagos várakozási idő 11 perc, egyik sem következik. Az átlagos várakozási idő csak akkor lenne egyenlő a követési idő felével, ha a buszok teljesen szabályosan – mindig pontosan 15 percenként – követnék egymást, ez pedig a végállomástól távolabb eső megállókban (legalábbis a budapesti buszokra) már nem igaz. Ha a buszok nem pontosan 15 percenként jönnek, akkor az átlagos várakozási idő mindig hosszabb, mint az átlagos követési idő fele. Hogy mennyivel, az attól függ, mennyire szabálytalan időközökből jön ki az átlagos követési idő: annál nagyobb a különbség, minél nagyobbak az eltérések a szabályostól. Ezt számításokkal is lehetne bizonyítani, de nem akarjuk ezzel terhelni az olvasót. Mindenesetre az számolás nélkül is világos, hogy szabálytalan követési idő esetén valószínűbb, hogy az ember valamelyik hosszabb intervallumban érkezik a megállóba, mint az, hogy valamelyik rövidebben. Ez pedig megnöveli az átlagos várakozási időt, amely tehát szinte törvényszerűen nagyobb, mint az átlagos követési idő fele. Szemléltetésül képzeljük el például azt a végletes esetet, hogy így jönnek a buszok: harminc percig semmi, aztán két busz rögtön egymás után, megint harminc percig semmi, megint két busz egymás után stb. (Néha sajnos tényleg így jönnek …) Ekkor éppen megduplázódik az átlagos várakozási idő a szabályos követéshez képest.

  2. A 10000 sorsjegy után kifizetendő összes nyereség 1 ⋅ 1000000 + 50 ⋅ 10000 + 2449 ⋅ 1000 = 3949000 Ft, tehát az egy sorsjegyre jutó átlagos nyereség 3949000/10000 = 394.9 Ft, ami 95.1 forinttal kevesebb, mint a sorsjegy ára. Tehát nem éri meg, csak az játsszon, aki bízik a szerencséjében! (Na jó, ezt gondolhattuk volna, hiszen a sorsjegy kibocsátójának is meg kell élnie valamiből…) Mivel a nyerés valószínűsége csak 25%, aki nyer, szerencsésnek mondhatja magát. Aki nem nyer, az viszont nem peches, csak éppen bejött a papírforma. Annak a valószínűsége, hogy tíz sorsjegyből egy sem nyer, $\left(\frac{3}{4}\right)^{10} = 0.0056 = 5.6\%$, tehát aki így jár, az már jogosan bosszankodik. Ha 1000 sorsjegyre a ,,nem nyert’’ helyett ,,újra húzhat’’ kerül, akkor a 10000 sorsjegyből a vásárlók csak 9000 sorsjegyért fizetnek, 1000-hez az újra húzás révén ingyen jutnak hozzá. Így a sorsjegyek átlagos ára most 490 Ft helyett csak 9000 ⋅ 490/10000 = 441 Ft, ami még mindig több, mint az átlagos nyereség. A nyerés valószínűsége most körülbelül 27.8%, tehát aki nyer, az most is szerencsés, aki nem, az pedig azt kapta, amire józanul számíthatott. Tíz sorsjeggyel nem nyerni viszont most még nagyobb pech, mint az előbb (valószínűsége kb. 3.9%).

    1. A kezdők ebből bizonyára egy kukkot sem értenek, de aki a rég elfelejtett statisztikai ismereteit szeretné könyvünk segítségével feleleveníteni, annak talán rémlik, hogy ilyen közlésekben a ± jel előtt a tömeggyarapodás átlaga, utána pedig a szórása szokott állni, az n pedig annak a mintának az elemszámát jelöli, amelyen a következtetések alapulnak. A ,,szignifikáns’’ és a ,,p-érték’’ fogalmak pontos jelentésére már bizonyára kevesebben emlékeznek. A statisztikai hipotézisvizsgálatok részletes ismertetését lásd 7. fejezetben, egyelőre csak annyit, hogy a ,,statisztikailag szignifikáns’’ nagyjából azt jelenti, hogy ,,több, mint véletlen’‘, azaz ,,nem nagyon hihető, hogy a véletlen játéka volna’’, a p-érték pedig számszerűen is megadja, mennyire valószínű, hogy a kapott eredmény a véletlen játékának tulajdonítható (tehát kis p-érték: szignifikáns, nem hisszük, hogy véletlen, nagy p-érték: nem szignifikáns, könnyen lehet, hogy véletlen). Az átlagok közötti különbségre kapott p-érték 0.1279, azaz ekkora különbséget az átlagok között közel 13% valószínűséggel a véletlen játéka (a biológiai változatosság, a mérési hibák stb.) is produkálhat. A szórások között tapasztalt mértékű eltérés ezzel szemben 1/1000-nél is kisebb valószínűséggel írható a véletlen számlájára, tehát bízhatunk benne, hogy ez valódi különbséget jelez. Jó szokás, ha mindig megadjuk az alkalmazott statisztikai teszt nevét is, hogy az olvasó tudja, melyik módszerrel kaptuk a közölt eredményt.

    2. Az, hogy a relatív kockázat egy csoportban egy másik csoporthoz viszonyítva 2.56, azt jelenti, hogy a szóban forgó csoportban a betegség valószínűsége 2.56-szor akkora, mint a másik csoportban. Mivel a 2.56 értéket egy mintából kapták, ez nem feltétlenül egyezik meg a teljes populációban érvényes relatív kockázattal. A 95%-os konfidencia-intervallum egy olyan értéktartományt jelöl, amely 95% megbízhatósággal – azaz 5% tévedési valószínűséggel – tartalmazza a populációbeli relatív kockázatot. A példához lásd a 3.3. és a 5. fejezeteket is. A p-érték jelentése itt az, hogy a mintából kapott 2.56 szignifikánsan eltér 1-től (azért épp az 1-től, mert az, hogy a relatív kockázat 1, azt jelentené, hogy a kockázat mindkét csoportban ugyanakkora).

1.3 Hétköznapi valószínűségszámítás és statisztika

Ebben a részben arról szeretnénk meggyőzni az olvasót, hogy a statisztikai gondolkodáshoz szükséges szemléletmód csírájában mindnyájunkban megvan, hétköznapjainkban több-kevesebb tudatossággal használjuk is, de azért legtöbbünknek nem árt egy kis ,,rátanulás’‘, a fogalmak pontosítása, egyes fontos részletek tisztázása. Néha úgy érezzük, hogy nagy pechünk volt, vagy éppen nagy szerencse ért. ,,Azt vártam, hogy könnyű lesz a vizsga, mert az előző napi vizsgázók mind négyest-ötöst kaptak, tanultam is rá, mégis megbuktam. Pechem volt.’’ Amikor pechről vagy szerencséről beszélünk, mindig arról van szó – akár tudatosan, akár nem –, hogy egy bekövetkezett eseményt az előzetesen neki tulajdonított valószínűséggel vagy egy megfigyelt számértéket egy – különböző megfontolások alapján számított – feltételezett számértékkel szembesítünk.

Az új kolléga méltatlankodik a buszmegállóban: ,,Micsoda pechem van már megint! Öt napja dolgozom itt, és eddig mind az öt alkalommal a te buszod jött előbb!’‘. A régi kolléga nyugtatgatja: ,,Ugyan, nézd meg a menetrendet, mindkét busz tízpercenként jár, csak az enyém mindig egy perccel előbb érkezik, mint a tiéd. Így az esetek 90%-ában ugyan az enyém jön előbb, hosszú távon mégis ugyanannyi időt fogunk várakozással tölteni.’’

Ahhoz, hogy valamire azt mondhassuk, pech, a dolognak kellemetlennek, rossznak kell lennie. De egy rossz dolog még nem feltétlenül pech, csak ha emberi számítás szerint nem kellett volna bekövetkeznie. Hasonlóképpen, szerencséről akkor beszélünk, ha egy olyan jó dolog ér, amire előre nem számíthattunk. Amikor azt latolgatjuk, hogy egy elért nyeremény szerencsésnek nevezhető-e, akkor értékét egy olyan feltételezett értékkel – a nyeremény várható értékével – hasonlítjuk össze, amelyben benne foglaltatik a lehetséges nyereményeknek mind a nagysága, mind pedig a valószínűsége.

,,Óriási szerencsém volt, nagyon olcsón jutottam ehhez a lakáshoz’’ – meséli valaki. Amikor véleményt formálunk erről a kijelentésről, gondolatban kialakítunk magunkban egy reális vételárat a lakás helye, nagysága, állapota alapján (modell!), és a tényleges vételárat ezzel hasonlítjuk össze. Ha vannak ismereteink ugyanazon a környéken lévő, hasonló nagyságú és állapotú lakások eladási áráról, akkor hasonlíthatjuk ezekhez, vagy ezek átlagához (vagy mediánjához? modellválasztás!) az ismerősünk által fizetett árat (az átlagról és mediánról bővebben a 4.2.1. fejezetben). Az 1.6. ábrán tíz, hasonló paraméterekkel rendelkező lakás eladási ára látható az utóbbi hónapokból, fekete négyzet jelöli ismerősöm lakásának az árát. Ennek alapján mit gondolunk, valóban óriási szerencséje volt?

ábra. Tíz, az utóbbi hónapokban elkelt, barátoméhoz nagyjából hasonló lakás ára (millió forint). Minden kör egy-egy lakás árát jelöli, a négyzet a barátomét. Ennek alapján vajon jó vásárt csinált-e?

1.6: ábra. Tíz, az utóbbi hónapokban elkelt, barátoméhoz nagyjából hasonló lakás ára (millió forint). Minden kör egy-egy lakás árát jelöli, a négyzet a barátomét. Ennek alapján vajon jó vásárt csinált-e?

Persze a válasz attól függ, milyen ,,modellel’’ dolgozunk. Érvelhetünk úgy, hogy az átlagos árnál csaknem két és fél millióval olcsóbban jutott hozzá, tehát szerencséje volt. De gondolkozhatunk úgy is, hogy mivel az ábra szerint ilyen árfekvésben is vannak lakások, nem különösebb szerencse, hogy rátalált egyre. Igaz, mondhatjuk, mégiscsak szerencse, hiszen tíz közül nyolcan többet fizettek nála. Finomíthatjuk a modellt, ha belekalkuláljuk a lakáskereséssel töltött időt is, így esetleg szerencsének gondoljuk, ha egy hét alatt sikerült rátalálnia, de nem gondoljuk szerencsének, ha csak másfél év keresgélés után.

Néha úgy érezzük, hogy ismerősünk – mint az előbb a buszmegállóban – rosszul ítélte meg a körülményeket (rossz modellel dolgozott!), ekkor ilyen válaszokat adunk: ,,Miért mondod, hogy ez nagy pech? Hiszen ez mindenkivel számtalanszor megtörténik!’’ ,,Ne mondd, hogy peched volt! Én a helyedben éppen erre számítottam volna!’’ ,,Na ne szerénykedj! Miért lenne szerencse? Hiszen annyit dolgoztál érte, nagyon is megérdemled!’’

Új lakásba költöztem, most kezdem kitapasztalni, mikor kell elindulnom otthonról, hogy idejében beérjek a munkahelyemre. Ha tömegközlekedéssel megyek, az két átszállást jelent, tehát körülbelül egy óra utazásra számítok. Első nap minden jármű hamar jött, 53 perc alatt beértem. Második nap sokat is kellett várni, lassan is ment minden jármű, 72 percig tartott az utazás. Vajon első nap volt ritka szerencsém, vagy másnap volt pechem? Lehet ez is, az is, még nem tudom, majd meglátjuk, mi a jellemző. Úgy két hónap múlva már elég jól ismerem az utazással töltött idő eloszlását, nagyjából tudom, hogy hány perces utazás mennyire valószínű (1.6. ábra). Ötven megfigyelésből a leggyorsabb, illetve a leglassúbb utazás 45, ill. 72 perces volt. (Azok számára, akik már tanultak statisztikát, azt is eláruljuk, hogy az átlag 57.4, a medián pedig 57 perc.)

ábra. Az utazási idő megoszlása: a diagram az első ötven utazás adatait ábrázolja

1.7: ábra. Az utazási idő megoszlása: a diagram az első ötven utazás adatait ábrázolja

Ennek alapján már látszik, hogy az első napi 53 perc nem különösebb szerencse, hiszen durván az esetek egyharmadában ennyi idő elegendő volt az utazásra. A második napi 72 perc viszont valóban ritka pechnek számít, ötvenből csupán egyszer tartott ilyen sokáig az út. Az ábrán látható mintázat – a több elkülönülő kis ,,dombocska’’ – inhomogenitást jelez, azt sugallja, hogy a vizsgált jelenség több különböző típus keveréke. A jelen példában gondolhatunk arra, hogy esetleg más utazási időre lehet számítani hétfőn, kedden és pénteken, vagy hogy a vizsgált 50 nap éppen augusztus-szeptemberre esik, és az ábrán a nyár és ősz közötti különbség jelenik meg. A ,,kilógó’’, a többiektől elkülönülő három értéket pedig valószínűleg valamilyen rendkívüli esemény (baleset, útlezárás) magyarázza. Az 50 megfigyelés alapján azt mondhatjuk, hogy az esetek 5–10%-ában számíthatunk ilyenre.

A tudományos kutatásban ezeknél gondosabban megtervezett megfigyelések vagy kísérletek alapján vonunk le bizonyos következtetéseket, de az esélyek mérlegelésére szolgáló gondolatmenetek a fentiekhez hasonlóak.

2 A statisztika alapfogalmai

A statisztika adatgyűjtéssel, majd a megfigyelt adatok lényegre törő ábrázolásával, illetve elemzésével foglalkozik (Armitage, Berry, and Matthews (2008), Freedman et al. (2005)). Az elemzések célja a konkrét, egyedi megfigyelésekből általánosabb érvényű következtetések levonása. A következőkben összefoglaljuk azokat a legfontosabb fogalmakat és elnevezéseket, amelyekre a további fejezetekben építeni fogunk, és amelyek az irodalom értő olvasásához is nélkülözhetetlenek.

Biológusok, figyelem! A populáció elnevezés a statisztikában is használatos, de más a jelentése, mint a biológiában (lásd alább). Ebben a könyvben populáció alatt statisztikai populációt értünk (ha valahol mégsem, akkor ott mindig kiírjuk, hogy ,,biológiai populáció’’).

2.1 Populáció és minta

Ahhoz, hogy a populáció és a minta fogalmát megértsük, először a megfigyelési egység fogalmát kell tisztáznunk. Egy megfigyelési egység vagy mintavételi egység (observational unit, sampling unit, subject) a vizsgálat alanya vagy tárgya, amelyen a méréseket, vizsgálatokat végezzük. Megfigyelési egység lehet egy Petri-csésze, egy vérminta, egy sejtcsoport, egy szerv, egy 20 négyzetméteres mintaterület, egy 1 hektáros erdőrészlet, egy faj, egy egyed, egy nyáj, egy ember, egy család, egy iskolai osztály, egy iskola, egy választókerület, egy település stb.

A megfigyelési egységek választásban az is szerepet játszik, hogy egyáltalán mi vizsgálható, mi milyen pontossággal mérhető stb. Természetesen a megfigyelési egységek megválasztásától függően a megfigyelt adatok is változhatnak. Például baromfi takarmányozási kísérletekben tipikus, hogy a súlygyarapodás állatonként mérhető, de a takarmányfogyasztás csak ketrecenként, egyedenként nem. Most vajon az egyedi állatot vagy a ketrecet tekintsük a megfigyelési egységnek? Ha az egyedi állatot, akkor a takarmányfogyasztását jellemezhetjük az egy állatra jutó átlagos takarmányfogyasztással (azaz azt feltételezzük, hogy ugyanabban a ketrecben minden állat azonos mennyiséget fogyasztott), ha pedig a ketrecet, akkor a ketrecbeli átlagos súlygyarapodást érthetjük súlygyarapodás alatt.

Ha kell, megtehetjük azt is, hogy ugyanazon adatok egyik elemzésében mást tekintünk megfigyelési egységnek, mint egy másikban. Vérparaméterek vizsgálatakor például elképzelhető, hogy minden állatból azonos időpontban 3 vérmintát veszünk, mert azt is szeretnénk látni, hogy milyen pontossággal ismételhető a mérés. Kérdés, hogy most mit tekintsünk megfigyelési egységnek, egy vérmintát vagy egy állatot, azaz 3 összetartozó vérmintát? Választhatunk: ha elsősorban a mérés ismételhetősége érdekel, akkor a vérmintát, ha pedig az állatok állapota, akkor az állatot, amely ekkor jellemezhető a három mért adat átlagával (mert az átlag pontosabb, mint bármelyik egyedi mérés). Ha ez is, az is, végezhetünk két elemzést, egyiket így, másikat úgy.

Vagy tegyük fel, hogy madárfészkeket számolunk sok 1-1 hektáros erdőrészletben, emellett minden fészekben megszámoljuk a lerakott tojásokat is. Az így gyűjtött adatokat felfoghatjuk úgy, hogy a megfigyelési egység az erdőrészlet, így minden erdőrészlethez van két adatunk, a fészkek száma és a tojások össz-száma. Ugyanakkor gondolhatjuk úgy is, hogy a megfigyelési egység a fészek, így minden fészekhez tartozik két adat, a tojások száma és az erdőrészlet sorszáma, amelybe a fészek esik.

Már a fenti példák alapján is nyilvánvaló: nem mindegy, mit választunk megfigyelési egységnek, hiszen már a mintanagyság is különböző egyik vagy másik esetben. A választás azt is meghatározhatja, hogy mely statisztikai módszereket alkalmazhatjuk, sőt a módszerek alkalmazhatósági feltételei is eltérőek lehetnek.

A minta (sample) a ténylegesen megvizsgált, illetve vizsgálatra kiválasztott megfigyelési egységek halmaza, míg a populáció vagy alapsokaság (population) az összes lehetséges, szóba jöhető mintavételi egységet tartalmazó halmaz}, amelynek a minta részhalmaza.

Valójában mindig a populáció az a kör, amelyre a vizsgálat irányul, amelyre eredményeinket, következtetéseinket vonatkoztatni szeretnénk.

A populáció gyakran egy konkrét, jól meghatározott, véges halmaz – például egy tehenészetbeli összesen 355 tehén –, de ez nem mindig van így. Például egy, az allergiás bőrtüneteket enyhítő szerrel kapcsolatban beszélhetünk az ,,allergiás bőrtüneteket mutatókról’‘, akikre a szer hatását vizsgálni szeretnénk. Ezt ,,képzetes populációnak’‘, ,,végtelen populációnak’’ vagy ,,hipotetikus populációnak’’ is szokták nevezni, mivel beleértjük azokat is, akik bárhol a világban, és bármikor – esetleg csak a jövőben – jelentkeznek majd bőrtünetekkel. Végtelen populációból származó számszerű megfigyeléseket a valószínűségszámításban a valószínűségi változó fogalmával modellezünk 3.4. fejezetben.

Vigyázzunk, hogy ne okozzon félreértéseket, ha egy vizsgálatban más a statisztikai és más a biológiai populáció! A fenti – madárfészkek számlálásáról szóló – példában a biológiai populációt a madarak, a statisztikai populációt pedig az erdőrészletek (vagy a fészkek) alkotják. Általában is, ha az adatok gyakoriságok, a megfigyelési egység mindig az, amiben a gyakoriságot számoljuk – ehhez tartoznak ugyanis a megfigyelt számadatok – még akkor is, ha biológiailag az az érdekesebb, amit számolunk.

Természetesen az a legmegbízhatóbb vizsgálat, amikor a teljes populációt megvizsgáljuk, de ez gyakran lehetetlen vagy túlságosan költséges volna. Nyilvánvalóan lehetetlen végtelen populáció esetén, és akkor is, ha a vizsgálat során a vizsgált objektum megsemmisül vagy tönkremegy. Így a vizsgálat általában nem terjedhet ki a teljes populációra, csak egy kis részére, a mintára. A minta mérete (= mintanagyság, mintaelemszám) (sample size) mindig akkora kell, hogy legyen, amekkorára feltétlenül szükség van a megkívánt pontosságú vagy megbízhatóságú eredményekhez! Ha a minta túl nagy, az pazarlás (pénz, idő, energia), sőt ha a kísérleti alanyok emberek vagy állatok, akkor etikai problémákat is felvet a szükségtelenül kockázatnak vagy szenvedésnek kitett kísérleti alanyok miatt. Ha a minta túl kicsi, az pedig még nagyobb pazarlás, hiszen ha a kitűzött célt nem érjük el, akkor az összes ráfordítás kárba ment, és az összes kísérleti alanyt feleslegesen tettük ki kockázatnak vagy szenvedésnek. Ezért van szükség – olykor bonyolult – módszerekre az egyes vizsgálatokhoz szükséges mintaelemszám meghatározásához (lásd 5.6. és 6.3.3. fejezeteket).

A vizsgálatban a minta képviseli a populációt, fontos tehát, hogy jól tükrözze annak – a vizsgálat szempontjából lényeges – tulajdonságait. A mintát valamely szempontból reprezentatívnak nevezzük, ha abból a szempontból jól tükrözi a populációt. Lehet, hogy egy minta nem szerint reprezentatív, de életkor szerint nem. Valamely korcsoport lehet túlreprezentált, másik pedig alul reprezentált a mintában. Ez azt jelenti, hogy részaránya a mintában nagyobb, illetve kisebb, mint a populációban. Ne kergessünk délibábot, nincs olyan mintavételi módszer, amely minden szempontból tökéletesen reprezentatív mintát szolgáltatna! Ha lenne ilyen, a statisztika jókora része fölöslegessé válna.

Valószínűségszámítás és matematikai statisztika tankönyvekben gyakran olvassuk, hogy ,,legyen x1, x2, …, xn egy n elemű minta az X valószínűségi változóból’‘. Itt a minta szó nem a megfigyelési egységekre utal, hanem a rajtuk mért értékekre. A matematikai statisztikában populáció, illetve minta alatt nem megfigyelési egységeket, hanem az azokon mért számértékeket értik. Matematikai szempontból mindegy ugyanis, hogy a megfigyelési egységek állatok, növények vagy bármi más. Az is mindegy, hogy a mért adat az életkoruk, magasságuk vagy valami egyéb. Absztrakt matematikai értelemben a megfigyelési egységek azonosíthatók a rajtuk mért értékekből álló vektorokkal (= számsorokkal), így a minta is csak számokból áll. Egyes megfigyeléseket valóban nem lehet másként értelmezni: ha például minden reggel pontban kilenc órakor megmérem a szobámban a hőmérsékletet, akkor itt tényleg nincs egy ,,jobb’’ populáció, mint a lehetséges értékeké.

A statisztikai számítások kissé eltérnek véges és végtelen populációra, sőt véges populáció esetén az sem mindegy, hogy a mintavétel visszatevéssel vagy visszatevés nélkül történik. Visszatevéses mintavételnél ugyanaz a megfigyelési egység többször is beválasztható a mintába, míg visszatevés nélkülinél a már egyszer bekerültek nem választhatók még egyszer. Végtelen populációra a visszatevéses és visszatevés nélküli mintavétel közötti különbség elenyészik, ugyanis ekkor visszatevéses mintavétel esetén is 0 annak a valószínűsége, hogy egy megfigyelési egységet többször kiválasztunk. Ha a populáció véges ugyan, de nagyon nagy, akkor jó közelítéssel alkalmazhatjuk a végtelen populációt, illetve visszatevéses mintavételt feltételező módszereket. Pontosabban ez akkor igaz, ha a minta kicsi a populációhoz képest – mondjuk, ha egy több százezres populációból veszünk egy néhány százas, vagy egy többszázas populációból egy 10–20 elemű mintát.

Bár a leggyakrabban használt statisztikai eljárások végtelen populációt, illetve visszatevéses mintavételt feltételeznek, használatuk véges populáció és visszatevés nélküli mintavétel esetén is megengedett, ha a minta kisebb, mint a populáció 5%-a.

Jegyezzük meg tehát, hogy a matematikai statisztikában az alapértelmezés ,,a lehetséges értékek végtelen populációja’’ vagy ,,a lehetséges értékek véges populációja visszatevéses mintavétellel’’. Itt a hétköznapi ésszel sokkal természetesebb véges populáció és visszatevés nélküli mintavétel számít különlegesnek. Ennek ellenére, mivel ritka az olyan vizsgálat, amelyben a minta meghaladja a populáció 5%-át, ez alig okoz gondot.

2.2 Leíró és induktív statisztika

A leíró statisztika (descriptive statistics) a statisztikának az az ága, amelyik az adatokban rejlő információ emészthető formában való tálalásával foglalkozik. Ez jelentheti az adatok rendezését, csoportosítását (táblázatok), megjelenítését (grafikonok, diagramok, piktogramok), illetve statisztikai mérőszámokkal való jellemzését (minimum, maximum, átlag, szórás stb). A leíró statisztika azért fontos, mert nagy adatmennyiségek – több ezer adat – esetén hiába tennénk közzé az összes számot, közönséges halandó úgysem tudna mit kezdeni vele.

A leíró statisztika eszközei a különféle táblázatok (table), diagramok (chart, plot, diagram) és statisztikai mérőszámok (statistic). Az első kettőre példa az 2.1 táblázat és a 2.1. ábra, a statisztikai mérőszámokat pedig egyszerűen a szövegben szokás közölni, például így: ,,A mintában a testmagasság és a testtömeg között szoros összefüggést találtunk (Pearson-féle korrelációs együttható: r = 0.53)’’. Az ábrák információgazdagságának szép példája a népességtudományban használatos „korfa”, amely nem és kor szerinti bontásban szemlélteti a populáció összetételét (2.2. ábra).

2.1: táblázat. Testmagasság és testtömeg összefüggésének ábrázolása
Testtömeg
Testmagasság <80 kg ≥ 80 kg
<175 cm 243 75
≥ 175 cm 267 415
ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagramma

2.1: ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagramma

ábra. A Föld lakosságának korfája 2006-ban (Forrás: U.S. Census Bureau, Inter-national Data Base)

2.2: ábra. A Föld lakosságának korfája 2006-ban (Forrás: U.S. Census Bureau, Inter-national Data Base)

Tipikus a leíró statisztika használata akkor, amikor teljeskörű adatfelvétel történik, például népszámlálási vagy választási adatok, bejelentési kötelezettséggel járó fertőző betegségek esetén, vagy ha egy vizsgált állattartó telepen valamennyi állat adatai rendelkezésre állnak stb. Már említettük azonban, hogy legtöbbször nincs módunk a teljes populációt megvizsgálni, ezért kénytelenek vagyunk csupán egy minta vizsgálatából levonni a populációra érvényes következtetéseket. Ekkor lép színre az induktív statisztika (statistical inference) az induktív szónak az ,,általánosító’’ értelmében (mint az egyediből az általánosra való következtetés). Természetes, hogy egy ilyen következtetéstől nem várjuk el, hogy 100% biztonsággal helyes legyen, csak azt, hogy ,,nagy valószínűséggel’‘, ami általában – szakterülettől függően – 90, 95 vagy 99%-os megbízhatóságot, azaz 10, 5 vagy 1% tévedési valószínűséget jelent. A megbízhatóság, illetve a tévedési valószínűség pontos jelentését nem könnyű megérteni. A legegyszerűbb, ha úgy gondolunk rá, hogy ,,ha sokszor alkalmazzuk a szóban forgó módszert, akkor várhatóan az esetek hány százalékában kapunk helyes, illetve téves eredményt’’.

Az induktív statisztika két legjellemzőbb feladata a becslés (estimation) és a hipotézisvizsgálat (hypothesis testing). A becslés a ,,Mennyi? Mekkora? Hány százalék? stb.’’ kérdésekre vár választ, mégpedig egy (vagy néhány) számot. A hipotézisvizsgálatban ezzel szemben ,,Igen/Nem’’ választ várunk az ,,Igaz-e? Fennáll-e? Van-e összefüggés …? Van-e hatása …? Van-e különbség …? stb.’’ kérdésekre.

A leíró és induktív statisztika nem mindig választható szét élesen. Amikor több ezres mintákkal dolgozunk, akkor már a minta jellemzéséhez is szükség van a leíró statisztika módszereire, bár a fő cél ilyenkor is a populációra érvényes következtetések levonása, amelyhez az induktív statisztika szükséges. Másfelől kis minták esetén is előnyös a leíró statisztika módszereinek – különösen a grafikus megjelenítésnek – az alkalmazása azért, hogy az információkat szemléletesebben, illetve hatásosabban tudjuk közölni. Az induktív statisztikai vizsgálatokban azért is fontosak a leíró statisztika módszerei, mert segítségükkel jobban átláthatjuk adatainkat, észrevehetjük olyan tulajdonságaikat, amelyek döntően befolyásolják az elemzésükhöz legmegfelelőbb módszerek kiválasztását.

2.3 Mintavételi módszerek

Az induktív statisztikában a mintából vonunk le a populációra érvényes következtetéseket. Nem mindegy azonban, hogy miként választjuk ki a mintát a populációból. A mintavétel módjától függ többek között az is, hogy az elemzésre milyen eljárásokat, illetve az eljárásoknak milyen változatait kell vagy lehet használnunk. A bevezető statisztika kurzusokon ismertetett módszerek és számítások általában a legegyszerűbb esetre, az egyszerű véletlen mintavételre érvényesek. Egyszerű véletlen mintavétel (simple random sampling) esetén az alapsokaság minden egyede egyforma eséllyel kerül a mintába. A mintavétel lehet visszatevéses (sampling with replacement) vagy visszatevés nélküli (sampling without replacement) (vö. 2.1. fejezet). Véges populáció esetén a visszatevés nélküli mintavétel a természetesebb, ha kivitelezhető. (Nem kivitelezhető, ha a megfigyelési egységek azonosítása nem megoldható, például utasok, vásárlók, éttermi vendégek számlálásakor, vadon élő állatok kamerás megfigyelése esetén stb.)

Végtelen populáció vagy visszatevéses mintavétel esetén a mintabeli értékek mint valószínűségi változók függetlenek (independent) egymástól (vö. 3.4.1. fejezet), amit röviden a ,,mintaelemek függetlensége’’ vagy a ,,független minta’’ elnevezésekkel fejezhetünk ki. Ez a legtöbb klasszikus statisztikai eljárás alkalmazhatóságának egyik feltétele. Véges populáció és visszatevés nélküli mintavétel esetén ez nem teljesül, de közmegegyezés szerint nagy populációból vett viszonylag kis minta esetén mégis megengedett e módszerek használata (vö. 2.1. fejezet). (Megjegyezzük, hogy ma már olyan módszerek is vannak, amelyeknek nem feltétele a mintaelemek függetlensége (Pinheiro and Bates (2006), Faraway (2016)).)

Ha az alapsokaságot valamilyen szempont (nem, kor stb.) szerint részekre bontjuk, és ezekből az ún. rétegekből egymástól függetlenül veszünk egyszerű véletlen mintákat, akkor rétegzett mintavételről (stratified sampling) beszélünk. Ha az egyes rétegekből vett minták nagysága arányos a rétegek populációbeli részarányával, akkor a rétegzett minta majdnem ugyanolyan, mint egy, a populációból vett egyszerű véletlen minta (de azért nem teljesen, mert az egyszerű véletlen mintában az egyes rétegek részaránya a véletlentől függ, míg a rétegzettben előre be van állítva). De a rétegzett mintavétel általában nem így történik, legtöbbször minden rétegből ugyanakkora mintát veszünk (például 100 nő és 100 férfi vagy 300 beteg és 300 egészséges stb.), mert közel azonos méretű mintákkal a statisztikai elemzések általában hatékonyabbak.

Mind az egyszerű véletlen, mind a rétegzett mintavétel általában a populációról készített teljes lista és sorsolás segítségével történik. A sorsoláshoz régebben kizárólag véletlenszám-táblázatokat használtak, de ma már gyakran számítógéppel (véletlenszám-generátorral) végzik.

Példa 2.1 (Véletlen számok mintavételhez)

Ha R-ben szeretnénk mondjuk az 1…1000 számok közül véletlenszerűen kiválasztani 20-at, akkor azt a következő kóddal tehetjük meg:

(minta = sample(1000, 20))
##  [1]  20 354 936 451 583 633 151 104 967 784 797 845 426 257 186 431 684  45  12
## [20] 903

Az így kapott véletlen sorszámokat a sort() függvénnyel rendezhetjük nagyság szerint:

sort(minta)
##  [1]  12  20  45 104 151 186 257 354 426 431 451 583 633 684 784 797 845 903 936
## [20] 967

Gyakran lehet hallani vagy olvasni, hogy a véletlen mintavételnek az a legnagyobb előnye, hogy a populációt a lehető legjobban reprezentáló mintát szolgáltat. Ez nem egészen így van: ha a mintavételt a véletlenre bízzuk, akkor ezzel éppen hogy megengedjük, hogy a minta esetleg ne legyen reprezentatív. Például, egyáltalán nem meglepő, ha egy egyszerű véletlen minta kormegoszlása eltér a populációétól. Ha azt szeretnénk, hogy a mintabeli kormegoszlás pontosan megegyezzen a populációbelivel, akkor kor szerint rétegzett mintát kell vennünk, minden korosztályból akkora mintát véve, amely arányos a korosztály populációbeli részarányával. Az egyszerű véletlen mintavétel nagy valószínűséggel ennél – legalábbis ebből a szempontból – rosszabb mintát produkál. Tehát, ha valamilyen szempontból fontos a reprezentativitás, akkor aszerint a szempont szerint érdemes rétegeznünk.

Akkor vajon mi az az előnye a véletlen mintavételnek, amely ilyen népszerűvé teszi? Az, hogy a minták különbözőségéből, változékonyságából adódó bizonytalanság, illetve ingadozás matematikai eszközökkel kiszámítható abból a feltételből kiindulva, hogy az összes lehetséges minta egyformán valószínű. Tehát bármely, a mintából számított érték (minimum, maximum, átlag stb.) – a minta véletlenségéből következően – egy olyan véletlen szám (valószínűségi változó) lesz, amelynek eloszlása a valószínűségszámítás segítségével kiszámítható.

Sajnos véletlen mintavételre nem mindig van módunk. A legfőbb akadály általában az, hogy nincs – és gyakran nem is készíthető – teljes felsorolás a populációbeli megfigyelési egységekről. Végtelen populáció esetén ez nyilvánvalóan lehetetlen, de gyakorlatilag véges populáció esetén is sokszor kivihetetlen. Az is előfordulhat, hogy lista ugyan készíthető – például a TAJ-szám segítségével – de ezen a listán keresztül az egyedek nem elérhetőek (például mert a lista a lakcímüket nem tartalmazza). Ilyen esetekben más mintavételi módszerekre kényszerülünk.

Szabályos, szisztematikus mintavétel (systematic sampling) esetén csak az első egyedet választjuk véletlenszerűen, a többit meghatározott mintavételi intervallumok kihagyásával (például minden tizedik egyedet választjuk be vagy háromnaponként mintavételezünk). Ezt a módszert leggyakrabban akkor szokták használni, ha az egyedek spontán jelennek meg a vizsgálat látókörében, például betegek a rendelőben, ügyfelek a hivatalban, vásárlók a boltban, jegypénztárnál, állatok az itatónál stb. Szisztematikus mintavétel esetén a szokásos – a valószínűségszámítás alkalmazásával nyert, véletlen mintákra érvényes – statisztikai következtetéseket (konfidencia-intervallumok, p-értékek stb.) fenntartással kell kezelnünk. Az a gond ugyanis, hogy a mintavételi szabályunk összefügghet valamely más változóval, és ekkor könnyen lehet, hogy a minta már nem reprezentálja jól a populációt: ez az úgynevezett mintavételi torzítás (sampling bias). Például, ha a rendelőben vagy a hivatalban minden nap az első beteget vagy ügyfelet választjuk a mintába, akkor a koránkelők vagy a munkába sietők túl lesznek reprezentálva a ráérősökhöz képest (vagy az aktív dolgozók a nyugdíjasokhoz képest). Ha sorsolással választunk, akkor ilyen torzítás szóba sem jöhet, hiszen a véletlen számok a vizsgált folyamat változóival semmiképpen nem függhetnek össze.

Csoportos (klaszteres) mintavételről (cluster sampling) akkor beszélünk, ha a megfigyelési egységeket nem tudjuk egyenként, egymástól függetlenül kiválasztani (egy alom, egy fészekalj madárfióka, egy gazdapéldányon fellelt paraziták, egy háztartásban élő emberek, egy iskolai osztály stb.). Általában ezt a mintavételi módszert sem saját jószántunkból választjuk, hanem a körülmények kényszerítenek rá. A klasszikus statisztikai eljárások alkalmazása ilyenkor nem helyénvaló, mert azok független mintát kívánnak, de ma már szép számmal vannak kifejezetten ilyen adatok elemzésére való módszerek is (Pinheiro and Bates (2006), Faraway (2016)). Azt azért általában ezek is feltételezik, hogy a csoportok kiválasztása (a csoportok populációjából!) véletlen mintavétellel történt.

Természetesen a felsoroltakon kívül még nagyon sok más mintavételi módszer létezik. Könyvünkben a módszereknek és mutatóknak csak az egyszerű véletlen mintavétel esetére érvényes változatát ismertetjük. Ha más mintavételi eljárással dolgozunk, akkor elképzelhető, hogy már olyan egyszerű mutatókat is, mint az átlag vagy a szórás, más képlettel kell számolni. Ha a Kedves Olvasó további mintavételi eljárásokat szeretne megismerni, vagy arra kíváncsi, hogy az egyes mintavételi módszerek esetén hogyan módosulnak az elemzések és számítások, akkor figyelmébe ajánljuk Cochran klasszikus munkáját (Cochran (1977)).

2.4 Adatok

Egy kutatási kérdés felvetődésétől általában több lépésen – és nagyon sok fáradságon – keresztül vezet el az út addig, amíg a vizsgálat adatai összeállnak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mérhető formában való megfogalmazása), a megválaszolásához szükséges mérési módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek megtervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb. Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk meg, hogy ezek mind a kísérlettervezés (experimental design, study design) vagy a kutatásmódszertan, illetve kutatástervezés (research methodology, research planning) témakörébe tartoznak.

A vizsgálat elvégzése után az összegyűlt adatokat hagyományosan papíron tárolták, manapság pedig a számítógépen, általában valamilyen táblázatkezelő program segítségével (Excel, Calc stb.). Mivel a táblázatkezelő programok a kockás papírt utánozzák, az emberek a számítógépes tárolásra is ugyanolyan formát szoktak választani, mintha papírra írnának, azaz amely a legkevesebb írásmunkával jár, és a szemnek is a legáttekinthetőbb. Általában több kisebb, jól áttekinthető táblázatba csoportosítják az adatokat, kerülik az ismétlést, ismétlődő adatokat inkább fejlécbe tesznek, fontos adatokat színekkel, kiemelésekkel, magyarázó szövegekkel jeleznek.

Sajnos a statisztikai programok másképp – sokkal egyszerűbben, mondhatni egészen bután – gondolkodnak, számukra az egyetlen érthető forma a legegyszerűbb, csoportosítás és kiemelések nélküli elrendezés, egyetlen fejléccel, egyes adatokat akár ezerszer is megismételve: ez az úgynevezett adatmátrix.

2.4.1 Adatmátrix

Az adatmátrix (data matrix) – az R-ben ,,data frame" a neve – egy olyan táblázat, amelynek minden sora egy megfigyelési egységnek (személy, állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat eseteknek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szokásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai programok legtöbbje – így az R is – az elemzendő adatokat ilyen formában várja, az eredmények kiírásakor pedig rendszerint a ,,case" és ,,variable" elnevezéseket használja. A továbbiakban a ,,megfigyelési egység" helyett mi is legtöbbször a rövidebb ,,eset" elnevezést fogjuk használni, a ,,megfigyelési egységeken mért adat" helyett pedig ,,változó"-t mondunk. Célszerű az adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza, mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok adatmátrix formában való elrendezésére példát mutat az alábbi táblázat.

Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok. A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár számok, akkor sem számolhatunk velük: ilyen például a táblázatban az ID nevű változó.

Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat már a fenti – az adatmátrixnak megfelelő – formában rendeztük el, akkor csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű és kényelmes módszer a táblázat ,,csv" (= comma separated values) formában való mentése, majd az R read.table() függvényével való beolvasása.

2.4.2 Adattípusok, mérési skálák

Láttuk, hogy az adatmátrixban nemcsak számok szerepelhetnek, hanem szöveges adatok, dátumok és kódok is. A változók típusa meghatározza, hogy milyen műveleteket végezhetünk velük. Említettük azt is, hogy a számokkal nem mindig számolhatunk, például fülszám, helyrajzi szám stb. (Persze, aki statisztika címén csak átlagot tud számolni, az mindenből átlagot számol. Anekdoták szólnak arról, hogy botcsinálta ,,statisztikusok" olykor még a betegségkódokból és a postai irányítószámokból is átlagot számoltak.)

Az adatokat sokféleképpen lehet típusokba sorolni, a különböző statisztika könyvekben többféle rendszerrel is találkozhatunk, amelyek közül csak kettőt ismertetünk részletesen. Az egyik a változók mérési skála (measurement scale) szerinti csoportosítása. Ebben négy mérési skálát különböztetünk meg: nominális, ordinális, intervallum- és abszolút (vagy arány-) skálát. A másik csoportosítás két típust tartalmaz: kvalitatív és kvantitatív változókat. A kvalitatív változók nagyjából lefedik a mérési skála szerinti csoportosításban az első két, a kvantitatívak pedig a második két típust.

A nominális (nominal) változó – mint a neve is mutatja – csak megnevez, kategorizál, csoportba sorol, kódol. Értékei lehetnek akár szövegek, nevek, akár számok, számolni nem lehet velük, se összeadni, se szorozni, sőt az értékeknek még a nagyság szerinti sorrendje sem bír semmilyen jelentéssel. Nominális változók a szemszín, családi állapot, felekezeti hovatartozás, településnév vagy -kód, helyrajzi szám, postai irányítószám, személyi szám, TAJ-szám, betegségkód, talajtípus stb. Magyarul a nominális változót nevezik csoportosító, csoportképző, megállapítható, kategóriás vagy kategoriális változónak is.

Nominális változókkal nem nagyon lehet mást csinálni, mint leszámlálni, hogy az egyes kategóriákba hány eset, illetve az esetek hányadrésze, vagy hány százaléka esik. Az ilyen adatokat gyakorisági adatoknak (frequency data) nevezzük.

Az ordinális (ordinal) változó szintén csoportba sorol, de értékeinek egyértelmű természetes sorrendje van. Ugyan számolni a kódokkal most sem tudunk (a kódok lehetnek akár betűk is), de rendezettek, azaz sorrendjük értelmes jelentéssel bír. Ilyen változó például a vizsgaeredmény, amelyet egyes országokban betűkkel, más országokban számokkal kódolnak. Az persze vicces, hogy attól, hogy az osztályzatok számok, mindjárt ellenállhatatlan vágyat érzünk, hogy tanulmányi átlagot számoljunk. (Ahol a vizsgaeredményeket A, B, C-vel kódolják, nincs ilyen kísértés.) Ugyancsak ilyen változó az iskolai végzettség, akár kódszámokkal jelöljük, akár nevekkel. Sok kódolt változó is ordinális, például az alkoholfogyasztást kódolhatjuk így: 1 = soha, 2 = évente egyszer-kétszer, 3 = havonta egyszer, 4 = hetenként, 5 = hetenként többször, 6 = minden nap. Nyilvánvaló, hogy a számok itt sem szám-mivoltukban jelennek meg.

Az ordinális változóknál is a gyakoriságok leszámlálása az egyetlen értelmes összesítés, de itt már – a természetes rendezés miatt – a kumulatív gyakoriságok is értelmesek. A kumulatív (halmozott) gyakoriság (cumulative frequency) azt jelenti, hogy nemcsak az adott osztályba eső egyedeket számoljuk össze, hanem az adott és az összes őt megelőző osztályba tartozókat is (lásd még a 4.1.1. fejezetben is).

Példa 2.2 (Matek osztályzatok – gyakorisági táblázat)

Elsőéves férfi biológus hallgatók – egy (elképzelt) 1000 fős populáció, amely a későbbiekben több példában is előkerül – matematika osztályzatairól készítünk gyakorisági táblázatot a table() függvénnyel. Az adatokat a pop nevű adatmátrix – R-es szóhasználattal data.frame – tartalmazza. Az adattáblázat matek nevű oszlopára pop$matek néven hivatkozhatunk. A gyakorisági táblázat:

table(pop$matek)
## 
##   1   2   3   4   5 
## 232 198 188 191 191

A kumulatív gyakoriságokat (jelentésük: hányan kaptak legfeljebb kettest, legfeljebb hármast stb.) az előbbi táblázatból a cumsum() függvénnyel készíthetjük el:

cumsum(table(pop$matek))
##    1    2    3    4    5 
##  232  430  618  809 1000

Az intervallumskálán (interval) mért változóval már végezhetünk összeadást és kivonást, de a 0 érték nem az abszolút nulla, ezért a szorzás-osztás és az arányítás (,,kétszer akkora“, ,,harmadannyi”) nem értelmes. A valódi számszerű változóink többnyire ilyenek, ezekkel már gyakorlatilag mindegyik statisztikai módszer működik. Nyilvánvalóan ilyen a Celsius- vagy a Fahrenheit-skálán mért hőmérséklet, ahol a 0 , illetve a 0 önkényesen választott 0 pontok (ellentétben a Kelvin-skálával, amelynél a 0 abszolút nullának tekinthető). Valójában az abszolút nullában az ember csak nagyon ritkán lehet biztos – még az életkort is számíthatjuk a születés helyett a fogamzástól.

Az arány- vagy abszolút (ratio, absolute) skálán mért változóknak a 0 abszolút nulla pontja, ezért ezekkel már a szorzás és osztás is megengedett, mondhatjuk, hogy ,,x kétszer akkora, mint y" stb. Sok fizikai változó ilyen, mint például a hosszúság vagy a tömeg, a darabszámok stb. Szintén abszolút skála a hőmérséklet mérésére a Kelvin-skála.
Ritka az olyan statisztikai eljárás, amelyik csak arányskálájú adatokra alkalmazható – ilyen például a relatív szórás (lásd 4.2.1. fejezet) vagy az origón átmenő regresszió (lásd 9.5. fejezet) – a legtöbb módszer megelégszik intervallumskálájú adatokkal.

Fontos észben tartani, hogy egy változóhoz nem eleve adott, hogy milyen skálájú, hanem mindig mi döntjük el, hogy milyen skálájúnak ésszerű tekintenünk. Sőt, már azt is mi döntjük el, hogy egyáltalán hogyan mérjünk egy bizonyos, minket érdeklő mennyiséget. Például, ha egy anyag jelenléte érdekel a vérben, akkor mérhetjük egy gyors teszttel, amely csak igen-nem választ ad, és amelyet esetleg kiegészíthetünk egy ,,lehet, de nem egyértelmű" kategóriával a határesetekre: így egy ordinális skálájú változóhoz jutunk. Ha műszeres mérést végzünk, akkor egy számértéket kapunk az anyag koncentrációjára. Ha úgy akarjuk, tekinthetjük ezt a változót abszolút skálájúnak, de elképzelhető, hogy a nulla pont a műszer kalibrálásától függ, ezért lehet, hogy jobb, ha csak intervallumskálájúnak tekintjük.

Vagy képzeljük el, hogy zajszintet mérünk egy olyan műszerrel, amelyen egy gombbal beállíthatjuk, hogy W/m2-ben vagy dB-ben mérjen. A mért érték mindkét esetben egy fizikai mennyiség számszerű kifejezése, bármelyikre könnyen rámondanánk, hogy intervallum-, sőt akár hogy abszolút skálájú. De tudjuk, hogy a dB skála logaritmus-transzformáltja a másiknak, tehát nem lehet mindkettő még intervallumskálájú sem! Akkor melyik az igazi? Érvelhetünk úgy, hogy a W/m2 az a fizikai mennyiség, amelynek abszolút nulla pontja van, a teljes csend, a másik pedig származtatott változó, tehát az nem lesz sem abszolút, sem intervallumskálájú. De tudjuk, hogy hangosság-érzetünket a dB skála tükrözi hívebben: a zajt annyival érezzük erősebbnek, amennyivel az a dB skálán mérve nagyobb, tehát az érzékelt hangosságbeli különbségeket az tükrözi hívebben. Az, hogy melyiket tekintsük intervallumskálájúnak, attól függ, hogy a fizikai inger, vagy az érzékelés szintjén szeretnénk-e kifejezni a zaj erősségét. Azt pedig, hogy kutatási céljainknak melyik a megfelelőbb, mindig magunknak kell eldöntenünk.

Külön említést érdemelnek azok a nominális változók, amelyeknek csak két értékük van. Ezek az úgynevezett dichotom vagy bináris (dichotomous, binary) változók. Ezekre egészen speciális elemzési módszereket dolgoztak ki. A dichotom változók két értéke gyakran természetes módon rendezett, például amikor a két lehetséges érték igen/nem, van/nincs, pozitív/negatív stb. Ilyenkor bizonyos elemzésekben tekinthetjük őket ordinális skálájúnak is, így például beszélhetünk két tulajdonság megléte között vagy két diagnosztikai teszt eredménye között fennálló pozitív vagy negatív korrelációról.

A másik csoportosítás szerint a nominális és ordinális változókat együtt kvalitatív változóknak, vagy R-es szóhasználattal faktoroknak (factor) nevezzük. Ezeket kódolhatjuk szöveggel, betűkóddal, vagy akár számmal is, de matematikai műveleteket akkor sem végezhetünk velük. Ha az R-ben faktorral próbálunk matematikai műveletet végezni, figyelmeztető üzenetet kapunk.

A kvantitatív változók – az R-ben numerikus (numeric) változóknak nevezik őket – magukban foglalják az intervallum- és az abszolút skálájú változókat. Ezekkel az R az összes matematikai számítást megengedi. Később látunk majd rá példát, hogy az R valamely eljárást faktorokkal és numerikus változókkal egyaránt végrehajt, de a számítások – és persze az eredmények is – különböznek aszerint, hogy az elemzést faktorral vagy numerikus változóval végezzük.

Ha egy változó értékei nem számok, akkor azt a változót az R magától is faktornak tekinti. De ha egy faktort számokkal kódolunk, akkor az R-nek külön meg kell mondanunk, hogy ez faktor (különben az R azt feltételezi, hogy a számok tényleg számok, ami az elemzések eredményére is hatással van). Erre szolgálnak a factor(), illetve a as.factor() függvények. Ha a matek változót faktorrá szeretnénk alakítani:

pop$matek = factor(pop$matek)
str(pop$matek)
##  Factor w/ 5 levels "1","2","3","4",..: 3 1 5 1 1 4 3 2 5 4 ...

A faktorrá alakítás után ellenőrzésképpen az str() függvényt is meghívtuk. A függvény felsorolja a faktor kategóriáinak nevét (a példában az idézőjel jelzi, hogy ezek nevek és nem számok), majd az adatmátrix első néhány esetére a faktor belső kódjait.

A kvantitatív – azaz számértékű – változókat tovább bonthatjuk diszkrétekre és folytonosakra. Diszkrét változónak (discrete variable) az olyan változót nevezzük, amelynek összes lehetséges értékét szépen egymás után fel tudjuk sorolni úgy, hogy van egy első érték, egy második érték stb. Ezt nyilvánvalóan mindig megtehetjük, ha a lehetséges értékek halmaza véges, és esetenként akkor is, ha végtelen (például, ha az értékek a természetes számok).

Folytonos változónak (continuous variable) az olyan változót nevezzük, amelynek lehetséges értékei a számegyenesen egy folytonos tartományt – például egy intervallumot – alkotnak. Az intervallum lehet végtelen hosszú is, sőt akár a teljes számegyenes is (= az összes valós szám).

A változók szokásos csoportosításait a 2.3. ábra foglalja össze.

ábra. Változók osztályozása

2.3: ábra. Változók osztályozása

A kvantitatív változók – legyenek akár diszkrétek, akár folytonosak – matematikai modellje a valószínűségszámításban a valószínűségi változó. Erről részletesebben 3.4. fejezetben lesz szó.

2.4.3 Transzformációk, származtatott változók

Mivel az alábbiakban több olyan dologról is említést teszünk, amelyek kezdők számára valószínűleg nem sokat mondanak, azt ajánljuk, hogy a statisztikával most első ízben ismerkedők ezt a fejezetet a becslések és hipotézisvizsgálatok ismeretében olvassák majd újra.

Származtatott vagy képzett változónak az olyan változót nevezzük, amelyet nem megfigyelünk, hanem más változókból matematikai vagy logikai műveletekkel számolunk ki. Ilyenek például a testtömeg-index, a ,,fehérje % a szárazanyagban", vagy kérdőíves felméréseknél egy kérdéscsoportra adott pontszámok összege stb. Ilyen származtatott változókat nagyon könnyen készíthetünk az R-rel, nem érdemes erre másik programot használni.

Példa 2.3 (Testtömeg-index kiszámítása R-rel)

Számítsuk ki az elsőéves egyetemisták testtömeg-indexét (body mass index, BMI) a magasságuk (magas) és testtömegük alapján (tomeg)!

A testtömeg-index képlete:
$$ BMI = \frac{\text{testtömeg}}{\text{magasság}^2}, $$
a testtömeget kg-ban, a magasságot méterben mérve. A megfelelő R kód:

pop$BMI = pop$tomeg/pop$magas^2 * 10000

Az 10000-rel való szorzásra azért van szükség, mert a pop adattáblázatban a magasság cm-ben van megadva. Az eredmény (csak a pop állomány első három sorát, azaz az első három eset adatait íratjuk ki):

pop[1:3, ]
##   magas tomeg matek biol matek.kat   BMI
## 1   183    73     3    3     rossz 21.80
## 2   176    99     1    3     rossz 31.96
## 3   179    84     5    5        jo 26.22

Gyakran az a helyzet, hogy nem tudjuk – vagy túl nehéz lenne, ezért nem éri meg – azt a változót megmérni, amire szükségünk lenne, de helyette meg tudunk mérni egy másikat, amelyikből amaz közelítőleg meghatározható. Ilyen eset például, amikor egy szerv vagy képlet térfogatát, illetve tömegét kell meghatároznunk ultrahangos vizsgálat alapján, vagy ha egy állat testfelszínét kell megbecsülnünk a lineáris méreteiből. Ilyenkor általában elméleti megfontolásokon alapuló – pontos vagy közelítő – képletekkel számolunk.

Néha a szakma hagyományai határozzák meg, mit hogyan szokás transzformálni. Van olyan szakterület, ahol inkább a hullámhosszal, máshol inkább a frekvenciával ,,illik" dolgozni. Szintén a tradíció dönti el, hogy a hidrogénion-koncentrációval vagy a pH-val számolunk-e.

De az is lehet, hogy ,,ad hoc" csak azért transzformálunk, hogy az adatokra teljesüljenek valamely statisztikai módszer alkalmazhatósági feltételei. Ilyenkor legtöbbször az a cél, hogy (1) a transzformált változó eloszlása közelítőleg normális legyen, vagy (2) regressziószámításnál a függő változó szórása a magyarázó változók teljes tartományában azonos legyen, vagy (3) két változó közötti nemlineáris kapcsolat lineárissá váljon. Most csak az elsővel foglalkozunk, a másik kettőről a regressziószámításról szóló, 9. fejezetben lesz szó. Vigyázzunk, megtörténhet, hogy egy bizonyos célra alkalmas transzformációnak más szempontból ,,káros mellékhatása" van, például egy, a linearizálás céljából alkalmazott transzformáció elronthatja a normalitást.

Egy változó eloszlásán (distribution) egyelőre értsük azt a mintázatot, ahogyan a megfigyelt pontok elhelyezkednek a számegyenesen a ábrán. (Az eloszlásokkal kapcsolatban lásd még a 3.4. és 3.5. fejezeteket.) Ebben az értelemben egy tartományon egyenletes (uniform) eloszlásról akkor beszélünk, ha a tartomány egyik részében sem sűrűbb a pontok mintázata, mint másutt (2.4. ábra (a) adatsor). Egycsúcsú (unimodal) eloszlásról akkor beszélünk, ha a megfigyelések a tartományban egy hely környékén sűrűbbek, mint másutt (2.4. ábra (b) adatsor), többcsúcsúról (multimodal) pedig akkor, ha több ilyen sűrűsödési hely van (2.4. (c) adatsor). A ,,csúcs" elnevezés magyarázatáról lásd a 4. ábrát 3.4. fejezetben. Ferde (skewed) eloszlás az olyan, amelyik egycsúcsú ugyan, de nem szimmetrikus: a sűrűsödési helytől balra és jobbra távolodva a pontok sűrűsége nem azonos mértékben csökken (2.4. ábra (d) és (e) adatsorok). Úgy is mondhatjuk, hogy a pontok egyik irányban jobban elnyúló mintázatot mutatnak. A nagyobb értékek irányában (jobbra, felfelé, + irányban) elnyúló eloszlást jobbra ferdének (right skewed) (2.4. ábra (d) adatsor), a kisebb értékek felé (balra, lefelé, irányban) elnyúlót pedig balra ferdének (left skewed) nevezzük (2.4. ábra (e) adatsor).

ábra. Különböző eloszlás-mintázatok

2.4: ábra. Különböző eloszlás-mintázatok

Jobbra ferde az összes olyan változó, amelyek értékei nem lehetnek negatív számok, de szélsőségesen nagy értékek azért előfordulnak. Tipikusan ilyen a jövedelem-eloszlás.

A normális vagy Gauss-eloszlás (normal distribution, Gaussian distribution) egycsúcsú, szimmetrikus eloszlás: a sűrűsödési hely a tartomány közepén van, és tőle balra és jobbra a pontok sűrűsége a távolságtól függően ugyanolyan ütemben csökken (2.4. ábra (b) adatsor). (A normális eloszlásnak ezen kívül még más, sajátos tulajdonságai is vannak, de azoknak már nincs olyan szemléletes jelentése, amely pusztán a mintázat szemrevételezése útján észlelhető.) A statisztikában a normális eloszlás azért játszik különösen fontos szerepet, mert a vizsgált változók nagyon gyakran – legalábbis közelítőleg – normális eloszlásúak, valamint mert sok statisztikai eljárás csak normális eloszlású változókkal működik helyesen. Azért, hogy ezeket az eljárásokat is alkalmazni lehessen, bevett szokás, hogy a ferde eloszlású változókat különféle transzformációkkal próbálják normális eloszlásúvá tenni (sajnos, elég gyakran gondolkodás nélkül). A leggyakoribbak a hatvány- és gyök-, valamint az exponenciális és logaritmus-transzformációk.

Jobbra ferde eloszlás esetén a gyök- vagy a logaritmus-transzformáció segíthet (2.5. ábra), balra ferde eloszlás esetén a hatvány- vagy exponenciális függvénnyel való transzformáció. Ezek mind úgy működnek, hogy megváltoztatják az értékek közötti távolságokat: az értéktartomány egyik szélén nyújtják, a másikon pedig összenyomják a skálát.

ábra. Jobbra ferde eloszlásból származó 25 érték (felső) és és logaritmus-transzformáltjaik (alsó)

2.5: ábra. Jobbra ferde eloszlásból származó 25 érték (felső) és és logaritmus-transzformáltjaik (alsó)

Más esetekben másfajta transzformációkkal érdemes próbálkozni – relatív gyakoriságokra például az arcsin (arkusz szinusz) függvényt szokták ajánlani –, de a sikerre nincs garancia, előfordulhat, hogy az eloszlást semmilyen transzformációval nem tudjuk – még közelítőleg sem – normálissá tenni.

Két fontos figyelmeztetés!

  1. Megtörténhet, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne transzformáljunk, hanem keressünk ferde eloszlásokkal is működő módszereket!

  2. Ne akarjuk mindenáron az adott mintához ,,legjobb" transzformációt megtalálni! Egy ilyen transzformáció nagy valószínűséggel nem lesz jó a következő mintához. Többet ér, amelyik ugyan gyengébben, de egyenletesen jól teljesít.

Egy sajátos transzformáció az úgynevezett standardizálás vagy studentizálás (standardization, studentization). Erre akkor van szükség, amikor sokváltozós elemzésben több különböző mértékegységben mért, különböző értéktartományba eső változót kell együtt elemeznünk, és attól tartunk, hogy a nagy értékekkel, illetve az értékek nagy változatosságával bíró változók elnyomják a kis értékű vagy kis variabilitású társaikat. Azt pedig nem szeretnénk, hogy egy változó mértékegységétől függjön az, hogy milyen szerepet játszhat egy elemzésben. Ezért minden változót igyekszünk nulla körüli és nagyjából azonos variabilitást mutató változóvá transzformálni. Ezt úgy érjük el, a változó minden egyes értékéből levonjuk a változó átlagát, majd az így kapott értéket elosztjuk a változó szórásával (a mutatókat lásd 4.2.1. fejezetben). Az eljárást szigorú értelemben akkor nevezhetjük standardizálásnak, ha az elméleti (= populáció-) átlagot vonjuk le és az elméleti (= populációs) szórással osztunk, és akkor studentizálásnak, ha ezeket is a mintából becsüljük. (A továbbiakban, ha nem okoz félreértést, standardizálásnak nevezzük a studentizálást is.) Az így átalakított változók átlaga 0, szórása pedig 1 lesz. Az R-ben a scale() függvénnyel lehet átskálázni adatokat (átskálázás alatt lineáris transzformációt értünk). Alapértelmezése a studentizálás, az eredmény egy táblázat, amelynek első oszlopa tartalmazza a studentizált adatokat. (Egy egész táblázatot is át lehet egyszerre transzformálni!)

Példa 2.4 (Studentizált értékek kiszámítása R-rel )

Ötelemű mintára kiszámoljuk a mintaátlagot és a szórást, majd a studentizált értékeket:

(minta<-c(1,4,2,3,6))
## [1] 1 4 2 3 6
mean(minta)
## [1] 3.2
sd(minta)
## [1] 1.924
(stminta <- scale(minta)[,1])
## [1] -1.1437  0.4159 -0.6239 -0.1040  1.4557
mean(stminta) 
## [1] -1.054e-16
sd(stminta)
## [1] 1

Hasonló a célja annak a – szintén különleges – transzformációnak is, amikor a mért értékeket a rangszámaikkal (ranks), azaz az 1, 2, …, n értékekkel helyettesítjük. A legkisebb érték kapja az 1-est, a második legkisebb a 2-est és így tovább. Sok statisztikai eljárás dolgozik rangokkal, mint például a Wilcoxon-féle rangösszeg-próba, a Spearman-féle rangkorreláció stb. (lásd 7.6. és 8.2. fejezeteket).
A rang-transzformációval egyenletes eloszlásúvá transzformáljuk az adatokat, amelyeknek így eredeti értéktartományuktól, mértékegységüktől és eloszlásuktól függetlenül ugyanaz lesz az értékkészlete: az 1-től n-ig terjedő egész számok. Pontosabban ez csak akkor igaz, ha az értékek között nincsenek egyenlők. Ha ugyanis az értékek között vannak egyenlők, akkor azok egy igazságos rangsorban ugyanazt a rangszámot kell, hogy kapják. Igen ám, de mennyi legyen ez az ugyanannyi? A szokásos megoldás erre az, hogy holtversenyben álló értékek mindegyike a rájuk eső rangok átlagát kapja. Például, ha a 3-4-5-6 helyen van négyes holtverseny, akkor mind a négy érték a 3, 4, 5, 6 rangok átlagát, 4.5-et kapja. Így viszont a rangok értékkészlete megváltozik: jelen esetben az 1, 2, 3, 4, 5, 6, 7, 8,… helyett 1, 2, 4.5, 4.5, 4.5, 4.5, 7, 8,… lesz. Ezért az egyenlő értékek – és az ezekhez tartozó úgynevezett kapcsolt rangok (*ties, tied ranks} – a rangszámokon alapuló statisztikai módszerek alkalmazásánál néha komoly gondokat okoznak.

Példa 2.5 (Rangok kiszámítása R-rel)

Egy adatsor értékeiből rangszámokat a rank() függvénnyel készíthetünk. Figyeljük meg az egyenlő értékekhez tartozó kapcsolt rangokat!

ertekek<-c(21.0,    21.4,   21.4,   23.1,   23.5,   25.0,   25.0,   25.0,   27.2,   28)
(rangok<-rank(ertekek))
##  [1]  1.0  2.5  2.5  4.0  5.0  7.0  7.0  7.0  9.0 10.0

Nyilvánvaló, hogy amikor egy változót egy kevésbé információgazdag skálára transzformálunk, például amikor az életkor változóból előállítjuk a korcsoport változót így: 1 = fiatal (35 év alatti), 2 = középkorú (30–60), 3 = idős (60 év feletti), akkor információt veszítünk. Ezért sokan azt gondolják, hogy egy statisztikai elemzésben az így transzformált változót használva feltétlenül rosszabb, pontatlanabb eredményeket kapunk. Ez azonban tévedés! Ha a pontos életkor nem releváns a vizsgált összefüggés szempontjából, akkor még az is előfordulhat, hogy a korcsoport változóval pontosabb eredményt kapunk, mint az életkorral. Az általános szabály az, hogy releváns információ elhagyása pontatlanabbá, irreleváns információ elhagyása pedig pontosabbá teszi a statisztikai elemzések eredményét.

2.4.4 Hiányzó értékek

Bármennyire gondosan is végezzük a vizsgálatainkat, elkerülhetetlenek az olyan esetek, amikor egy-egy mérés meghiúsul akár egy kísérleti állat elhullása, akár egy minta tönkremenetele vagy szennyeződése miatt. Az adatrögzítéskor a szóban forgó helyre nem írunk semmit, ezért az adatmátrixból egy vagy több adat hiányozhat, ezek az úgynevezett hiányzó értékek (missing values, missing data). A számítógépes programok elvileg különbséget tudnak tenni a nulla, a szóköz és a ,,semmit nem írtunk oda" között, de ebben sajnos nem mindig következetesek. Az Excel például, ha átlagot számol, akkor a szóközt és az üres cellát kihagyja, összeadásnál és szorzásnál viszont nullának veszi őket. A statisztikai programok legtöbbje a hiányzó értékeket helyesen kezeli: minden számításból kihagyja őket, és bármely velük végzett művelet eredménye ugyancsak hiányzó érték lesz. Az R a hiányzó értékeket az NA szimbólummal jelöli (olvasd: en-á, az angol ,,not available" rövidítéséből, de megjegyezhetjük úgy is, hogy ,,nincs adat"). Adatfájl előkészítésekor vagy adatok bevitelekor mi is használhatjuk a hiányzó adatok NA-val való jelölését, az R megérti.

Egyes R-függvények rendelkeznek olyan argumentummal, amelynek segítségével beállíthatjuk, hogy mi történjék, ha a függvény NA értékkel találkozik. Például az átlagot számoló mean() függvénynek az na.rm argumentuma szabályozza ezt. A név az ,,na.remove" rövidítése, ami magyarul ,,az NA-k számításból való eltávolítása", így ha na.rm = TRUE, akkor az NA-k a számításból kimaradnak, ha na.rm = FALSE (ez az alapértelmezés), akkor részt vesznek benne (true = igaz, false = hamis). Utóbbi esetben, ha az adatok között vannak NA-k, akkor az átlag is NA lesz.

Ezt illusztrálja az alábbi példa, ahol a hianyos.adatok vektor két NA értéket tartalmaz.

hianyos.adatok <- c(122, 27, 194, 5, 182, NA, 126, 81, 106, 197, 75, 114, NA, 127, 
                    118, 175, 195, 83, 88, 38, 177, 138)
mean(hianyos.adatok)
## [1] NA
mean(hianyos.adatok, na.rm=TRUE)
## [1] 118.4

Sajnos nem minden függvénynek van ilyen argumentuma, és akkor magunknak kell gondoskodnunk arról, hogy az NA értékek ne okozzanak gondot a számításaink során. Ehhez használhatjuk az na.omit() függvényt. Az na.omit() az objektumot adja vissza a hiányos sorok nélkül. Egy példa az alkalmazására:

adatok.na.omit <- na.omit(hianyos.adatok)
mean(adatok.na.omit)
## [1] 118.4

A függvény a hianyos.adatok-ból létrehozott egy olyan objektumot, amelyben az NA-k már nem szerepelnek. Erre az ,,előkezelt" objektumra már nyugodtan alkalmazhatunk olyan függvényeket is, amelyek nem boldogulnának a hiányzó adatokkal. Így már az átlagszámításhoz sem kell beállítanunk a na.rm = TRUE-t. A további függvényekkel kapcsolatban érdemes megnézni az R súgóját.

A hiányzó értékek kezeléséhez hasznos még az is.na() függvény, amellyel azonosíthatjuk a vektorunkban lévő NA-k helyét: a függvény eredményként egy logikai értékekből álló vektort ad vissza, amelynek értéke TRUE vagy FALSE aszerint, hogy az adott helyen NA áll-e vagy sem.

Ennek használatát mutatja be az alábbi R kód:

(hianyzike <- is.na(hianyos.adatok))
##  [1] FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE
## [13]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
(hianyzoksorszamai <- which(hianyzike))
## [1]  6 13
(hianyzoknelkul <- hianyos.adatok[-hianyzoksorszamai])
##  [1] 122  27 194   5 182 126  81 106 197  75 114 127 118 175 195  83  88  38 177
## [20] 138

A which() függvénnyel meghatároztuk az NA-k sorszámait, majd létrehoztunk egy olyan vektort (hianyzoknelkul), amelyben az NA-k már nem szerepelnek (a szögletes zárójelen belül a mínusz jel azt jelenti, hogy az olyan sorszámúak maradjanak ki a vektorból).

Több statisztikai módszer – például regressziószámítás, faktorelemzés stb. – úgy működik, hogy ha az adatmátrix valamelyik sorában van hiányzó adat, akkor az egész sort kihagyja, vagyis az az eset, amelyiknek akár csak egy adata is hiányzik, teljesen kimarad az elemzésből. Ezért viszonylag kevés hiányzó érték is – ha elszórtan, különböző sorokban helyezkedik el – erősen lecsökkentheti a feldolgozható mintanagyságot. Egyetlen hiányzó szám miatt egy egész sort kidobni pazarlásnak tűnik, az ember úgy érzi, hogy a szükségesnél több információt dobunk ki az ablakon. A hiányzó értékek általában úgy nem pótolhatók, hogy a mérést újra elvégezzük, mert a kísérleti körülmények, a műszerek kalibrálása, az állatok, és még sok minden megváltozhatott időközben. Ezért dolgoztak ki statisztikai módszereket a hiányzó adatok pótlására: ezt adatpótlásnak vagy imputálásnak (imputting) nevezzük. (Figyelem, m-mel! Ne keverjük össze az input = adatbevitellel!) Ezek a módszerek a hiányzó értékeket az adatmátrixban szereplő többi értékből statisztikai becslések segítségével pótolják.
Természetesen az imputálással nyert értékek – mivel a módszerek a többi adatot használják fel a hiányzó értékek pótlására – nem hordoznak új információt, hasznuk csupán annyi, hogy nem kell olyan sok meglévő adatot kidobni a hiányzó értékek miatt. A hiányzó értékek pótlása, illetve az egyes statisztikai módszerek átalakítása úgy, hogy hiányzó értékek mellett is működőképesek maradjanak, egy ,,külön tudomány" vagy inkább művészet, amely jócskán meghaladja e könyv kereteit. Olyannyira, hogy több, csupán e témával foglalkozó monográfia is megjelent, amelyek közül az egyik leghíresebb: (Little and Rubin (2014)).

Ha a hiányzó értékek száma eléri vagy meghaladja a releváns adatok 10%-át, akkor már jobb, ha az adatokat félretesszük, és inkább azon gondolkodunk, hogyan tudnánk egy megbízhatóbb kísérleti protokollt kidolgozni, amely biztosítja, hogy kevesebb hiányzó adat keletkezzék. Ilyen sok hiányzó érték esetén ugyanis senki nem fogja elhinni az eredményeinket. Szimulált adatokkal – vagy akár saját valódi adataival – a Kedves Olvasó is kipróbálhatja, hogy a legtöbb adathalmazból levonható következtetés megváltoztatható, sőt ellenkezőjére fordítható az adatok 10–15%-ának ,,ügyes" elhagyásával.

2.4.5 Kiugró értékek

Az is gyakran előfordul, hogy egyes adatok ,,kilógnak a sorból". Lehet, hogy egy érték egyenesen képtelenség, de lehet, hogy csak gyanúsan eltér a többitől. Az ilyen értékeket kiugró értékeknek (outlier) nevezzük. Tipikus, hogy ezeket már csak az adatok elemzése során vesszük észre, sőt, valószínűleg csak az elemzés későbbi fázisaiban. Például a 2.6. ábrán látható – nyíllal jelölt – kiugró érték csak a két változó együttes elemzésekor tűnik fel, ha csak az x-et vagy csak az y-t nézzük, akkor nem.

ábra. Kiugró érték

2.6: ábra. Kiugró érték

Mivel egy kiugró érték oka lehet elírás vagy adatrögzítési hiba is, általános szabály, hogy ilyenkor a hibásnak tűnő adatot ellenőrizni kell a keletkezésétől kezdve egészen az adatmátrixba kerüléséig. Ugyancsak ellenőrizni kell a kísérleti jegyzőkönyvet, hátha abban feljegyeztek valamely olyan körülményt, amely magyarázza az adat furcsaságát. Többek között ezért is meg kell őriznünk az eredeti mérési bizonylatokat, kísérleti jegyzőkönyveket.

Ha semmi olyan körülményt nem találunk, amelynek alapján az érték javítható volna, akkor vagy úgy gondoljuk, hogy furcsa ugyan, de úgy látszik, ilyen érték is előfordulhat, vagy továbbra is azt gondoljuk, hogy ez lehetetlen, valami hiba van a dologban. Érdemes ilyenkor irodalomkutatást is végezni, találtak-e már mások is hasonlót. Ha végül úgy döntünk, hogy az érték képtelenség, akkor elhagyhatjuk. Kétséges esetben ajánlatos elvégezni az elemzést így is, úgy is, hogy pontosan lássuk, mi lesz a különbség az eredmények között. Az outlierekre még fokozottabban érvényes, amit a hiányzó értékekkel kapcsolatban mondtunk: ha túl sok értéket kiugró értéknek tekintünk és elhagyunk, akkor ezzel az eredményeket jelentős mértékben befolyásolhatjuk. Ha az eredményekből közlemény születik, abban mindenképpen meg kell említeni, hogy voltak-e kiugró értékek, amelyeket elhagytunk – már csak azért is, mert ha a vizsgált jelenség olyan, hogy időről időre előfordulnak benne szélsőséges eredmények, de senki sem közli őket, akkor lehet, hogy sohasem fog kiderülni a létezésük. Gondoljunk arra, lehet, hogy épp a kiugró értékek a legfontosabb megfigyeléseink, amikből valami újat fogunk tanulni!

Elkerülendő a szubjektivitást, több módszert is kitaláltak annak eldöntésére, hogy mi számítson kiugró értéknek, és mi nem.

1. Egy módszer ezek közül normális eloszlású adatokra: az átlagtól való több mint 3 szórásnyi eltérést mutató érték már kiugró értéknek számít. 2. Egy másik, amely nem tételezi fel az adatok normális eloszlását: az alsó, illetve felső kvartilistől 1.5 interkvartilis terjedelemnyi távolságnál messzebb eső érték outliernek számít (az említett mutatókról lásd 4.2.1. fejezetet).

Az R is ez utóbbiakat tekinti kiugró értéknek. Ezeket a boxplot.stats() függvénnyel számolás nélkül megtalálhatjuk, mint azt a következő példa mutatja.

2.6. példa: Elsőéves hallgatók testmagassága – kiugró értékek

Az elsőéves egyetemisták testmagasság adatai közül kikeressük azokat az értékeket, amelyek a fenti kritérium szerint kiugró értéknek számítanak. Ezeket a boxplot.stats() függvény out néven adja vissza:

boxplot.stats(pop$magas)$out
## [1] 158 197 161 197 160 160 195

Természetesen az ilyen módszerek csak arra valók, hogy olyan ,,gyanús" értékeket találhassunk, amelyeket esetleg érdemes ellenőriznünk, de a talált értékekről nem bizonyítják, hogy valóban gond lenne velük. Sőt, az ilyen kritériumok mechanikus alkalmazásakor az embert az a kellemetlen meglepetés érheti, hogy talál egy kiugró értéket, elhagyja, majd ellenőrizvén a maradék adatokat ugyanazzal a kritériummal – mivel az első elhagyása megváltoztatta a mintát – megint talál egyet, és így tovább. Rossz esetben elfogyhat a minta. Ilyenkor (már akkor is, ha az első outlier elhagyása után megjelenik még egy!) mindig jusson eszünkbe, hogy talán nem is kiugró értékekkel van dolgunk, hanem egy egyik irányba elnyúló, ferde eloszlással (vagyis hogy talán már az első sem volt az!), és próbálkozzunk inkább valami olyan elemzéssel, amely ferde eloszlásokkal is jól működik!

Általában is fontos eldöntendő kérdés, hogy a többitől távol eső, nem tipikus megfigyeléseket szemétnek tekintjük-e, vagy a vizsgált folyamat szerves részének, amelyek elhagyása meghamisítaná az eredményeket. A parazitológiában például ismert, hogy a paraziták gazdákon való eloszlása jellemzően aggregált, azaz a legtöbb gazdán csak kevés parazita található, a paraziták többsége néhány igen fertőzött gazdán koncentrálódik. Ha ezeket, mint nem tipikusakat elhagynánk, akkor ezzel a jelenség lényegi részétől – egyben a parazita-populáció döntő többségétől – válnánk meg.

Ha úgy látjuk, hogy a kiugró értékek valójában nem tartoznak a vizsgált folyamathoz, akkor úgynevezett robusztus módszereket kell alkalmaznunk, amelyek az outliereket képesek figyelmen kívül hagyni. A robusztus módszerekről lásd Jureckova, Picek, and Schindler (2019) könyvét. Tehát, ha robusztus módszert alkalmazunk, akkor a kiugró értékeket nem kell saját kezűleg elhagynunk, a módszer maga gondoskodik róla, hogy ne sok vizet zavarhassanak. Viszont nagy hiba a robusztus módszerek alkalmazása akkor, ha a távoleső értékek a folyamat szerves részét alkotják. Ilyenkor az egyik lehetőség, hogy nemparaméteres vagy eloszlásfüggetlen módszerrel próbálkozunk, a másik pedig, hogy olyan paraméteres módszerrel, amelyet éppen a szóban forgóhoz hasonló ferde eloszlásokra dolgoztak ki. Ezek a módszerek ugyanis a távol eső értékeket is megfelelően figyelembe tudják venni a számításokban. Ha viszont a távol eső értékek nem tartoznak a folyamathoz, akkor épp e módszerek alkalmazása ad félrevezető eredményt.

2.5 Összefogalók

2.1 Populáció és minta

  • Megfigyelési vagy mintavételi egység: a vizsgálat alanya vagy tárgya, amelyen a méréseket, vizsgálatokat végezzük.
  • Minta: a ténylegesen megvizsgált, illetve vizsgálatra kiválasztott megfigyelési egységek halmaza.
  • Populáció vagy alapsokaság: az összes lehetséges, szóba jöhető mintavételi egységet tartalmazó halmaz, amelynek a minta részhalmaza. Mindig a populáció az a kör, amelyre a vizsgálat irányul.

2.2 Leíró és induktív statisztika

  • Leíró statisztika:
    • az adatokban rejlő információ emészthető formában való tálalásával foglalkozik
    • adatok rendezése, csoportosítása (táblázatok), megjelenítése (grafikonok), statisztikai mérőszámokkal való jellemzése (minimum, maximum, átlag, szórás stb.)
  • Induktív statisztika
    • egy minta vizsgálatából vonunk le a populációra érvényes következtetéseket
    • becslések és hipotézisvizsgálatok

2.3 Mintavételi módszerek

  • Az induktív statisztikában a mintából vonunk le a populációra érvényes következtetéseket.
  • A mintavétel módjától függnek, hogy az elemzésre milyen eljárások használhatók.

Egyszerű véletlen mintavétel

  • Az alapsokaság minden egyede egyforma eséllyel kerül a mintába.
  • A mintavétel
    • visszatevéses vagy
    • visszatevés nélküli.
  • Végtelen populáció vagy visszatevéses mintavétel esetén a mintabeli értékek mint valószínűségi változók függetlenek egymástól
  • Ez a legtöbb klasszikus statisztikai eljárás alkalmazhatóságának egyik feltétele.

Reprezentativitás

  • Ha a mintavételt a véletlenre bízzuk, akkor lehet, hogy a minta nem lesz reprezentatív.
  • Ha valamilyen szempontból fontos a reprezentativitás, akkor aszerint a szempont szerint érdemes rétegeznünk.
  • Véletlen mintavétel esetén bármely a mintából számított érték (minimum, maximum, átlag stb.) – a minta véletlenségéből következően – egy olyan véletlen szám (valószínűségi változó) lesz, amelynek eloszlása a valószínűségszámítás segítségével kiszámítható.

2.4.1 Adatmátrix

Az adatmátrix minden sora egy megfigyelési egység: eset, oszlopai pedig az egyes mért vagy megfigyelt adatoknak felelnek meg: változó.

2.4.2 Adattípusok, mérési skálák

  • Kvalitatív változók (faktorok)
    • nominális
      • csak megnevez, kategorizál, csoportba sorol, kódol
    • ordinális
      • csoportba sorol, de értékeinek egyértelmű természetes sorrendje van
  • Kvantitatív változók (numerikus)
    • diszkrét
      • összes lehetséges értékét fel tudjuk sorolni
  • folytonos
    • lehetséges értékei a számegyenesen egy folytonos tartományt alkotnak

2.4.3 Transzformációk, származtatott változók

Származtatott változó

  • Olyan változó, amelyet nem megfigyelünk, hanem más változókból matematikai vagy logikai műveletekkel számolunk ki.

Eloszlás típusok

  • Egy tartományon egyenletes eloszlásról akkor beszélünk, ha a tartomány egyik részében sem sűrűbb a pontok mintázata, mint másutt.
  • Egycsúcsú eloszlásról akkor beszélünk, ha a megfigyelések a tartományban egy hely környékén sűrűbbek, mint másutt,
  • többcsúcsúról akkor, ha több ilyen sűrűsödési hely van.
  • Ferde eloszlás az olyan, amelyik egycsúcsú ugyan, de nem szimmetrikus: a sűrűsödési helytől balra és jobbra távolodva a pontok sűrűsége nem azonos mértékben csökken.
  • A nagyobb értékek irányában (jobbra, felfelé, + irányban) elnyúló eloszlást jobbra ferdének nevezzük.
  • A kisebb értékek felé (balra, lefelé, - irányban) elnyúlót pedig balra ferdének nevezzük.

Normális eloszlás

  • A normális vagy Gauss-eloszlás egycsúcsú, szimmetrikus eloszlás: a sűrűsödési hely a tartomány közepén van, és tőle balra és jobbra a pontok sűrűsége a távolságtól függően ugyanolyan ütemben csökken.

Gyakori transzformációk azért, hogy az eloszlás normális legyen

  • Jobbra ferde eloszlás esetén: gyök- vagy a logaritmus-transzformáció;
  • Balra ferde eloszlás esetén: hatvány- vagy exponenciális függvénnyel való transzformáció.
  • Ezek mind úgy működnek, hogy megváltoztatják az értékek közötti távolságokat: az értéktartomány egyik szélén nyújtják, a másikon pedig összenyomják a skálát.
  • Relatív gyakoriságokra például az arcsin (arkusz szinusz) függvényt szokták ajánlani
  • A sikerre nincs garancia, előfordulhat, hogy az eloszlást semmilyen transzformációval nem tudjuk – még közelítőleg sem – normálissá tenni.
  • Megtörténhet, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést tulajdonítani, ilyenkor inkább ne transzformáljunk, hanem keressünk ferde eloszlásokkal is működő módszereket!

Standardizálás és studentizálás

  • Ha több különböző mértékegységben mért, különböző értéktartományba eső változót kell együtt elemeznünk, minden változót igyekszünk nulla körüli és nagyjából azonos variabilitást mutató változóvá transzformálni.
  • A változó minden egyes értékéből levonjuk a változó átlagát, majd az így kapott értéket elosztjuk a változó szórásával. Az így átalakított változók átlaga 0, szórása pedig 1 lesz.

Rangtranszformáció

  • A mért értékeket a rangszámaikkal, azaz az 1, 2, ..., n értékekkel helyettesítjük.
  • A rang-transzformációval egyenletes eloszlásúvá transzformáljuk az adatokat, amelyeknek így eredeti értéktartományuktól, mértékegységüktől és eloszlásuktól függetlenül ugyanaz lesz az értékkészlete: az 1-től n-ig terjedő egész számok.
  • Ha az értékek között vannak egyenlők, akkor a holtversenyben álló értékek mindegyike a rájuk eső rangok átlagát kapja (kapcsolt rangok).

Megjegyzések

  • Nyilvánvaló, hogy amikor egy változót egy kevésbé információgazdag skálára transzformálunk, akkor információt veszítünk.
  • Ez azonban nem jelenti azt, hogy feltétlenül rosszabb, pontatlanabb eredményeket kapunk.
  • Az általános szabály az, hogy releváns információ elhagyása pontatlanabbá, irreleváns információ elhagyása pedig pontosabbá teszi a statisztikai elemzések eredményét.

2.4.4 Hiányzó értékek

  • Az adatmártixból különböző okokból hiányozhatnak adatok.
  • A hiányzó értékek általában úgy nem pótolhatók, hogy a mérést újra elvégezzük, mert a kísérleti körülmények, a műszerek kalibrálása, az állatok, és még sok minden megváltozhatott időközben.
  • Ha az adatok között vannak NA-k, akkor az átlag is NA lesz.
  • Egyes R-függvények rendelkeznek olyan argumentummal, amelynek segítségével beállíthatjuk, hogy mi történjék, ha a függvény értékkel találkozik.
  • Nem minden függvénynek van ilyen argumentuma, ekkor külön el kell távolítani az NA-kat tartalmazó sorokat a táblázatból.
  • Több statisztikai módszer úgy működik, hogy ha az adatmátrix valamelyik sorában van hiányzó adat, akkor az egész sort kihagyja. Ezért viszonylag kevés hiányzó érték is erősen lecsökkentheti a feldolgozható mintanagyságot.
  • Statisztikai módszerek a hiányzó adatok pótlására: adatpótlásnak vagy imputálásnak nevezzük
  • A hiányzó értékeket az adatmátrixban szereplő többi értékből statisztikai becslések segítségével pótolják.
  • Az imputálással nyert értékek nem hordoznak új információt.
  • Ha a hiányzó értékek száma eléri vagy meghaladja a releváns adatok 10%-át, akkor már jobb, ha az adatokat nem is elemezzük.

2.4.5 Kiugró értékek

  • Gyakran előfordul, hogy egyes adatok ,,kilógnak a sorból".
  • Az ilyen értékeket kiugró értékeknek outlier nevezzük.
  • A hibásnak tűnő adatot ellenőrizni kell.
  • Ha úgy döntünk, hogy az érték képtelenség, akkor elhagyhatjuk.
  • Kétséges esetben ajánlatos elvégezni az elemzést így is, úgy is, hogy pontosan lássuk, mi lesz a különbség az eredmények között.
  • Ha túl sok értéket kiugró értéknek tekintünk és elhagyunk, akkor ezzel az eredményeket jelentős mértékben befolyásolhatjuk.
  • Több módszert is kitaláltak annak eldöntésére, hogy mi számítson kiugró értéknek, és mi nem.
  • Ha úgy látjuk, hogy a kiugró értékek valójában nem tartoznak a vizsgált folyamathoz, akkor úgynevezett robusztus módszereket kell alkalmaznunk, amelyek az outliereket képesek figyelmen kívül hagyni.

Irodalomjegyzék

Armitage, Peter, Geoffrey Berry, and John Nigel Scott Matthews. 2008. Statistical Methods in Medical Research. John Wiley & Sons.

Cochran, William G. 1977. Sampling Techniques. New York: John Wiley & Sons.

Faraway, Julian J. 2016. Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models. Chapman; Hall/CRC.

Feller, William, and Lídia Rejtő. 1978. Bevezetés a Valószínűségszámításba és Alkalmazásaiba. Műszaki Kiadó.

Fox, John. 2005. “The R Commander: A Basic Statistics Graphical User Interface to R.” Journal of Statistical Software 14 (9): 1–42. http://www.jstatsoft.org/v14/i09.

———. 2017. Using the R Commander: A Point-and-Click Interface for R. Boca Raton FL: Chapman; Hall/CRC Press. http://socserv.mcmaster.ca/jfox/Books/RCommander/.

Fox, John, and Milan Bouchet-Valat. 2018. Rcmdr: R Commander. http://socserv.socsci.mcmaster.ca/jfox/Misc/Rcmdr/.

Freedman, David, Robert Pisani, Roger Purves, Kende Gábor, and Szaitz Mariann. 2005. Statisztika. Typotex.

Freud, Róbert. 1996. Lineáris Algebra. ELTE Eötvös Kiadó.

Jureckova, Jana, Jan Picek, and Martin Schindler. 2019. Robust Statistical Methods with R. Chapman; Hall/CRC.

Little, Roderick JA, and Donald B Rubin. 2014. Statistical Analysis with Missing Data. Vol. 333. John Wiley & Sons.

Pinheiro, José, and Douglas Bates. 2006. Mixed-Effects Models in S and S-Plus. Springer Science & Business Media.

R Core Team. 2018. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Rényi, Alfréd. 1973. Valószínűségszámítás. Tanönyvkiadó.

Solt. 2006. Valószínűségszámítás. Műszaki Könyvkiadó.

Xie, Yihui. 2016. Bookdown: Authoring Books and Technical Documents with R Markdown. Boca Raton, Florida: Chapman; Hall/CRC. https://github.com/rstudio/bookdown.

———. 2018. Bookdown: Authoring Books and Technical Documents with R Markdown. https://github.com/rstudio/bookdown.