6 Adattábla műveletek

Az adattábla egészén a Data → Active data set menüvel (6.1. ábra) különböző műveleteket végezhetünk:

View data Az aktuális adattábla vagy egy részének megtekintése. Hasonlóan működik, mint a Rész adattábla leválogatása (6.1. fejezet), azzal a különbséggel, hogy nem jön létre új táblázat.
Select active data set Aktív adattábla kiválasztása
Refresh active data set Aktív adattábla frissítése, ha valamilyen változtatást hajtottunk végre rajta
Help on active data set (if available) Az aktív adattáblához tartozó súgó betöltése, ha van (általában R csomagokból betöltött adatállományok esetén van erre lehetőség)
Variables in active data set Az aktív adattábla változói
Set case names… Beállíthatjuk, hogy az aktív adattábla mely oszlopa tartalmazza a megfigyelések (esetek) megnevezését.

A további lehetőségeket részletezzük.

Subset active data set… Rész adattábla leválogatása (6.1. fejezet).
Sort active data set… Rendezés (6.2. fejezet).
Aggregate variables in active data set … Adattábla aggregálása (6.3. fejezet).
Remove row(s) from active data set… Sorok eltávolítása (6.4. fejezet).
Stack variablesn in active data set… Több változó összefűzése egy változóba (6.5. fejezet).
Remove cases with missing data… Hiányzó értékeket tartalmazó esetek eltávolítása (6.6. fejezet).
Save active data set… Aktív adattábla mentése (6.7. fejezet).
Export actve data set… Exportálás (6.8. fejezet).

6.1: ábra Adattábla műveletek: Data → Active data set

6.1 Rész adattábla leválogatása

Az aktív adattáblából leválogathatunk eseteket, illetve változókat a Data → Active data set → Subset active data set… menüpont segítségével (6.2. ábra). Alapértelmezésben az összes változót leválogatjuk (Include all variables), vagy kiválaszthatjuk közülük a szükségeseket (Variables (select one or more)).

Az esetek leválogatásához egy logikai kifejezést kell megadnunk. Ez általában úgy néz ki, hogy megadjuk, hogy egy adott változó milyen értékeket vehet fel, illetve több ilyet összekapcsolhatunk ‘ÉS’-sel illetve ‘VAGY’-gyal. A felhasználható operátorokat a 2. táblázat tartalmazza. Faktor illetve szöveges változó esetén az értékeket idézőjelbe, vagy aposztrófok közé kell tenni. Lássunk néhány példát a pop adattáblázattal (ld. 4 fejezet)!

`biol == 5`	biológiából 5-öst kapottak
`magas >= 170`	legalább 170 cm magasak
`matek.kat == 'rossz'`	rossz matekosok
`biol == 5 & matek == 5`	matekból is és biológiából is 5-öst kapottak
`biol == 1 \\| matek == 1`	matekból és/vagy biológiából bukottak

6.2: ábra Résztábla leválogatása: Data → Active data set → Subset active data set…

táblázat: Résztábla megválogatáshoz használható operátorok

Operátor	Leírás
<	kisebb
<=	kisebb vagy egyenlő
>	nagyobb
>=	nagyobb vagy egyenlő
==	egzaktul egyenlő
!=	nem egyenlő
!x	Nem x
x \| y	x vagy y
x & y	x és y
isTRUE(x)	X igaz-e

Végül meg kell adni a rész adattábla nevét (Name for new data set).

A Script ablakban például a következő kód jelenik meg:

pop1 <- subset(pop, subset= biol == 5)

(R bevezető 0.8. fejezet)

6.2 Adattábla rendezése

Az aktív adattáblát rendezhetjük egy vagy több változó értékei szerint a Data → Active data set → Sort active data set… menüpont segítségével (6.3. ábra). Ki kell választanunk a változókat, amik alapján a rendezést el akarjuk végezni (esetünkben biol és matek), be kell állítani szükség esetén, hogy csökkenő sorrendeben (Decreasing) akarjuk-e a rendezést, illetve egy új nevet kell adni az adattáblázatnak, ha szükséges (Name for new data set), majd az OK gombra kattintás után, be kell állítani, hogy a kiválasztott változókat milyen sorrendben vegye figyelembe a rendezéskor (6.4. ábra).

6.3: ábra Adattábla rendezése: Data → Active data set → Sort active data set…

6.4: ábra Rendező változók sorrendjének beállítása

A Script ablakban a következő kód jelenik meg:

pop_sorted <- with(Dataset, Dataset[order(biol, matek, decreasing=FALSE), ])

(R bevezető 0.7.3. fejezet, Rendezés)

6.3 Aggregált táblázat készítése

Aggregáláskor valamely kategóriás változó vagy változók kategóriái szerint csoportosított adatok összesítő statisztikáit számoljuk ki. Példaként a lepke táblázat BABTOMEG illetve TOMEG0 változóinak számítsuk ki az átlagait a HOM és TAP csoportokban (6.5. ábra).

6.5: ábra Aggregált táblázat készítése: Data → Active data set → Aggregate variables in active data set …

Name of aggregated data set Az aggregált táblázat neve
Variables to aggregate Aggregálandó változók
Aggregate by Csoportosító változók
Statistic Összesítő statisztika

6.6: ábra Az aggregált lepke táblázat

Az aggregálás eredménye az Aggregated_lepke táblázat lett, amelyet a View data set gomb megnyomásával megnézhetünk (6.6. ábra).

A Script ablakban a következő kód jelenik meg:

Aggregated_lepke <- aggregate(AggregatedData[,c("BABTOMEG","TOMEG0"), drop=FALSE],                                    by=list(HOM=AggregatedData$HOM, TAP=AggregatedData$TAP), FUN=mean)

6.4 Sorok eltávolítása

6.7: ábra Sorok eltávolítása: Data → Active data set → Remove row(s) form active data set…

Adott sorszámú, vagy megnevezésű sorok eltávolítása az adattáblázatból (6.7. ábra).

pop2 <- pop[-c(5,10),]

6.5 Több változó összefűzése egy változóba (Stack variables…)

Ezzel a lehetőséggel fűzhetünk össze több oszlopban elrendezett adatokat egy oszlopba. Például, ha a lepke táblázat TOMEG0 és BABTOMEG változóiba elrendezett tömegértékeket egy tomeg változóba akarjuk rendezni úgy, hogy egy meres nevű új változóban tüntetjük fel, hogy melyik mérésről van szó, akkor 6.8. ábrán látható módon kell kitölteni a párbeszéd ablakot. Eredményül a 6.9. ábrán látható táblázatot kapjuk.

6.8: ábra Több változó összefűzése: Data → Active data set → Statck variables in active data set…

6.9: ábra Összefűzött BABTOMEG és TOMEG0 változók a lepke táblázatból

6.6 Hiányzó értékeket tartalmazó esetek eltávolítása

Eltávolíthatjuk a hiányzó értékeket tartalmazó sorokat a teljes táblázatból, vagy kiválasztott változókból (az új táblázatban csak a kiválasztott változók fognak szerepelni). A 6.10. ábra szerinti beállítások esetén a lepke táblázat BABTOMEG és HOM változóiból eltávolítjuk a hiányzó értékeket tartalmazó sorokat, és ezekből a változókból elkészítjük a lepke1 táblázatot.

6.10: ábra Hiányzó adatokat tartalmazó esetek eltávolítása: Data → Active data set → Remove cases with missing data…

lepke1 <- na.omit(lepke1[,c("BABTOMEG","HOM")])

(TK. 2.4.4. fejezet)

6.7 Az aktív adattábla mentése

A Data → Active data set → Save active data set… menüponttal az aktív adattáblát menthetjük el az R saját adatformátumában (.RData).

(TK. 12.5. fejezet)

6.8 Az aktív adattábla exportálása szöveges táblázat formátumba

6.11: Adattábla exportálása: Data → Active data set → Export active data set…

Az aktív adattáblát szöveges állományként menthetjük (6.11. ábra). Az exportáláshoz meg kell adnunk a következőket:

Write variable names Változónevek kiírása
Write row names Sornevek kiírása
Quotes around character values Szöveges mezők idézőjelben
Missing values Hiányzó adat jelölése
Field separator Mezőhatároló karakter:
Spaces Szóközök
Tabs Tabulátorok
Commas [,] Vesszők
Semicolons [;] Pontos vesszők
Other Specify Egyéb, megadandó

Magyar beállítású Excel táblázatkezelőbe importáláshoz célszerű a 6.11. ábrán bemutatott beállításokat alkalmazni, és .csv kiterjesztést adni az exportált táblázatnak.

write.table(lepke1, "data/lepke1.csv", 
            sep=";", col.names=TRUE, row.names=FALSE, quote=FALSE, na="NA")

(TK. 12.5. fejezet, R bevezető 0.11. fejezet)