5 Adatbeolvasás

ábra Adat importálás: *Data → Import Data*

5.1: ábra Adat importálás: Data → Import Data

Adatokat többféleképpen bevihetünk az R Commander-be.

  • Begépelhetünk kis adattáblázatokat: Data → New data set…
  • Beolvashatunk RData formátumú adattáblákat: Data → Load data set…
  • Importálhatunk adatokat egyszerű szöveges állományokból, a vágólapról, vagy webcímről, illetve különböző statisztikai csomagokból (Minitab, SPSS, SAS vagy Stata), illetve Windows esetén Excel-ből, Access-ből, vagy dBase-ből: Data → Import data (5.1. ábra)
  • Lehetőség van arra is, hogy R csomagokból olvassunk be adatokat: Data → Data in packages

A fenti lehetőségek közül a szöveges és Excel állományok beolvasását mutatjuk be.

5.1 Adatbeolvasás szöveges állományból

Példaként a tankönyv elsoeves.txt állományát töltjük be. Szöveges állományok esetén tudni kell a következőket az állományról (5.2. ábra).

ábra Adatbeolvasás szöveges állományból: *Data → Import Data → from text file, clipboard, or URL*

5.2: ábra Adatbeolvasás szöveges állományból: Data → Import Data → from text file, clipboard, or URL

  • Variable names in file Vannak-e változónevek az első sorban
  • Missing data indicator Hiányzó adatok jelölése
  • Location of Data file Az adattáblázat helye a fájlrendszerben
    • Local file system Helyi fájlrendszer
    • Clipboard Vágólap
    • Internet URL Internet cím
  • Field Separator Mezőhatároló karakter
    • White space Egy vagy több szóköz, tabulátor vagy soremelés
    • Commas [,] Vesszők
    • Semicolons [;] Pontos vesszők
    • Tabs Tabulátorok
    • Other Specify Egyéb Specifikálás
  • Decimal-Point Character Tizedes jel
  • Period [.] Tizedes pont
  • Comma [,] Tizedes vessző

Az adattáblát beolvasás előtt mindenképpen meg kell nyitni valamilyen egyszerű szövegszerkesztővel (pl. Kate, Jegyzettömb stb.), hogy megtudjuk a fent felsoroltakat. Esetünkben az adattábla első 5 sora:

magas tomeg matek biol matek.kat
183 73 3 3 rossz
176 99 1 3 rossz
179 84 5 5 jo
180 94 1 3 rossz

Látható, hogy vannak változónevek, nincsenek hiányzó adatok, tehát ezek beállításával nem kell foglalkozni. A mezőhatároló a szóköz, így az alapbeállításon nem kell változtatni (1. ábra).

A Script ablakban a következő kód jelenik meg:

pop <- 
  read.table("data/elsoeves.txt",
   header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE)

A read.table() függvény olvassa be az R-ben a szöveges állományokat. A különböző paraméter beállításokat a párbeszéd ablak beállításainak megfelelően generálta le a program.

Ha Excelből kimentett CSV (Comma Separated Value) állományt olvasunk be (pl. oz.csv), akkor annak formátuma a Windows magyar területi beállításai esetén:

TERULET;SEX;TOMEG;TESTH
Babat;suta;1,9;58
Pitvaros;suta;2,85;59
Pitvaros;suta;2,78;60
Pitvaros;suta;2,59;60
Pitvaros;suta;4,32;64,5

Látható, hogy a mezőhatároló karakter a pontosvessző és a tizedesjel a tizedesvessző. Angol területi beállítások esetén a mezőhatároló a vessző, a tizedesjel pedig a pont.

5.2 Adatbeolvasás Excel állományból

Data → Import data → from Excel file…

Adja meg az adattábla nevét, majd keresse meg fájlkezelőben a betöltendő Excel állományt! Több munkalap esetén, válassza ki azt, amelyikre éppen szüksége van! Javasolt inkább az Excel tábla CSV formátumban történő mentése, majd beolvasása szöveges állományként!

5.3 Az adatok megtekintése, szerkesztése

Az adatokat megnézhetjük a View data set gomb megnyomásával. Szerkeszteni az Edit data set gomb megnyomásával lehet, de nem javasolt.