Estatística con R: CARGAR DATOS

Como son os ficheiros de datos

Para traballar necesitades que R cargue en memoria os datos que ides usar.

# Hai diversas maneiras de facelo pero eu deixarei os datos en formato
# __.csv__ (Texto para folla de cálculo).

Nestes ficheiros as variables veñen separadas en columnas e na primeira fila poden ter os nomes das variables.

# Os datos que vos proporcionarei terán todos os nomes das variables na 1ª
# fila

# As columnas das variables estarán separadas por ';'

# Os decimais virán separados por ','

Se os abrides cun editor de texto verase algo así:

“carat”;“colour”;“clarity”;“price”

0,3;“E”;“VS1”;1510

0,3;“G”;“VS1”;1260

0,31;“D”;“VS1”;1641

0,31;“E”;“VS1”;1555

0,31;“F”;“VS1”;1427

0,31;“G”;“VVS2”;1427

0,31;“I”;“VS1”;1126

0,32;“F”;“VS1”;1468

A traballar: como se cargan os datos na memoria?

Explicarei dúas maneiras de facelo:

Usando o RSTUDIO

Na pestana Environment aparece a opción Import Dataset. Con esa opción podedes cargar datos desde ficheiros .csv

"importar datos"

coa opción Desde ficheiro de texto

"desde ficheiro de texto"

Escolledes o ficheiro que queirades abrir e apareceravos a seguinte pantalla:

"pantalla datos"

Nela amósavos os datos tal e como están no ficheiro e debaixo os datos tal e como pensa Rstudio que son correctos. Debedes comprobar se é así, se non teredes que introducir cambios.

Cousas a ter en conta para cargar eses datos:

1: Os datos vanse gardar na memoria de R, usando unha variable. En 1 aparece o nome que o programa suxire, pero podedes cambialo, se queredes.
2: O ficheiro, ten na 1ª fila os nomes de variables? Nese caso Heading debe ser Yes, noutro caso no Podedes ver que no exemplo si os ten.
3: Que símbolo separa as columnas coas variables? No exemplo é un ;, pero tamén podería ser unha tabulación \t, ou unha coma (, que é perigoso posto que se confunde cos decimais)
4: Que simbolo separa os decimais? No exemplo é a coma (,), pero podería ser un punto.
5: Como indica que os valores da variable son texto? No exemplo con comiñas dobres.

Despois de darlle a aceptar teredes unha obxecto diamantes na memoria de R, que podedes ver no Environment:

"diamantes"

e que está formado por catro variables: carat, colour, clarity e price:

"diamantes"

Usando un comando

# O anterior pódese facer tamén cunha soa liña de comando
diamantes = read.csv2("diamantes.csv")
# Este comando dille a R que lea o ficheiro diamantes.csv (debe ir entre
# comiñas, simples ou dobres, e que o garde no obxecto diamantes) OLLO: o
# ficheiro csv debe estar construido cos títulos na primeira fila; as
# columnas das variables separadas por ';' e os decimais con ',' se non o
# comando non funcionará ben

Tamén podedes saber con comandos o que hai dentro do obxecto diamantes

# Por exemplo preguntándolle polos seus nomes:
names(diamantes)

## [1] "carat"   "colour"  "clarity" "price"

# Ou preguntando polos primeiros datos:
head(diamantes)

##   carat colour clarity price
## 1  0.30      E     VS1  1510
## 2  0.30      G     VS1  1260
## 3  0.31      D     VS1  1641
## 4  0.31      E     VS1  1555
## 5  0.31      F     VS1  1427
## 6  0.31      G    VVS2  1427

O seguinte paso será manipular ese obxecto, extraendo del as variables que nos interesen, e despois comezarase a traballar con elas aplicando a Estatística