Tutorial intorductorio sobre los DataFrames (o Marco de datos) en R.

Puedes seguir el tutorial por vídeo en https://youtu.be/PnaHbl-qYEA

En vídeos anteriores hemos visto como crear y trabajar con vectores y matrices, pero realmente el DataFrame es la estructura mas versátil y con la que mas cosas podremos hacer.

Puede estar compuesto por elementos de distinta clase y esto es bueno, porque cuando tengamos entre nuestros datos variables cuantitativas podremos trabajar con la clase numeric y cuando tengamos variables cualitativas, trabajaremos con variables tipo factor. Todo bajo la misma estructura, el df.

Es como una matriz, pero con la posibilidad de albergar datos de distintas naturaleza.

Crear un DataFrame

Se puede crear un df a partir de vectores.

plantas = c(15,16,18,18,12,12,25,10,15,22,14,14,16,4,8,5,7,3,9,12) # Plantas nacidas por m2

tratamiento = c("s","s","s","s","s","s","s","s","s","s","n","n","n","n","n","n","n","n","n","n")

Datos = data.frame(tratamiento, plantas) # Creamos un df con los dos vectores. Cada vector es de distinta clase.

Explorar el DataFame

Datos # La consola nos ofrece los datos del DF, pero puede resultar poco practico cuando es muy grande.
##    tratamiento plantas
## 1            s      15
## 2            s      16
## 3            s      18
## 4            s      18
## 5            s      12
## 6            s      12
## 7            s      25
## 8            s      10
## 9            s      15
## 10           s      22
## 11           n      14
## 12           n      14
## 13           n      16
## 14           n       4
## 15           n       8
## 16           n       5
## 17           n       7
## 18           n       3
## 19           n       9
## 20           n      12
head(Datos) # Vemos los 6 primeros datos del DF.
##   tratamiento plantas
## 1           s      15
## 2           s      16
## 3           s      18
## 4           s      18
## 5           s      12
## 6           s      12
head(Datos, 10)
##    tratamiento plantas
## 1            s      15
## 2            s      16
## 3            s      18
## 4            s      18
## 5            s      12
## 6            s      12
## 7            s      25
## 8            s      10
## 9            s      15
## 10           s      22

Los nombres de las columnas son los que le dimos a cada vector.

dim(Datos) # Nos da las dimensiones del DF, el numero de filas y de columnas.
## [1] 20  2
str(Datos) # Tipo de datos y muestra
## 'data.frame':    20 obs. of  2 variables:
##  $ tratamiento: Factor w/ 2 levels "n","s": 2 2 2 2 2 2 2 2 2 2 ...
##  $ plantas    : num  15 16 18 18 12 12 25 10 15 22 ...
summary(Datos) # El resumen varía según sean variables cualitativas (factor) o cuantitativas (numérico)
##  tratamiento    plantas     
##  n:10        Min.   : 3.00  
##  s:10        1st Qu.: 8.75  
##              Median :13.00  
##              Mean   :12.75  
##              3rd Qu.:16.00  
##              Max.   :25.00
plot(Datos) # El resultado de este comando puede variar según el tipo de variables, pero ya estudiaremos lo gráficos en profundidad, en futuros vídeos.

Para ver una variable en concreto, escribiremos el nombre del DF seguido por $ y el nombre de la variable.

Datos$tratamiento
##  [1] s s s s s s s s s s n n n n n n n n n n
## Levels: n s
Datos$plantas
##  [1] 15 16 18 18 12 12 25 10 15 22 14 14 16  4  8  5  7  3  9 12