Puedes seguir el tutorial por vídeo en https://youtu.be/PnaHbl-qYEA
En vídeos anteriores hemos visto como crear y trabajar con vectores y matrices, pero realmente el DataFrame es la estructura mas versátil y con la que mas cosas podremos hacer.
Puede estar compuesto por elementos de distinta clase y esto es bueno, porque cuando tengamos entre nuestros datos variables cuantitativas podremos trabajar con la clase numeric y cuando tengamos variables cualitativas, trabajaremos con variables tipo factor. Todo bajo la misma estructura, el df.
Es como una matriz, pero con la posibilidad de albergar datos de distintas naturaleza.
Se puede crear un df a partir de vectores.
plantas = c(15,16,18,18,12,12,25,10,15,22,14,14,16,4,8,5,7,3,9,12) # Plantas nacidas por m2
tratamiento = c("s","s","s","s","s","s","s","s","s","s","n","n","n","n","n","n","n","n","n","n")
Datos = data.frame(tratamiento, plantas) # Creamos un df con los dos vectores. Cada vector es de distinta clase.
Datos # La consola nos ofrece los datos del DF, pero puede resultar poco practico cuando es muy grande.
## tratamiento plantas
## 1 s 15
## 2 s 16
## 3 s 18
## 4 s 18
## 5 s 12
## 6 s 12
## 7 s 25
## 8 s 10
## 9 s 15
## 10 s 22
## 11 n 14
## 12 n 14
## 13 n 16
## 14 n 4
## 15 n 8
## 16 n 5
## 17 n 7
## 18 n 3
## 19 n 9
## 20 n 12
head(Datos) # Vemos los 6 primeros datos del DF.
## tratamiento plantas
## 1 s 15
## 2 s 16
## 3 s 18
## 4 s 18
## 5 s 12
## 6 s 12
head(Datos, 10)
## tratamiento plantas
## 1 s 15
## 2 s 16
## 3 s 18
## 4 s 18
## 5 s 12
## 6 s 12
## 7 s 25
## 8 s 10
## 9 s 15
## 10 s 22
Los nombres de las columnas son los que le dimos a cada vector.
dim(Datos) # Nos da las dimensiones del DF, el numero de filas y de columnas.
## [1] 20 2
str(Datos) # Tipo de datos y muestra
## 'data.frame': 20 obs. of 2 variables:
## $ tratamiento: Factor w/ 2 levels "n","s": 2 2 2 2 2 2 2 2 2 2 ...
## $ plantas : num 15 16 18 18 12 12 25 10 15 22 ...
summary(Datos) # El resumen varía según sean variables cualitativas (factor) o cuantitativas (numérico)
## tratamiento plantas
## n:10 Min. : 3.00
## s:10 1st Qu.: 8.75
## Median :13.00
## Mean :12.75
## 3rd Qu.:16.00
## Max. :25.00
plot(Datos) # El resultado de este comando puede variar según el tipo de variables, pero ya estudiaremos lo gráficos en profundidad, en futuros vídeos.
Para ver una variable en concreto, escribiremos el nombre del DF seguido por $ y el nombre de la variable.
Datos$tratamiento
## [1] s s s s s s s s s s n n n n n n n n n n
## Levels: n s
Datos$plantas
## [1] 15 16 18 18 12 12 25 10 15 22 14 14 16 4 8 5 7 3 9 12