Una vez que tenemos un set de datos para analizar y extraer información, es frecuente observar que los mismos tienen ciertas condiciones que requieren de algún tipo “preprocesamiento” a fin de garantizar mejores resultados.
Como vimos en clase, existen muchas formas de preprocesar datos, sin embargo, en esta curso nos enfocaremos en las siguientes:
Antes de empezar, siempre es conveniente activar las librerías que vamos a utilizar, en este caso el tidyverse y una librería nueva llamada lubridate.
Así también, es conveniente de forma preliminar conocer unas sintaxis adicionales propias de R, que nos facilitarán el trabajo posterior.
1. Pipes
Como nos iremos dando cuenta en las siguientes clases, al manipular (y analizar) datos, se requiere de varias instrucciones secuenciales, las cuales deben mantener un orden coherente y entendible. Una forma eficiente de atender esta problemática es mediante el uso de pipes %>%.
A continuación un ejemplo:
#Metodo tradicional de calcular el promedio de una columna de una tabla de datos
mean(iris$Sepal.Length)
[1] 5.843333
#Método usando pipes
iris$Sepal.Length %>% mean()
[1] 5.843333
Nótemos con el ejemplo que usar pipes equivale, en términos de funciones a lo siguiente:
\[ f(x,...) = y \Leftrightarrow x \rightarrow f(...) = y\] Veamos otro caso, usando ahora una función nueva llamada sample la cual nos permite extraer una muetra aleatoria de una columna en una tabla de datos
#Metodo tradicional
sample(iris$Sepal.Width, size = 25)
[1] 2.5 3.0 2.9 2.8 3.2 2.9 2.5 2.9 3.4 3.0 2.0 3.9 3.0 3.0 2.6 3.0
[17] 3.8 3.2 2.2 3.1 3.0 3.2 2.7 3.4 2.8
#Metodo con pipes
iris$Sepal.Width %>% sample(size = 25)
[1] 2.6 3.0 3.4 4.1 3.0 3.3 2.6 3.0 3.2 2.8 3.1 2.8 4.4 2.8 3.9 2.9
[17] 2.8 2.5 3.2 2.8 3.0 3.1 3.4 3.4 3.4
Combinemos ahora dos instrucciones, de forma que podamos obtener una “media muestal”, usando las funciones sample y mean:
#Metodo tradicional (forma 1)
muestra <- sample(iris$Petal.Length, size = 30)
mean(muestra)
[1] 3.583333
#Metodo tradicional (forma 2)
mean(sample(iris$Petal.Length, size = 30))
[1] 3.76
#Metodo con pipes
iris$Petal.Length %>% sample(size = 30) %>% mean()
[1] 4.11
Aquí podemos observar una importante diferencia entre los métodos tradicional y con pipes: con el método tradicional tenemos que, o bien crear una variable adicional intermedia, o acumular funciones dentro de otras lo cual puede generar confusión. Usando pipes no acumulamos objetos en nuestra memoria, y se genera un mejor contexto para el analista de datos.
Para ampliar esto veamos este caso de 3 instrucciones diferentes:
#Metodo tradicional (forma 1)
muestra <- sample(iris$Petal.Width,size = 30)
media <- mean(muestra)
sqrt(media)
[1] 1.087811
#Metodo tradicional (forma 2)
sqrt(mean(sample(iris$Petal.Width,size = 30)))
[1] 1.037625
#Metodo con pipes
iris$Petal.Width %>% sample(size = 30) %>% mean() %>% sqrt()
[1] 1.118034
En general, de aquí en adelante vamos a usar pipes, aunque si así se lo desea, para los trabajos autónomos y las tareas se pueden emplear métodos tradicionales.
2. Funciones base para manipulación
Veamos ahora una funciones base para manipulación de datos en tablas, las cuales nos permitirán dar el preprocesamiento deseado.
Para esto, vamos a importar una tabla de datos que se encuentra en la siguiente dirección: https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/starwars.csv.
df_sw <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/starwars.csv",
col_names = TRUE)
-- Column specification --------------------------------------------
cols(
name = col_character(),
height = col_double(),
mass = col_double(),
hair_color = col_character(),
skin_color = col_character(),
eye_color = col_character(),
birth_year = col_double(),
sex = col_character(),
gender = col_character(),
homeworld = col_character(),
species = col_character()
)
Demos una mirada a estos datos e intentemos comprender de qué se tratan:
glimpse(df_sw)
Rows: 87
Columns: 11
$ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vade~
$ height <dbl> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182,~
$ mass <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32.~
$ hair_color <chr> "blond", NA, NA, "none", "brown", "brown, grey"~
$ skin_color <chr> "fair", "gold", "white, blue", "white", "light"~
$ eye_color <chr> "blue", "yellow", "red", "yellow", "brown", "bl~
$ birth_year <dbl> 19.0, 112.0, 33.0, 41.9, 19.0, 52.0, 47.0, NA, ~
$ sex <chr> "male", "none", "none", "male", "female", "male~
$ gender <chr> "masculine", "masculine", "masculine", "masculi~
$ homeworld <chr> "Tatooine", "Tatooine", "Naboo", "Tatooine", "A~
$ species <chr> "Human", "Droid", "Droid", "Human", "Human", "H~
View(df_sw)
2.1 Resumen estadístico de variables
Hasta ahora hemos usado la función summary para generar resúmenes estadísticos en tablas; sin embargo, usando ahora la función summarise vamos a tener un mayor control de lo que queremos obtener de resultado.
Por ejemplo, supongamos que deseamos obtener solamente la media y la desviación estandar de las variables numéricas height y mass, y para las variables no numéricas homeworld y species, queremos un conteo de casos únicos. Finalmente, queremos un conteo de observaciones.
df_sw %>%
summarise(prom_height = mean(height, na.rm = TRUE),
desv_height = sd(height, na.rm = TRUE),
prom_mass = mean(mass, na.rm = TRUE),
desv_mass = sd(mass, na.rm = TRUE),
uniq_homeworld = n_distinct(homeworld),
uniq_species = n_distinct(species),
Observaciones = n())
Notemos que en la sintaxis utilizada se ha incorporado el parámetro na.rm a las funciones para media y desviación estandar. De esta forma estamos diciéndole a R que al momento de calcular estos estadísticos NO considere los valores perdidos que existan en la tabla.
Adicionalmente, notemos que estamos usando funciones nuevas n_distinct y n. ¿Qué hacen estas funciones?
2.2 Tablas de frecuencia (conteos)
También podemos generar tablas de frecuencia de forma sencilla usando la función count.
Supongamos que queremos saber el conteo de casos por la variable hair_color.
df_sw %>%
count(hair_color)
Ahora, veamos el conteo no solamente por hair_color sino tambien por species.
df_sw %>%
count(species,
hair_color)
Esta tabla sería mejor verla ordenada de forma descendente, usemos para esto la función arrange como una instrucción adicional.
df_sw %>%
count(species,
hair_color) %>%
arrange(-n)
¿Qué cree que pasaría si en vez de -n pusiéramos solamente n?
2.3 Creación de nuevas variables
Uno de los aspectos más criticos en la manipulación de datos hace referencia a la capacidad que tengamos de crear nuevas variables (o en su defecto, modificar las existentes). Para esto, existe la función mutate.
Supongamos que en nuestra tabla queremos calcular el índice de masa corporar bmi, usando la siguiente fórmula:
\[ bmi = \frac{mass}{(height/100)^2} \] Para lo cual hacemos lo siguiente, y guardamos esta tabla en un nuevo data frame:
df_sw1 <- df_sw %>%
mutate(bmi = mass/((height/100)**2))
Veamos si conseguimos lo deseado:
glimpse(df_sw1)
Rows: 87
Columns: 12
$ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vad~
$ height <dbl> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182~
$ mass <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32~
$ hair_color <chr> "blond", NA, NA, "none", "brown", "brown, grey~
$ skin_color <chr> "fair", "gold", "white, blue", "white", "light~
$ eye_color <chr> "blue", "yellow", "red", "yellow", "brown", "b~
$ birth_year <dbl> 19.0, 112.0, 33.0, 41.9, 19.0, 52.0, 47.0, NA,~
$ sex <chr> "male", "none", "none", "male", "female", "mal~
$ gender <chr> "masculine", "masculine", "masculine", "mascul~
$ homeworld <chr> "Tatooine", "Tatooine", "Naboo", "Tatooine", "~
$ species <chr> "Human", "Droid", "Droid", "Human", "Human", "~
$ bmi <dbl> 26.02758, 26.89232, 34.72222, 33.33007, 21.777~
View(df_sw1)
Utilicemos ahora esta nueva función en conjunto con summarise. Queremos calcular el promedio y la desviación estandar de la masa corporar, pero además queremos saber el coeficiente de variación CV dado por:
\[ CV = \frac{Desv. Est.}{Media} \]
df_sw1 %>%
summarise(media = mean(bmi, na.rm = TRUE),
desvest = sd(bmi, na.rm = TRUE)) %>%
mutate(cv = desvest/media)
Adicionemos ahora en nuestra tabla de frecuencia, ya no soalmente el conteo absoluto, sino también el conteo relativo y el conteo acumulado. Recuerde usar tanto las funciones count, arrange, mutate.
df_sw1 %>%
count(species,
hair_color) %>%
arrange(-n) %>%
mutate(n_rel = n/sum(n, na.rm = TRUE)) %>%
mutate(n_acum = cumsum(n))
Intente comprender y explicar todo lo realizado en esta sintaxis.
2.4 Agrupamiento de variables
En muchas ocasiones vamos a querer hacer tablas, conteos y creaciones de forma consolidada por alguna variable. Para este tipo de casos se usa la función group_by.
Supongamos que deseamos crear una nueva variable que evidencie la diferencia en centímetros que cada observación tiene con relación a la altura promedio de su especie (dif_height). Esto es:
\[ dif_{height} = height - \overline{height_{specie}} \]
df_sw2 <- df_sw1 %>%
group_by(species) %>%
mutate(dif_height = height - mean(height, na.rm = TRUE)) %>%
ungroup()
Notemos las siguientes cosas:
- Al usar la función group_by, le hemos dicho a R que todos los cálculos subsiguientes que realice los haga generando grupos (en este caso por la variable species). En consecuencia, la media calculada será diferente para cada grupo.
- Hemos usado una función adicional a group_by una vez concluida nuestra necesidad de agrupar. Esta función ungroup le dice a R que de allí en adelante ya no debe considerar los grupo de la variable species para los cálculos.
Demos una mirada a esta tabla creada:
glimpse(df_sw2)
Rows: 87
Columns: 13
$ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vad~
$ height <dbl> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182~
$ mass <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32~
$ hair_color <chr> "blond", NA, NA, "none", "brown", "brown, grey~
$ skin_color <chr> "fair", "gold", "white, blue", "white", "light~
$ eye_color <chr> "blue", "yellow", "red", "yellow", "brown", "b~
$ birth_year <dbl> 19.0, 112.0, 33.0, 41.9, 19.0, 52.0, 47.0, NA,~
$ sex <chr> "male", "none", "none", "male", "female", "mal~
$ gender <chr> "masculine", "masculine", "masculine", "mascul~
$ homeworld <chr> "Tatooine", "Tatooine", "Naboo", "Tatooine", "~
$ species <chr> "Human", "Droid", "Droid", "Human", "Human", "~
$ bmi <dbl> 26.02758, 26.89232, 34.72222, 33.33007, 21.777~
$ dif_height <dbl> -4.645161, 35.800000, -35.200000, 25.354839, -~
View(df_sw2)
Hagamos ahora un resumen estadístico, donde tengamos la media y la mediana para bmi pero agrupando por species y por sex. REcuerde desagrupar al final.
df_sw2 %>%
group_by(species,
sex) %>%
summarise(prom = mean(bmi, na.rm = TRUE),
mediana = median(bmi, na.rm = TRUE)) %>%
ungroup()
`summarise()` has grouped output by 'species'. You can override using the `.groups` argument.
2.5 Filtros de variables
Otra forma de manipular datos es mediante la filtración de variables sobre la base de operaciones lógicas (aquellas que devuelven como resultado una opción buleana “TRUE/FALSE”). Supongamos que queremos visualizar solamente aquellas observaciones cuya altura sea mayor al promedio de su especie. Para esto usamos la función filter y aprovechemos para ordenar de forma ascendente por height.
df_sw_altos <- df_sw2 %>%
filter(dif_height > 0) %>%
arrange(height)
Veamos los resultados obtenidos
View(df_sw_altos)
Supongamos ahora que queremos visualizar solamente a aquellas observaciones cuyo planeta de origen sea “Tatooine” (el que tiene 2 soles) y sean droides.
df_sw_tatdroid <- df_sw2 %>%
filter(homeworld == "Tatooine" & species == "Droid")
Veamos si lo conseguimos:
View(df_sw_tatdroid)
Recuerde que para establecer la operación AND se utiliza el símbolo “&” y para la OR se utiliza “|”.
Otra forma de filtrar, se puede dar con las funciones top_n, top_frac, sample_n y sample_frac. 5 puntos extras al primer estudiante que me remita ejemplos usando estas 4 funciones en el dataset con el que estamos trabajando.
4.6 Selección de variables
Se pueden también seleccionar o eliminar columnas específicas de una tabla de datos, de forma que nuestro data frame final tenga lo estrictamente necesario para análisis posteriores. Con este propósito existe la función select.
Supongamos que queremos seleccionar solamente las columnas name, height y mass.
df_sw_select <- df_sw2 %>%
select(name,
height,
mass)
Veamos si logramos lo que buscábamos:
glimpse(df_sw_select)
Rows: 87
Columns: 3
$ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vader",~
$ height <dbl> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182, 18~
$ mass <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32.0, ~
Ahora, veamos el caso en que queremos eliminar dos variables: birth_year y gender.
df_sw_elim <- df_sw2 %>%
select(-birth_year,
-gender)
Veamos el resultado:
glimpse(df_sw_elim)
Rows: 87
Columns: 11
$ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vad~
$ height <dbl> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182~
$ mass <dbl> 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32~
$ hair_color <chr> "blond", NA, NA, "none", "brown", "brown, grey~
$ skin_color <chr> "fair", "gold", "white, blue", "white", "light~
$ eye_color <chr> "blue", "yellow", "red", "yellow", "brown", "b~
$ sex <chr> "male", "none", "none", "male", "female", "mal~
$ homeworld <chr> "Tatooine", "Tatooine", "Naboo", "Tatooine", "~
$ species <chr> "Human", "Droid", "Droid", "Human", "Human", "~
$ bmi <dbl> 26.02758, 26.89232, 34.72222, 33.33007, 21.777~
$ dif_height <dbl> -4.645161, 35.800000, -35.200000, 25.354839, -~
Notemos finalmente que tanto la función select como filter se constituyen en nuevas formas de indexación de data frames. Por ejemplo, si queremos saber los nombres de las observaciones de todos aquellos cuya especie sea “Ewok”, se hace lo siguiente:
#Indexacion tradicional
df_sw2$name[which(df_sw2$species == "Ewok")]
[1] "Wicket Systri Warrick"
#Indexacion con pipes y funciones
df_sw2 %>%
filter(species == "Ewok") %>%
select(name)
---
title: "Manipulación de datos"
output: html_notebook
---

Una vez que tenemos un set de datos para analizar y extraer información, es frecuente observar que los mismos tienen ciertas condiciones que requieren de algún tipo "preprocesamiento" a fin de garantizar mejores resultados.

Como vimos en clase, existen muchas formas de preprocesar datos, sin embargo, en esta curso nos enfocaremos en las siguientes:

* Ajuste de clases de variables
* Tratamiento de valores perdidos y outliers
* Tratamiento de variables no numéricas
* Selección de atributos

Antes de empezar, siempre es conveniente activar las librerías que vamos a utilizar, en este caso el **tidyverse** y una librería nueva llamada **lubridate**.
```{r}
library(tidyverse)
#install.packages("lubridate")
library(lubridate)
```

Así también, es conveniente de forma preliminar conocer unas sintaxis adicionales propias de R, que nos facilitarán el trabajo posterior.

## 1. Pipes

Como nos iremos dando cuenta en las siguientes clases, al manipular (y analizar) datos, se requiere de varias instrucciones secuenciales, las cuales deben mantener un orden coherente y entendible. Una forma eficiente de atender esta problemática es mediante el uso de pipes **%>%**.

A continuación un ejemplo:
```{r}
#Metodo tradicional de calcular el promedio de una columna de una tabla de datos
mean(iris$Sepal.Length)
#Método usando pipes
iris$Sepal.Length %>% mean()
```

Nótemos con el ejemplo que usar pipes equivale, en términos de funciones a lo siguiente:

$$ f(x,...) = y \Leftrightarrow x \rightarrow f(...) = y$$
Veamos otro caso, usando ahora una función nueva llamada *sample* la cual nos permite extraer una muetra aleatoria de una columna en una tabla de datos

```{r}
#Metodo tradicional
sample(iris$Sepal.Width, size = 25)
#Metodo con pipes
iris$Sepal.Width %>% sample(size = 25)
```

Combinemos ahora dos instrucciones, de forma que podamos obtener una "media muestal", usando las funciones *sample* y *mean*:
```{r}
#Metodo tradicional (forma 1)
muestra <- sample(iris$Petal.Length, size = 30)
mean(muestra)

#Metodo tradicional (forma 2)
mean(sample(iris$Petal.Length, size = 30))

#Metodo con pipes
iris$Petal.Length %>% sample(size = 30) %>% mean()
```

Aquí podemos observar una importante diferencia entre los métodos tradicional y con pipes: con el método tradicional tenemos que, o bien crear una variable adicional intermedia, o acumular funciones dentro de otras lo cual puede generar confusión. Usando pipes no acumulamos objetos en nuestra memoria, y se genera un mejor contexto para el analista de datos.

Para ampliar esto veamos este caso de 3 instrucciones diferentes:
```{r}
#Metodo tradicional (forma 1)
muestra <- sample(iris$Petal.Width,size = 30)
media <- mean(muestra)
sqrt(media)

#Metodo tradicional (forma 2)
sqrt(mean(sample(iris$Petal.Width,size = 30)))

#Metodo con pipes
iris$Petal.Width %>% sample(size = 30) %>% mean() %>% sqrt()
```

En general, de aquí en adelante vamos a usar pipes, aunque si así se lo desea, para los trabajos autónomos y las tareas se pueden emplear métodos tradicionales.

## 2. Funciones base para manipulación

Veamos ahora una funciones base para manipulación de datos en tablas, las cuales nos permitirán dar el preprocesamiento deseado.

Para esto, vamos a importar una tabla de datos que se encuentra en la siguiente dirección: https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/starwars.csv.
```{r}
df_sw <- read_csv(file = "https://raw.githubusercontent.com/jsaraujo5081/clasesBI/main/starwars.csv",
                  col_names = TRUE)
```

Demos una mirada a estos datos e intentemos comprender de qué se tratan:
```{r}
glimpse(df_sw)
View(df_sw)
```

### 2.1 Resumen estadístico de variables

Hasta ahora hemos usado la función *summary* para generar resúmenes estadísticos en tablas; sin embargo, usando ahora la función *summarise* vamos a tener un mayor control de lo que queremos obtener de resultado.

Por ejemplo, supongamos que deseamos obtener solamente la media y la desviación estandar de las variables numéricas *height* y *mass*, y para las variables no numéricas *homeworld* y *species*, queremos un conteo de casos únicos. Finalmente, queremos un conteo de observaciones.
```{r}
df_sw %>%
  summarise(prom_height = mean(height, na.rm = TRUE),
            desv_height = sd(height, na.rm = TRUE),
            prom_mass = mean(mass, na.rm = TRUE),
            desv_mass = sd(mass, na.rm = TRUE),
            uniq_homeworld = n_distinct(homeworld),
            uniq_species = n_distinct(species),
            Observaciones = n())
```
Notemos que en la sintaxis utilizada se ha incorporado el parámetro *na.rm* a las funciones para media y desviación estandar. De esta forma estamos diciéndole a R que al momento de calcular estos estadísticos NO considere los valores perdidos que existan en la tabla.

Adicionalmente, notemos que estamos usando funciones nuevas *n_distinct* y *n*. ¿Qué hacen estas funciones?

### 2.2 Tablas de frecuencia (conteos)

También podemos generar tablas de frecuencia de forma sencilla usando la función *count*.

Supongamos que queremos saber el conteo de casos por la variable *hair_color*. 
```{r}
df_sw %>%
  count(hair_color)
```
Ahora, veamos el conteo no solamente por *hair_color* sino tambien por *species*.
```{r}
df_sw %>%
  count(species,
        hair_color)
```
Esta tabla sería mejor verla ordenada de forma descendente, usemos para esto la función *arrange* como una instrucción adicional.
```{r}
df_sw %>%
  count(species,
        hair_color) %>%
  arrange(-n) 
```
¿Qué cree que pasaría si en vez de *-n* pusiéramos solamente *n*?

### 2.3 Creación de nuevas variables

Uno de los aspectos más criticos en la manipulación de datos hace referencia a la capacidad que tengamos de crear nuevas variables (o en su defecto, modificar las existentes). Para esto, existe la función *mutate*.

Supongamos que en nuestra tabla queremos calcular el índice de masa corporar *bmi*, usando la siguiente fórmula:

$$ bmi = \frac{mass}{(height/100)^2} $$
Para lo cual hacemos lo siguiente, y guardamos esta tabla en un nuevo data frame:
```{r}
df_sw1 <- df_sw %>%
  mutate(bmi = mass/((height/100)**2))
```

Veamos si conseguimos lo deseado:
```{r}
glimpse(df_sw1)
View(df_sw1)
```
Utilicemos ahora esta nueva función en conjunto con *summarise*. Queremos calcular el promedio y la desviación estandar de la masa corporar, pero además queremos saber el coeficiente de variación *CV* dado por:

$$ CV = \frac{Desv. Est.}{Media} $$
```{r}
df_sw1 %>%
  summarise(media = mean(bmi, na.rm = TRUE),
            desvest = sd(bmi, na.rm = TRUE)) %>%
  mutate(cv = desvest/media)
```
Adicionemos ahora en nuestra tabla de frecuencia, ya no soalmente el conteo absoluto, sino también el conteo relativo y el conteo acumulado. Recuerde usar tanto las funciones *count*, *arrange*, *mutate*.
```{r}
df_sw1 %>%
  count(species,
        hair_color) %>%
  arrange(-n) %>%
  mutate(n_rel = n/sum(n, na.rm = TRUE)) %>%
  mutate(n_acum = cumsum(n))
```
Intente comprender y explicar todo lo realizado en esta sintaxis.

### 2.4 Agrupamiento de variables

En muchas ocasiones vamos a querer hacer tablas, conteos y creaciones  de forma consolidada por alguna variable. Para este tipo de casos se usa la función *group_by*.

Supongamos que deseamos crear una nueva variable que evidencie la diferencia en centímetros que cada observación tiene con relación a la altura promedio de su especie (*dif_height*). Esto es:

$$ dif_{height} = height - \overline{height_{specie}} $$

```{r}
df_sw2 <- df_sw1 %>%
  group_by(species) %>%
  mutate(dif_height = height - mean(height, na.rm = TRUE)) %>%
  ungroup()
```

Notemos las siguientes cosas:

* Al usar la función *group_by*, le hemos dicho a R que todos los cálculos subsiguientes que realice los haga generando grupos (en este caso por la variable *species*). En consecuencia, la media calculada será diferente para cada grupo. 
* Hemos usado una función adicional a *group_by* una vez concluida nuestra necesidad de agrupar. Esta función *ungroup* le dice a R que de allí en adelante ya no debe considerar los grupo de la variable *species* para los cálculos.

Demos una mirada a esta tabla creada:
```{r}
glimpse(df_sw2)
View(df_sw2)
```
Hagamos ahora un resumen estadístico, donde tengamos la media y la mediana para *bmi* pero agrupando por *species* y por *sex*. REcuerde desagrupar al final.
```{r}
df_sw2 %>%
  group_by(species,
           sex) %>%
  summarise(prom = mean(bmi, na.rm = TRUE),
            mediana = median(bmi, na.rm = TRUE)) %>%
  ungroup()
```
### 2.5 Filtros de variables

Otra forma de manipular datos es mediante la filtración de variables sobre la base de operaciones lógicas (aquellas que devuelven como resultado una opción buleana "TRUE/FALSE"). Supongamos que queremos visualizar solamente aquellas observaciones cuya altura sea mayor al promedio de su especie. Para esto usamos la función *filter* y aprovechemos para ordenar de forma ascendente por *height*.
```{r}
df_sw_altos <- df_sw2 %>%
  filter(dif_height > 0) %>%
  arrange(height)
```

Veamos los resultados obtenidos
```{r}
View(df_sw_altos)
```

Supongamos ahora que queremos visualizar solamente a aquellas observaciones cuyo planeta de origen sea "Tatooine" (el que tiene 2 soles) y sean droides. 
```{r}
df_sw_tatdroid <- df_sw2 %>%
  filter(homeworld == "Tatooine" & species == "Droid")
```

Veamos si lo conseguimos:
```{r}
View(df_sw_tatdroid)
```

Recuerde que para establecer la operación AND se utiliza el símbolo "&" y para la OR se utiliza "|".

Otra forma de filtrar, se puede dar con las funciones *top_n*, *top_frac*, *sample_n* y *sample_frac*. 5 puntos extras al primer estudiante que me remita ejemplos usando estas 4 funciones en el dataset con el que estamos trabajando.

### 4.6 Selección de variables

Se pueden también seleccionar o eliminar columnas específicas de una tabla de datos, de forma que nuestro data frame final tenga lo estrictamente necesario para análisis posteriores. Con este propósito existe la función *select*.

Supongamos que queremos seleccionar solamente las columnas *name*, *height* y *mass*.
```{r}
df_sw_select <- df_sw2 %>%
  select(name,
         height,
         mass)
```

Veamos si logramos lo que buscábamos:
```{r}
glimpse(df_sw_select)
```

Ahora, veamos el caso en que queremos eliminar dos variables: *birth_year* y *gender*.
```{r}
df_sw_elim <- df_sw2 %>%
  select(-birth_year,
         -gender)
```

Veamos el resultado:
```{r}
glimpse(df_sw_elim)
```
Notemos finalmente que tanto la función *select* como *filter* se constituyen en nuevas formas de indexación de data frames. Por ejemplo, si queremos saber los nombres de las observaciones de todos aquellos cuya especie sea "Ewok", se hace lo siguiente:
```{r}
#Indexacion tradicional
df_sw2$name[which(df_sw2$species == "Ewok")]

#Indexacion con pipes y funciones
df_sw2 %>%
  filter(species == "Ewok") %>%
  select(name)
```