¿Qué es la minería de datos?

class: right, middle, inverse, titular
background-image: url(img/palabra.jpg)
background-size: contain
background-position: -40% 80%

# ¿Qué es la minería de datos? 
## **...y por qué debería importarnos**
### Manuel Toral
### 12 de agosto de 2022

[<svg aria-hidden="true" role="img" viewBox="0 0 496 512" style="height:1em;width:0.97em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M165.9 397.4c0 2-2.3 3.6-5.2 3.6-3.3 .3-5.6-1.3-5.6-3.6 0-2 2.3-3.6 5.2-3.6 3-.3 5.6 1.3 5.6 3.6zm-31.1-4.5c-.7 2 1.3 4.3 4.3 4.9 2.6 1 5.6 0 6.2-2s-1.3-4.3-4.3-5.2c-2.6-.7-5.5 .3-6.2 2.3zm44.2-1.7c-2.9 .7-4.9 2.6-4.6 4.9 .3 2 2.9 3.3 5.9 2.6 2.9-.7 4.9-2.6 4.6-4.6-.3-1.9-3-3.2-5.9-2.9zM244.8 8C106.1 8 0 113.3 0 252c0 110.9 69.8 205.8 169.5 239.2 12.8 2.3 17.3-5.6 17.3-12.1 0-6.2-.3-40.4-.3-61.4 0 0-70 15-84.7-29.8 0 0-11.4-29.1-27.8-36.6 0 0-22.9-15.7 1.6-15.4 0 0 24.9 2 38.6 25.8 21.9 38.6 58.6 27.5 72.9 20.9 2.3-16 8.8-27.1 16-33.7-55.9-6.2-112.3-14.3-112.3-110.5 0-27.5 7.6-41.3 23.6-58.9-2.6-6.5-11.1-33.3 2.6-67.9 20.9-6.5 69 27 69 27 20-5.6 41.5-8.5 62.8-8.5s42.8 2.9 62.8 8.5c0 0 48.1-33.6 69-27 13.7 34.7 5.2 61.4 2.6 67.9 16 17.7 25.8 31.5 25.8 58.9 0 96.5-58.9 104.2-114.8 110.5 9.2 7.9 17 22.9 17 46.4 0 33.7-.3 75.4-.3 83.6 0 6.5 4.6 14.4 17.3 12.1C428.2 457.8 496 362.9 496 252 496 113.3 383.5 8 244.8 8zM97.2 352.9c-1.3 1-1 3.3 .7 5.2 1.6 1.6 3.9 2.3 5.2 1 1.3-1 1-3.3-.7-5.2-1.6-1.6-3.9-2.3-5.2-1zm-10.8-8.1c-.7 1.3 .3 2.9 2.3 3.9 1.6 1 3.6 .7 4.3-.7 .7-1.3-.3-2.9-2.3-3.9-2-.6-3.6-.3-4.3 .7zm32.4 35.6c-1.6 1.3-1 4.3 1.3 6.2 2.3 2.3 5.2 2.6 6.5 1 1.3-1.3 .7-4.3-1.3-6.2-2.2-2.3-5.2-2.6-6.5-1zm-11.4-14.7c-1.6 1-1.6 3.6 0 5.9 1.6 2.3 4.3 3.3 5.6 2.3 1.6-1.3 1.6-3.9 0-6.2-1.4-2.3-4-3.3-5.6-2z"></path></svg> Repositorio](https://github.com/jmtoral/ciencia_datos_II)
<br>[<svg aria-hidden="true" role="img" viewBox="0 0 576 512" style="height:1em;width:1.12em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M528 32H144c-26.51 0-48 21.49-48 48v256c0 26.51 21.49 48 48 48H528c26.51 0 48-21.49 48-48v-256C576 53.49 554.5 32 528 32zM223.1 96c17.68 0 32 14.33 32 32S241.7 160 223.1 160c-17.67 0-32-14.33-32-32S206.3 96 223.1 96zM494.1 311.6C491.3 316.8 485.9 320 480 320H192c-6.023 0-11.53-3.379-14.26-8.75c-2.73-5.367-2.215-11.81 1.332-16.68l70-96C252.1 194.4 256.9 192 262 192c5.111 0 9.916 2.441 12.93 6.574l22.35 30.66l62.74-94.11C362.1 130.7 367.1 128 373.3 128c5.348 0 10.34 2.672 13.31 7.125l106.7 160C496.6 300 496.9 306.3 494.1 311.6zM456 432H120c-39.7 0-72-32.3-72-72v-240C48 106.8 37.25 96 24 96S0 106.8 0 120v240C0 426.2 53.83 480 120 480h336c13.25 0 24-10.75 24-24S469.3 432 456 432z"></path></svg> diapositivas ]()

---
name: saludo
layout: false
class: inverse, middle, center

# Sobre mí

## Manuel Toral 🇲🇽

### Científico de datos

[<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M464 64C490.5 64 512 85.49 512 112C512 127.1 504.9 141.3 492.8 150.4L275.2 313.6C263.8 322.1 248.2 322.1 236.8 313.6L19.2 150.4C7.113 141.3 0 127.1 0 112C0 85.49 21.49 64 48 64H464zM217.6 339.2C240.4 356.3 271.6 356.3 294.4 339.2L512 176V384C512 419.3 483.3 448 448 448H64C28.65 448 0 419.3 0 384V176L217.6 339.2z"></path></svg> jmtoral@tec.mx](jmtoral@tec.mx)
[<svg aria-hidden="true" role="img" viewBox="0 0 640 512" style="height:1em;width:1.25em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M172.5 131.1C228.1 75.51 320.5 75.51 376.1 131.1C426.1 181.1 433.5 260.8 392.4 318.3L391.3 319.9C381 334.2 361 337.6 346.7 327.3C332.3 317 328.9 297 339.2 282.7L340.3 281.1C363.2 249 359.6 205.1 331.7 177.2C300.3 145.8 249.2 145.8 217.7 177.2L105.5 289.5C73.99 320.1 73.99 372 105.5 403.5C133.3 431.4 177.3 435 209.3 412.1L210.9 410.1C225.3 400.7 245.3 404 255.5 418.4C265.8 432.8 262.5 452.8 248.1 463.1L246.5 464.2C188.1 505.3 110.2 498.7 60.21 448.8C3.741 392.3 3.741 300.7 60.21 244.3L172.5 131.1zM467.5 380C411 436.5 319.5 436.5 263 380C213 330 206.5 251.2 247.6 193.7L248.7 192.1C258.1 177.8 278.1 174.4 293.3 184.7C307.7 194.1 311.1 214.1 300.8 229.3L299.7 230.9C276.8 262.1 280.4 306.9 308.3 334.8C339.7 366.2 390.8 366.2 422.3 334.8L534.5 222.5C566 191 566 139.1 534.5 108.5C506.7 80.63 462.7 76.99 430.7 99.9L429.1 101C414.7 111.3 394.7 107.1 384.5 93.58C374.2 79.2 377.5 59.21 391.9 48.94L393.5 47.82C451 6.731 529.8 13.25 579.8 63.24C636.3 119.7 636.3 211.3 579.8 267.7L467.5 380z"></path></svg> manueltoral.studio](https://manueltoral.studio)
[<svg aria-hidden="true" role="img" viewBox="0 0 496 512" style="height:1em;width:0.97em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M165.9 397.4c0 2-2.3 3.6-5.2 3.6-3.3 .3-5.6-1.3-5.6-3.6 0-2 2.3-3.6 5.2-3.6 3-.3 5.6 1.3 5.6 3.6zm-31.1-4.5c-.7 2 1.3 4.3 4.3 4.9 2.6 1 5.6 0 6.2-2s-1.3-4.3-4.3-5.2c-2.6-.7-5.5 .3-6.2 2.3zm44.2-1.7c-2.9 .7-4.9 2.6-4.6 4.9 .3 2 2.9 3.3 5.9 2.6 2.9-.7 4.9-2.6 4.6-4.6-.3-1.9-3-3.2-5.9-2.9zM244.8 8C106.1 8 0 113.3 0 252c0 110.9 69.8 205.8 169.5 239.2 12.8 2.3 17.3-5.6 17.3-12.1 0-6.2-.3-40.4-.3-61.4 0 0-70 15-84.7-29.8 0 0-11.4-29.1-27.8-36.6 0 0-22.9-15.7 1.6-15.4 0 0 24.9 2 38.6 25.8 21.9 38.6 58.6 27.5 72.9 20.9 2.3-16 8.8-27.1 16-33.7-55.9-6.2-112.3-14.3-112.3-110.5 0-27.5 7.6-41.3 23.6-58.9-2.6-6.5-11.1-33.3 2.6-67.9 20.9-6.5 69 27 69 27 20-5.6 41.5-8.5 62.8-8.5s42.8 2.9 62.8 8.5c0 0 48.1-33.6 69-27 13.7 34.7 5.2 61.4 2.6 67.9 16 17.7 25.8 31.5 25.8 58.9 0 96.5-58.9 104.2-114.8 110.5 9.2 7.9 17 22.9 17 46.4 0 33.7-.3 75.4-.3 83.6 0 6.5 4.6 14.4 17.3 12.1C428.2 457.8 496 362.9 496 252 496 113.3 383.5 8 244.8 8zM97.2 352.9c-1.3 1-1 3.3 .7 5.2 1.6 1.6 3.9 2.3 5.2 1 1.3-1 1-3.3-.7-5.2-1.6-1.6-3.9-2.3-5.2-1zm-10.8-8.1c-.7 1.3 .3 2.9 2.3 3.9 1.6 1 3.6 .7 4.3-.7 .7-1.3-.3-2.9-2.3-3.9-2-.6-3.6-.3-4.3 .7zm32.4 35.6c-1.6 1.3-1 4.3 1.3 6.2 2.3 2.3 5.2 2.6 6.5 1 1.3-1.3 .7-4.3-1.3-6.2-2.2-2.3-5.2-2.6-6.5-1zm-11.4-14.7c-1.6 1-1.6 3.6 0 5.9 1.6 2.3 4.3 3.3 5.6 2.3 1.6-1.3 1.6-3.9 0-6.2-1.4-2.3-4-3.3-5.6-2z"></path></svg> @jmtoral](https://github.com/jmtoral)

---
class: left

# Acerca de ti

- Eres usuaria principiante de `R` 👩🏽‍💻

- Conoces herramientas visualización y análisis de datos  📊

--
- Te interesan las ciencias sociales (en partícular la ciencia política)  🏛

- Te gustaría trabajar en el sector público o en la interacción de éste con el sector privado 👩🏽‍💼

# Hoy quiero

- Dar una breve introducción sobre qué es la *minería de datos¨*
 ... y sobre por qué nos debe importar.

---

# "Minería" y otras *buzzwords*

</div>

---

# "Minería" y otras *buzzwords*

Con *minería* reconocemos la naturaleza no estructurada del lenguaje natural. Los patrones que existen en nuestra habla y nuestra escritura no son accesibles dee manera innmediata: **se requiere de un proceso de refinación**.

---

# ¿A qué me refieron con *refinar*?

.pull-left[

Pasar de esto...

]

.pull-right[

a esto.

]

---

# ¿Y para qué o qué?

</div>

---

[**Berliner et al (2022)**](https://osf.io/nbqus/) utilizaron modelos de aprendizaje de máquina y *topic modeling* para estudiar 4.925 solicitudes de información.

</div>

---

Con base en la técnica de *modelaje de tópicos no supervisado*, las personas autoras clasificaron por temas específicos las solicitudes de información y estudiaron su comportamiento en el tiempo.

</div>

---

[**Aguilar-Gómez et al (2019)**](https://www.undp.org/latin-america/publications/follow-leader-public-health-messaging-and-containment-mobility-during-pandemic) estudiaron cómo el discurso de los líderes políticos afectó el cumplimiento de las medidas de sana distancia con base en 500 conferencias matutinas de AMLO y vespertinas de López Gatell.

</div>

---

La estrategia de las autoras fue cruzar datos de geolocalización de teléfonos móviles y las muertes relacionadas con la COVID-19 con en análisis de texto: una combinación de *modelaje de tópicos* y *análisis de sentimientos*.

</div>

---

[**Arceo-Gomez & Campos-Vazquez (2019)**](https://www.sciencedirect.com/science/article/abs/pii/S0272775719300743) estudiaron 600 mil reseñas de profesoras y profesores universitarias en el sitio *MisProfesores.com*. Las mujeres reciben sistemáticamente calificaciones más bajas, son descritas por su apariencia y son tratadas con menos respeto.

</div>

---

[**Arceo-Gomez et al (2022)**](https://link.springer.com/article/10.1007/s12122-022-09331-4) estudiaron 2.5 millones de anuncios de trabajo en internet, de los cuáles 235 mil eran dirigidos a una identidad de género en particular. A las mujeres se les piden más características *comunales*: servicio, apariencia, etc.

</div>

---
<br> </br>

Estas diferencias entre los anuncios se traducen en peores salarios 
para las mujeres.

.pull-left[

]

.pull-right[

]

---
<br> </br>

[**Lombana-Bermúdez et al. (2022)**](http://www.politicaygobierno.cide.edu/index.php/pyg/article/view/1494/1077) estudiaron casi 150 mil tuits de 70 mil usuarios para estudiar las cámaras de eco en redes sociales.

</div>

---

# Manos a la obra

Vamos a hacer un breve ejercicio llamado *tokenización*. Este proceso consiste en separar nuestro texto en *tokens* y será casi siempre el primer paso para nuestro análisis de texto.

Estas son las bibliotecas que vamos a utilizar para aprender *minería de texto*.

```r
library(tidyverse) # Un viejo conocido
library(readxl) # Porque una vida sin excel no es vida...

library(tidytext) # Una navaja suiza para el procesamiento de texto
library(quanteda) # Herramientas poderosas de análisis de texto
library(tm) # El estándar para el trabajo de minería de texto

library(wordcloud) # Gráficas de nubes de palabras
```

---

# ¡Datos!

Vamos a descargar los datos del programa [*Conóceles 2021*](https://candidaturas2021.ine.mx/), que se compone de las propuestas de las y los candidatos que compitieron en 2021, recolectada por el INE.

```r
# El enlace directo al .xls
*url <- "https://candidaturas2021.ine.mx/documentos/descargas/baseDatosCandidatos.xls"
```

---

# ¡Datos!

```r
# El enlace directo al .xls
url <- "https://candidaturas2021.ine.mx/documentos/descargas/baseDatosCandidatos.xls"

#Descargar en la carpeta "datos"
*download.file(url, destfile = "data/baseDatosCandidatos.xls", mode = "wb")
```

---

# ¡Datos!

```r
# El enlace directo al .xls
url <- "https://candidaturas2021.ine.mx/documentos/descargas/baseDatosCandidatos.xls"

#Descargar en la carpeta "datos"
download.file(url, destfile = "data/baseDatosCandidatos.xls", mode = "wb")

# Leer datos
*con21 <- read_excel("data/baseDatosCandidatos.xls")
```
---

# Filtros y selección

Eligamos una entidad aleatoriamente... no sé... Nuevo León. Y luego seleccionemos sólo las variables de partido, candidatura, distrito, edad, género y las propuestas. Guardaremos el resultado en un objeto llamado `con21nl`.

```r
con21nl <- con21 |> 
* filter(ENTIDAD == "NUEVO LEÓN" )
```

---

# Filtros y selección

```r
con21nl <- con21 |> 
  filter(ENTIDAD == "NUEVO LEÓN" ) |>
* select(PARTIDO_COALICION, CANDIDATURA, DISTRITO,
*        EDAD, GENERO, PROPUESTA_1:PROPUESTA_GENERO)
```

---

# Tabla de insumo

Así queda nuestra tabla filtrada y con nuestras variables de interés.

```r
glimpse(con21nl)
```

```
## Rows: 208
## Columns: 8
## $ PARTIDO_COALICION <chr> "PARTIDO ACCIÓN NACIONAL", "PARTIDO ACCIÓN NACIONAL"…
## $ CANDIDATURA       <chr> "DIPUTACIÓN FEDERAL MR", "DIPUTACIÓN FEDERAL MR", "D…
## $ DISTRITO          <chr> "1-SANTA CATARINA", "1-SANTA CATARINA", "1-SANTA CAT…
## $ EDAD              <dbl> 46, 45, 47, 50, 27, 34, 66, 55, 29, 31, 56, 26, 59, …
## $ GENERO            <chr> "HOMBRE", "HOMBRE", "MUJER", "MUJER", "HOMBRE", "HOM…
## $ PROPUESTA_1       <chr> "Crear una Comisión Ambiental para las Zonas Metropo…
## $ PROPUESTA_2       <chr> "Recuperación de Fondos en materia de Seguridad (For…
## $ PROPUESTA_GENERO  <chr> "Implementar estrategias para erradicar la violencia…
```

---

# Pegar propuestas en una sola

Vamos a pegar las tres propuestas: la **propuesta 1**, la **propuesta 2** y la **propuesta de género** (que en realidad se refiere a alguna propuesta *en materia de género o del grupo en situación de discriminación que representa*). Sobreescribiremos el objeto `con21nl` y eliminaremos lo sobrante.

```r
con21nl <- con21nl |> 
  mutate(prop_pasted = str_c(  
*   PROPUESTA_1, PROPUESTA_2, PROPUESTA_GENERO, sep = " "))
```

---

# Pegar propuestas en una sola

```r
con21nl <- con21nl |> 
  mutate(prop_pasted = str_c(  
    PROPUESTA_1, PROPUESTA_2, PROPUESTA_GENERO, sep = " "))  |> 
* select(-contains("PROPUESTA_"))
```