library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✔ ggplot2 3.3.6     ✔ purrr   0.3.4
## ✔ tibble  3.1.7     ✔ dplyr   1.0.9
## ✔ tidyr   1.2.0     ✔ stringr 1.4.0
## ✔ readr   2.1.2     ✔ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
library(readr)
datos_america_latina <- read_csv("datos_america_latina.csv")
## Rows: 20 Columns: 9
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): pais, ind_dem_lib, tasa_migracion_neta
## dbl (1): pbi_per_capita
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

##I. En base a un dataset de nuestra preferencia, mostremos la relación entre dos variables continuas o numéricas usando un gráfico de dispersión (vía geom_point()) y expliquemos lo que muestra el gráfico. Vale usar el dataset que hemos presentado en este capítulo, pero tendrá mucha más gracia jugar con algún otro.

ggplot(datos_america_latina) + geom_point(data = datos_america_latina, aes(x = gini, y = mort_infantil, color = "Red")) + labs(title = "Americalatina",
         subtitle = "mortalidad infantil y coeficiente de Gini", x = "mortalidad infantil",
         y = "coeficiente de Gini")

El gràfico muestra que cuando el coeficiente de Gini llega a 400, en general, es cuendo comienza a registrarse las muertes de niños menos de 5 años por cada 1000 nacidos vivos.

library(moderndive)
datos_america_latina %>% 
  get_correlation(gini ~ mort_infantil, na.rm = TRUE)
## # A tibble: 1 × 1
##      cor
##    <dbl>
## 1 -0.250

Se trata de una correlaciòn debil porque es menor a 0.3

datos_america_latina <- lm(gini ~ mort_infantil, data = datos_america_latina)

datos_america_latina
## 
## Call:
## lm(formula = gini ~ mort_infantil, data = datos_america_latina)
## 
## Coefficients:
##   (Intercept)  mort_infantil  
##      476.0403        -0.1404

##Realicemos un modelo de regresión lineal para esas dos variables. Describamos los resultados, ofreciendo una interpretación.

get_regression_table(datos_america_latina) 
## # A tibble: 2 × 7
##   term          estimate std_error statistic p_value lower_ci upper_ci
##   <chr>            <dbl>     <dbl>     <dbl>   <dbl>    <dbl>    <dbl>
## 1 intercept       476.      48.3        9.85   0      374.     578.   
## 2 mort_infantil    -0.14     0.128     -1.10   0.287   -0.409    0.129

Por cada punto que sube el coeficiente de gini, la mortalidad infantil baja en 0.14.

##Mostremos la relacion entre una variables categorica y otra continua/numérica, con un gráfico boxplot (mediante geom_boxplot()) o un gráfico de puntos “sacudidos” (mediante geom_jitter()). Expliquemos lo que muestra el gráfico.


```r
library(readr)
datos_america_latina <- read_csv("datos_america_latina.csv")
## Rows: 20 Columns: 9
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): pais, ind_dem_lib, tasa_migracion_neta
## dbl (1): pbi_per_capita
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
ggplot(datos_america_latina) + geom_boxplot(aes(x = tasa_migracion_neta, y = mort_infantil))

muestra que, a diferencia de lo pensado, la mortalidad infanti no necesariamente es la mas alta en los paìses en donde hay una mayor cantidad de gente hay una saldo positivo de la tasa de migración neta.

##Realicemos un modelo de regresión lineal para esas dos variables, describiendo los resultados sin olvidar interpretarlos.

datos_america_latina <- lm(mort_infantil ~ tasa_migracion_neta, data = datos_america_latina)

datos_america_latina
## 
## Call:
## lm(formula = mort_infantil ~ tasa_migracion_neta, data = datos_america_latina)
## 
## Coefficients:
##               (Intercept)   tasa_migracion_neta-0,42  
##                     239.0                     -120.0  
##  tasa_migracion_neta-0,43   tasa_migracion_neta-0,56  
##                     447.0                      -81.0  
##  tasa_migracion_neta-0,63   tasa_migracion_neta-1,23  
##                     227.0                      -51.0  
##  tasa_migracion_neta-1,34   tasa_migracion_neta-1,51  
##                      24.0                      -78.0  
##  tasa_migracion_neta-1,65  tasa_migracion_neta-18,45  
##                     -12.0                        7.0  
##  tasa_migracion_neta-2,88   tasa_migracion_neta-4,32  
##                     347.0                     -122.0  
##   tasa_migracion_neta0,05     tasa_migracion_neta0,1  
##                     655.0                     -112.0  
##    tasa_migracion_neta0,4    tasa_migracion_neta1,26  
##                     536.0                     -225.0  
##   tasa_migracion_neta2,02    tasa_migracion_neta4,12  
##                    -112.5                     -111.0  
##   tasa_migracion_neta5,85  
##                    -174.0
get_regression_table(datos_america_latina)
## # A tibble: 19 × 7
##    term                   estimate std_error statistic p_value lower_ci upper_ci
##    <chr>                     <dbl>     <dbl>     <dbl>   <dbl>    <dbl>    <dbl>
##  1 intercept                  239      0.707      338.   0.002   230.    248.   
##  2 tasa_migracion_neta: …    -120      1         -120    0.005  -133.   -107.   
##  3 tasa_migracion_neta: …     447      1          447    0.001   434.    460.   
##  4 tasa_migracion_neta: …     -81      1          -81    0.008   -93.7   -68.3  
##  5 tasa_migracion_neta: …     227      1          227    0.003   214.    240.   
##  6 tasa_migracion_neta: …     -51      1          -51    0.012   -63.7   -38.3  
##  7 tasa_migracion_neta: …      24      1           24    0.027    11.3    36.7  
##  8 tasa_migracion_neta: …     -78      1          -78    0.008   -90.7   -65.3  
##  9 tasa_migracion_neta: …     -12      1          -12    0.053   -24.7     0.706
## 10 tasa_migracion_neta: …       7      1            7    0.09     -5.71   19.7  
## 11 tasa_migracion_neta: …     347      1          347    0.002   334.    360.   
## 12 tasa_migracion_neta: …    -122      1         -122    0.005  -135.   -109.   
## 13 tasa_migracion_neta: …     655      1          655    0.001   642.    668.   
## 14 tasa_migracion_neta: …    -112      1         -112    0.006  -125.    -99.3  
## 15 tasa_migracion_neta: …     536      1          536    0.001   523.    549.   
## 16 tasa_migracion_neta: …    -225      1         -225    0.003  -238.   -212.   
## 17 tasa_migracion_neta: …    -112.     0.866     -130.   0.005  -124.   -101.   
## 18 tasa_migracion_neta: …    -111      1         -111    0.006  -124.    -98.3  
## 19 tasa_migracion_neta: …    -174      1         -174    0.004  -187.   -161.

##V. Realicemos una regresión lineal con la variable a predecir de I o III, junto con otras adicionales. Es decir, realizar una regresión con múltiples variables predictoras. Describamos los resultados, interpretándolos. ¿En qué cambian respecto al modelo que usa sólo un predictor?

library(readr)
datos_america_latina <- read_csv("datos_america_latina.csv")
## Rows: 20 Columns: 9
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): pais, ind_dem_lib, tasa_migracion_neta
## dbl (1): pbi_per_capita
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datos_america_latina <- lm(gini ~ mort_infantil + pbi_per_capita + exp_vida, data = datos_america_latina)

datos_america_latina
## 
## Call:
## lm(formula = gini ~ mort_infantil + pbi_per_capita + exp_vida, 
##     data = datos_america_latina)
## 
## Coefficients:
##    (Intercept)   mort_infantil  pbi_per_capita        exp_vida  
##     548.684701       -0.205297        0.001003       -0.114973
get_regression_table(datos_america_latina)
## # A tibble: 4 × 7
##   term           estimate std_error statistic p_value lower_ci upper_ci
##   <chr>             <dbl>     <dbl>     <dbl>   <dbl>    <dbl>    <dbl>
## 1 intercept       549.      115.        4.78    0      306.     792.   
## 2 mort_infantil    -0.205     0.149    -1.37    0.188   -0.522    0.112
## 3 pbi_per_capita    0.001     0.005     0.215   0.833   -0.009    0.011
## 4 exp_vida         -0.115     0.124    -0.93    0.366   -0.377    0.147

muestra que todas las relaciones con el coficiente de gini son dèbiles porque son menores a 0.3. Esto quiere decir que el coeficiente de gini aumenta cuando aumenta el PBI y disminuye cuando disminuye la expectativa de vida y la mortalidad