Consignas

  1. Estudiar en cada una de las ciudades si sería una buena opción utilizar la variable de educación para estratificar los radios en lugar de las variables anteriores.

  2. Por otra parte, se piensa que el total de hogares con jefes con primaria completa o secundaria incompleto puede ser un buen predictor para el total de hogares con garrafa o leña como combustible usado principalmente para cocinar. Es por ello que se planea ajustar una regresión lineal en cada una de las ciudades, asumiendo los radios de cada localidad como una muestra de una población de radios. En cada uno de los puntos presentar el código utilizado, la salida y una breve conclusión.

Ajustar el modelo de regresión lineal y graficar la recta ajustada. Presentar una salida donde se observen los test de hipótesis sobre los parámetros del modelo. Evaluar si el modelo lineal es adecuado. Evaluar si hay homocedasticidad de los errores. Indicar la existencia de outliers. Evaluar si la distribución de los errores puede aproximarse a una distribución normal. Mostrar a través de un gráfico la bondad del modelo ajustado.

  1. Calcular en ambas localidades la correlación entre total de hogares y h_combustible. Estudiar gráficamente que pasaba con la provisión de gas natural en ambas ciudades en el 2010 y hacer un comentario general.

LIBRERIAS

library(tidyverse)
library(mosaic)
library(ggpubr)
library(hrbrthemes)
library(ggmap)
library(osmdata)
library(tmap)
library(ggcleveland)
library(broom)
library(grid)

Punto Uno

DATA SETS

reconqavella <- read.csv("C://Users/Mauro/Desktop/Estudios/Modulo 4/ReconqAvellaneda.csv  "
                         , encoding = "UTF-8")

venadotuerto <- read.csv("C://Users/Mauro/Desktop/Estudios/Modulo 4/VenadoTuerto.csv  "
                         , encoding = "UTF-8")

TRABAJO CON DATOS

#jefes reconq
jefes_reconq <- reconqavella %>% 
  select("Código.de.radio.","Total.de.hogares","Población.total", "Hogares.con.jefes.con.primaria.completa.o.secundaria.incompleto")

  jefes_reconq <- rename(jefes_reconq, primario_secundarioINC=Hogares.con.jefes.con.primaria.completa.o.secundaria.incompleto)


#jefes venado
jefes_venado <- venadotuerto %>% 
  select("Código.de.radio.","Total.de.hogares","Población.total", "Hogares.con.jefes.con.primaria.completa.o.secundaria.incompleto")

jefes_venado <- rename(jefes_venado, primario_secundarioINC=Hogares.con.jefes.con.primaria.completa.o.secundaria.incompleto)

#Calculamos las medias y los desvíos

media_reconq <- mean(jefes_reconq$primario_secundarioINC)              
media_venado <- mean(jefes_venado$primario_secundarioINC)     

sd_reconq <- sd(jefes_reconq$primario_secundarioINC)
sd_venado <- sd(jefes_venado$primario_secundarioINC)

GRÁFICOS

# Grafico con distribución normal y empiríca con el total de la población en cuestión. 

g1= ggplot(jefes_reconq,
           aes(primario_secundarioINC))+
  labs(title = "Distribución empírica y distribución normal teórica",
       subtitle = "Nivel educativo jefes en Reconquista")+
  stat_ecdf(geom = "step",pad = F,
            show.legend = TRUE)+ 
  stat_function(fun = pnorm, color="blue", args = list(mean=media_reconq,
                                                       sd=sd_reconq))+ 
  theme_bw()



g2=ggplot(jefes_venado,
           aes(primario_secundarioINC))+
  labs(title = "Distribución empírica y distribución normal teórica",
       subtitle = "Nivel educativo jefes en Reconquista")+
  stat_ecdf(geom = "step",pad = F,
            show.legend = TRUE)+ 
  stat_function(fun = pnorm, color="blue", args = list(mean=media_venado,
                                                         sd=sd_venado))+ 
  theme_bw()


#Histogramas
g3=ggplot(jefes_reconq, aes(x = primario_secundarioINC)) + 
  geom_histogram(aes(y = ..density..), fill = "#2b8cbe", col = "black",bins=8) +
  labs(title="Histograma de Reconquista - Avellaneda",
       x = "x", y = "Densidad")+
  stat_function(fun=dnorm,color="#f03b20",args=list(mean=media_reconq,sd=sd_reconq), size=2.3)+
  theme_bw()

g4=ggplot(jefes_venado, aes(x = primario_secundarioINC)) + 
  geom_histogram(aes(y = ..density..), fill = "#2b8cbe", col = "black",bins=8) +
  labs(title="Histograma de Venado Tuerto",
       x = "x", y = "Densidad")+
  stat_function(fun=dnorm,color="#f03b20",args=list(mean=media_venado,sd=sd_venado), size=2.3)+
  theme_bw()


#Estimacion suavizada

g5=ggplot(jefes_reconq, aes(x = primario_secundarioINC)) + 
  stat_density(fill = "grey", col = "black")+
  labs(title="Estimación suavizada de Reconquista - Avellaneda",
       x = "Cantidad", y = "Densidad")+
  stat_function(fun=dnorm,color="blue",args=list(mean=media_reconq,sd=sd_reconq))+
  theme_bw()


g6=ggplot(jefes_venado, aes(x = primario_secundarioINC)) + 
  stat_density(fill = "grey", col = "black")+
  labs(title="Estimacion suavizada de Venado Tuerto",
       x = "Cantidad", y = "Densidad")+
  stat_function(fun=dnorm,color="blue",args=list(mean=media_venado,sd=sd_venado))+
  theme_bw()


# qq-plot

g7=ggplot(jefes_reconq, aes(sample = primario_secundarioINC)) +
  stat_qq(size = 0.7, color="#f03b20") +  
  stat_qq_line(alpha=.6, size=1) + 
  labs(title = "qqplot de Reconquista - Avellaneda",
       x = "Cuantil normal", y = "")+
  theme_bw()

g8=ggplot(jefes_venado, aes(sample = primario_secundarioINC)) +
  stat_qq(size = 0.7, color="#f03b20") +  
  stat_qq_line(alpha=.6, size=1) + 
  labs(title = "qqplot de Venado Tuerto",
       x = "Cuantil normal", y = "")+
  theme_bw()


ggarrange(g1,g2,g3,g4, ncol=2, nrow=2)

ggarrange(g5,g6,g7,g8, ncol = 2, nrow = 2)

En una primera mirada podría argumentar que estratificar los radios a partir de la variable que refiere al nivel educativo de acuerdo a primaria completa y secundario incompleto, como criterio para agrupar segun las caracterterísticas socioeconómicas de los hogares (como condiciones de hacinamiento y de los materiales que componen el hogar) no es una buena idea ya que la distribución empírica de la variable se comporta muy diferentemente a la propuesta óptima que expresa su distribución teórica. Esto nos indica que la distribución de los jefes de hogares no es uniforme en el espacio geográfico, sino que hay radios con una diferencia marcada en la cantidad de jefes de hogares con estas categorías educativas.

Partiendo de esta premisa, ¿sería oportuno partir de esta variable como reemplazo de las otras variables, como condiciones materiales de los hogares, como criterio de estratificación? Creo que no, ya que habría radios donde este criterio no se cumpliría al tratarse de una distribución no normal de la variable

Para ello me valí de cuatro tipos de gráficos:

  1. Gráfico de la función de distribución empírica con la distribución Normal teórica
  2. Histograma con la función de densidad Normal teórica
  3. Estimación de densidad suavizada con la función de densidad Normal teórica
  4. qq - plot

Punto dos

¿Es un buen predictor el nivel educativo de jefes de hogares (X) para la distribución de hogares con garrafa o leña como combustible usado principalmente para cocinar?

James (2013) plantea algunas preguntas que ayudan a pensar qué tan bien puede explicar un modelo de regresión lineal la relación entre dos variables. Entre ellas:

  1. ¿Cuán fuerte puede ser esa relación? ¿Podemos predecir Y con una serie de datos X?
  2. ¿Cuán certeras pueden ser nuestras predicciones a futuro?
  3. ¿Es una relación lineal?

Caso Reconquista - Avellaneda

#Creo variables

#Reconquista
reconq_garryleña <- reconqavella %>% 
  select("Código.de.radio.","Hogares.con.garrafa.o.leña.como.combustible.usado.principalmente.para.cocinar")

reconq_garryleña <- rename(reconq_garryleña, garryleña=Hogares.con.garrafa.o.leña.como.combustible.usado.principalmente.para.cocinar)


#Reconquista
jefes_reconq <- jefes_reconq %>% 
  left_join(reconq_garryleña, by="Código.de.radio.")


# APARTADO RECONQUISTA - AVELLANEDA
#Grafio dispersion RECONQUISTA
ggplot(jefes_reconq, aes(x = primario_secundarioINC, y = garryleña)) +
  geom_point()+
  theme_ipsum_es() +
  labs(title = "Correlación entre nivel educativo y combustible de garrafa y leña",
       subtitle = "Nivel educativo según condiciones del hogar")

#Miremos si covarían
cor(jefes_reconq$primario_secundarioINC, jefes_reconq$garryleña)
## [1] 0.9646976

La intensidad de una correlación va de -1 (correlación negativa total) a 1 (correlación positiva total). En este caso es de 0.964. Pareciera que sí

Sin embargo, aún desconocemos el efecto que a más cantidades de hogares con tal nivel educativo tiene sobre la cantidad de hogares con garrafa y leña. Eso es lo que vamos a determinar con la regresión lineal. Usamos la palabra efectos para aclarar una de las limitaciones del modelado estadístico: Según Antonio Vázquez Brust, “podemos demostrar que hay una correlación, pero no causalidad. Es decir, no podemos probar que una variable causa a la otra; en todo caso, probamos que se mueven juntas y en base a ello podríamos diseñar un experimento que permita comprobar causalidad.”

#Construimos el modelo
reconq_modelo=lm(data = jefes_reconq, garryleña~primario_secundarioINC) 

# Queremos estimar el efecto en la variable de garrafa y leña cuando incrementa el valor de hogares con x nivel educativo

reconq_modelo
## 
## Call:
## lm(formula = garryleña ~ primario_secundarioINC, data = jefes_reconq)
## 
## Coefficients:
##            (Intercept)  primario_secundarioINC  
##                 88.526                   1.083
# El coeficiente de variación es de 1,083
# Es decir que por cada hogar con primario completo y secundario incompleto que aumenta
# la variable de hogares con garrafa y leña para cocinar aumenta en 1

# También podemos tomar el R2 como medidor de la proporcion de variabilidad en Y
# que puede ser explicada por X. Un valor más cercano a 1 indica que una gran proporcion
# de la variabilidad en la respuesta está explicada por la regresión. A más cercano a 0
# detalla que la regresión no explica mucho la variaiblidad en cuestió.

# El R cuadrado
summary(reconq_modelo)$r.squared
## [1] 0.9306414
#R cuadrado de 0.930, es decir que es alta la relación


# Graficar ahora con la recta segun los valores
ggplot(jefes_reconq, aes(x = primario_secundarioINC, y = garryleña)) +
  geom_point( color="black") +
    geom_smooth(method=lm , color="red", se=FALSE) +
  labs(title = "Correlación entre nivel educativo y combustible de garrafa y leña",
       subtitle = "Nivel educativo según condiciones del hogar",
       caption = "Con línea de regresión")+
  theme_ipsum()+
  xlim(c(-100, 800)) +
  ylim(c(0, 750))+
  annotate("rect", xmin=100, xmax = 280,
           ymin=200, ymax=450, alpha=.2, fill="red")

En un principio pareciera que sí hay correlación, y que los puntos están cercanos a la distribución normal Sin embargo, es interesar observar que hay una cierta cantidad de casos que se amontonan en el parámetro de 300 hogares con jefes segun X nivel educativo y 400 hogares según (Y) condiciones de material en los hogares.

Sobre esta particularidad, James también pone su atención y los denomina como “High Levarge Points”, algo así como “altos puntos de apalancamiento”, es decir, “donde el valor predictor para esta observación es alto en relación con otras observaciones (…) De hecho, las observaciones de alto apalancamiento tienden a tener un impacto considerable en la regresión estimada. Es motivo de preocupación si la línea de mínimos cuadrado se ve muy afectada por solo un par de observaciones, porque cualquier problema con estos puntos puede invalidar todo el ajuste”.

Entonces, ¿a qué podría deberse que en los radios censales de esta localidad haya alta concentración de casos según esta correlación?

Plantiémoslo según un test de hipótesis:

Hipótesis nula: El nivel educativo de tipo primario completo y secundario incompleto NO está relacionado con el tipo de combustible utilizado para cocinar

Hipótesis alternativa: El nivel educativo de tipo primario completo y secundario incompleto SÍ está relacionado con el tipo de combustible utilizado para cocinar

summary(reconq_modelo)
## 
## Call:
## lm(formula = garryleña ~ primario_secundarioINC, data = jefes_reconq)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -88.038 -20.369  -1.815  23.227 132.020 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            88.52620    9.39591   9.422 5.12e-14 ***
## primario_secundarioINC  1.08264    0.03558  30.427  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 38.89 on 69 degrees of freedom
## Multiple R-squared:  0.9306, Adjusted R-squared:  0.9296 
## F-statistic: 925.8 on 1 and 69 DF,  p-value: < 2.2e-16

Según este resultado, en Reconquista - Avellaneda, rechazamos la hipótesis nula, y aceptamos la alternativa. “Con valores p menores al 0.05% podríamos inferir que las probabilidades de que haya sido el azar en la relación entre variables son nulas, de allí que aceptaríamos la hipítesis alternativa, de que sí estan relacionadas las variables” Sin embargo esto no nos dice por qué están relacionadas, sino que lo están.

Entre los potenciales errores que puede esconder una regresión lineal están: a) La no linealidad de la relación entre variables b) Correlaciones de los errores c) Outliers d) Altos niveles de palancamiento

Sobre la primera, la regresión lineal asume que hay una estrecha relación lineal entre los predictores y la variable respuesta. Para ello los gráficos de residuos son una herramienta gráfica para identificar si hay NO-LINEALIDAD.

#Homocedasticidad  de los errores

#Residuos Reconquista
reconq_residuos <- residuals(reconq_modelo)
#Lo agregamos a jefes

jefes_reconq <- jefes_reconq %>% 
  mutate(residuos=reconq_residuos)

# Graficamos

ggplot(jefes_reconq, aes(x=primario_secundarioINC, y=reconq_residuos)) +
  geom_point(size=2, alpha=.8) +
  stat_smooth(method = "loess", se = FALSE, span = 1, method.args = list(degree = 1), color="#1c9099", size=1.5)+ 
  geom_hline(yintercept = 0, col = "red") +
  labs(x = "Hogares con primario completo y secundario incompleto", y = "residuo del modelo lineal")+
  labs(title = "Grafico de residuos de Reconqusita - Avellaneda")+
theme_ipsum()

¿Qué sucede con los residuos? Idealmente, no debería aparecer ningún patrón. Pareciera que fuera pequeño. Miremos más de cerca teniendo en cuenta: a) errores no independientes b) errores no normales c) outliers

r1=ggplot(jefes_reconq, aes(sample=residuos)) +
  stat_qq(size = 1) + 
  geom_hline(yintercept = 0, col = "red") +
  labs(x = "Cuantil normal", y = "x")+
  labs(title = "Distribucion de los residuos ",
       subtitle = "Según en torno a 0",
       caption = "No son independientes")+
  theme_ipsum()


r2=ggplot(jefes_reconq, aes(sample = residuos)) +
  stat_qq(size = 1) + 
  stat_qq_line(color="red", size=1) +
  labs(x = "Cuantil normal", y = "x")+
  labs(title = "Distribucion de los residuos",
       subtitle = "Según qq-normal",
       caption = "No son normales")+
  theme_ipsum()

r3=ggplot(jefes_reconq %>% filter(residuos >=100 | residuos <=-70))+
  geom_point(aes(x=primario_secundarioINC, y=residuos), color="red", size=3)+
  geom_hline(yintercept = 0, col = "blue") +
  theme_bw()+
  labs(title = "Outliers de residuos",
       subtitle = "Según en torno a 0")+
  theme_ipsum()

ggarrange(r1,r2,r3, ncol=3)

Aquí vemos que la distribucion de los residuos no es normal, sino que sigue un patró. Es decir, posee: a) errores no independientes b) errores no normales y si nos fijamos bien, también outliers; estos pueden traer problemas en el modelo ya que puede alterar el varlo del R cuadrado.

#Bondad del modelo

reconq_modelo2=lm(data = jefes_reconq, garryleña~primario_secundarioINC)  %>% augment()

gg_rf(reconq_modelo2, garryleña, .fitted, .resid, cen_obs = T) +
  xlab("valor f") + ylab("Hogares con garrafa y leña")+
  theme_bw()

¿Es bueno el modelo para explicar la variabilidad de Y? Entre la variabilidad de la variable original, la variabilidad de los valores ajustados y la variabilidad de los residuos: Si el modelo fuese bueno para explicar esa variabilidad los valores de los residuos debería ser horizontales es decir, que no hubiera nada sin explicar, En sítesis: En un principio, si nos atuvieramos únicamente a los primeros datos revelados:

El R cuadrado y la información del modelo ajustado segun los valores de p-value diríamos que hay una correlación alta entre nuestras variables. Sin embargo, indicaba solo eso. Una posible correlación. Pero cuando nos adentramos más en los detalles observamos que: hay valores que están amontonados en un parámetro, y que ello podría estar alterando el R2. Los residuos también presentan una forma que delatan que nuestro modelo no explica del todo bien nuestras variables. Es decir, que no es pertinente tomar al predictor el nivel educativo de los jefes de hogares para predecir normalmente el comportamiento de Y (Uso de garrafa y leña para su uso en la cocina)

En un principio pareciera que el modelo pudiera explicar la relacion entre nivel educativo y condiciones de coccion (leña y garrafa). Sin embargo, al observar los residuos podemos aifrmar que no cumple con algunas de las condiciones para que el modelo sea adecuado

Caso Venado Tuerto

#Jefes de hogares
venado_garryleña <- venadotuerto %>% 
  select("Código.de.radio.","Hogares.con.garrafa.o.leña.como.combustible.usado.principalmente.para.cocinar")

venado_garryleña <- rename(venado_garryleña, garryleña=Hogares.con.garrafa.o.leña.como.combustible.usado.principalmente.para.cocinar)


#Unión
jefes_venado <- jefes_venado %>% 
  left_join(venado_garryleña, by="Código.de.radio.")



#Gráfico
ggplot(jefes_venado, aes(x = primario_secundarioINC, y = garryleña)) +
  geom_point()+
  theme_ipsum_es() +
  labs(title = "Correlación entre nivel educativo y combustible de garrafa y leña",
       subtitle = "Nivel educativo según condiciones del hogar")

Miremos si covarían

cor(jefes_venado$primario_secundarioINC, jefes_venado$garryleña)
## [1] 0.8566257

En este caso es de 0.856 Pareciera que sí

#Construimos el modelo
venado_modelo=lm(data = jefes_venado, garryleña~primario_secundarioINC) 

venado_modelo
## 
## Call:
## lm(formula = garryleña ~ primario_secundarioINC, data = jefes_venado)
## 
## Coefficients:
##            (Intercept)  primario_secundarioINC  
##               -111.967                   1.035

El coeficiente de variación es de 1,035 Es decir que por cada hogar con primario completo y secundario incompleto que aumenta la variable de hogares con garrafa y leña para cocinar aumenta en 1

El R cuadrado

summary(venado_modelo)$r.squared
## [1] 0.7338075

R cuadrado de 0.7338. No es tan alto. Ahora que tenemos la experiencia de Reconquista y Avellaneda. Sabemos que debemos ser cautelosos.

# Graficar ahora con la recta segun los valores
ggplot(jefes_venado, aes(x = primario_secundarioINC, y = garryleña)) +
  geom_point( color="black") +
  geom_smooth(method=lm , color="red", se=FALSE) +
  labs(title = "Correlación entre nivel educativo y combustible de garrafa y leña",
       subtitle = "Nivel educativo según condiciones del hogar",
       caption = "Con línea de regresión")+
  theme_ipsum()+
  xlim(c(-100, 600)) +
  ylim(c(0, 750))+
  annotate("rect", xmin=100, xmax = 270,
           ymin=0, ymax=200, alpha=.2, fill="red")

En este caso parecuera que los casos están más alejados de la media que Reconquista - Avellaneda. Y que los casos más próximos a la media están entre los 250 hogares con jefes de X nivel educativo y 150 de Y condiciones para cocinar. Es decir, menor cantidad de casos alrededor de la media que los presentados por Reconquista - Avellaneda. ¿Qué nos puede decir esto?

# Hagamos una primera revisión
bbox <- getbb("Venado Tuerto, Santa Fé", format_out = "sf_polygon")
bbox2 <- getbb("Reconquista, Santa Fé", format_out = "sf_polygon")

bbox3 <- bind_rows(bbox, bbox2)

tmap_mode("view")
tm_shape(bbox3) +
  tm_bubbles(shape = 2, col = "red", size=3, alpha=.4)

Están alejados geográficamente. Al norte está Reconquista, con determinada relación entre variables y al sur Venado Tuerto, con una, exploratoriamente, menor correlación entre sus variables.

Plantiémoslo segúnn un test de hipótesis:

Hipótesis nula: El nivel educativo de tipo primario completo y secundario incompleto NO está relacionado con el tipo de combustible utilizado para cocinar

Hipótesis alternativa: El nivel educativo de tipo primario completo y secundario incompleto SÍ está relacionado con el tipo de combustible utilizado para cocinar

summary(venado_modelo)
## 
## Call:
## lm(formula = garryleña ~ primario_secundarioINC, data = jefes_venado)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -159.288  -26.540   -1.311   27.370  152.085 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -111.96699   16.46229  -6.801 2.56e-09 ***
## primario_secundarioINC    1.03506    0.07347  14.088  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 60.55 on 72 degrees of freedom
## Multiple R-squared:  0.7338, Adjusted R-squared:  0.7301 
## F-statistic: 198.5 on 1 and 72 DF,  p-value: < 2.2e-16

Según este resultado, en Venado Tuerto, rechazamos la hipótesis nula, y aceptamos la alternativa “Con valores p menores al 0.05% podríamos inferir que las probabilidades de que haya sido el azar en la relación entre variables son nulas, de allí que aceptaríaamos la hipótesis alternativa, de que sí estan relacionadas las variables” Sin embargo esto no nos dice por que están relacionadas, sino que lo están.

Repasemos los errores:

#Residuos Venado
venado_residuos <- residuals(venado_modelo)
#Lo agregamos a jefes

jefes_venado <- jefes_venado %>% 
  mutate(residuos=venado_residuos)

# Graficamos

ggplot(jefes_venado, aes(x=primario_secundarioINC, y=venado_residuos)) +
  geom_point(size=2, alpha=.8) +
  stat_smooth(method = "loess", se = FALSE, span = 1, method.args = list(degree = 1), color="#1c9099", size=1.5) +  geom_hline(yintercept = 0, col = "red") +
  labs(x = "Hogares con primario completo y secundario incompleto", y = "residuo del modelo lineal")+
  labs(title = "Grafico de residuos de Venado Tuerto")+
  theme_ipsum()

v1=ggplot(jefes_venado, aes(sample=venado_residuos)) +
  stat_qq(size = 1) + 
  geom_hline(yintercept = 0, col = "red") +
  labs(x = "Cuantil normal", y = "x")+
  labs(title = "Distribucion de los residuos ",
       subtitle = "Según en torno a 0",
       caption = "No son independientes")+
  theme_ipsum()


v2=ggplot(jefes_venado, aes(sample = venado_residuos)) +
  stat_qq(size = 1) + 
  stat_qq_line(color="red", size=1) +
  labs(x = "Cuantil normal", y = "x")+
  labs(title = "Distribucion de los residuos",
       subtitle = "Según qq-normal",
       caption = "No son normales")+
  theme_ipsum()

v3=ggplot(jefes_venado %>% filter(residuos >=100 | residuos <=-100))+
  geom_point(aes(x=primario_secundarioINC, y=residuos), color="red", size=3)+
  geom_hline(yintercept = 0, col = "blue") +
  theme_bw()+
  labs(title = "Outliers de residuos",
       subtitle = "Según en torno a 0")+
  theme_ipsum()

ggarrange(v1,v2,v3, ncol=3)

Aquí vemos que la distribución de los residuos no es normal, sino que sigue un patrón. Es decir, posee: errores no independientes errores no normales y si nos fijamos bien, también outliers; estos pueden traer problemas en el modelo ya que puede alterar el varlo del R cuadrado.

#Bondad del modelo

venado_modelo2=lm(data = jefes_venado, garryleña~primario_secundarioINC)  %>% augment()

gg_rf(venado_modelo2, garryleña, .fitted, .resid, cen_obs = T) +
  xlab("valor f") + ylab("Hogares con garrafa y leña")+
  theme_bw()

En el caso de Venado Tuerto se desarrolla algo parecido al caso de Reconquista. Por más que el R2 haya sido relativamente alto, los residuos expresaron que el modelo no es del todo ajustado como para aseverar que el nivel educativo de primario completo y secundario completo es un predictor de cantidad de hogares que utilizan garrafa y leña para cocinar. Ello quedó demostrado en lo que expresaron los residuos y la cantidad de caso agrupados en un parámetro

Punto tres

Para hacer un análisis final de los hechos podemos partir de algunas premisas según el análisis

El punto 1 devela que la distribución empírica de la variable de jefes con nivel educativo de tipo primario y secundario incompleto está poco ajustado a su distribución normal. El gráfico demuestra que hay una concentración entre 100 y 200 hogares por radio censal con tales características tanto en Reconquista como en Venado Tuerto. ¿Por qué será que hay una concentración según esa cantidad de hogares? Pero Venado tiene una concentración un poco mayor, y una cola menos pesada que Reconquista También vimos que Venado Tuerto está al sur de la provincia de Santa fé, y que Reconquista al norte ¿En dónde estará geográficamente la cola de Reconquista? ¿Hacia el sur o hacia el norte? Porque también podríamos argumentar que los radios de Venado con concentración entre 200 y 300 hogares con tales característica están más cercanos a los radios de la cola de Reconquista.

Con el punto 2 intentamos construir un modelo que pudiese predecir una condición de hogar según un nivel educativo. A primera vista parecían correlacionados. Sin embargo, los residuos demostraron que no poseían una distribución normal, así como presentaban un patrón no irregular. Esto último da cuenta que podría haber un factor geográfico que podría estar influyendo en los resultados. ¿Y si recurrimos a las noticias para conocer un poco más?

Según el Documento de Trabajo N°40 / Marzo de 2010, en el “Diagnóstico comunitario y líneas de acción en Venado Tuerto”(https://www.cippec.org/wp-content/uploads/2017/03/1598.pdf) Hubo deficiencias de infraestructura derivados del rápido crecimiento de la ciudad, Precisamente: “Otro de los problemas en este eje se encuentra ligado al crecimiento de la ciudad, y la consecuente provisión deficiente de servicios de agua corriente, cloacas y gas natural en las zonas de asentamientos más recientes.” Y en Venado vemos que nuestro modelo explica mayormente los radios de 150 hogares con x nivel educativo e y condiciones de los hogares

En el caso de Reconquista - Avellaneda, según el periódico “El Litoral”, en el año 2010 Ambas ciudades acordaron impulsar el servicio de gas en redes. (https://www.ellitoral.com/index.php/diarios/2010/04/24/regionales/REGI-01.html) El titular municipal de Reconquista expresó que “ésta es una de las pocas regiones que aún no cuentan con este servicio, como sí lo tienen Cuyo, el NOA y demás”.

Es decir, en ambas ciudades ha habido una problema de abastecimiento de gas pero por las condiciones geográficas o por la mayor población asentada. Si bien están correlacionadas ambas variables, una no puede explicar la otra. La cuestión geográfica es un elemento a tener en cuenta, porque tal vez la rápida urbanización en determinadas zonas geográficas demuestra la falta de redes de gas natural.

Finalmente, por querer explicar Y según X nos topamos con una cuestión geográfica, pero que se develó únicamente mediante el análisis y revisión de los residuos, la observación en el espacio, noticias y documentos de trabajos publicados años atrás. Ello da cuenta que el ejercicio estadístico no puede comenzar y terminar en una regresión sino que debe recurrir a otras observaciones y fuentes para estudiar la relación entre variables