U1A10

Marijose González del Real

23/Sep/2020

Porcentaje anual de feminicidios en Estados Unidos. 1950 - 2004.

Regresión lineal simple

Feminicidios ## Importar

Importar paquetes

library(pacman)
p_load("readr")

Importar datos

datos <- read.csv("wmurders.csv")

Transformar

time <- as.numeric(datos$time)
value <- as.numeric(datos$value)
murders <- data.frame(time, value)
names(murders)
## [1] "time"  "value"

Visualizar

  • Gráfico de correlación, gráfico de pares
head(murders)
##   time    value
## 1 1950 2.429415
## 2 1951 2.363364
## 3 1952 2.374305
## 4 1953 2.295520
## 5 1954 2.329716
## 6 1955 2.233017
pairs(murders)

Modelar

Grado de correlación lineal

  • Matriz de coeficientes de correlación:
cor(murders)
##            time     value
## time  1.0000000 0.4836836
## value 0.4836836 1.0000000

Cálculo y representación de la recta de mínimos cuadrados

regresion <- lm(value ~ time, data=murders)
summary(regresion)
## 
## Call:
## lm(formula = value ~ time, data = murders)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.4136 -0.5171  0.1691  0.5339  1.1887 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -41.292284  11.107205  -3.718 0.000486 ***
## time          0.022602   0.005618   4.023 0.000183 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6614 on 53 degrees of freedom
## Multiple R-squared:  0.2339, Adjusted R-squared:  0.2195 
## F-statistic: 16.19 on 1 and 53 DF,  p-value: 0.0001833
  • Entonces, la recta de mínimos cuadrados, sería la siguiente:

\[ y = -41.292284 + 0.022602 x\]

Representación gráfica de la recta

plot(murders$time, murders$value, xlab = "Time", ylab = "Murders")
abline(regresion)

Modelación de valores

new.time <- data.frame(time = seq(1940,2010))
predict(regresion, new.time)
##        1        2        3        4        5        6        7        8 
## 2.556398 2.579000 2.601603 2.624205 2.646807 2.669410 2.692012 2.714615 
##        9       10       11       12       13       14       15       16 
## 2.737217 2.759820 2.782422 2.805024 2.827627 2.850229 2.872832 2.895434 
##       17       18       19       20       21       22       23       24 
## 2.918036 2.940639 2.963241 2.985844 3.008446 3.031049 3.053651 3.076253 
##       25       26       27       28       29       30       31       32 
## 3.098856 3.121458 3.144061 3.166663 3.189265 3.211868 3.234470 3.257073 
##       33       34       35       36       37       38       39       40 
## 3.279675 3.302277 3.324880 3.347482 3.370085 3.392687 3.415290 3.437892 
##       41       42       43       44       45       46       47       48 
## 3.460494 3.483097 3.505699 3.528302 3.550904 3.573506 3.596109 3.618711 
##       49       50       51       52       53       54       55       56 
## 3.641314 3.663916 3.686518 3.709121 3.731723 3.754326 3.776928 3.799531 
##       57       58       59       60       61       62       63       64 
## 3.822133 3.844735 3.867338 3.889940 3.912543 3.935145 3.957747 3.980350 
##       65       66       67       68       69       70       71 
## 4.002952 4.025555 4.048157 4.070760 4.093362 4.115964 4.138567

Inferencia en el modelo de regresión lineal simple

Suponemos que los datos proceden de un modelo de regresión simple de la forma:

\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1, \dots,n,\]

en donde:

Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)

Bajo este modelo:

  • Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna Std Error de la salida anterior. Los valores son: 11.107205 y 0.005618 respectivamente.

  • Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)

confint(regresion)
##                    2.5 %       97.5 %
## (Intercept) -63.57051609 -19.01405117
## time          0.01133407   0.03387076
confint(regresion, level=0.90)
##                      5 %         95 %
## (Intercept) -59.88703629 -22.69753097
## time          0.01319718   0.03200765
  • ¿Qué tan confiable es este modelo?

Comparativa de datos reales vs datos predecidos

  • Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo, el código a continuación estima y representa los dos tipos de intervalores (pare el rango del tiempo en los años 1940 a 2010), los de predicción en rojo.
new.time <- data.frame(time = seq(1940,2010))
# Gráfico de dispersión y recta
plot(murders$time, murders$value, xlab = "Time", ylab = "Murders")
abline(regresion)


#Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, las otras son los extremos del intervalo

ic <- predict(regresion,new.time, interval = "confidence")
lines(new.time$time, ic[, 2], lty=2)
lines(new.time$time, ic[, 3], lty=2)

#Intervalos de predicción


ic <- predict(regresion,new.time, interval = "prediction")
lines(new.time$time, ic[, 2], lty=2, col = "red")
lines(new.time$time, ic[, 3], lty=2, col = "red")

ANOVA

  • La tabla de análisis de varianza se obtiene con el comando ANOVA
anova(regresion)
## Analysis of Variance Table
## 
## Response: value
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## time       1  7.0806  7.0806  16.186 0.0001833 ***
## Residuals 53 23.1850  0.4375                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Intervalo de confianza analisis

Son pares de números en los que se determina si se encontrarán valores desconocidos con un determinado nivel de confianza, calculándose a partir de datos de una muestra.

  • Intervalo ANOVA

Es el análisis de la varianza, evaluando la variabilidad de datos.

Conclusiones

Se obtuvo el grado de correlación lineal con respecto a las muertes y el tiempo, con un valor de 0.4836836, lo cual es significativo para considerar que las variables tienen una cierta relación entre ellas. Además, debido al cálculo de la recta de mínimos cuadrados se pueden obtener valores de porcentajes de feminicidios al sustituir el tiempo en años. Asimismo, al representar gráficamente, la recta de los mínimos cuadrados se puede observar una correlación positiva, es decir, los datos son directamente proporcionales, por ello se dice que los feminicidios han ido en aumento con el paso del tiempo. Finalmente, se compararon datos reales y predichos de una modelación con respecto al tiempo, el grafico representa en líneas punteadas de color negro a los valores reales, los cuales están muy cercanos a la recta. Por otra parte, las líneas punteadas de color rojo representan los datos predichos por el programa, los cuales están bastante alejados de la línea central, puesto que se observa como toma los valores de los extremos.