Porcentaje anual de feminicidios en Estados Unidos. 1950 - 2004.
Regresión lineal simple
## Importar
Transformar
time <- as.numeric(datos$time)
value <- as.numeric(datos$value)
murders <- data.frame(time, value)
names(murders)## [1] "time" "value"
Visualizar
- Gráfico de correlación, gráfico de pares
## time value
## 1 1950 2.429415
## 2 1951 2.363364
## 3 1952 2.374305
## 4 1953 2.295520
## 5 1954 2.329716
## 6 1955 2.233017
Modelar
Grado de correlación lineal
- Matriz de coeficientes de correlación:
## time value
## time 1.0000000 0.4836836
## value 0.4836836 1.0000000
Cálculo y representación de la recta de mínimos cuadrados
##
## Call:
## lm(formula = value ~ time, data = murders)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4136 -0.5171 0.1691 0.5339 1.1887
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -41.292284 11.107205 -3.718 0.000486 ***
## time 0.022602 0.005618 4.023 0.000183 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6614 on 53 degrees of freedom
## Multiple R-squared: 0.2339, Adjusted R-squared: 0.2195
## F-statistic: 16.19 on 1 and 53 DF, p-value: 0.0001833
- Entonces, la recta de mínimos cuadrados, sería la siguiente:
\[ y = -41.292284 + 0.022602 x\]
Representación gráfica de la recta
Modelación de valores
## 1 2 3 4 5 6 7 8
## 2.556398 2.579000 2.601603 2.624205 2.646807 2.669410 2.692012 2.714615
## 9 10 11 12 13 14 15 16
## 2.737217 2.759820 2.782422 2.805024 2.827627 2.850229 2.872832 2.895434
## 17 18 19 20 21 22 23 24
## 2.918036 2.940639 2.963241 2.985844 3.008446 3.031049 3.053651 3.076253
## 25 26 27 28 29 30 31 32
## 3.098856 3.121458 3.144061 3.166663 3.189265 3.211868 3.234470 3.257073
## 33 34 35 36 37 38 39 40
## 3.279675 3.302277 3.324880 3.347482 3.370085 3.392687 3.415290 3.437892
## 41 42 43 44 45 46 47 48
## 3.460494 3.483097 3.505699 3.528302 3.550904 3.573506 3.596109 3.618711
## 49 50 51 52 53 54 55 56
## 3.641314 3.663916 3.686518 3.709121 3.731723 3.754326 3.776928 3.799531
## 57 58 59 60 61 62 63 64
## 3.822133 3.844735 3.867338 3.889940 3.912543 3.935145 3.957747 3.980350
## 65 66 67 68 69 70 71
## 4.002952 4.025555 4.048157 4.070760 4.093362 4.115964 4.138567
Inferencia en el modelo de regresión lineal simple
Suponemos que los datos proceden de un modelo de regresión simple de la forma:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1, \dots,n,\]
en donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)
Bajo este modelo:
Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna Std Error de la salida anterior. Los valores son: 11.107205 y 0.005618 respectivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)
## 2.5 % 97.5 %
## (Intercept) -63.57051609 -19.01405117
## time 0.01133407 0.03387076
## 5 % 95 %
## (Intercept) -59.88703629 -22.69753097
## time 0.01319718 0.03200765
- ¿Qué tan confiable es este modelo?
Comparativa de datos reales vs datos predecidos
- Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo, el código a continuación estima y representa los dos tipos de intervalores (pare el rango del tiempo en los años 1940 a 2010), los de predicción en rojo.
new.time <- data.frame(time = seq(1940,2010)) # Gráfico de dispersión y recta plot(murders$time, murders$value, xlab = "Time", ylab = "Murders") abline(regresion) #Intervalos de confianza de la respuesta media # ic es una matriz con tres columnas: #La primera es la predicción, las otras son los extremos del intervalo ic <- predict(regresion,new.time, interval = "confidence") lines(new.time$time, ic[, 2], lty=2) lines(new.time$time, ic[, 3], lty=2) #Intervalos de predicción ic <- predict(regresion,new.time, interval = "prediction") lines(new.time$time, ic[, 2], lty=2, col = "red") lines(new.time$time, ic[, 3], lty=2, col = "red")ANOVA
- La tabla de análisis de varianza se obtiene con el comando ANOVA
## Analysis of Variance Table ## ## Response: value ## Df Sum Sq Mean Sq F value Pr(>F) ## time 1 7.0806 7.0806 16.186 0.0001833 *** ## Residuals 53 23.1850 0.4375 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1- Intervalo de confianza analisis
Son pares de números en los que se determina si se encontrarán valores desconocidos con un determinado nivel de confianza, calculándose a partir de datos de una muestra.
- Intervalo ANOVA
Es el análisis de la varianza, evaluando la variabilidad de datos.
Conclusiones
Se obtuvo el grado de correlación lineal con respecto a las muertes y el tiempo, con un valor de 0.4836836, lo cual es significativo para considerar que las variables tienen una cierta relación entre ellas. Además, debido al cálculo de la recta de mínimos cuadrados se pueden obtener valores de porcentajes de feminicidios al sustituir el tiempo en años. Asimismo, al representar gráficamente, la recta de los mínimos cuadrados se puede observar una correlación positiva, es decir, los datos son directamente proporcionales, por ello se dice que los feminicidios han ido en aumento con el paso del tiempo. Finalmente, se compararon datos reales y predichos de una modelación con respecto al tiempo, el grafico representa en líneas punteadas de color negro a los valores reales, los cuales están muy cercanos a la recta. Por otra parte, las líneas punteadas de color rojo representan los datos predichos por el programa, los cuales están bastante alejados de la línea central, puesto que se observa como toma los valores de los extremos.