[1] "SERIE" "NVONRO" "NSEGRUP" "SEXO" "GEDAD" "EDAD"
[7] "P12A" "P12B" "P12C" "P12D" "P12E" "P12F"
[13] "P12G" "P12H" "NIVELEDU"
¿Cuál es la variable que van a explicar en sus trabajos grupales?
¿Cuáles son sus variables independientes?
Un modelo de regresión lineal tiene como variable dependiente una variable numérica o intervalar
Las variables explicativas (independientes) que son parte del modelo suelen ser numéricas o intervalares; sin embargo, es posible incorporar variables explicativas ordinales o categóricas Un modelo de regresión lineal puede ser bivariado o multivariado
Nota: El modelo de regresión lineal que se va a considerar aquí es el que se establece a partir del método de la recta de mínimos cuadrados
Una regresión lineal genera:
Un coeficiente de regresión (lineal) que estima el efecto de la variable independiente sobre la variable dependiente.
Una medida (R cuadrado) que indica en qué medida la variable independiente explica la variación en la variable dependiente
Siempre y cuando se observe (o exista) una relación lineal, se puede calcular una ecuación lineal que predice los cambios en Y a partir de los cambios en X
Una regresión lineal a partir de la recta de mínimos cuadrados es aquella en la cual la ecuación que predice los cambios es la “mejor” línea en cuanto a la reducción de las distancias entre los valores observados y los valores que se predicen (suma de errores al cuadrado).
[1] "SERIE" "NVONRO" "NSEGRUP" "SEXO" "GEDAD" "EDAD"
[7] "P12A" "P12B" "P12C" "P12D" "P12E" "P12F"
[13] "P12G" "P12H" "NIVELEDU"
data$suma=data$P12A+data$P12B+data$P12C+data$P12D+data$P12E+data$P12F+data$P12G+data$P12H
summary(data$suma)
data$indicador=(data$suma/8)*100
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
0.000 0.000 0.000 1.465 3.000 8.000 1
Un(a) investigador(a) en Ciencias Sociales tiene la hipótesis que la incidencia de acoso callejero está vinculada con la edad, siendo que la edad del entrevistado podría explicar la incidencia del acoso callejero. Compruebe la hipótesis del investigador, utilizando la variable edad en años (no grupo de edad). Realice el gráfico respectivo. Interprete y elabore las conclusiones correspondientes.
Ahora realice el mismo ejercio utilizando la variable grupos de edad.
El investigador o la investigadora acude a revisar la literatura sobre la incidencia de acoso callejero y decide agregar más variables vinculadas a la incidencia de acoso callejero como la edad y el sexo. Compruebe la hipótesis del investigador. Interprete y elabore las conclusiones correspondientes. Realice el gráfico correspondiente.
El investigador o la investigadora desea corroborrar que el nivel socioeconómico no influye en la incidencia de acoso callejero.
Call:
lm(formula = indicador ~ EDAD, data = data)
Residuals:
Min 1Q Median 3Q Max
-30.288 -17.748 -6.638 12.535 89.840
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.34547 2.55986 15.370 <2e-16 ***
EDAD -0.50319 0.05687 -8.848 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 24.78 on 677 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.1036, Adjusted R-squared: 0.1023
F-statistic: 78.29 on 1 and 677 DF, p-value: < 2.2e-16
data$GEDAD=as.factor(data$GEDAD)
data$GEDAD=factor(data$GEDAD,
levels = levels(data$GEDAD),
labels = c("18a29","30a44","masde44"))
table(data$GEDAD)
18a29 30a44 masde44
197 216 267
library(fastDummies) #install.packages("fastDummies")
data=dummy_cols(data, select_columns = c("GEDAD"))
names(data)[18:20]
[1] "GEDAD_18a29" "GEDAD_30a44" "GEDAD_masde44"
0 1
483 197
0 1
464 216
0 1
413 267
Call:
lm(formula = indicador ~ GEDAD_18a29 + GEDAD_30a44, data = data)
Residuals:
Min 1Q Median 3Q Max
-26.967 -21.570 -9.316 15.684 90.684
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.316 1.535 6.070 2.14e-09 ***
GEDAD_18a29 17.651 2.356 7.493 2.12e-13 ***
GEDAD_30a44 12.253 2.298 5.332 1.33e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 25.08 on 676 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.0833, Adjusted R-squared: 0.08059
F-statistic: 30.72 on 2 and 676 DF, p-value: 1.707e-13
data$SEXO=as.factor(data$SEXO)
data$SEXO=factor(data$SEXO,
levels = levels(data$SEXO),
labels = c("Hombre","Mujer"))
Call:
lm(formula = indicador ~ EDAD + SEXO, data = data)
Residuals:
Min 1Q Median 3Q Max
-39.026 -15.934 -5.977 10.451 100.494
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.37965 2.50560 11.326 <2e-16 ***
EDAD -0.49783 0.05176 -9.618 <2e-16 ***
SEXOMujer 20.60331 1.73279 11.890 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 22.55 on 676 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.2587, Adjusted R-squared: 0.2565
F-statistic: 117.9 on 2 and 676 DF, p-value: < 2.2e-16
18a29 30a44 masde44
197 216 267
library(fastDummies) #install.packages("fastDummies")
data=dummy_cols(data, select_columns = c("NSEG"))
names(data)[21:23]
[1] "NSEGRUP_1" "NSEGRUP_2" "NSEGRUP_3"
0 1
517 163
0 1
350 330
0 1
493 187