Planteamiento de la pregunta de investigación
❑ ¿Qué se quiere probar , hallar o evidenciar con este trabajo? ¿Qué factores condicionan el nivel de salario de una persona con discapacidad? ¿Qué factores determinan el salario de las personas con discapacidad?
Variables independientes
- facto
- b
- c
Metodología.
¿Cómo se va a responder a la pregunta de investigación?
¿Qué base de datos se utilizará (año, periodicidad, población objetivo, tamaño de la
muestra etc), ### Qué procesamiento de los datos que se realizará. ### Mediante qué método estadístico se logrará responder la pregunta.
Activamos las librerías
library(rio)
library(haven)
library(dslabs)
library(MASS)
library(car)
library(dplyr)
library(tidyverse)
library(DescTools)#para el pseudo R2
library(ggfortify)
library(see)
library(patchwork)
library(performance)
library(car)
library(lmtest)#para usar breusch pagan
library(nortest)#para usar Kolmogorov-Smirnov
Limpieza de la data
bd=import("Base de Datos II Estudio Nacional de la Discapacidad.sav")
bd_1=bd%>%filter(edad > 18)
data<- bd_1[,c("des_puntaje_adulto","educc","sexo","h4","h9","zona","c41_1","disc_grado_adulto", "fa1", "fa2", "fa3","fa4","fa5","fa6","fa7","fa8","fa9","fa10","fa11","fa22","fa25_6","fa32","fa32_1","fa26_3","fa26_6","fa40","d1","d2","d3","d4","d5","d6","d7","d10","d11","d12","d13","d14","d15","d16","d19","d20","d21","d22","d23","d24","d25","d26","d27","d28","d29","d34","d35","d36")]
#data<-na.omit(subdata)
Recodificación de variables
1: Pertenencia a una comunidad indígena
table(data$h9)
##
## 1 2 3 4 5 6 7 8 9 10 96
## 388 104 45 2004 42 31 15 1 97 26757 24
class(data$h9)
## [1] "numeric"
data$h9=as.numeric(data$h9)
data$indigena <- car::recode(data$h9, "1=1; 2=1; 3=1; 4=1; 5=1; 6=1; 7=1; 8=1; 9=1; 10=2; else = NA")
table(data$indigena)
##
## 1 2
## 2727 26757
2. Pertenencia a zona rural o urbana
table(data$zona)
##
## 1 2
## 24819 4689
#urbano=1; rural=2
Nivel de educación
niveles:
data$educc=as.numeric(data$educc)
data$educacion <- car::recode(data$educc, "0=0; 1=1; 2=2; 3=3; 4=4; 5=5; 6=6; else = NA")
table(data$educacion)
##
## 0 1 2 3 4 5 6
## 736 4248 3205 4093 8462 3620 5115
class(data$educacion)
## [1] "numeric"
si la persona es casada o no*
data$h4=as.numeric(data$h4)
data$casado <- car::recode(data$h4, "1=1; 2=2; 3=2; 4=2; 5=2; 6=2; 7=2; else = NA")
table(data$casado)
##
## 1 2
## 11393 18115
class(data$casado)
## [1] "numeric"
sexo, grado de discapacidad de la persona
table(data$sexo)
##
## 1 2
## 13586 15922
#1=hombre; 2=mujer
table(data$disc_grado_adulto)
##
## 0 1 2
## 9453 1518 1090
#0=persona sin discapacidad; 1= persona con discapacidad leve a moderada; 2=persona con discapacidad severa
table(data$fa33)
## < table of extent 0 >
Dolor
table(data$d19)
##
## 1 2 3 4 5 88 96
## 4543 3209 2576 1288 437 6 2
data$d19=as.numeric(data$d19)
data$dolor <- car::recode(data$d19, "0=0; 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$dolor)
##
## 1 2 3 4 5
## 4543 3209 2576 1288 437
Indicador de vista
table(data$d15)
##
## 1 2 3 4 5 88 96
## 8119 1913 1261 573 186 6 3
data$d15=as.numeric(data$d15)
data$d15 <- car::recode(data$d15, "0=0; 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d16)
##
## 1 2 3 4 5 88 96 99
## 8504 1895 1082 440 129 6 4 1
data$d16=as.numeric(data$d16)
data$d16 <- car::recode(data$d16, "0=0; 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
data$vista=data$d15+data$d16
summary(data$vista)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 2.000 2.000 2.000 3.062 4.000 10.000 17459
data$vista=(((data$d15+data$d16)-2)*5/8)
summary(data$vista)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.000 0.663 1.250 5.000 17459
Elaboración de indicadores
Indicador de movilidad
table(data$d1)
##
## 1 2 3 4 5 99
## 8051 1910 1252 635 212 1
data$d1=as.numeric(data$d1)
data$d1 <- car::recode(data$d1, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d1)
##
## 1 2 3 4 5
## 8051 1910 1252 635 212
table(data$d2)
##
## 1 2 3 4 5 88 96 99
## 7961 1806 1261 673 355 2 2 1
data$d2=as.numeric(data$d2)
data$d2 <- car::recode(data$d2, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d2)
##
## 1 2 3 4 5
## 7961 1806 1261 673 355
table(data$d3)
##
## 1 2 3 4 5 96 99
## 9666 1040 710 413 225 4 3
data$d3=as.numeric(data$d3)
data$d3 <- car::recode(data$d3, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d3)
##
## 1 2 3 4 5
## 9666 1040 710 413 225
table(data$d4)
##
## 1 2 3 4 5 88 96 99
## 9598 1102 713 405 239 2 1 1
data$d4=as.numeric(data$d4)
data$d4 <- car::recode(data$d4, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d4)
##
## 1 2 3 4 5
## 9598 1102 713 405 239
table(data$d5)
##
## 1 2 3 4 5 88 99
## 7618 1631 1148 839 762 59 4
data$d5=as.numeric(data$d5)
data$d5 <- car::recode(data$d5, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d5)
##
## 1 2 3 4 5
## 7618 1631 1148 839 762
table(data$d6)
##
## 1 2 3 4 5 88 96 99
## 5869 1699 1383 1093 1449 538 5 25
data$d6=as.numeric(data$d6)
data$d6 <- car::recode(data$d6, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d6)
##
## 1 2 3 4 5
## 5869 1699 1383 1093 1449
table(data$d7)
##
## 1 2 3 4 5 88 96 99
## 9356 1097 764 494 322 16 10 2
data$d7=as.numeric(data$d7)
data$d7 <- car::recode(data$d7, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d7)
##
## 1 2 3 4 5
## 9356 1097 764 494 322
#lo estandarizamos del 1 al 5
data$movilidad=data$d1+data$d2+data$d3+data$d4+data$d5+data$d6+data$d7
summary(data$movilidad)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 7.00 7.00 8.00 11.42 13.00 35.00 18073
data$movilidad=(((data$d1+data$d2+data$d3+data$d4+data$d5+data$d6+data$d7)-7)*5/273)
summary(data$movilidad)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.018 0.081 0.110 0.513 18073
Indicador cuidado personal
table(data$d10)
##
## 1 2 3 4 5 96 99
## 10956 533 311 158 101 1 1
data$d10=as.numeric(data$d10)
data$d10 <- car::recode(data$d10, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d10)
##
## 1 2 3 4 5
## 10956 533 311 158 101
table(data$d11)
##
## 1 2 3 4 5 96 99
## 11505 299 147 61 45 3 1
data$d11=as.numeric(data$d11)
data$d11 <- car::recode(data$d11, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d11)
##
## 1 2 3 4 5
## 11505 299 147 61 45
table(data$d12)
##
## 1 2 3 4 5 88 96 99
## 11407 309 172 87 80 1 4 1
data$d12=as.numeric(data$d12)
data$d12 <- car::recode(data$d12, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d12)
##
## 1 2 3 4 5
## 11407 309 172 87 80
table(data$d13)
##
## 1 2 3 4 5 88 96 99
## 9705 824 613 397 490 21 6 5
data$d13=as.numeric(data$d13)
data$d13 <- car::recode(data$d13, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d13)
##
## 1 2 3 4 5
## 9705 824 613 397 490
table(data$d14)
##
## 1 2 3 4 5 88 96 99
## 10294 932 471 188 158 12 3 3
data$d14=as.numeric(data$d14)
data$d14 <- car::recode(data$d14, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d14)
##
## 1 2 3 4 5
## 10294 932 471 188 158
data$cuidadopersonal=data$d10+data$d11+data$d12+data$d13+data$d14
summary(data$cuidadopersonal)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 5.000 5.000 5.000 6.033 6.000 25.000 17499
data$cuidadopersonal=(((data$d10+data$d11+data$d12+data$d13+data$d14)-5)*5/20)
summary(data$cuidadopersonal)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.000 0.258 0.250 5.000 17499
Indicador relaciones interpersonales
table(data$d26)
##
## 1 2 3 4 5 88 99
## 10738 838 324 102 49 9 1
data$d26=as.numeric(data$d26)
data$d26 <- car::recode(data$d26, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d26)
##
## 1 2 3 4 5
## 10738 838 324 102 49
table(data$d27)
##
## 1 2 3 4 5 88 99
## 10469 991 363 102 81 48 7
data$d27=as.numeric(data$d27)
data$d27 <- car::recode(data$d27, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d27)
##
## 1 2 3 4 5
## 10469 991 363 102 81
table(data$d28)
##
## 1 2 3 4 5 88 96 99
## 10517 902 329 99 92 108 2 12
data$d28=as.numeric(data$d28)
data$d28 <- car::recode(data$d28, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d28)
##
## 1 2 3 4 5
## 10517 902 329 99 92
table(data$d29)
##
## 1 2 3 4 5 88 96 99
## 9117 631 433 209 412 1027 3 229
data$d29=as.numeric(data$d29)
data$d29 <- car::recode(data$d29, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d29)
##
## 1 2 3 4 5
## 9117 631 433 209 412
data$relacionesinterpersonales=data$d26+data$d27+data$d28+data$d29
summary(data$relacionesinterpersonales)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 4.000 4.000 4.000 4.875 5.000 20.000 18791
data$relacionesinterpersonales=(((data$d26+data$d27+data$d28+data$d29)-4)*5/16)
summary(data$relacionesinterpersonales)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.000 0.273 0.312 5.000 18791
Indicador de factores ambientales
data$fa1=as.numeric(data$fa1)
data$fa1 <- car::recode(data$fa1, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa1)
##
## 1 2 3 4 5
## 1659 1230 1827 1799 5376
data$fa2=as.numeric(data$fa2)
data$fa2 <- car::recode(data$fa2, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa2)
##
## 1 2 3 4 5
## 637 652 2348 1359 6569
data$fa3=as.numeric(data$fa3)
data$fa3 <- car::recode(data$fa3, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa3)
##
## 1 2 3 4 5
## 545 550 1501 1210 7990
data$fa4=as.numeric(data$fa4)
data$fa4 <- car::recode(data$fa4, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa4)
##
## 1 2 3 4 5
## 260 263 2457 588 5870
data$fa5=as.numeric(data$fa5)
data$fa5 <- car::recode(data$fa5, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa5)
##
## 1 2 3 4 5
## 1259 1026 1461 1301 6602
data$fa6=as.numeric(data$fa6)
data$fa6 <- car::recode(data$fa6, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa6)
##
## 1 2 3 4 5
## 340 473 922 831 9477
data$fa7=as.numeric(data$fa7)
data$fa7 <- car::recode(data$fa7, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa7)
##
## 1 2 3 4 5
## 424 687 1407 1103 8428
data$fa8=as.numeric(data$fa8)
data$fa8 <- car::recode(data$fa8, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa8)
##
## 1 2 3 4 5
## 179 432 1235 970 9232
data$fa9=as.numeric(data$fa9)
data$fa9 <- car::recode(data$fa9, " 1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa9)
##
## 1 2 3 4 5
## 620 943 1705 1179 7601
data$fa10=as.numeric(data$fa10)
data$fa10 <- car::recode(data$fa10, "1=5; 2=4; 3=3; 4=2; 5=1; else = NA")
table(data$fa10)
##
## 1 2 3 4 5
## 1114 1503 2277 1223 5847
data$fa11=as.numeric(data$fa11)
data$fa11 <- car::recode(data$fa11, "1=1; 2=2; 3=3; 4=4; 5=5 ;else = NA")
data$fa32=as.numeric(data$fa32)
data$fa32 <- car::recode(data$fa32, "1=1; 2=2;else = NA")
table(data$fa32)
##
## 1 2
## 226 6816
data$fa40=as.numeric(data$fa40)
data$fa40 <- car::recode(data$fa40, "1=1; 2=2;else = NA")
table(data$fa10)
##
## 1 2 3 4 5
## 1114 1503 2277 1223 5847
summary(data$fa11)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 1.000 1.000 1.469 1.000 5.000 22498
summary(data$fa32)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 2.000 2.000 1.968 2.000 2.000 22466
#indicador
data$factores_ambientales.1=data$fa1+data$fa2+data$fa3+data$fa4+data$fa5+data$fa6+data$fa7+data$fa8+data$fa9+data$fa10
summary(data$factores_ambientales.1)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 10.00 37.00 44.00 41.91 48.00 50.00 20585
data$factores_ambientales=(((data$fa1+data$fa2+data$fa3+data$fa4+data$fa5+data$fa6+data$fa7+data$fa8+data$fa9+data$fa10)-13)*5/37)
summary(data$factores_ambientales)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -0.405 3.243 4.189 3.907 4.730 5.000 20585
hist(data$factores_ambientales)
### Indicador de emocion
table(data$d24)
##
## 1 2 3 4 5 88
## 6373 2958 1666 759 298 7
data$d24=as.numeric(data$d24)
data$d24 <- car::recode(data$d24, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d24)
##
## 1 2 3 4 5
## 6373 2958 1666 759 298
table(data$d25)
##
## 1 2 3 4 5 88 96
## 5509 3344 2002 866 333 6 1
data$d25=as.numeric(data$d25)
data$d25 <- car::recode(data$d25, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d25)
##
## 1 2 3 4 5
## 5509 3344 2002 866 333
data$emocion=data$d24+data$d25
summary(data$emocion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 2.000 2.000 3.000 3.745 5.000 10.000 17456
data$emocion=(((data$d24+data$d25)-2)*5/8)
summary(data$emocion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.625 1.091 1.875 5.000 17456
Indicador energía y motivación
table(data$d20)
##
## 1 2 3 4 5 88 96
## 7669 1989 1492 719 187 3 2
data$d20=as.numeric(data$d20)
data$d20 <- car::recode(data$d20, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d20)
##
## 1 2 3 4 5
## 7669 1989 1492 719 187
table(data$d21)
##
## 1 2 3 4 5 88 96
## 5929 3212 1916 760 236 7 1
data$d21=as.numeric(data$d21)
data$d21 <- car::recode(data$d21, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d21)
##
## 1 2 3 4 5
## 5929 3212 1916 760 236
#indicador
table(data$energiaymotivacion)
## < table of extent 0 >
data$energiaymotivacion=data$d20+data$d21
summary(data$energiaymotivacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 2.000 2.000 3.000 3.504 4.000 10.000 17459
data$energiaymotivacion=(((data$d20+data$d21)-2)*5/2)
summary(data$energiaymotivacion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 2.500 3.761 5.000 20.000 17459
Indicador de cognición
table(data$d34)
##
## 1 2 3 4 5 88 99
## 6751 3527 1253 383 138 8 1
data$d34=as.numeric(data$d34)
data$d34 <- car::recode(data$d34, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d34)
##
## 1 2 3 4 5
## 6751 3527 1253 383 138
table(data$d36)
##
## 1 2 3 4 5 88 96 99
## 9686 1581 492 175 108 13 3 3
data$d36=as.numeric(data$d36)
data$d36 <- car::recode(data$d36, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d36)
##
## 1 2 3 4 5
## 9686 1581 492 175 108
table(data$d35)
##
## 1 2 3 4 5 88 99
## 9074 1997 660 215 106 8 1
data$d35=as.numeric(data$d35)
data$d35 <- car::recode(data$d35, " 1=1; 2=2; 3=3; 4=4; 5=5; else = NA")
table(data$d35)
##
## 1 2 3 4 5
## 9074 1997 660 215 106
data$cognicion=data$d34+data$d35+data$d36
summary(data$cognicion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 3.000 3.000 3.000 4.295 5.000 15.000 17473
data$cognicion=(((data$d34+data$d35+data$d36)-3)*5/12)
summary(data$cognicion)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.000 0.540 0.833 5.000 17473
Puntaje de desempeño de la persona
summary(data$des_puntaje_adulto)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 25.05 38.02 35.13 46.68 100.00 17447
data$desempeño=
cut(data$des_puntaje_adulto,
breaks=c(0,25,50,75,100),
labels=c("bajo","medio-bajo","medio-alto","alto"))
table(data$desempeño)
##
## bajo medio-bajo medio-alto alto
## 1992 6999 2044 14
str(data$desempeño)
## Factor w/ 4 levels "bajo","medio-bajo",..: 2 NA NA NA 2 NA NA 1 2 NA ...
table(data$fa7)
##
## 1 2 3 4 5
## 424 687 1407 1103 8428
Limpiamos la data
data<-na.omit(data)
Modelo de regresión logística ordinal
data$desempeño=as.factor(data$desempeño)
modelo1<- polr(desempeño~ educacion + sexo + zona + indigena + disc_grado_adulto + c41_1 + factores_ambientales + fa11 + fa32 + fa40 + relacionesinterpersonales + movilidad +energiaymotivacion + dolor + cuidadopersonal + cognicion + vista + emocion, data = data, Hess=TRUE)
summary(modelo1)
## Call:
## polr(formula = desempeño ~ educacion + sexo + zona + indigena +
## disc_grado_adulto + c41_1 + factores_ambientales + fa11 +
## fa32 + fa40 + relacionesinterpersonales + movilidad + energiaymotivacion +
## dolor + cuidadopersonal + cognicion + vista + emocion, data = data,
## Hess = TRUE)
##
## Coefficients:
## Value Std. Error t value
## educacion 0.058079 0.03520 1.64999
## sexo 0.105927 0.11191 0.94656
## zona 0.144609 0.15513 0.93217
## indigena 0.092974 0.17865 0.52044
## disc_grado_adulto 0.931544 0.30182 3.08647
## c41_1 1.191164 0.68207 1.74638
## factores_ambientales -0.136956 0.07131 -1.92058
## fa11 -0.007732 0.07837 -0.09866
## fa32 -0.340333 0.39210 -0.86798
## fa40 -0.052544 0.49117 -0.10698
## relacionesinterpersonales 3.060899 0.21884 13.98703
## movilidad 34.478254 2.04791 16.83580
## energiaymotivacion 0.450122 0.02902 15.51165
## dolor 1.055016 0.07810 13.50786
## cuidadopersonal 2.834365 0.37375 7.58361
## cognicion 2.793048 0.17636 15.83703
## vista 0.837167 0.08681 9.64391
## emocion 1.662298 0.09591 17.33235
##
## Intercepts:
## Value Std. Error t value
## bajo|medio-bajo 5.3724 1.9201 2.7980
## medio-bajo|medio-alto 23.5941 2.0885 11.2973
## medio-alto|alto 78225.9757 2.0885 37455.9521
##
## Residual Deviance: 2201.306
## AIC: 2243.306
Observar el p-value y determinar la significancia de las variables independientes
summary_table <- coef(summary(modelo1))
summary_table
## Value Std. Error t value
## educacion 5.807945e-02 0.03519993 1.649988e+00
## sexo 1.059273e-01 0.11190826 9.465550e-01
## zona 1.446086e-01 0.15513170 9.321668e-01
## indigena 9.297398e-02 0.17864598 5.204370e-01
## disc_grado_adulto 9.315444e-01 0.30181520 3.086473e+00
## c41_1 1.191164e+00 0.68207494 1.746383e+00
## factores_ambientales -1.369562e-01 0.07130995 -1.920577e+00
## fa11 -7.732065e-03 0.07837404 -9.865594e-02
## fa32 -3.403328e-01 0.39209918 -8.679764e-01
## fa40 -5.254350e-02 0.49116748 -1.069768e-01
## relacionesinterpersonales 3.060899e+00 0.21883835 1.398703e+01
## movilidad 3.447825e+01 2.04791264 1.683580e+01
## energiaymotivacion 4.501219e-01 0.02901831 1.551165e+01
## dolor 1.055016e+00 0.07810388 1.350786e+01
## cuidadopersonal 2.834365e+00 0.37374900 7.583606e+00
## cognicion 2.793048e+00 0.17636181 1.583703e+01
## vista 8.371671e-01 0.08680785 9.643910e+00
## emocion 1.662298e+00 0.09590725 1.733235e+01
## bajo|medio-bajo 5.372440e+00 1.92007560 2.798036e+00
## medio-bajo|medio-alto 2.359407e+01 2.08847917 1.129725e+01
## medio-alto|alto 7.822598e+04 2.08847917 3.745595e+04
pval <- pnorm(abs(summary_table[, "t value"]),lower.tail = FALSE)* 2
pval
## educacion sexo zona
## 9.894543e-02 3.438656e-01 3.512503e-01
## indigena disc_grado_adulto c41_1
## 6.027590e-01 2.025465e-03 8.074440e-02
## factores_ambientales fa11 fa32
## 5.478511e-02 9.214115e-01 3.854073e-01
## fa40 relacionesinterpersonales movilidad
## 9.148074e-01 1.870571e-44 1.333666e-63
## energiaymotivacion dolor cuidadopersonal
## 2.893427e-54 1.405464e-41 3.360818e-14
## cognicion vista emocion
## 1.727797e-56 5.216244e-22 2.681368e-67
## bajo|medio-bajo medio-bajo|medio-alto medio-alto|alto
## 5.141443e-03 1.353898e-29 0.000000e+00
summary_table <- cbind(summary_table, "p value" = pval)
summary_table
## Value Std. Error t value p value
## educacion 5.807945e-02 0.03519993 1.649988e+00 9.894543e-02
## sexo 1.059273e-01 0.11190826 9.465550e-01 3.438656e-01
## zona 1.446086e-01 0.15513170 9.321668e-01 3.512503e-01
## indigena 9.297398e-02 0.17864598 5.204370e-01 6.027590e-01
## disc_grado_adulto 9.315444e-01 0.30181520 3.086473e+00 2.025465e-03
## c41_1 1.191164e+00 0.68207494 1.746383e+00 8.074440e-02
## factores_ambientales -1.369562e-01 0.07130995 -1.920577e+00 5.478511e-02
## fa11 -7.732065e-03 0.07837404 -9.865594e-02 9.214115e-01
## fa32 -3.403328e-01 0.39209918 -8.679764e-01 3.854073e-01
## fa40 -5.254350e-02 0.49116748 -1.069768e-01 9.148074e-01
## relacionesinterpersonales 3.060899e+00 0.21883835 1.398703e+01 1.870571e-44
## movilidad 3.447825e+01 2.04791264 1.683580e+01 1.333666e-63
## energiaymotivacion 4.501219e-01 0.02901831 1.551165e+01 2.893427e-54
## dolor 1.055016e+00 0.07810388 1.350786e+01 1.405464e-41
## cuidadopersonal 2.834365e+00 0.37374900 7.583606e+00 3.360818e-14
## cognicion 2.793048e+00 0.17636181 1.583703e+01 1.727797e-56
## vista 8.371671e-01 0.08680785 9.643910e+00 5.216244e-22
## emocion 1.662298e+00 0.09590725 1.733235e+01 2.681368e-67
## bajo|medio-bajo 5.372440e+00 1.92007560 2.798036e+00 5.141443e-03
## medio-bajo|medio-alto 2.359407e+01 2.08847917 1.129725e+01 1.353898e-29
## medio-alto|alto 7.822598e+04 2.08847917 3.745595e+04 0.000000e+00
Como se observa, todas las variables escogidas tienen un p-value menor a 0.05, por lo tanto, todas son significativas es más difícil que tengas algo no significativo
Cálculo e interpretación de los exponenciales
exp(coef(modelo1))
## educacion sexo zona
## 1.059799e+00 1.111741e+00 1.155587e+00
## indigena disc_grado_adulto c41_1
## 1.097433e+00 2.538426e+00 3.290910e+00
## factores_ambientales fa11 fa32
## 8.720084e-01 9.922978e-01 7.115335e-01
## fa40 relacionesinterpersonales movilidad
## 9.488130e-01 2.134674e+01 9.412727e+14
## energiaymotivacion dolor cuidadopersonal
## 1.568503e+00 2.872022e+00 1.701959e+01
## cognicion vista emocion
## 1.633072e+01 2.309814e+00 5.271411e+00
veces ## pseudo R2”
PseudoR2(modelo1, which = c("Nagelkerke"))
## Nagelkerke
## 0.8196582
El modelo explica un 32%
Construimmos la ecuación
coef(summary(modelo1))
## Value Std. Error t value
## educacion 5.807945e-02 0.03519993 1.649988e+00
## sexo 1.059273e-01 0.11190826 9.465550e-01
## zona 1.446086e-01 0.15513170 9.321668e-01
## indigena 9.297398e-02 0.17864598 5.204370e-01
## disc_grado_adulto 9.315444e-01 0.30181520 3.086473e+00
## c41_1 1.191164e+00 0.68207494 1.746383e+00
## factores_ambientales -1.369562e-01 0.07130995 -1.920577e+00
## fa11 -7.732065e-03 0.07837404 -9.865594e-02
## fa32 -3.403328e-01 0.39209918 -8.679764e-01
## fa40 -5.254350e-02 0.49116748 -1.069768e-01
## relacionesinterpersonales 3.060899e+00 0.21883835 1.398703e+01
## movilidad 3.447825e+01 2.04791264 1.683580e+01
## energiaymotivacion 4.501219e-01 0.02901831 1.551165e+01
## dolor 1.055016e+00 0.07810388 1.350786e+01
## cuidadopersonal 2.834365e+00 0.37374900 7.583606e+00
## cognicion 2.793048e+00 0.17636181 1.583703e+01
## vista 8.371671e-01 0.08680785 9.643910e+00
## emocion 1.662298e+00 0.09590725 1.733235e+01
## bajo|medio-bajo 5.372440e+00 1.92007560 2.798036e+00
## medio-bajo|medio-alto 2.359407e+01 2.08847917 1.129725e+01
## medio-alto|alto 7.822598e+04 2.08847917 3.745595e+04
primer corte
num_1 = exp(-3.2040681 - ((0.2550297* ##) + (-0.6630363* ##)+ ( 0.1200079* ##) + (-0.2312537* ##) + ()))
denom_1 = 1 + num_1 p_menorigual_muybajo= num_1/denom_1 p_menorigual_muybajo
vemos las probabilidades
head(modelo1$fitted.values)
## bajo medio-bajo medio-alto alto
## 9 1.205259e-01 0.8794739618 8.904048e-08 0
## 15 2.519779e-01 0.7480220730 3.622405e-08 0
## 21 9.257023e-01 0.0742976622 9.793746e-10 0
## 30 1.377713e-03 0.9986134420 8.844711e-06 0
## 33 7.694668e-13 0.0000630547 9.999369e-01 0
## 38 3.983590e-06 0.9969422174 3.053799e-03 0
¿Cómo se entiende esto?
Modelo de regresión lineal múltiples
summary(data$des_puntaje_adulto)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2949 25.0458 35.0479 34.4676 43.1287 74.7678
modelo <- lm(des_puntaje_adulto~ educacion + sexo + zona + indigena + disc_grado_adulto + c41_1 + factores_ambientales + fa11 + fa32 + fa40 + relacionesinterpersonales + movilidad +energiaymotivacion + dolor + cuidadopersonal + cognicion + vista + emocion,data)
summary(modelo)
##
## Call:
## lm(formula = des_puntaje_adulto ~ educacion + sexo + zona + indigena +
## disc_grado_adulto + c41_1 + factores_ambientales + fa11 +
## fa32 + fa40 + relacionesinterpersonales + movilidad + energiaymotivacion +
## dolor + cuidadopersonal + cognicion + vista + emocion, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.787 -3.242 1.177 4.499 17.493
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 25.29274 3.30383 7.656 2.42e-14 ***
## educacion -0.09564 0.06917 -1.383 0.1668
## sexo 0.55892 0.22127 2.526 0.0116 *
## zona -0.03995 0.30927 -0.129 0.8972
## indigena -0.18842 0.36261 -0.520 0.6034
## disc_grado_adulto -3.81621 0.38171 -9.998 < 2e-16 ***
## c41_1 -0.64616 1.19695 -0.540 0.5893
## factores_ambientales -0.32531 0.13287 -2.448 0.0144 *
## fa11 0.06237 0.13576 0.459 0.6460
## fa32 -0.72768 0.67296 -1.081 0.2796
## fa40 -0.38954 0.76006 -0.513 0.6083
## relacionesinterpersonales 3.36110 0.25112 13.384 < 2e-16 ***
## movilidad 36.88954 1.97391 18.689 < 2e-16 ***
## energiaymotivacion 0.59404 0.03614 16.439 < 2e-16 ***
## dolor 2.28989 0.12816 17.868 < 2e-16 ***
## cuidadopersonal 0.72897 0.44306 1.645 0.1000 .
## cognicion 3.81673 0.20539 18.583 < 2e-16 ***
## vista 1.68637 0.13325 12.656 < 2e-16 ***
## emocion 2.77351 0.12149 22.830 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.611 on 3812 degrees of freedom
## Multiple R-squared: 0.7098, Adjusted R-squared: 0.7084
## F-statistic: 517.9 on 18 and 3812 DF, p-value: < 2.2e-16
#+ zona, + fa40
Supuestos
Normalidad
lillie.test(modelo$residuals)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: modelo$residuals
## D = 0.088384, p-value < 2.2e-16
Hipótesis
Hipótesis nula
Hipótesis alternativa
Dado que tenemos un p-value (2.2e-16) MENOR a (<) 0.05, se rechaza H0 (distribución normal) y podemos acepta H1 que (no hay distribución normal), por lo que nuestro modelo no cumpliaria con los suspuestos de normalidad
Homocedasticidad
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 281.51, df = 18, p-value < 2.2e-16
Hipótesis
Hipótesis nula
Hipótesis alternativa En este caso con un p-value (2.2e-16) MENOR a(<) que 0.05 se RECHAZA por lo que nuestro modelo tendria un problema de heterocedasticidad.
No-colinealidad
vif(modelo)
## educacion sexo zona
## 1.133879 1.067102 1.087676
## indigena disc_grado_adulto c41_1
## 1.022491 1.857122 1.007894
## factores_ambientales fa11 fa32
## 1.380027 1.352182 1.009083
## fa40 relacionesinterpersonales movilidad
## 1.047923 1.280839 1.931300
## energiaymotivacion dolor cuidadopersonal
## 1.835201 1.569979 1.531577
## cognicion vista emocion
## 1.452170 1.125593 1.621411
Independencia
durbinWatsonTest (modelo)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.01476918 2.028958 0.356
## Alternative hypothesis: rho != 0
Hipótesis
Hipótesis nula
Hipótesis alternativa Interpretación: Dado que la prueba de Durbin-Watson presenta un Pvale (0.302) MAYOR a(>) 0.05, no podemos rechazar la hipotesis nula, por lo que No existe auto-correlación.
Linealidad
plot(modelo,1)
autoplot(modelo)
El modelo cumple con el supuesto de linealidad