Base de datos:
La base simula una encuesta de 500 personas. Esta base de datos contiene una variable dependiente conformada por intención de voto por el Partido A, medida entre 0 a 100. La intencion del voto depende del interes politico, la edad y el uso de redes sociales.
# ============================================================
# BASE DE DATOS FICTICIA SOBRE ELECCIONES
# ============================================================
rm(list = ls())
set.seed(123)
n <- 500
datos <- data.frame(
edad = round(rnorm(n, mean = 40, sd = 12)),
ingreso = round(rnorm(n, mean = 1500, sd = 500), 0),
interes_politico = round(runif(n, 1, 5)),
uso_redes = round(rnorm(n, mean = 3, sd = 1)),
confianza_instituciones = round(runif(n, 1, 10), 0)
)
# Variable dependiente: intención de voto (0–100%)
datos$intencion_voto <- with(
datos,
round(
50 + 8*interes_politico +
5*uso_redes - 0.3*edad +
rnorm(n, mean = 0, sd = 10),
1
)
)
# Forzar a estar entre 0 y 100
datos$intencion_voto[datos$intencion_voto < 0] <- 0
datos$intencion_voto[datos$intencion_voto > 100] <- 100
head(datos)
## edad ingreso interes_politico uso_redes confianza_instituciones
## 1 33 1199 2 4 3
## 2 37 1003 2 4 5
## 3 59 2013 2 3 8
## 4 41 1876 3 3 4
## 5 42 745 3 4 5
## 6 61 1452 3 2 6
## intencion_voto
## 1 71.0
## 2 77.3
## 3 57.9
## 4 88.9
## 5 83.1
## 6 59.5
summary(datos)
## edad ingreso interes_politico uso_redes
## Min. : 8.00 Min. : 95 Min. :1.00 Min. :0.000
## 1st Qu.:33.00 1st Qu.:1156 1st Qu.:2.00 1st Qu.:2.000
## Median :40.00 Median :1500 Median :3.00 Median :3.000
## Mean :40.42 Mean :1499 Mean :2.98 Mean :3.042
## 3rd Qu.:48.00 3rd Qu.:1822 3rd Qu.:4.00 3rd Qu.:4.000
## Max. :79.00 Max. :2846 Max. :5.00 Max. :6.000
## confianza_instituciones intencion_voto
## Min. : 1.000 Min. : 35.60
## 1st Qu.: 3.000 1st Qu.: 66.00
## Median : 6.000 Median : 75.60
## Mean : 5.542 Mean : 75.97
## 3rd Qu.: 8.000 3rd Qu.: 86.33
## Max. :10.000 Max. :100.00
Correlaciones:
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# Seleccionamos solo las variables de interés para la correlación
datos_cor <- datos %>%
select(
intencion_voto,
interes_politico,
uso_redes,
confianza_instituciones
)
datos_cor
## intencion_voto interes_politico uso_redes confianza_instituciones
## 1 71.0 2 4 3
## 2 77.3 2 4 5
## 3 57.9 2 3 8
## 4 88.9 3 3 4
## 5 83.1 3 4 5
## 6 59.5 3 2 6
## 7 52.1 3 2 2
## 8 64.1 1 4 1
## 9 83.9 1 3 7
## 10 64.9 2 3 9
## 11 77.1 4 4 9
## 12 79.3 2 4 2
## 13 79.9 3 3 7
## 14 84.2 3 3 4
## 15 92.3 5 3 6
## 16 78.9 2 4 2
## 17 71.5 4 3 3
## 18 80.7 2 4 4
## 19 59.6 2 3 7
## 20 74.6 1 4 3
## 21 100.0 5 4 2
## 22 94.0 3 4 6
## 23 100.0 5 3 1
## 24 73.1 2 3 5
## 25 58.1 1 3 5
## 26 66.8 2 3 5
## 27 79.4 4 3 5
## 28 80.7 3 4 8
## 29 100.0 3 3 10
## 30 69.2 4 3 9
## 31 64.6 3 3 2
## 32 74.1 3 3 9
## 33 79.6 3 3 6
## 34 63.9 2 1 7
## 35 43.9 1 2 8
## 36 83.9 4 3 5
## 37 74.5 3 3 9
## 38 100.0 5 2 3
## 39 95.1 5 1 5
## 40 83.4 4 3 2
## 41 84.9 3 4 3
## 42 86.1 2 5 9
## 43 65.0 3 3 5
## 44 79.1 4 4 6
## 45 94.5 5 3 10
## 46 91.7 5 3 10
## 47 85.9 4 3 7
## 48 65.6 2 2 8
## 49 51.1 1 3 1
## 50 72.4 3 4 8
## 51 69.1 3 2 9
## 52 57.5 1 3 5
## 53 96.6 5 2 7
## 54 79.5 2 3 8
## 55 93.8 5 3 5
## 56 72.6 2 4 9
## 57 85.0 4 2 5
## 58 88.9 4 3 1
## 59 81.9 4 2 5
## 60 86.5 4 3 5
## 61 75.6 1 4 6
## 62 71.9 4 2 5
## 63 97.7 3 4 4
## 64 87.1 4 2 7
## 65 74.7 2 3 6
## 66 54.2 1 3 10
## 67 60.9 2 2 3
## 68 62.4 2 1 10
## 69 66.1 4 4 6
## 70 79.5 5 3 8
## 71 71.7 2 2 9
## 72 88.5 5 1 7
## 73 75.4 3 5 7
## 74 88.3 3 6 10
## 75 89.8 4 3 9
## 76 70.1 4 4 8
## 77 91.6 3 4 2
## 78 54.8 3 2 2
## 79 87.4 5 3 6
## 80 43.7 1 1 3
## 81 51.5 2 2 8
## 82 77.7 4 4 5
## 83 88.7 4 3 2
## 84 57.4 1 3 9
## 85 74.9 3 3 9
## 86 50.6 4 1 4
## 87 64.9 3 4 2
## 88 85.2 5 2 7
## 89 77.4 4 3 6
## 90 56.8 2 3 2
## 91 75.9 2 3 6
## 92 73.7 2 4 7
## 93 44.7 1 2 6
## 94 53.7 1 2 5
## 95 51.4 2 1 5
## 96 75.3 4 2 9
## 97 70.6 5 2 7
## 98 71.1 3 3 10
## 99 80.3 3 2 2
## 100 66.9 1 3 6
## 101 85.7 4 3 2
## 102 67.0 2 2 7
## 103 80.8 3 2 3
## 104 97.8 5 4 5
## 105 97.9 4 4 5
## 106 83.8 4 5 8
## 107 69.2 2 3 9
## 108 65.8 2 2 6
## 109 91.5 5 2 9
## 110 85.3 4 3 4
## 111 95.9 4 5 7
## 112 59.2 2 3 7
## 113 70.4 2 4 7
## 114 85.1 3 4 3
## 115 83.8 3 2 5
## 116 59.9 2 3 3
## 117 85.9 4 4 6
## 118 71.7 1 4 6
## 119 82.5 4 3 2
## 120 89.8 4 3 8
## 121 92.2 5 3 7
## 122 75.5 4 2 7
## 123 84.1 2 4 4
## 124 73.4 2 2 4
## 125 83.6 4 2 7
## 126 81.1 1 4 10
## 127 74.0 4 2 4
## 128 67.1 3 2 3
## 129 78.2 3 2 3
## 130 100.0 5 4 5
## 131 60.5 2 3 5
## 132 71.3 3 3 4
## 133 62.8 2 3 4
## 134 90.3 2 4 7
## 135 72.4 4 4 9
## 136 61.1 3 1 5
## 137 82.8 3 3 6
## 138 71.7 4 3 5
## 139 95.0 5 4 7
## 140 57.4 3 2 7
## 141 92.1 4 3 2
## 142 48.3 2 2 2
## 143 57.7 2 4 9
## 144 63.8 1 4 5
## 145 81.3 2 4 6
## 146 51.3 1 2 10
## 147 68.8 2 3 3
## 148 82.9 3 4 3
## 149 66.9 4 3 7
## 150 83.6 4 2 9
## 151 66.3 2 2 8
## 152 100.0 5 2 2
## 153 93.6 4 4 2
## 154 89.7 2 3 8
## 155 73.8 2 3 10
## 156 74.9 2 4 7
## 157 57.3 3 4 5
## 158 79.0 4 4 7
## 159 52.2 2 1 9
## 160 85.3 3 3 6
## 161 85.9 5 3 6
## 162 75.3 1 4 8
## 163 73.9 4 2 4
## 164 75.6 4 4 9
## 165 80.7 3 3 1
## 166 88.2 5 3 4
## 167 64.7 1 4 2
## 168 88.1 5 3 4
## 169 91.9 4 4 5
## 170 80.0 3 4 8
## 171 69.4 2 3 8
## 172 62.2 3 4 5
## 173 62.3 2 3 1
## 174 59.3 3 4 9
## 175 66.6 4 2 9
## 176 70.0 1 5 7
## 177 67.4 2 3 9
## 178 91.6 4 4 7
## 179 70.4 1 3 2
## 180 91.2 4 3 2
## 181 100.0 5 4 7
## 182 65.2 4 1 9
## 183 59.1 1 3 2
## 184 90.9 3 3 9
## 185 70.9 4 0 5
## 186 44.8 1 3 1
## 187 62.6 4 1 8
## 188 99.8 4 4 10
## 189 60.2 2 3 8
## 190 85.1 4 2 4
## 191 84.2 4 3 3
## 192 70.2 2 4 3
## 193 76.2 4 2 4
## 194 100.0 5 4 3
## 195 91.9 4 3 2
## 196 85.1 4 2 2
## 197 70.9 4 1 7
## 198 62.3 3 1 8
## 199 85.8 3 4 2
## 200 80.3 2 3 2
## 201 100.0 4 5 1
## 202 80.6 4 4 2
## 203 87.6 4 4 9
## 204 72.7 1 4 2
## 205 78.3 2 2 10
## 206 77.2 3 4 7
## 207 75.3 1 4 4
## 208 86.4 4 4 4
## 209 66.4 3 4 8
## 210 75.5 2 3 5
## 211 72.8 3 2 5
## 212 93.0 4 4 3
## 213 63.7 2 4 9
## 214 85.7 1 4 7
## 215 87.3 3 3 7
## 216 51.3 1 3 4
## 217 69.5 1 3 6
## 218 80.6 4 4 10
## 219 80.1 3 3 1
## 220 82.5 2 2 6
## 221 69.2 2 3 9
## 222 87.0 4 2 3
## 223 73.9 4 2 4
## 224 35.6 1 3 9
## 225 75.4 5 1 2
## 226 52.9 1 1 6
## 227 90.9 2 4 5
## 228 60.8 2 2 2
## 229 74.5 4 1 5
## 230 63.0 2 3 3
## 231 72.9 4 4 9
## 232 82.5 4 4 7
## 233 89.8 3 3 2
## 234 100.0 4 4 2
## 235 72.0 2 2 4
## 236 98.0 3 4 9
## 237 84.4 5 2 9
## 238 75.1 2 3 3
## 239 71.9 1 5 9
## 240 90.2 5 4 2
## 241 68.4 2 4 9
## 242 82.3 4 2 2
## 243 52.7 1 2 10
## 244 100.0 5 5 2
## 245 78.6 5 2 6
## 246 57.2 4 3 7
## 247 86.6 3 4 4
## 248 91.8 4 4 1
## 249 81.9 2 4 7
## 250 51.7 2 3 4
## 251 77.0 5 2 9
## 252 94.0 5 3 5
## 253 59.1 3 2 10
## 254 69.9 4 4 2
## 255 76.1 2 4 1
## 256 88.3 2 5 6
## 257 62.8 3 3 6
## 258 58.9 2 2 1
## 259 55.0 1 4 8
## 260 100.0 5 4 1
## 261 86.5 4 3 5
## 262 68.1 4 1 9
## 263 74.0 3 4 2
## 264 58.6 2 4 10
## 265 81.0 4 3 8
## 266 66.0 1 4 9
## 267 73.4 2 3 3
## 268 95.9 5 4 10
## 269 52.6 2 3 7
## 270 74.0 2 3 4
## 271 64.2 2 3 8
## 272 65.0 2 3 10
## 273 71.9 2 2 9
## 274 57.2 1 3 2
## 275 100.0 5 3 2
## 276 90.4 5 3 8
## 277 95.3 5 5 9
## 278 69.6 3 2 1
## 279 79.4 3 3 3
## 280 63.9 1 4 7
## 281 76.0 2 5 2
## 282 87.5 5 3 1
## 283 42.1 2 3 9
## 284 72.8 3 3 1
## 285 81.3 3 3 9
## 286 71.7 2 4 2
## 287 83.0 3 3 5
## 288 59.9 1 3 3
## 289 84.4 3 3 8
## 290 88.0 3 4 6
## 291 52.4 2 4 3
## 292 89.1 5 3 5
## 293 81.1 2 3 5
## 294 79.3 3 4 9
## 295 90.3 5 3 5
## 296 80.1 2 5 9
## 297 68.0 2 3 5
## 298 100.0 5 4 8
## 299 60.5 3 1 8
## 300 81.2 4 3 4
## 301 81.8 3 3 9
## 302 88.8 5 2 6
## 303 67.6 2 2 4
## 304 90.0 3 4 5
## 305 83.7 4 4 5
## 306 74.2 2 2 9
## 307 100.0 3 3 10
## 308 93.9 4 2 5
## 309 79.0 5 2 4
## 310 48.6 2 4 3
## 311 67.7 3 2 1
## 312 72.1 1 4 7
## 313 83.1 2 3 7
## 314 79.8 4 4 1
## 315 62.1 3 2 3
## 316 78.9 4 2 6
## 317 72.6 1 4 2
## 318 98.2 4 3 3
## 319 71.2 2 3 9
## 320 64.0 3 3 4
## 321 76.0 4 4 10
## 322 47.4 3 2 8
## 323 73.8 2 2 2
## 324 85.9 4 2 6
## 325 72.2 3 1 9
## 326 61.0 2 4 8
## 327 93.0 3 3 5
## 328 54.9 1 3 6
## 329 82.0 2 3 6
## 330 77.5 3 2 3
## 331 64.3 1 2 9
## 332 81.5 2 4 2
## 333 82.1 4 2 6
## 334 69.5 4 3 5
## 335 72.9 4 2 3
## 336 68.0 1 3 10
## 337 63.6 1 2 4
## 338 88.3 5 2 1
## 339 98.2 5 5 8
## 340 100.0 5 4 6
## 341 67.7 4 1 1
## 342 60.0 2 3 4
## 343 72.4 5 3 9
## 344 96.2 5 2 3
## 345 69.8 2 3 2
## 346 66.5 1 3 7
## 347 69.3 3 3 6
## 348 78.6 2 5 5
## 349 59.7 3 1 5
## 350 72.1 3 4 9
## 351 62.2 4 3 9
## 352 100.0 4 4 3
## 353 71.8 2 3 6
## 354 68.5 4 2 1
## 355 81.9 3 1 6
## 356 66.0 1 3 2
## 357 76.9 1 5 8
## 358 71.7 2 4 2
## 359 83.8 2 5 3
## 360 71.7 3 4 8
## 361 86.6 3 4 5
## 362 95.6 4 4 6
## 363 84.0 2 3 9
## 364 79.3 5 2 8
## 365 58.8 3 2 8
## 366 60.9 2 1 6
## 367 97.7 2 3 2
## 368 89.0 4 4 8
## 369 98.5 4 4 8
## 370 76.4 3 3 9
## 371 74.5 5 2 2
## 372 90.9 3 6 8
## 373 73.7 2 4 3
## 374 95.4 3 4 4
## 375 78.2 3 3 9
## 376 76.0 2 3 3
## 377 100.0 5 3 1
## 378 100.0 3 5 7
## 379 68.8 1 3 1
## 380 90.0 5 4 8
## 381 48.7 2 1 9
## 382 39.5 1 2 2
## 383 58.9 5 2 3
## 384 98.8 3 4 8
## 385 86.3 5 3 9
## 386 67.8 2 3 3
## 387 92.3 3 4 5
## 388 89.1 4 4 5
## 389 64.2 2 2 7
## 390 87.3 4 3 4
## 391 76.7 3 2 8
## 392 61.1 1 3 4
## 393 83.0 2 5 3
## 394 90.5 3 4 1
## 395 97.2 5 4 4
## 396 70.4 5 2 6
## 397 68.0 2 1 4
## 398 83.3 3 2 3
## 399 100.0 4 4 10
## 400 100.0 5 3 3
## 401 70.5 4 1 6
## 402 75.9 3 3 2
## 403 70.5 2 4 7
## 404 93.9 5 4 5
## 405 84.7 4 2 4
## 406 67.6 2 1 4
## 407 46.6 2 2 5
## 408 63.7 4 3 8
## 409 91.6 4 4 9
## 410 67.6 3 1 8
## 411 65.1 4 4 4
## 412 75.9 4 3 7
## 413 71.9 2 4 6
## 414 65.9 1 1 1
## 415 61.4 4 2 7
## 416 58.0 1 3 7
## 417 63.5 2 4 4
## 418 82.3 3 4 1
## 419 78.5 3 3 10
## 420 77.9 2 5 10
## 421 49.6 3 2 2
## 422 82.8 4 4 6
## 423 62.8 2 3 10
## 424 65.5 3 2 2
## 425 100.0 3 4 4
## 426 76.7 3 4 5
## 427 58.1 1 4 9
## 428 72.9 4 2 6
## 429 58.6 3 3 1
## 430 100.0 4 4 9
## 431 75.1 4 3 8
## 432 100.0 3 4 9
## 433 60.7 1 3 8
## 434 94.2 4 4 1
## 435 55.3 1 2 2
## 436 100.0 3 4 9
## 437 59.9 1 2 3
## 438 68.6 4 1 1
## 439 52.4 1 2 6
## 440 70.1 4 3 8
## 441 86.7 4 4 9
## 442 69.6 2 1 2
## 443 59.7 2 2 3
## 444 64.0 1 5 5
## 445 71.3 1 3 5
## 446 100.0 4 4 6
## 447 55.6 2 2 9
## 448 53.3 1 3 10
## 449 80.0 2 3 2
## 450 83.0 3 3 3
## 451 84.0 4 3 8
## 452 82.2 2 3 10
## 453 51.9 2 0 7
## 454 89.5 4 5 2
## 455 100.0 5 5 2
## 456 97.1 5 2 4
## 457 87.4 4 3 3
## 458 73.6 2 4 3
## 459 93.5 4 4 8
## 460 67.6 3 4 3
## 461 61.1 2 2 6
## 462 88.0 3 6 7
## 463 74.3 5 2 9
## 464 71.4 2 4 7
## 465 84.6 3 3 3
## 466 65.4 2 3 1
## 467 65.2 1 3 1
## 468 59.1 1 2 3
## 469 95.0 3 5 9
## 470 53.6 1 3 1
## 471 40.5 1 3 3
## 472 67.1 2 3 9
## 473 93.5 3 3 6
## 474 71.7 3 2 8
## 475 53.5 2 3 10
## 476 71.3 3 1 7
## 477 76.5 4 2 5
## 478 61.2 2 2 10
## 479 80.5 4 2 9
## 480 83.6 2 3 6
## 481 92.0 2 5 2
## 482 53.2 2 1 7
## 483 80.3 4 3 8
## 484 59.2 2 4 2
## 485 78.0 5 2 6
## 486 86.4 2 3 10
## 487 85.7 2 4 3
## 488 84.8 4 3 5
## 489 56.1 2 3 2
## 490 72.8 4 3 4
## 491 100.0 4 3 6
## 492 60.0 2 2 4
## 493 66.3 3 3 6
## 494 100.0 5 5 10
## 495 82.0 4 4 6
## 496 92.1 4 2 2
## 497 100.0 5 2 7
## 498 66.3 2 3 7
## 499 100.0 4 4 4
## 500 73.3 2 3 5
# Matriz de correlación
matriz_cor <- cor(datos_cor, use = "complete.obs")
matriz_cor
## intencion_voto interes_politico uso_redes
## intencion_voto 1.00000000 0.61063166 0.37262864
## interes_politico 0.61063166 1.00000000 -0.03530086
## uso_redes 0.37262864 -0.03530086 1.00000000
## confianza_instituciones -0.03193681 -0.00270293 0.03248416
## confianza_instituciones
## intencion_voto -0.03193681
## interes_politico -0.00270293
## uso_redes 0.03248416
## confianza_instituciones 1.00000000
# Gráfico de correlación
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
corrplot(
matriz_cor,
method = "circle",
type = "upper",
addCoef.col = "black",
tl.col = "black",
tl.srt = 45
)
La matriz de correlación muestra que la variable más intensamente relacionada con la intención de voto es interés político, con una correlación de 0.6106. Esa relación es positiva, lo que significa que, a mayor interés político, mayor intención de voto por el Partido A. La segunda relación más importante es con uso de redes sociales, con una correlación de 0.3726, también positiva. En cambio, confianza en instituciones casi no se relaciona con la intención de voto, ya que su correlación es -0.0319, prácticamente nula.
Con esto podemos encontrar que la variable que mas fuertemente se relaciona es el interes polirico, aspecto que se denota con una correlacion positiva de 0.6106.
El signo de correlacion varia segun la variable independiente comparada y estudiada, en el interes politico es positiva, asi mismo con el uso de redes sociales,que de igual manera fue positiva, por el contrario la confianza en instituciones tuvo una correlacion negativa con -0.0319.
Regresion lineal simple:
# Regresión lineal simple
reg_simple <- lm(intencion_voto ~ interes_politico, data = datos)
summary(reg_simple)
##
## Call:
## lm(formula = intencion_voto ~ interes_politico, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -32.367 -8.349 0.883 8.127 28.451
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 55.5301 1.2870 43.15 <2e-16 ***
## interes_politico 6.8593 0.3986 17.21 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.07 on 498 degrees of freedom
## Multiple R-squared: 0.3729, Adjusted R-squared: 0.3716
## F-statistic: 296.1 on 1 and 498 DF, p-value: < 2.2e-16
# Gráfico de dispersión con línea de regresión
library(ggplot2)
ggplot(datos, aes(x = interes_politico, y = intencion_voto)) +
geom_point(alpha = 0.4) +
geom_smooth(method = "lm", se = TRUE) +
labs(
title = "Regresión lineal simple",
subtitle = "Intención de voto según interés político",
x = "Interés político",
y = "Intención de voto"
)
## `geom_smooth()` using formula = 'y ~ x'
En lo que respecta a la regresion lineal simple simple, donde la intención de voto depende solo de interés político, el coeficiente estimado para interés político es 6.8593, y es estadísticamente significativo. Esto significa que, por cada aumento de una unidad en el interés político, la intención de voto por el Partido A aumenta en promedio 6.86 puntos, manteniendo el resto fuera del modelo. El intercepto es 55.5301, lo que representa la intención de voto esperada cuando el interés político es cero. Aunque matemáticamente es válido, sustantivamente no es tan útil porque en esta base el interés político va de 1 a 5. El R² = 0.3729, por lo que este modelo explica aproximadamente el 37.3% de la variación en la intención de voto.
Preguntas guia:
El aumento del coeficiente estimado de interes politico significa que el aumento de un punto de interes politico incrementa en promedio la intención de voto en un 6.86 puntos.
Se incrementa el intercepto teniendo en cuenta que es el valor esperado de la intención de voto cuando el interés político vale cero. Tiene sentido matemático, pero poca utilidad sustantiva en este caso debido a los resultados obtenidos. Esto debido a que en esta base el interés político toma valores entre 1 y 5, dicho valor no corresponde a un caso empíricamente observado, por lo que su interpretación sustantiva es limitada.
El R² de este modelo nos dice que el interés político por sí solo explica el 37.3% de la variación observada en la intención de voto.
Regresion lineal multiple:
# Regresión lineal múltiple
reg_multiple <- lm(
intencion_voto ~ interes_politico + uso_redes + edad,
data = datos
)
summary(reg_multiple)
##
## Call:
## lm(formula = intencion_voto ~ interes_politico + uso_redes +
## edad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.5954 -5.9054 0.0405 5.9296 30.2430
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.20118 2.16484 23.651 <2e-16 ***
## interes_politico 7.08963 0.32364 21.906 <2e-16 ***
## uso_redes 5.11519 0.39133 13.071 <2e-16 ***
## edad -0.29487 0.03447 -8.555 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.982 on 496 degrees of freedom
## Multiple R-squared: 0.5891, Adjusted R-squared: 0.5866
## F-statistic: 237 on 3 and 496 DF, p-value: < 2.2e-16
# Comparar R2 de ambos modelos
summary(reg_simple)$r.squared
## [1] 0.372871
summary(reg_multiple)$r.squared
## [1] 0.5890746
En el modelo de regresiion lineal múltiple podemos encontrar que la intención de voto depende de interés político, uso de redes y edad. Los resultados muestran que todas las variables son estadísticamente significativas. El coeficiente de interés político es 7.0896, el de uso de redes es 5.1152 y el de edad es -0.2949. Esto significa que, manteniendo constantes las demás variables, un aumento de un punto en interés político incrementa la intención de voto en aproximadamente 7.09 puntos, una hora adicional de uso de redes la incrementa en 5.12 puntos, y un año adicional de edad la reduce en aproximadamente 0.29 puntos. El R² = 0.5891, por lo que este modelo explica cerca del 58.9% de la variación en la intención de voto. Es claramente mejor que el modelo simple.
La variable con mayor efecto en la intencion de voto es la de interés político. Luego sigue uso de redes sociales. La edad también influye, pero con un efecto menor en magnitud y de signo negativo.
El efecto de la edad es negativo, con un -2.949. Esto significa que, a mayor edad, menor intención de voto por el Partido A. Este resultado tiene sentido dentro de esta simulación porque así fue construida la variable dependiente, y puede interpretarse como que los votantes más jóvenes tendrían mayor afinidad con ese partido, de modo que a menor la edad, mayor el nivel de afinidad.
El modelo de regresion lineal múltiple es el que explica mejor la intención de voto, porque su R² de 0.5891 es mayor que el 0.3729 del modelo simple.
Verificacion de supuestos:
Linealidad
# Residuos vs valores ajustados
plot(reg_multiple, which = 1)
En lo que respecta al supuesto de linealidad, este cumple de manera aceptable, ya que los residuos se dispersan alrededor de cero sin un patrón curvilíneo claro. Aunque la línea de tendencia muestra una ligera curvatura, no se observan evidencias de una violación grave de este supuesto. A pesa
Normalidad de residuos:
# QQ plot
plot(reg_multiple, which = 2)
# Histograma de residuos
hist(
residuals(reg_multiple),
main = "Histograma de residuos",
xlab = "Residuos"
)
# Prueba de Shapiro-Wilk
shapiro.test(residuals(reg_multiple))
##
## Shapiro-Wilk normality test
##
## data: residuals(reg_multiple)
## W = 0.99519, p-value = 0.1242
Con los resultados obtenidos por el grafico y la prueba de Shapiro-Wilk, que dio W = 0.99519 con p = 0.1242. Como el valor p es mayor que 0.05, no hay evidencia suficiente para rechazar la normalidad de los residuos. Por tanto, el supuesto de normalidad puede considerarse cumplido. Esto también debe ser coherente con el histograma y el QQ plot.
Homoscedasticidad:
# Residuos estandarizados vs valores ajustados
plot(reg_multiple, which = 3)
# Prueba de Breusch-Pagan
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Cargando paquete requerido: zoo
## Warning: package 'zoo' was built under R version 4.4.3
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
bptest(reg_multiple)
##
## studentized Breusch-Pagan test
##
## data: reg_multiple
## BP = 3.128, df = 3, p-value = 0.3723
La prueba de Breusch-Pagan dio BP = 3.128 con p = 0.3723. Como el valor p es mayor que 0.05, no hay evidencia de heterocedasticidad. En consecuencia, la varianza de los errores puede considerarse aproximadamente constante.
Independencia de los errores:
# Gráfico simple de residuos en el orden de los casos
plot(
residuals(reg_multiple),
type = "l",
main = "Residuos en el orden de observación",
ylab = "Residuos",
xlab = "Observación"
)
abline(h = 0, lty = 2)
# Prueba de Durbin-Watson
dwtest(reg_multiple)
##
## Durbin-Watson test
##
## data: reg_multiple
## DW = 1.7961, p-value = 0.01122
## alternative hypothesis: true autocorrelation is greater than 0
La prueba de Durbin-Watson dio DW = 1.7961 con p = 0.01122. Como el valor p es menor que 0.05, hay evidencia de autocorrelación positiva en los residuos. Este es el supuesto que sale más problemático en tus resultados, por lo que conviene señalarlo explícitamente en la interpretación final.
Multicolinealidad con Vif:
library(car)
## Warning: package 'car' was built under R version 4.4.3
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.4.3
##
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
vif(reg_multiple)
## interes_politico uso_redes edad
## 1.001960 1.006174 1.005771
Los VIF fueron 1.001960 para interés político, 1.006174 para uso de redes y 1.005771 para edad. Todos están muy cerca de 1, así que no hay problemas de multicolinealidad entre las variables explicativas.
Distancia de Cook:
# Distancia de Cook
plot(reg_multiple, which = 4)
# Residuos estandarizados
res_est <- rstandard(reg_multiple)
head(res_est)
## 1 2 3 4 5 6
## -0.5705245 0.2643756 -0.6069651 1.4681010 0.2848251 -0.5832887
Se llevo a cabo la revision de los residuos estandarizados y la distancia Cook, en los primeros residuos estandarizados observados no aparecen valores extremos evidentes. Con lo que muestran los resultados, no hay una señal inmediata de problemas graves. Esto se complementa con el hecho de que el gráfico de Distancia de Cook muestra que la mayoría de las observaciones tienen una influencia baja sobre los coeficientes del modelo. Sin embargo, se identifican algunos casos con influencia relativamente mayor, particularmente las observaciones 86, 135 y 383, que sobresalen respecto al resto. A pesar de lo anterior, los valores siguen siendo bajos en términos absolutos, ya que ninguno se acerca a 1,
Reflexion final:
Se deben considerar distintas preocupaciones que alteran las interpretaciones de los coefientes de la regresion multiple.
Entre estas las preocupaciones mas importantes son:
La correlación no necesariamente implica causalidad, por lo que el hecho de que una variable tenga un coeficiente significativo no significa que cause directamente la intención de voto. Solo indica asociación dentro del modelo estimado sin causa y efecto.
En Segundo lugar, los coeficientes dependen de las variables incluidas; si cambias el modelo, los efectos pueden variar, por lo que es fundamental no interpretar un resultado de la misma forma si añadimos o quitamos otras variables.
En Tercer lugar, el intercepto no siempre tiene interpretación sustantiva real. Por lo que aveces representa un valor fuera del rango real de los datos.
En cuarto lugar, es importante revisar supuestos, ya que si no se cumplen linealidad, normalidad, homoscedasticidad o independencia, las inferencias pueden ser engañosas y poco fiables.
En quinto lugar, es necesario considerar la magnitud y no solo la significancia, un coeficiente puede ser estadísticamente significativo pero sustantivamente pequeño y eso afecta considerablemente el resultado.
En sexto lugar esta el considerar que las variables omitidas pueden sesgar el modelo Si faltan factores importantes, los coeficientes estimados pueden estar captando efectos que no les corresponden.