La práctica se realizará en base al análisis de una base de datos que contiene indicadores de la Encuesta Mundial de Valores.La Encuesta Mundial de Valores (EMV) o World Values Survey (WVS) es un proyecto global de investigación social que explora los valores y opiniones de la gente, cómo estos cambian con el tiempo, y su impacto social y político. Desde 1981 una red mundial de científicos sociales y politólogos llevan a cabo esta investigación, haciendo encuestas nacionales representativas en casi 100 países. La WVS es la única fuente de datos empíricos sobre actitudes y valores humanos que abarca a la mayoría de la población mundial (casi el 90%).
library(rio)
data= import("wvs_agr_VF2.dta")
Pregunta 1 (3 puntos). ¿Existe asociación entre las variables de Confianza en las fuerzas armadas - Q65 (dependiente) y confianza en el gobierno nacional - Q71(independiente)? Calcule la prueba y medidas de asociación pertinentes
Paso 0: Ambas son ordinales Confianza en las fuerzas armadas (Q65) –> Dependiente Confianza en el gobierno nacional (Q71) –> independiente Comienzo con Q65
summary(data$Q65)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.000 2.000 3.000 2.728 3.000 4.000
class(data$Q65)
## [1] "numeric"
#Observo que tiene datos perdidos
data$Q65 = ordered(data$Q65, levels= c(1:4), labels=c("Mucha", "Algo", "Poca", "Nada"))
data=data[complete.cases(data$Q65),]
#compruebo si limpié bien mi variable
sum(is.na(data$Q65))
## [1] 0
class(data$Q65)
## [1] "ordered" "factor"
summary(data$Q71)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.000 3.000 4.000 3.391 4.000 4.000
sum(is.na(data$Q71))
## [1] 0
str(data$Q71)
## num [1:1387] 1 1 3 4 4 3 3 4 4 3 ...
class(data$Q71)
## [1] "numeric"
#Observo que NO tiene datos perdidos
data$Q71 = ordered(data$Q71, levels= c(1:4), labels=c("Mucha", "Algo", "Poca", "Nada"))
#compruebo si limpié bien mi variable y si salen nuevos datos perdidos
sum(is.na(data$Q71))
## [1] 16
class(data$Q71)
## [1] "ordered" "factor"
data=data[complete.cases(data$Q71),]
sum(is.na(data$Q71))
## [1] 0
class(data$Q71)
## [1] "ordered" "factor"
Paso 1: Inserto mi tabla de contingencia
table(data$Q65)
##
## Mucha Algo Poca Nada
## 139 360 564 308
table(data$Q71)
##
## Mucha Algo Poca Nada
## 25 128 430 788
tabla1.1= table(data$Q65, data$Q71)
tabla1.1
##
## Mucha Algo Poca Nada
## Mucha 11 25 45 58
## Algo 7 64 133 156
## Poca 5 30 205 324
## Nada 2 9 47 250
#Observamos los porcentajes por columna
tabla1.2 = prop.table(tabla1.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla1.1
tabla1.2
##
## Mucha Algo Poca Nada
## Mucha 44.000000 19.531250 10.465116 7.360406
## Algo 28.000000 50.000000 30.930233 19.796954
## Poca 20.000000 23.437500 47.674419 41.116751
## Nada 8.000000 7.031250 10.930233 31.725888
Paso 2:Diagrama de barras apiladas
barplot(tabla1.2, main = "Nivel de confianza en las fuerzas armadas según confianza en el gobierno nacional", legend.text = T)
Para interpretar con exactitud los datos resaltantantes de este gráfico
nos ayudaremos de la tabla de contigencia creada en el paso anterior.
Así, algunos datos resaltantes del gráfico es que, de las personas que
tienen mucha confianza en el gobierno, el 44% tiene mucha confianza en
las fuerzas armadas. De este grupo, solo un 7.3% tienen nada de
confianza en las fuerzas armadas. Asimismo, de las personas que no
tienen nada de confianza en el gobierno, solo un 8% tiene mcuha
confianza en las fuerzas armadas. De este grupo, por el contrario, un
importante 31% tiene nada de confianza en las fuerzas armadas. Lo
enfatizado anteriormente tiene sentido ya que es probable que alguien
que tiene poca confianza en el gobierno tenga poca confianza en una de
sus instituciones emblemáticas como lo son las fuerzas armadas y
viceversa.
Paso 3:Prueba Chi-cuadrado
H0: Las variables nivel de confianza en el gobierno y nivel de confianza en las fuerzas armadas son estadísticamente independientes (no hay asociación)
H1: Las variables nivel de confianza en el gobierno y nivel de confianza en las fuerzas armadas son estadísticamente dependientes (sí hay asociación)
chisq.test(tabla1.1)
## Warning in chisq.test(tabla1.1): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: tabla1.1
## X-squared = 177.44, df = 9, p-value < 2.2e-16
#Observo que mi P-value es_ 2.2e-16. Así, es mucho menor a 0.05. Por lo tanto, rechazo mi hipótesis nula y compruebo mi hipótesis alterntiva que me indica que sí existe asociación entre ambas variables. A continuación comprobaré mi grado de asociación
Paso 4:Veremos la intensidad y dirección
library(DescTools)
SomersDelta(tabla1.1, direction = "row")
## [1] 0.3069338
KendallTauB(tabla1.1)
## [1] 0.2748657
Se considera que la prueba para medir la forma de asociación es D de Sommer. Ello porque consideramos que son direccionales ya que hay causalidad entre la confianza en el gobierno y la confianza en una de sus instituaciones más importantes como lo son las fuerzas armadas. Sin embargo, usaremos también Tau B de Kendall (para tablas cuadradas) Los resultados son: Sommer:0.3069338 Tau b de Kendall: 0.2748657 Todas indican números parecidos. Así, se concluye que existe una asociación baja (respecto a la intensidad) y directa (respecto al sentido) entre el nivel de confianza en el gobierno y el nivel de confianza en las FFAA. Cuanto más confianza haya en el gobierno mayor será la confianza en las FF y viceversa. Cabe destacar que ello no debe entenderse bajo ninguna circunstancia como causalidad.
Pregunta 2 (3 puntos).
¿Existe asociación entre las personas que han sido víctima de algún delito (Q144) y la evaluación que hacen las personas sobre el impacto que tienen los inmigrantes en el desarrollo del Perú (Q121)? Calcule la prueba y medidas de asociación pertinentes
Paso 0: Formateo de variables
Q121: Evaluación del impacto que tienen los inmigrantes en el
desarrollo del Perú –> ordinal
Q144: víctima de algún delito –> ordinal (independiente)
summary(data$Q121)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.000 3.000 3.000 3.233 4.000 5.000
class(data$Q121)
## [1] "numeric"
str(data$Q121)
## num [1:1371] 5 3 2 3 2 2 2 3 4 2 ...
#Observo que tiene datos perdidos
data$Q121 = ordered(data$Q121, levels= c(1:5), labels=c("Muy bueno","Bueno","Ni bueno ni malo","Malo","Muy malo"))
data1=data[complete.cases(data$Q121),]
#compruebo si limpié bien mi variable
sum(is.na(data1$Q121))
## [1] 0
class(data1$Q121)
## [1] "ordered" "factor"
table(data1$Q121)
##
## Muy bueno Bueno Ni bueno ni malo Malo
## 15 175 635 434
## Muy malo
## 90
summary(data1$Q144)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.000 2.000 2.000 1.792 2.000 2.000
class(data1$Q144)
## [1] "numeric"
str(data1$Q144)
## num [1:1349] -2 2 2 1 2 2 2 2 2 2 ...
sum(is.na(data1$Q144))
## [1] 0
data1$Q144 = factor(data1$Q144, levels= c(1:2), labels=c("Si","No"))
str(data1$Q144)
## Factor w/ 2 levels "Si","No": NA 2 2 1 2 2 2 2 2 2 ...
table(data1$Q144)
##
## Si No
## 273 1074
#compruebo si limpié bien mi variable
sum(is.na(data1$Q144))
## [1] 2
class(data1$Q144)
## [1] "factor"
Paso1: Solicitamos tabla de contigencia
tabla2.1= table(data1$Q121, data1$Q144)
tabla2.1
##
## Si No
## Muy bueno 3 12
## Bueno 38 137
## Ni bueno ni malo 132 502
## Malo 81 353
## Muy malo 19 70
tabla2.2 = prop.table(tabla2.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla2.1
tabla2.2
##
## Si No
## Muy bueno 1.098901 1.117318
## Bueno 13.919414 12.756052
## Ni bueno ni malo 48.351648 46.741155
## Malo 29.670330 32.867784
## Muy malo 6.959707 6.517691
Paso2: sOLICITAMOS DIAGRAMA DE BARRAS APILADAS
barplot(tabla2.2, main = "Evaluación del impacto que tienen los inmigrantes en el desarrollo según declaración de haber sido víctima o no de algún delito en el último año", legend.text = T)
Paso3: Prueba Chi2
H0: Las variables evaluación del nivel de impacto de los inmigrantes y declaración de haber sido víctima o no de algún delito en el último año son estadísticamente independientes (no hay asociación)
H1: Las variables evaluación del nivel de impacto de los inmigrantes y declaración de haber sido víctima o no de algún delito en el último año son estadísticamente dependientes (sí hay asociación)
chisq.test(tabla2.1)
## Warning in chisq.test(tabla2.1): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: tabla2.1
## X-squared = 1.1024, df = 4, p-value = 0.8939
#Se observa que el P-value es p-value = 0.8939, por lo que comprobamos la Hipótesis nula y establecemos que ambas variables son estad´siticamente independientes. Es decir, no hay asosiación entre ambas.
Paso
Pregunta 4 (4 puntos).
Elabore un indice de confianza de las instituciones con las preguntas Q65, Q69, Q70, Q71, Q72, Q73, Q74, Q76, Q85. Una vez calculado el índice, elabore un diagrama de dispersión para analizar la relación entre dicho indice y la edad del entrevistado. Interprete
sum(is.na(data$Q262))
## [1] 0
str(data$Q262)
## num [1:1371] 48 79 82 35 20 58 24 33 62 39 ...
data$Q65=as.numeric(data$Q65)
data$Q71=as.numeric(data$Q71)
class(data$Q65)
## [1] "numeric"
class(data$Q69)
## [1] "numeric"
class(data$Q70)
## [1] "numeric"
class(data$Q71)
## [1] "numeric"
class(data$Q72)
## [1] "numeric"
class(data$Q73)
## [1] "numeric"
class(data$Q74)
## [1] "numeric"
class(data$Q76)
## [1] "numeric"
class(data$Q85)
## [1] "numeric"
class(data$Q71)
## [1] "numeric"
data$ind_confianza=data$Q65+data$Q69+data$Q70+data$Q71+data$Q72+data$Q73+data$Q74+data$Q76+data$Q85
sum(is.na(data$ind_confianza))
## [1] 0
table(data$ind_confianza)
##
## 3 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
## 1 1 1 1 2 1 1 1 1 2 6 4 10 22 15 12 18 25 28 34
## 25 26 27 28 29 30 31 32 33 34 35 36
## 53 64 82 68 80 100 126 133 152 122 95 110
str(data$ind_confianza)
## num [1:1371] 16 25 27 32 35 27 24 32 30 30 ...
library(gplots)
## Registered S3 method overwritten by 'gplots':
## method from
## reorder.factor DescTools
##
## Attaching package: 'gplots'
## The following object is masked from 'package:DescTools':
##
## reorder.factor
## The following object is masked from 'package:stats':
##
## lowess
plot(data$Q262, data$ind_confianza, xlab="Edad", ylab="Índice de confianza en las instituciones")
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:gplots':
##
## textplot
## The following object is masked from 'package:graphics':
##
## legend
ejercicio1.1<- data.frame(data$Q262,data$ind_confianza) #Nuestros datos es mejor tenerlos en un data.
chart.Correlation(ejercicio1.1)
#Probamos hacer ambos gráficos vistos en clase
Como se observa en ambos gráficos, no existe una correlación entre el nivel de confianza en las instituciones y la edad del encuestado. En ese sentido, el hecho de que la edad de una persona sea mayor o menor no va a estar correlacionado con un mayor o menor nivel de confianza. Ello se puede confirmar con el coeficiente que el segundo gráfico nos muestra que es 0.03. Este, según los parámetros vistos en clase, es bastante bajo ya que una corelación baja es entre 0 y 0.3