PC3 Estadística 1 - Parte aplicada

La práctica se realizará en base al análisis de una base de datos que contiene indicadores de la Encuesta Mundial de Valores.La Encuesta Mundial de Valores (EMV) o World Values Survey (WVS) es un proyecto global de investigación social que explora los valores y opiniones de la gente, cómo estos cambian con el tiempo, y su impacto social y político. Desde 1981 una red mundial de científicos sociales y politólogos llevan a cabo esta investigación, haciendo encuestas nacionales representativas en casi 100 países. La WVS es la única fuente de datos empíricos sobre actitudes y valores humanos que abarca a la mayoría de la población mundial (casi el 90%).

library(rio)
data= import("wvs_agr_VF2.dta")

Pregunta 1 (3 puntos). ¿Existe asociación entre las variables de Confianza en las fuerzas armadas - Q65 (dependiente) y confianza en el gobierno nacional - Q71(independiente)? Calcule la prueba y medidas de asociación pertinentes

Paso 0: Ambas son ordinales Confianza en las fuerzas armadas (Q65) –> Dependiente Confianza en el gobierno nacional (Q71) –> independiente Comienzo con Q65

summary(data$Q65)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -2.000   2.000   3.000   2.728   3.000   4.000

class(data$Q65)

## [1] "numeric"

#Observo que tiene datos perdidos
data$Q65 = ordered(data$Q65, levels= c(1:4), labels=c("Mucha", "Algo", "Poca", "Nada"))
data=data[complete.cases(data$Q65),]
#compruebo si limpié bien mi variable
sum(is.na(data$Q65))

## [1] 0

class(data$Q65)

## [1] "ordered" "factor"

summary(data$Q71)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -2.000   3.000   4.000   3.391   4.000   4.000

sum(is.na(data$Q71))

## [1] 0

str(data$Q71)

##  num [1:1387] 1 1 3 4 4 3 3 4 4 3 ...

class(data$Q71)

## [1] "numeric"

#Observo que NO tiene datos perdidos
data$Q71 = ordered(data$Q71, levels= c(1:4), labels=c("Mucha", "Algo", "Poca", "Nada"))
#compruebo si limpié bien mi variable y si salen nuevos datos perdidos
sum(is.na(data$Q71))

## [1] 16

class(data$Q71)

## [1] "ordered" "factor"

data=data[complete.cases(data$Q71),]
sum(is.na(data$Q71))

## [1] 0

class(data$Q71)

## [1] "ordered" "factor"

Paso 1: Inserto mi tabla de contingencia

table(data$Q65)

## 
## Mucha  Algo  Poca  Nada 
##   139   360   564   308

table(data$Q71)

## 
## Mucha  Algo  Poca  Nada 
##    25   128   430   788

tabla1.1= table(data$Q65, data$Q71)
tabla1.1

##        
##         Mucha Algo Poca Nada
##   Mucha    11   25   45   58
##   Algo      7   64  133  156
##   Poca      5   30  205  324
##   Nada      2    9   47  250

#Observamos los porcentajes por columna
tabla1.2 = prop.table(tabla1.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla1.1
tabla1.2

##        
##             Mucha      Algo      Poca      Nada
##   Mucha 44.000000 19.531250 10.465116  7.360406
##   Algo  28.000000 50.000000 30.930233 19.796954
##   Poca  20.000000 23.437500 47.674419 41.116751
##   Nada   8.000000  7.031250 10.930233 31.725888

Paso 2:Diagrama de barras apiladas

barplot(tabla1.2, main = "Nivel de confianza en las fuerzas armadas según confianza en el gobierno nacional", legend.text = T)

Para interpretar con exactitud los datos resaltantantes de este gráfico nos ayudaremos de la tabla de contigencia creada en el paso anterior. Así, algunos datos resaltantes del gráfico es que, de las personas que tienen mucha confianza en el gobierno, el 44% tiene mucha confianza en las fuerzas armadas. De este grupo, solo un 7.3% tienen nada de confianza en las fuerzas armadas. Asimismo, de las personas que no tienen nada de confianza en el gobierno, solo un 8% tiene mcuha confianza en las fuerzas armadas. De este grupo, por el contrario, un importante 31% tiene nada de confianza en las fuerzas armadas. Lo enfatizado anteriormente tiene sentido ya que es probable que alguien que tiene poca confianza en el gobierno tenga poca confianza en una de sus instituciones emblemáticas como lo son las fuerzas armadas y viceversa.

Paso 3:Prueba Chi-cuadrado

H0: Las variables nivel de confianza en el gobierno y nivel de confianza en las fuerzas armadas son estadísticamente independientes (no hay asociación)

H1: Las variables nivel de confianza en el gobierno y nivel de confianza en las fuerzas armadas son estadísticamente dependientes (sí hay asociación)

chisq.test(tabla1.1)

## Warning in chisq.test(tabla1.1): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  tabla1.1
## X-squared = 177.44, df = 9, p-value < 2.2e-16

#Observo que mi P-value es_ 2.2e-16. Así, es mucho menor a 0.05. Por lo tanto, rechazo mi hipótesis nula y compruebo mi hipótesis alterntiva que me indica que sí existe asociación entre ambas variables. A continuación comprobaré mi grado de asociación

Paso 4:Veremos la intensidad y dirección

library(DescTools)
SomersDelta(tabla1.1, direction = "row")

## [1] 0.3069338

KendallTauB(tabla1.1)

## [1] 0.2748657

Se considera que la prueba para medir la forma de asociación es D de Sommer. Ello porque consideramos que son direccionales ya que hay causalidad entre la confianza en el gobierno y la confianza en una de sus instituaciones más importantes como lo son las fuerzas armadas. Sin embargo, usaremos también Tau B de Kendall (para tablas cuadradas) Los resultados son: Sommer:0.3069338 Tau b de Kendall: 0.2748657 Todas indican números parecidos. Así, se concluye que existe una asociación baja (respecto a la intensidad) y directa (respecto al sentido) entre el nivel de confianza en el gobierno y el nivel de confianza en las FFAA. Cuanto más confianza haya en el gobierno mayor será la confianza en las FF y viceversa. Cabe destacar que ello no debe entenderse bajo ninguna circunstancia como causalidad.

Pregunta 2 (3 puntos).

¿Existe asociación entre las personas que han sido víctima de algún delito (Q144) y la evaluación que hacen las personas sobre el impacto que tienen los inmigrantes en el desarrollo del Perú (Q121)? Calcule la prueba y medidas de asociación pertinentes

Paso 0: Formateo de variables

Q121: Evaluación del impacto que tienen los inmigrantes en el desarrollo del Perú –> ordinal
Q144: víctima de algún delito –> ordinal (independiente)

summary(data$Q121)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -2.000   3.000   3.000   3.233   4.000   5.000

class(data$Q121)

## [1] "numeric"

str(data$Q121)

##  num [1:1371] 5 3 2 3 2 2 2 3 4 2 ...

#Observo que tiene datos perdidos
data$Q121 = ordered(data$Q121, levels= c(1:5), labels=c("Muy bueno","Bueno","Ni bueno ni malo","Malo","Muy malo"))
data1=data[complete.cases(data$Q121),]
#compruebo si limpié bien mi variable
sum(is.na(data1$Q121))

## [1] 0

class(data1$Q121)

## [1] "ordered" "factor"

table(data1$Q121)

## 
##        Muy bueno            Bueno Ni bueno ni malo             Malo 
##               15              175              635              434 
##         Muy malo 
##               90

summary(data1$Q144)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -2.000   2.000   2.000   1.792   2.000   2.000

class(data1$Q144)

## [1] "numeric"

str(data1$Q144)

##  num [1:1349] -2 2 2 1 2 2 2 2 2 2 ...

sum(is.na(data1$Q144))

## [1] 0

data1$Q144 = factor(data1$Q144, levels= c(1:2), labels=c("Si","No"))
str(data1$Q144)

##  Factor w/ 2 levels "Si","No": NA 2 2 1 2 2 2 2 2 2 ...

table(data1$Q144)

## 
##   Si   No 
##  273 1074

#compruebo si limpié bien mi variable
sum(is.na(data1$Q144))

## [1] 2

class(data1$Q144)

## [1] "factor"

Paso1: Solicitamos tabla de contigencia

tabla2.1= table(data1$Q121, data1$Q144)
tabla2.1

##                   
##                     Si  No
##   Muy bueno          3  12
##   Bueno             38 137
##   Ni bueno ni malo 132 502
##   Malo              81 353
##   Muy malo          19  70

tabla2.2 = prop.table(tabla2.1, 2)*100 #hago mi tabla de contingencia a partir del objeto tabla2.1
tabla2.2

##                   
##                           Si        No
##   Muy bueno         1.098901  1.117318
##   Bueno            13.919414 12.756052
##   Ni bueno ni malo 48.351648 46.741155
##   Malo             29.670330 32.867784
##   Muy malo          6.959707  6.517691

Paso2: sOLICITAMOS DIAGRAMA DE BARRAS APILADAS

barplot(tabla2.2, main = "Evaluación del impacto que tienen los inmigrantes en el desarrollo según declaración de haber sido víctima o no de algún delito en el último año", legend.text = T)

Paso3: Prueba Chi2

H0: Las variables evaluación del nivel de impacto de los inmigrantes y declaración de haber sido víctima o no de algún delito en el último año son estadísticamente independientes (no hay asociación)

H1: Las variables evaluación del nivel de impacto de los inmigrantes y declaración de haber sido víctima o no de algún delito en el último año son estadísticamente dependientes (sí hay asociación)

chisq.test(tabla2.1)

## Warning in chisq.test(tabla2.1): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  tabla2.1
## X-squared = 1.1024, df = 4, p-value = 0.8939

#Se observa que el P-value es p-value = 0.8939, por lo que comprobamos la Hipótesis nula y establecemos que ambas variables son estad´siticamente independientes. Es decir, no hay asosiación entre ambas.

Paso

Pregunta 4 (4 puntos).

Elabore un indice de confianza de las instituciones con las preguntas Q65, Q69, Q70, Q71, Q72, Q73, Q74, Q76, Q85. Una vez calculado el índice, elabore un diagrama de dispersión para analizar la relación entre dicho indice y la edad del entrevistado. Interprete

sum(is.na(data$Q262))

## [1] 0

str(data$Q262)

##  num [1:1371] 48 79 82 35 20 58 24 33 62 39 ...

data$Q65=as.numeric(data$Q65)
data$Q71=as.numeric(data$Q71)
class(data$Q65)

## [1] "numeric"

class(data$Q69)

## [1] "numeric"

class(data$Q70)

## [1] "numeric"

class(data$Q71)

## [1] "numeric"

class(data$Q72)

## [1] "numeric"

class(data$Q73)

## [1] "numeric"

class(data$Q74)

## [1] "numeric"

class(data$Q76)

## [1] "numeric"

class(data$Q85)

## [1] "numeric"

class(data$Q71)

## [1] "numeric"

data$ind_confianza=data$Q65+data$Q69+data$Q70+data$Q71+data$Q72+data$Q73+data$Q74+data$Q76+data$Q85
sum(is.na(data$ind_confianza))

## [1] 0

table(data$ind_confianza)

## 
##   3   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24 
##   1   1   1   1   2   1   1   1   1   2   6   4  10  22  15  12  18  25  28  34 
##  25  26  27  28  29  30  31  32  33  34  35  36 
##  53  64  82  68  80 100 126 133 152 122  95 110

str(data$ind_confianza)

##  num [1:1371] 16 25 27 32 35 27 24 32 30 30 ...

library(gplots)

## Registered S3 method overwritten by 'gplots':
##   method         from     
##   reorder.factor DescTools

## 
## Attaching package: 'gplots'

## The following object is masked from 'package:DescTools':
## 
##     reorder.factor

## The following object is masked from 'package:stats':
## 
##     lowess

plot(data$Q262, data$ind_confianza, xlab="Edad", ylab="Índice de confianza en las instituciones")

library(PerformanceAnalytics)

## Loading required package: xts

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## 
## Attaching package: 'PerformanceAnalytics'

## The following object is masked from 'package:gplots':
## 
##     textplot

## The following object is masked from 'package:graphics':
## 
##     legend

ejercicio1.1<- data.frame(data$Q262,data$ind_confianza) #Nuestros datos es mejor tenerlos en un data.
chart.Correlation(ejercicio1.1)

#Probamos hacer ambos gráficos vistos en clase

Como se observa en ambos gráficos, no existe una correlación entre el nivel de confianza en las instituciones y la edad del encuestado. En ese sentido, el hecho de que la edad de una persona sea mayor o menor no va a estar correlacionado con un mayor o menor nivel de confianza. Ello se puede confirmar con el coeficiente que el segundo gráfico nos muestra que es 0.03. Este, según los parámetros vistos en clase, es bastante bajo ya que una corelación baja es entre 0 y 0.3

PC3 Estadística 1 - Parte aplicada

Nombre y Apellidos:

2022-06-01