0. Definición del ambiente de trabajo.

Al comenzar siempre es importante establecer el idioma adecuado para que el programa reconozca caracteres especiales. En el caso de definir al idioma español, la instrucción a utilizar es:

Sys.setlocale("LC_ALL", "es_ES") #alternativa 1
## [1] "es_ES/es_ES/es_ES/C/es_ES/C"
Sys.setenv(LANG = "es") #alternativa 2

También es importante instalar las librerías que se utilizarán posteriormente:

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.2     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(DescTools)
library(haven)

Además es muy relevante establecer la ubicación del directorio de trabajo, con el fin que el programa identifique la carpeta de la que extraerá y, también, donde guardará la información solicitada.

getwd() ##directorio actual
## [1] "/Users/gustavo/Dropbox/R/Rmarkdown"
setwd("~/Dropbox/R") ##Esta permite cambiar y definir el directorio deseado
list.files() ##Esta permite enlistar los archivos dentro del directorio
##  [1] "~$datos_morena_frag.xlsx"                             
##  [2] "~$ia_ponencia_morena.docx"                            
##  [3] "~$morena_nueva_encuesta_2020.xlsx"                    
##  [4] "1-Estudio-Berumen-30mayo-6junio.PDF"                  
##  [5] "200613COVID19MEXICO.csv"                              
##  [6] "alumnos_political_compass.csv"                        
##  [7] "autoestima.csv"                                       
##  [8] "Base Voto x Mujeres Experimento 1 copia.csv"          
##  [9] "base_alternancias.csv"                                
## [10] "Base_datos_Informe_Pais.xlsx"                         
## [11] "base_municipios_final_datos_01.csv"                   
## [12] "base_voto_mujeres_2012_2018.csv"                      
## [13] "base_votos_2015_2018.csv"                             
## [14] "Bertrand_data.dta"                                    
## [15] "berumen_encuesta_6_junio.sav"                         
## [16] "Clase 2 DGAPA.xlsx"                                   
## [17] "Clase 4 DGAPA.xlsx"                                   
## [18] "Componente principal SPP.jpeg"                        
## [19] "Concentrado_Elecciones_Federales_1976_2018 copia.csv" 
## [20] "conejos.csv"                                          
## [21] "confidence_intervals_Coursera.rmd"                    
## [22] "Copia de factorial 3x2x2.csv"                         
## [23] "copia_semillas.csv"                                   
## [24] "cuadro_latino.csv"                                    
## [25] "Curso Intro a R I y II"                               
## [26] "data_clientelismo.csv"                                
## [27] "data_clientelismo.dta"                                
## [28] "datos_2_fac_aleat.csv"                                
## [29] "datos_computos_distritos_diputado.txt"                
## [30] "datos_covid1.txt"                                     
## [31] "datos_covid2.csv"                                     
## [32] "datos_covid3.xlsx"                                    
## [33] "datos_gc.csv"                                         
## [34] "datos_morena_frag.xlsx"                               
## [35] "datos_pp1.csv"                                        
## [36] "datos_pp2.csv"                                        
## [37] "datos_repeticiones.csv"                               
## [38] "datos_telas.csv"                                      
## [39] "diccionario_datos_covid19"                            
## [40] "Diferencia_votos_DIP_FED_2015.csv"                    
## [41] "diminish.txt"                                         
## [42] "encuesta_abierta_morena_2020.xlsx"                    
## [43] "encuesta_abierta_morena.csv"                          
## [44] "Encuesta_Gea.dta"                                     
## [45] "encuesta_nina_w_ 2016"                                
## [46] "encuesta_nueva_morena.csv"                            
## [47] "enpol_sec_5_6.csv"                                    
## [48] "enpol_sec7_1.csv"                                     
## [49] "enpol_sec8_9_10.csv"                                  
## [50] "experim_azucar.csv"                                   
## [51] "guia_ponencia_morena.docx"                            
## [52] "ICI_2018.xlsx"                                        
## [53] "idh_mpio_2000_2005.csv"                               
## [54] "idh_mpio_2000_2005.xls"                               
## [55] "indices_spp_subnacional_1980_2018.xlsx"               
## [56] "intro_to_data_Coursera.html"                          
## [57] "jerarquico_cruzado.csv"                               
## [58] "Latinobarometro_2018_Esp_Spss_v20190303.sav"          
## [59] "Latinobarometro_2018_Esp_Stata_v20190303.dta"         
## [60] "Latinobarometro_2020_Esp_Rdata_v1_0.rdata"            
## [61] "mediciones_repetidas.csv"                             
## [62] "Mi_Exportación.xlsx"                                  
## [63] "modelo_jerarquico.csv"                                
## [64] "morena_nueva_encuesta_2020.xlsx"                      
## [65] "morena-basedatos-integrada-vf-1.csv"                  
## [66] "morena-bd-integrada-estimación-empresas.xlsx"         
## [67] "partylevel_20130907.csv"                              
## [68] "presid06computo.dta"                                  
## [69] "Principal Component Analysis R Program and Output.pdf"
## [70] "resultados_diputadosfederales_2018.csv"               
## [71] "Rmarkdown"                                            
## [72] "scripts"                                              
## [73] "SDEMT319_10.dta"                                      
## [74] "sdemt319_10.sav"                                      
## [75] "SDEMT319.dta"                                         
## [76] "syllabus.log"                                         
## [77] "syllabus.Rmd"                                         
## [78] "syllabus.tex"                                         
## [79] "Tabasco_votos_dip_loc_2018_dif.csv"                   
## [80] "tarea_hipertension.csv"                               
## [81] "TiposErrores.png"                                     
## [82] "V-Dem-CY-Core-v12.csv"                                
## [83] "voto_cand_socioec_2012.csv"                           
## [84] "voto_cand_socioec_2015.csv"                           
## [85] "voto_cand_socioec_2018.csv"                           
## [86] "votos_diputados_2015.csv"                             
## [87] "votos_mujeres_2012_2018_copia.csv"                    
## [88] "votos_mujeres_2012_2018.csv"

Una vez establecido el directorio de trabajo, se debe cargar la base de datos o data frame en el ambiente del programa, de la que se analizará la información. Para ello habrá que “cargar” la información sobre los pacientes infectados por COVID-19 reportados por la Secretaría de Salud del gobierno federal mexicano.

datos_covid <- read.csv("~/Dropbox/R/200613COVID19MEXICO.csv", header = TRUE) #ruta de acceso a los datos, 'header = TRUE' en caso de que el archivo cuente con nombres de las variables.

1. Inferencia por intervalos.

Los Intervalos de Confianza (IC) son otra técnica de estimación dentro del ámbito de la estadística inferencial. Estos corresponden a un rango de valores generados a partir de datos de una muestra y dentro del que se estima que se encontrará el “verdadero” valor de la población. A diferencia del proceso de estimación puntual, el cual compara un valor específico (un estadístico como, por ej., la media de una variable) a partir de un valor calculado frente a un valor crítico, evaluado a partir de sus probabilidades correspondientes, el IC asume que dentro del conjunto de valores que abarca, una parte se integra por un Margen de Error (ME) en torno al valor puntual del estadístico puntual. Y de la unión de ambos (ME y estadístico puntual, por ej. la media, mediana o proporción), se cuenta con un Nivel de Confianza que permite inferir que en su interior se contendrá al parámetro de interés.

Debido a la naturales del IC (un rango), este permite incluir en su interior a un conjunto de probabilidades asociadas a los valores puntuales que lo integran. Esto aumenta la probabilidad de, a su vez, inferir el valor del parámetro de interés a diferencia de la técnica de estimación puntual.

Fórmula de un IC a partir del estadístico puntual de la media de una muestra: \[ \bar{x} \pm ME \]

Por su parte, el ME se construye a partir de dos elementos:

  1. Un Nivel de Confianza (definido en unidades \(Z\)) que se corresponde con la proporción o probabilidad que el analista considera (arbitrariamente) pertinente para aceptar que en el rango de interés se incluye al parámetro de interés y, además, fuera de ello se encuentra el tamaño de error esperado y aceptado.
  2. El segundo elemento consiste en el Error Estándar (ES), que se refiere a la variación de una muestra respecto de una distribución muestral, donde se asume que las muestras de ésta última son del mismo tamaño que la primera.

Donde el ME es igual a: \[ME = z^\star \frac{s}{\sqrt{n}}\]

A partir de los elementos que integran al IC: un estimador puntual de interés para el análisis del comportamiento de una población, un Nivel de Confianza definido por el analista y el Error Estándar de la muestra, se calculan dos valores aleatorios que definen los límites del rango de valores del IC: su valor mínimo y su valor máximo.

De manera que el IC, calculado a partir del valor de la media de una muestra, es igual al valor mínimo y al valor máximo derivado de: \[\bar{x} \pm z^\star \frac{s}{\sqrt{n}}\]

1.1. Muestra e Intervalos de Confianza.

Para comenzar la demostración sobre la construcción de los IC y su utilidad, a continuación se trabajará sobre una submuestra obtenida de la base de datos sobre pacientes infectados con COVID-19 que elaboró la Secretaría de Salud del Gobierno Federal de México. Esto con el fin de establecer, primero, que un analista suele trabajar con muestras de poblaciones en la gran mayoría de los casos, y esto supone que, segundo, cada muestra puede mostrar variaciones en cuanto a los valores calculados para un mismo estadístico. Lo que supone un reto para aproximarse al estimar el valor del parámetro de interés en la población -esto es lo último que se desea conocer en los análisis cuantitativos.

A continuación se comenzará con la construcción de una submuestra, para lo que se deberá, inicialmente, establecer el valor de “arranque” o “semilla” en R, y a partir del que se integrarán los casos aleatoriamente. Definir dicho valor inicial permite que los análisis sean posteriormente reproducibles y arriben al mismo resultado.

1.1.1. Integración de una muestra aleatoria.

Dicho valor “semilla” es un número completamente arbitrario que es definido por el analista, y su utilidad está en definir el valor inicial que servirá para el proceso de aleatorización posterior. Esto permitirá que las submuestras que se construyen, posteriormente, registrarán los mismos casos y valores entre sí.

set.seed(54321)

A partir de los datos sobre los pacientes infectados con COVID-19 que ha elaborado la SSA del gobierno federal mexicano, se deberá integrar una submuestra con 10,000 casos. Para ello se usará el script sample_n () de la paquetería dplyr, por lo que deberá ser instalada previamente. Esta librería se incluye dentro del paquete de otra librería más amplia, que es tidyverse().

n_muestra <- 10000 #objeto que define el tamaño de la muestra
muestra <- sample_n(datos_covid, n_muestra) #script para integrar la muestra.

De esta manera, en el recuadro del “ambiente” de R Studio ahora aparecen nuevos datos con el nombre de “muestra”, que se acaba de integrar de manera aleatoria.

Pregunta: Describe la distribución de la variable EDAD en la muestra recién integrada. ¿Cuál es el valor promedio y cuánto se desvían el resto de los casos?

1.1.2. Elementos del Intervalo de Confianza.

Los valores de los estadísticos obtenidos de una muestra suelen ser nuestro “mejor”, o en ocasiones el único, estimador para conocer un parámetro de interés en una población. De esta manera, a partir de las diversas técnicas de la estadística inferencial, dichos estadísticos sirven como estimadores puntuales del parámetro poblacional.

Por ejemplo, el estadístico de la media (\(\bar{x}\)) de una variable en una muestra nos permite acercarnos al valor de la media en la población (\(\mu\)). Sin embargo el valor del estadístico solo tiene asociado un solo valor de probabilidad, y a partir de comparar su valor correspondiente en una distribución muestral (el cuantil correspondiente según el estadístico de prueba utilizado para evaluar su posición) con respecto al valor crítico determinado a partir del mismo estadístico de prueba, es que se puede determinar si dicho valor muestral se aproxima probabilísticamente al valor poblacional.

Este proceso de comparación, que se denomina prueba de significancia, se reporta a partir de un solo valor (que en ocasiones se reduce al p-valor del valor obtenido o calculado del estadístico muestral), y no necesariamente permite identificar el tamaño de la incertidumbre que contiene el valor calculado.

La utilidad de los IC radica en que, partiendo de un punto de referencia -a partir del valor del estadístico de interés- se puede estimar un rango de valores posibles que puede adoptar el parámetro de interés a la vez que se incluye el grado de incertidumbre en la estimación misma. De manera que el IC ofrece mayor información al analista sobre el proceso de estimación:

  1. presenta el valor de estimación puntual y,
  2. el tamaño de incertidumbre contenida en la estimación.

Dicho tamaño de incertidumbre contenida en el rango establecido por el IC también permite incluir una mayor cantidad de valores posibles que puede adoptar el parámetro de interés y, a su vez, incorporar una cantidad mayor de probabilidades asociadas a estos valores posibles.

Como se vio arriba, los elementos que integran a un IC son:

  1. estimador puntual que puede ser algún momento o medida de tendencia central (media, mediana, proporción),
  2. margen de error, que supone la variación que existirá en torno al estimador puntual.

El margen de error -como también se describió arriba- se integra con dos elementos:

  1. el error estándar o típico de la muestra con respecto a la distribución muestral, y
  2. el nivel de confianza establecido por el analista previamente, y que depende del tipo de distribución de probabilidades del estadístico de prueba utilizado para el análisis (\(z, t, F, \chi^2, r\)).
1.1.2.1. Cálculo del estimador puntual para una variable continua.

En el caso de trabajar con una variable del tipo continua y con una distribución parecida a una normal, la media suele ser el estimador puntual más pertinente. Para ello se calculará la media de la variable EDAD de los pacientes en la submuestra construida previamente.

x_barra <- mean(muestra $ EDAD)
x_barra
## [1] 42.4318
1.1.2.2. Determinación del Nivel de Confianza y su cuantil correspondiente.

El Nivel de Confianza es una proporción definida previamente por el analista, mediante la que define cuál es el porcentaje de casos, y probabilidades, que desea incluir en el rango de valores que busca estimar. Este nivel de confianza se determina a partir de identificar el valor crítico asociado al Nivel de Confianza deseado. Para ello se utilizará el script qnorm().

El Nivel de Confianza no es lo mismo que un percentil al momento de definir el valor crítico del IC. El percentil se refiere al acumulado de probabilidades ubicados a la izquierda del valor crítico mientras que el Nivel de Confianza define el tamaño del rango de valores, y sus probabilidades asociadas, en torno a (a su izquierda y derecha) del estimador puntual seleccionado. De manera que el Nivel de Confianza se refiere a un porcentaje de casos ubicados al centro de la distribución.

Por ejemplo, un Nivel de Confianza del 95% se refiere al 95% de los casos ubicados en torno al centro de la distribución, mientras que un valor crítico asociado con esta área se corresponde con el percentil 0.975 pues a la derecha de dicho valor crítico quedará el 2.5% de los casos y, simétricamente, quedará el 2.5% a la izquierda de la distribución. En total, la suma de estos valores extremos será de 5% o una proporción de 0.05 (alfa).

La manera de identificar el valor del cuantil correspondiente a un Nivel de Confianza del 95% para el IC es la siguiente:

z_95 <- qnorm(0.975) #se usa la proporción 0.975 por que a su derecha se excluye al 0.025 de los casos y, de manera simétrica también se excluirá al 0.025 de los casos a la izquierda del rango.
z_95 #unidades de desviación estándar o "Z"
## [1] 1.959964

En el caso de trabajar con un Nivel de Confianza del 99%, se refiere al 99% de los casos ubicados en torno al centro de la distribución, y su valor crítico correspondiente consiste en el percentil 0.995 pues a la derecha de dicho valor crítico quedará el 0.5% de los casos y, simétricamente, quedará el 0.5% a la izquierda de la distribución. En toral, la suma de estos valores extremos será de 1% o una proporción de 0.01 (alfa).

z_99 <- qnorm(0.995) #se usa la proporción 0.975 por que a su derecha se excluye al 0.025 de los casos y, de manera simétrica también se excluirá al 0.025 de los casos a la izquierda del rango.
z_99 #unidades de desviación estándar o "Z"
## [1] 2.575829
1.1.2.3. Cálculo del Error Estándar de la muestra.

El error estándar permite identificar la variación que existe en la muestra analizada con respecto de la distribución muestral de otras muestras (hipotéticas) del mismo tamaño (\(n\)) que la muestra original. Este valor ayuda a establecer si el estimador utilizado (\(\bar{x}\)) es un buen estimador para acercarse al parámetro poblacional de interés.

La manera de calcular el error estándar consiste en dividir la desviación estándar de la variable analizada entre la raíz cuadrada del tamaño de la muestra utilizada (\(\frac{s}{\sqrt{n}}\)).

error_std<-(sd(muestra$EDAD) / #desviación estándar de la variable EDAD en la muestra
              sqrt(n_muestra)) #raíz cuadrada del tamaño de la muestra
error_std
## [1] 0.1655911

Otra manera de calcular el Error Estándar bajo la liberaría DescTools() es:

SE <- MeanSE(muestra $ EDAD, sd = NULL, na.rm = TRUE)
SE
## [1] 0.1655911

1.2. Integración del Intervalo de Confianza a partir de la media.

Una vez calculados los elementos del IC, se puede integrar el rango de valores que lo integrarán. Debido a que el IC es un rango, este se define por dos valores aleatorios:

  1. el límite inferior con un Nivel de Confianza del 95%, se pueden calcular manualmente de la siguiente forma:
lim_inf <- x_barra - (z_95 * error_std)
lim_inf
## [1] 42.10725
  1. La manera de calcular el límite superior con un Nivel de Confianza del 95% es:
lim_sup <- x_barra + (z_95 * error_std)
lim_sup
## [1] 42.75635
  1. Integración del Intervalo de Confianza:

A partir de ambos límites calculados se puede establecer que el rango de valores dentro del que se espera que se encuentre la media de edad para la población de interés se ubique entre el límite inferior de 42.1072474 y el límite superior calculado de 42.7563526, con un Nivel de Confianza del 95%.

Otra manera de calcular un IC es a partir del script MeanCI()que es parte de la librería DescTools; para ello se debe cargar esta última librería y correr el script posteriormente.

IC_EDAD <- MeanCI(x = muestra $ EDAD, # Variable de la que se calcula su media (estimador puntual)
                  conf.level = 0.95, # Nivel de confianza
                  na.rm = FALSE) # Argumento para remover los valores perdidos
IC_EDAD
##     mean   lwr.ci   upr.ci 
## 42.43180 42.10721 42.75639

Con el fin de evaluar la pertinencia del IC construido, se puede comparar con los datos originales, suponiendo que son los datos de una población entera. Para ello se calcula el valor de la media poblacional para determinar si el IC construido logra capturar dicho parámetro. Este valor se deberá guardar como un objeto param, y se le denominará mu.

param <- datos_covid %>%
  summarise(mu = mean(EDAD))
param
##         mu
## 1 42.57663

Pregunta: ¿El IC construido logra capturar el promedio de edad de los pacientes en la población en México?

1.3. Niveles de confianza.

A partir del uso de R y sus herramientas se pueden construir diversas muestras aleatorias para, también, entender la manera en que pueden variar los valores de la media y los IC entre sí.

Los pasos básicos a seguir son:

  • Construir una muestra.
  • Calcular la muestra y la desviación estándar para dicha muestra y guardarlas para calcular, posteriormente, los límites inferior y superior de los IC.
  • Repetir estos 50 veces.

Para llevarlo a cabo se usa el script rep_sample_n para construir 50 muestras aleatorias de tamaño n = 60 de una población y, posteriormente, se calcularán los límites inferiores y superiores de los IC. Con la siguiente fórmula se puede activar dicha función.

rep_sample_n <- function(tbl, size, replace = FALSE, reps = 1)
{
  n <- nrow(tbl)
  i <- unlist(replicate(reps, sample.int(n, size, replace = replace),
                        simplify = FALSE))
  rep_tbl <- cbind(replicate = rep(1:reps,rep(size,reps)), tbl[i,])
  dplyr::group_by(rep_tbl, replicate)
} #Activación de la función "rep_sample_n()"

set.seed(1234)
ci <- datos_covid %>% 
  rep_sample_n(size = 60, reps = 50, replace = TRUE) ##creación de 50 muestras de n = 60, esto da un tamaño de muestra de 3000 (= 60 casos x 50 muestras)

Ahora se calculan los límites inferior y superior de cada una de las 50 muestras para, así, construir sus Intervalos de Confianza respectivos:

ci <- ci %>% #Esta opción servirá para guardar a los IC como un nuevo objeto de formato 'tabla'
  summarise(lim_inferior=mean(EDAD) - (z_95*(sd(EDAD) / sqrt(3000))), #límite inferior
            lim_superior=mean(EDAD) + (z_95*(sd(EDAD) / sqrt(3000)))) #límite superior

Ahora se puede hacer una revisión “rápida” a los primeros cinco IC:

ci %>%
  slice(1:5)
## # A tibble: 5 × 3
##   replicate lim_inferior lim_superior
##       <int>        <dbl>        <dbl>
## 1         1         38.3         39.4
## 2         2         42.5         43.5
## 3         3         42.5         43.7
## 4         4         41.6         42.8
## 5         5         39.3         40.3

A partir del objeto que reúne los límites inferiores y superiores de IC para 50 muestras se puede crear una gráfica que ayude a su visualización y comparación.

El primer paso para la construcción de dicha gráfica consiste en crear una variable nueva en el objeto ci recién creado, que indique si el intervalo captura o no a la media poblacional. Hay que notar que “capturar” dicho valor significa que el límite inferior del IC se ubicará por debajo del valor del parámetro y el límite superior del IC se encontrará por arriba de dicho valor poblacional.

Para crear la variable nueva se usará el script mutate() de la librería dplyr.

ci <- ci %>%
  mutate(captura_mu = ifelse(lim_inferior < param $ mu & lim_superior > param $ mu, "si", "no"))

Vistazo a las primeras cinco filas:

ci %>%
  slice(1:5)
## # A tibble: 5 × 4
##   replicate lim_inferior lim_superior captura_mu
##       <int>        <dbl>        <dbl> <chr>     
## 1         1         38.3         39.4 no        
## 2         2         42.5         43.5 si        
## 3         3         42.5         43.7 si        
## 4         4         41.6         42.8 si        
## 5         5         39.3         40.3 no

La función ifelse es un script alternativo para realizar la transformación de una nueva variable a partir de una previamente existente. Dicha función requiere tres argumentos: el primero consiste en un argumento lógico, el segundo es el valor deseado si el argumento lógico corresponde a un resultado verdadero y, el tercer argumento corresponde al nuevo valor residual que se desea asignar en caso de que el argumento lógico sea un resultado falso.

Ahora se cuenta con la información necesaria para crear el gráfico, pero se deben re organizar los datos para facilitar su visualización. Específicamente se necesita organizar los datos en un nuevo data frame donde cada fila o renglón represente un límite, en contraposición a un intervalo.

De manera que se desean manipular estos datos:

replicate lim_inferior lim_superior captura_mu
1 41.21044 41.95623 no
2 46.93813 47.52854 no
3 46.91318 47.55349 no

Para que se re ordenen de la siguiente manera:

id replicate tipo limite captura_mu
1 1 inferior 41.21044 no
2 2 inferior 46.93813 no
3 3 inferior 46.91318 no
4 1 superior 41.95623 no
5 2 superior 47.52854 no
6 3 superior 47.55349 no

Esto se logra a partir del siguiente script:

ci_data <- gather(ci, type, bound, lim_inferior : lim_superior)

Finalmente se construye el gráfico de los IC usando la librería ggplot:

ggplot(data = ci_data, aes(x = bound, y = replicate, 
                           group = replicate, color = captura_mu)) +
  geom_point(size = 2) +  # añade puntos al final de cada recta, de tamaño = 2
  geom_line() +           # conecta los puntos mediante líneas
  geom_vline(xintercept = param $ mu, color = "darkgray") # dibuja una línea vertical en el valor del parámetro "mu"

Pregunta:

¿Cuál proporción de los IC construidos incluye al valor del parámetro? ¿Esta proporción es exactamente igual al Nivel de Confianza de los intervalos? Si no lo es, explica las razones.

2. Intervalos de confianza para una proporción.

En el caso de trabajar con una variable categórica, la construcción de un Intervalo de Confianza se realiza a partir de la proporción de la categoría de interés sobre la que se desea realizar la estimación hacia la población.

Para realizar la construcción de los IC, a continuación se utilizará la matriz de datos de la encuesta Latinobarómetro, en la ola para el año 2018 y que está disponible en su página web. Latinobarómetro Esta se importa desde un formato ‘.sav’ para lo que se utiliza la librería haven().

datos_lb <- haven::read_sav("~/Dropbox/R/Latinobarometro_2018_Esp_Spss_v20190303.sav")

Y ahora se solicitan las dimensiones del data frame para conocer su tamaño:

dim(datos_lb)
## [1] 20204   395

De esta manera se sabe que se cuentan con 20204 filas y 395 columnas o variables.

Además se solicita un listado de los nombres de la variables que integran al data frame. Aquí se pide un vistazo a los primero 6 valores, de las 395 columnas.

head(names(datos_lb))
## [1] "NUMINVES" "IDENPA"   "NUMENTRE" "REG"      "CIUDAD"   "TAMCIUD"

A partir de este listado se identifica que los nombres de las variables están codificados, y para conocer sus significados se debe consultar del Libro de Códigos de la base de datos, que viene incluido en el paquete de datos que se descarga desde la página de Latinobarómetro.

En el libro de códigos se puede observar que la mayoría de las variables que la integran son de tipo categóricas, y a su vez se reconoce que no todas son de tipo binomial (cuentan con solo dos categorías o valores posibles).

Al realizar el análisis para calcular los IC se debe reconocer, inicialmente la distribución de los valores categóricos que integran a cada variable. A continuación se realiza un primer acercamiento a la exploración de la variable P12STGBS que corresponde al ítem de Apoyo a la Democracia, y sus valores posibles son 3 categorías:

  1. La democracia es preferible a cualquier otra forma de gobierno.
  2. En algunas circunstancias, un gobierno autoritario puede ser preferible.
  3. A la gente como uno, nos da lo mismo un régimen democrático que uno no democrático.

Tabla de frecuencias absolutas:

table(datos_lb $ P12STGBS)
## 
##    1    2    3 
## 9723 2950 5654

Tabla de frecuencias relativas:

prop.table(table(datos_lb $ P12STGBS))
## 
##         1         2         3 
## 0.5305287 0.1609647 0.3085066

La librería DescTools() cuenta con distintas funciones para construir IC para variables categóricas binominales y multinomiales que facilitan el trabajo analítico.

En el caso de una variable categórica binominal, en donde se desea estimar el IC primero se debe identificar la categoría de interés. En el caso de la variable P12STGBS se considera que la categoría de interés consiste en aquella codificada con el valor de “1”, que corresponde a la etiqueta “1.- La democracia es preferible a cualquier otra forma de gobierno.”

La función para solicitar el IC para esta categoría es:

BinomCI(x = 9723, #frecuencia absoluta para la categoría de interés
        n = 18327,#casos válidos
        conf.level = 0.95, #nivel de confianza
        method = "clopper-pearson") ##Intervalo de confianza para una categoría
##            est    lwr.ci    upr.ci
## [1,] 0.5305287 0.5232717 0.5377761

De esta manera se sabe que la proporción de encuestados que apoyan a la democracia es del 53.05% en la muestra, y esta es nuestra mejor estimación puntual para el apoyo a la democracia que se espera encontrar en la población latinoamericana. Pero también se espera, con un 95% de confianza, que el promedio de la población de ciudadanos latinoamericanos que apoyan a la democracia se encuentre entre un 52.32% y 53.77%.

En el caso de una variable categórica multinomial, la librería DescTools()también cuenta con una función específica para calcular el IC para cada una de las diversas categorías. Esta función esMultinomCI(x =, conf.level =, sides =, method =), y se aplicará a las 3 categorías que integran a la variable P12STGBS

observados <- c(9723, 2950, 5654) #se crea un objeto con las frecuencias absolutas para las 3 categorías

MultinomCI(observados, #se llama al objeto con las frecuencias absolutas para 3 categorías
           conf.level = 0.95, # definición del nivel de confianza
           method = "sisonglaz") # método para el cálculo del IC multinomial
##            est    lwr.ci    upr.ci
## [1,] 0.5305287 0.5228352 0.5382768
## [2,] 0.1609647 0.1532711 0.1687127
## [3,] 0.3085066 0.3008130 0.3162546

3. Ejercicios.

  1. ¿La distribución de los datos en una muestra aleatoria deben iguales a otras distribuciones en otras muestras que se recolectaron de la misma población: Verdadero o Falso?

  2. ¿Qué significa una confianza del 95%?

  1. 95% de las veces el promedio de la población se encontrará dentro del intervalo.
  2. 95% de las muestras aleatorias del mismo tamaño generarán IC que contengan al valor verdadero de la población.
  3. 95% de la población tendrá el mismo IC.
  4. Se está 95% confidente de que la media muestral se encuentra dentro del IC.
  1. ¿Cuál es el valor crítico apropiado para un Nivel de Confianza del 99%?
  1. 0.01
  2. 0.99
  3. 1.96
  4. 2.33
  5. 2.58
  1. Calcula 50 IC con un Nivel de Confianza del 99%. No se necesita generar nuevas muestras, solamente se requiere calcular nuevos IC basados en las medias y desviaciones estándar de las muestras previamente generadas. Grafica todos los intervalos y calcula la proporción de IC que incluyen al valor del parámetro de la media poblacional.

  2. A partir del ejercicio anterior, ¿se esperaría que el 99% de los intervalos contengan el valor del parámetro estimado?

  1. Cierto
  2. Falso
