0. Definición del ambiente de trabajo.
Al comenzar siempre es importante establecer el idioma adecuado para
que el programa reconozca caracteres especiales. En el caso de definir
al idioma español, la instrucción a utilizar es:
Sys.setlocale("LC_ALL", "es_ES") #alternativa 1
## [1] "es_ES/es_ES/es_ES/C/es_ES/C"
Sys.setenv(LANG = "es") #alternativa 2
También es importante instalar las librerías que se utilizarán
posteriormente:
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.3 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(DescTools)
library(haven)
Además es muy relevante establecer la ubicación del directorio de
trabajo, con el fin que el programa identifique la carpeta de la que
extraerá y, también, donde guardará la información solicitada.
getwd() ##directorio actual
## [1] "/Users/gustavo/Dropbox/R/Rmarkdown"
setwd("~/Dropbox/R") ##Esta permite cambiar y definir el directorio deseado
list.files() ##Esta permite enlistar los archivos dentro del directorio
## [1] "~$datos_morena_frag.xlsx"
## [2] "~$ia_ponencia_morena.docx"
## [3] "~$morena_nueva_encuesta_2020.xlsx"
## [4] "1-Estudio-Berumen-30mayo-6junio.PDF"
## [5] "200613COVID19MEXICO.csv"
## [6] "alumnos_political_compass.csv"
## [7] "autoestima.csv"
## [8] "Base Voto x Mujeres Experimento 1 copia.csv"
## [9] "base_alternancias.csv"
## [10] "Base_datos_Informe_Pais.xlsx"
## [11] "base_municipios_final_datos_01.csv"
## [12] "base_voto_mujeres_2012_2018.csv"
## [13] "base_votos_2015_2018.csv"
## [14] "Bertrand_data.dta"
## [15] "berumen_encuesta_6_junio.sav"
## [16] "Clase 2 DGAPA.xlsx"
## [17] "Clase 4 DGAPA.xlsx"
## [18] "Componente principal SPP.jpeg"
## [19] "Concentrado_Elecciones_Federales_1976_2018 copia.csv"
## [20] "conejos.csv"
## [21] "confidence_intervals_Coursera.rmd"
## [22] "Copia de factorial 3x2x2.csv"
## [23] "copia_semillas.csv"
## [24] "cuadro_latino.csv"
## [25] "Curso Intro a R I y II"
## [26] "data_clientelismo.csv"
## [27] "data_clientelismo.dta"
## [28] "datos_2_fac_aleat.csv"
## [29] "datos_computos_distritos_diputado.txt"
## [30] "datos_covid1.txt"
## [31] "datos_covid2.csv"
## [32] "datos_covid3.xlsx"
## [33] "datos_gc.csv"
## [34] "datos_morena_frag.xlsx"
## [35] "datos_pp1.csv"
## [36] "datos_pp2.csv"
## [37] "datos_repeticiones.csv"
## [38] "datos_telas.csv"
## [39] "diccionario_datos_covid19"
## [40] "Diferencia_votos_DIP_FED_2015.csv"
## [41] "diminish.txt"
## [42] "encuesta_abierta_morena_2020.xlsx"
## [43] "encuesta_abierta_morena.csv"
## [44] "Encuesta_Gea.dta"
## [45] "encuesta_nina_w_ 2016"
## [46] "encuesta_nueva_morena.csv"
## [47] "enpol_sec_5_6.csv"
## [48] "enpol_sec7_1.csv"
## [49] "enpol_sec8_9_10.csv"
## [50] "experim_azucar.csv"
## [51] "guia_ponencia_morena.docx"
## [52] "ICI_2018.xlsx"
## [53] "idh_mpio_2000_2005.csv"
## [54] "idh_mpio_2000_2005.xls"
## [55] "indices_spp_subnacional_1980_2018.xlsx"
## [56] "intro_to_data_Coursera.html"
## [57] "jerarquico_cruzado.csv"
## [58] "Latinobarometro_2018_Esp_Spss_v20190303.sav"
## [59] "Latinobarometro_2018_Esp_Stata_v20190303.dta"
## [60] "Latinobarometro_2020_Esp_Rdata_v1_0.rdata"
## [61] "mediciones_repetidas.csv"
## [62] "Mi_Exportación.xlsx"
## [63] "modelo_jerarquico.csv"
## [64] "morena_nueva_encuesta_2020.xlsx"
## [65] "morena-basedatos-integrada-vf-1.csv"
## [66] "morena-bd-integrada-estimación-empresas.xlsx"
## [67] "partylevel_20130907.csv"
## [68] "presid06computo.dta"
## [69] "Principal Component Analysis R Program and Output.pdf"
## [70] "resultados_diputadosfederales_2018.csv"
## [71] "Rmarkdown"
## [72] "scripts"
## [73] "SDEMT319_10.dta"
## [74] "sdemt319_10.sav"
## [75] "SDEMT319.dta"
## [76] "syllabus.log"
## [77] "syllabus.Rmd"
## [78] "syllabus.tex"
## [79] "Tabasco_votos_dip_loc_2018_dif.csv"
## [80] "tarea_hipertension.csv"
## [81] "TiposErrores.png"
## [82] "V-Dem-CY-Core-v12.csv"
## [83] "voto_cand_socioec_2012.csv"
## [84] "voto_cand_socioec_2015.csv"
## [85] "voto_cand_socioec_2018.csv"
## [86] "votos_diputados_2015.csv"
## [87] "votos_mujeres_2012_2018_copia.csv"
## [88] "votos_mujeres_2012_2018.csv"
Una vez establecido el directorio de trabajo, se debe cargar la base
de datos o data frame en el ambiente del programa, de la que se
analizará la información. Para ello habrá que “cargar” la información
sobre los pacientes infectados por COVID-19 reportados por la Secretaría
de Salud del gobierno federal mexicano.
datos_covid <- read.csv("~/Dropbox/R/200613COVID19MEXICO.csv", header = TRUE) #ruta de acceso a los datos, 'header = TRUE' en caso de que el archivo cuente con nombres de las variables.
1. Inferencia por intervalos.
Los Intervalos de Confianza (IC) son otra
técnica de estimación dentro del ámbito de la estadística inferencial.
Estos corresponden a un rango de valores generados a partir de datos de
una muestra y dentro del que se estima que se encontrará el “verdadero”
valor de la población. A diferencia del proceso de estimación puntual,
el cual compara un valor específico (un estadístico como, por ej., la
media de una variable) a partir de un valor calculado frente a un valor
crítico, evaluado a partir de sus probabilidades correspondientes, el IC
asume que dentro del conjunto de valores que abarca, una parte se
integra por un Margen de Error (ME) en torno al valor
puntual del estadístico puntual. Y de la unión de ambos
(ME y estadístico puntual, por ej. la media, mediana o proporción), se
cuenta con un Nivel de Confianza que permite inferir
que en su interior se contendrá al parámetro de interés.
Debido a la naturales del IC (un rango), este permite incluir en su
interior a un conjunto de probabilidades asociadas a los valores
puntuales que lo integran. Esto aumenta la probabilidad de, a su vez,
inferir el valor del parámetro de interés a diferencia de la técnica de
estimación puntual.
Fórmula de un IC a partir del estadístico puntual de la
media de una muestra: \[ \bar{x} \pm
ME \]
Por su parte, el ME se construye a partir de dos
elementos:
- Un Nivel de Confianza (definido en unidades \(Z\)) que se corresponde con la proporción o
probabilidad que el analista considera (arbitrariamente) pertinente para
aceptar que en el rango de interés se incluye al parámetro de interés y,
además, fuera de ello se encuentra el tamaño de error esperado y
aceptado.
- El segundo elemento consiste en el Error Estándar (ES), que
se refiere a la variación de una muestra respecto de una distribución
muestral, donde se asume que las muestras de ésta última son del mismo
tamaño que la primera.
Donde el ME es igual a: \[ME =
z^\star \frac{s}{\sqrt{n}}\]
A partir de los elementos que integran al IC: un
estimador puntual de interés para el análisis del
comportamiento de una población, un Nivel de Confianza definido
por el analista y el Error Estándar de la muestra, se calculan
dos valores aleatorios que definen los límites del rango de
valores del IC: su valor mínimo y su valor máximo.
De manera que el IC, calculado a partir del valor de la media de una
muestra, es igual al valor mínimo y al valor máximo derivado de: \[\bar{x} \pm z^\star
\frac{s}{\sqrt{n}}\]
1.1. Muestra e Intervalos de Confianza.
Para comenzar la demostración sobre la construcción de los IC y su
utilidad, a continuación se trabajará sobre una submuestra obtenida de
la base de datos sobre pacientes infectados con COVID-19 que elaboró la
Secretaría de Salud del Gobierno Federal de México. Esto con el fin de
establecer, primero, que un analista suele trabajar con muestras de
poblaciones en la gran mayoría de los casos, y esto supone que, segundo,
cada muestra puede mostrar variaciones en cuanto a los valores
calculados para un mismo estadístico. Lo que supone un reto para
aproximarse al estimar el valor del parámetro de interés en la población
-esto es lo último que se desea conocer en los análisis
cuantitativos.
A continuación se comenzará con la construcción de una submuestra,
para lo que se deberá, inicialmente, establecer el valor de “arranque” o
“semilla” en R, y a partir del que se integrarán los casos
aleatoriamente. Definir dicho valor inicial permite que los análisis
sean posteriormente reproducibles y arriben al mismo resultado.
1.1.1. Integración de una muestra aleatoria.
Dicho valor “semilla” es un número completamente arbitrario que es
definido por el analista, y su utilidad está en definir el valor inicial
que servirá para el proceso de aleatorización posterior. Esto permitirá
que las submuestras que se construyen, posteriormente, registrarán los
mismos casos y valores entre sí.
set.seed(54321)
A partir de los datos sobre los pacientes infectados con COVID-19 que
ha elaborado la SSA del gobierno federal mexicano, se deberá integrar
una submuestra con 10,000 casos. Para ello se usará el script
sample_n () de la paquetería dplyr, por lo que
deberá ser instalada previamente. Esta librería se incluye dentro del
paquete de otra librería más amplia, que es
tidyverse().
n_muestra <- 10000 #objeto que define el tamaño de la muestra
muestra <- sample_n(datos_covid, n_muestra) #script para integrar la muestra.
De esta manera, en el recuadro del “ambiente” de R Studio ahora
aparecen nuevos datos con el nombre de “muestra”, que se acaba de
integrar de manera aleatoria.
Pregunta: Describe la distribución de la variable EDAD en la muestra
recién integrada. ¿Cuál es el valor promedio y cuánto se desvían el
resto de los casos?
1.1.2. Elementos del Intervalo de Confianza.
Los valores de los estadísticos obtenidos de una muestra suelen ser
nuestro “mejor”, o en ocasiones el único, estimador para conocer un
parámetro de interés en una población. De esta manera, a partir de las
diversas técnicas de la estadística inferencial, dichos estadísticos
sirven como estimadores puntuales del parámetro
poblacional.
Por ejemplo, el estadístico de la media (\(\bar{x}\)) de una variable en una muestra
nos permite acercarnos al valor de la media en la población (\(\mu\)). Sin embargo el valor del
estadístico solo tiene asociado un solo valor de probabilidad,
y a partir de comparar su valor correspondiente en una distribución
muestral (el cuantil correspondiente según el estadístico
de prueba utilizado para evaluar su posición) con respecto
al valor crítico determinado a partir del mismo estadístico
de prueba, es que se puede determinar si dicho valor muestral se
aproxima probabilísticamente al valor poblacional.
Este proceso de comparación, que se denomina prueba de
significancia, se reporta a partir de un solo valor (que en
ocasiones se reduce al p-valor del valor obtenido o
calculado del estadístico muestral), y no necesariamente permite
identificar el tamaño de la incertidumbre que contiene el valor
calculado.
La utilidad de los IC radica en que, partiendo de un punto de
referencia -a partir del valor del estadístico de interés-
se puede estimar un rango de valores posibles que puede adoptar
el parámetro de interés a la vez que se incluye el grado de
incertidumbre en la estimación misma. De manera que el IC ofrece mayor
información al analista sobre el proceso de estimación:
- presenta el valor de estimación puntual y,
- el tamaño de incertidumbre contenida en la estimación.
Dicho tamaño de incertidumbre contenida en el rango establecido por
el IC también permite incluir una mayor cantidad de valores posibles que
puede adoptar el parámetro de interés y, a su vez, incorporar una
cantidad mayor de probabilidades asociadas a estos valores posibles.
Como se vio arriba, los elementos que integran a un IC son:
- estimador puntual que puede ser algún momento o
medida de tendencia central (media, mediana, proporción),
- margen de error, que supone la variación que existirá en
torno al estimador puntual.
El margen de error -como también se describió arriba- se
integra con dos elementos:
- el error estándar o típico de la muestra con respecto a la
distribución muestral, y
- el nivel de confianza establecido por el analista
previamente, y que depende del tipo de distribución de
probabilidades del estadístico de prueba utilizado para el
análisis (\(z, t, F, \chi^2, r\)).
1.1.2.1. Cálculo del estimador puntual para una variable
continua.
En el caso de trabajar con una variable del tipo
continua y con una distribución parecida a una
normal, la media suele ser el estimador puntual más pertinente.
Para ello se calculará la media de la variable EDAD de los pacientes en
la submuestra construida previamente.
x_barra <- mean(muestra $ EDAD)
x_barra
## [1] 42.4318
1.1.2.2. Determinación del Nivel de Confianza y su cuantil
correspondiente.
El Nivel de Confianza es una proporción definida
previamente por el analista, mediante la que define cuál es el
porcentaje de casos, y probabilidades, que desea incluir en el rango de
valores que busca estimar. Este nivel de confianza se determina a partir
de identificar el valor crítico asociado al Nivel de
Confianza deseado. Para ello se utilizará el script
qnorm().
El Nivel de Confianza no es lo mismo que un
percentil al momento de definir el valor crítico del
IC. El percentil se refiere al acumulado de probabilidades
ubicados a la izquierda del valor crítico mientras que el
Nivel de Confianza define el tamaño del rango de
valores, y sus probabilidades asociadas, en torno a (a su izquierda y
derecha) del estimador puntual seleccionado. De manera que el
Nivel de Confianza se refiere a un porcentaje de casos
ubicados al centro de la distribución.
Por ejemplo, un Nivel de Confianza del 95% se
refiere al 95% de los casos ubicados en torno al centro de la
distribución, mientras que un valor crítico asociado con esta área se
corresponde con el percentil 0.975 pues a la derecha de dicho valor
crítico quedará el 2.5% de los casos y, simétricamente, quedará el 2.5%
a la izquierda de la distribución. En total, la suma de estos valores
extremos será de 5% o una proporción de 0.05 (alfa).
La manera de identificar el valor del cuantil correspondiente a un
Nivel de Confianza del 95% para el IC es la
siguiente:
z_95 <- qnorm(0.975) #se usa la proporción 0.975 por que a su derecha se excluye al 0.025 de los casos y, de manera simétrica también se excluirá al 0.025 de los casos a la izquierda del rango.
z_95 #unidades de desviación estándar o "Z"
## [1] 1.959964
En el caso de trabajar con un Nivel de Confianza del
99%, se refiere al 99% de los casos ubicados en torno al centro de la
distribución, y su valor crítico correspondiente consiste en el
percentil 0.995 pues a la derecha de dicho valor crítico quedará el 0.5%
de los casos y, simétricamente, quedará el 0.5% a la izquierda de la
distribución. En toral, la suma de estos valores extremos será de 1% o
una proporción de 0.01 (alfa).
z_99 <- qnorm(0.995) #se usa la proporción 0.975 por que a su derecha se excluye al 0.025 de los casos y, de manera simétrica también se excluirá al 0.025 de los casos a la izquierda del rango.
z_99 #unidades de desviación estándar o "Z"
## [1] 2.575829
1.1.2.3. Cálculo del Error Estándar de la muestra.
El error estándar permite identificar la variación
que existe en la muestra analizada con respecto de la distribución
muestral de otras muestras (hipotéticas) del mismo tamaño (\(n\)) que la muestra original. Este valor
ayuda a establecer si el estimador utilizado (\(\bar{x}\)) es un buen estimador para
acercarse al parámetro poblacional de interés.
La manera de calcular el error estándar consiste en
dividir la desviación estándar de la variable analizada entre
la raíz cuadrada del tamaño de la muestra utilizada (\(\frac{s}{\sqrt{n}}\)).
error_std<-(sd(muestra$EDAD) / #desviación estándar de la variable EDAD en la muestra
sqrt(n_muestra)) #raíz cuadrada del tamaño de la muestra
error_std
## [1] 0.1655911
Otra manera de calcular el Error Estándar bajo la liberaría
DescTools() es:
SE <- MeanSE(muestra $ EDAD, sd = NULL, na.rm = TRUE)
SE
## [1] 0.1655911
1.3. Niveles de confianza.
A partir del uso de R y sus herramientas se pueden construir diversas
muestras aleatorias para, también, entender la manera en que pueden
variar los valores de la media y los IC entre sí.
Los pasos básicos a seguir son:
- Construir una muestra.
- Calcular la muestra y la desviación estándar para dicha muestra y
guardarlas para calcular, posteriormente, los límites inferior y
superior de los IC.
- Repetir estos 50 veces.
Para llevarlo a cabo se usa el script rep_sample_n para
construir 50 muestras aleatorias de tamaño n = 60 de una
población y, posteriormente, se calcularán los límites inferiores y
superiores de los IC. Con la siguiente fórmula se puede activar dicha
función.
rep_sample_n <- function(tbl, size, replace = FALSE, reps = 1)
{
n <- nrow(tbl)
i <- unlist(replicate(reps, sample.int(n, size, replace = replace),
simplify = FALSE))
rep_tbl <- cbind(replicate = rep(1:reps,rep(size,reps)), tbl[i,])
dplyr::group_by(rep_tbl, replicate)
} #Activación de la función "rep_sample_n()"
set.seed(1234)
ci <- datos_covid %>%
rep_sample_n(size = 60, reps = 50, replace = TRUE) ##creación de 50 muestras de n = 60, esto da un tamaño de muestra de 3000 (= 60 casos x 50 muestras)
Ahora se calculan los límites inferior y superior de cada una de las
50 muestras para, así, construir sus Intervalos de Confianza
respectivos:
ci <- ci %>% #Esta opción servirá para guardar a los IC como un nuevo objeto de formato 'tabla'
summarise(lim_inferior=mean(EDAD) - (z_95*(sd(EDAD) / sqrt(3000))), #límite inferior
lim_superior=mean(EDAD) + (z_95*(sd(EDAD) / sqrt(3000)))) #límite superior
Ahora se puede hacer una revisión “rápida” a los primeros cinco
IC:
ci %>%
slice(1:5)
## # A tibble: 5 × 3
## replicate lim_inferior lim_superior
## <int> <dbl> <dbl>
## 1 1 38.3 39.4
## 2 2 42.5 43.5
## 3 3 42.5 43.7
## 4 4 41.6 42.8
## 5 5 39.3 40.3
A partir del objeto que reúne los límites inferiores y superiores de
IC para 50 muestras se puede crear una gráfica que ayude a su
visualización y comparación.
El primer paso para la construcción de dicha gráfica consiste en
crear una variable nueva en el objeto ci recién creado, que
indique si el intervalo captura o no a la media poblacional. Hay que
notar que “capturar” dicho valor significa que el límite inferior del IC
se ubicará por debajo del valor del parámetro y el límite superior del
IC se encontrará por arriba de dicho valor poblacional.
Para crear la variable nueva se usará el script mutate()
de la librería dplyr.
ci <- ci %>%
mutate(captura_mu = ifelse(lim_inferior < param $ mu & lim_superior > param $ mu, "si", "no"))
Vistazo a las primeras cinco filas:
ci %>%
slice(1:5)
## # A tibble: 5 × 4
## replicate lim_inferior lim_superior captura_mu
## <int> <dbl> <dbl> <chr>
## 1 1 38.3 39.4 no
## 2 2 42.5 43.5 si
## 3 3 42.5 43.7 si
## 4 4 41.6 42.8 si
## 5 5 39.3 40.3 no
La función ifelse es un script alternativo para realizar
la transformación de una nueva variable a partir de una previamente
existente. Dicha función requiere tres argumentos: el primero consiste
en un argumento lógico, el segundo es el valor deseado si el argumento
lógico corresponde a un resultado verdadero y, el tercer argumento
corresponde al nuevo valor residual que se desea asignar en caso de que
el argumento lógico sea un resultado falso.
Ahora se cuenta con la información necesaria para crear el gráfico,
pero se deben re organizar los datos para facilitar su visualización.
Específicamente se necesita organizar los datos en un nuevo data frame
donde cada fila o renglón represente un límite, en contraposición a un
intervalo.
De manera que se desean manipular estos datos:
| 1 |
41.21044 |
41.95623 |
no |
| 2 |
46.93813 |
47.52854 |
no |
| 3 |
46.91318 |
47.55349 |
no |
Para que se re ordenen de la siguiente manera:
| 1 |
1 |
inferior |
41.21044 |
no |
| 2 |
2 |
inferior |
46.93813 |
no |
| 3 |
3 |
inferior |
46.91318 |
no |
| 4 |
1 |
superior |
41.95623 |
no |
| 5 |
2 |
superior |
47.52854 |
no |
| 6 |
3 |
superior |
47.55349 |
no |
Esto se logra a partir del siguiente script:
ci_data <- gather(ci, type, bound, lim_inferior : lim_superior)
Finalmente se construye el gráfico de los IC usando la librería
ggplot:
ggplot(data = ci_data, aes(x = bound, y = replicate,
group = replicate, color = captura_mu)) +
geom_point(size = 2) + # añade puntos al final de cada recta, de tamaño = 2
geom_line() + # conecta los puntos mediante líneas
geom_vline(xintercept = param $ mu, color = "darkgray") # dibuja una línea vertical en el valor del parámetro "mu"

Pregunta:
¿Cuál proporción de los IC construidos incluye al valor del
parámetro? ¿Esta proporción es exactamente igual al Nivel de Confianza
de los intervalos? Si no lo es, explica las razones.
2. Intervalos de confianza para una proporción.
En el caso de trabajar con una variable categórica, la construcción
de un Intervalo de Confianza se realiza a partir de la proporción de la
categoría de interés sobre la que se desea realizar la estimación hacia
la población.
Para realizar la construcción de los IC, a continuación se utilizará
la matriz de datos de la encuesta Latinobarómetro, en la ola para el año
2018 y que está disponible en su página web. Latinobarómetro
Esta se importa desde un formato ‘.sav’ para lo que se utiliza la
librería haven().
datos_lb <- haven::read_sav("~/Dropbox/R/Latinobarometro_2018_Esp_Spss_v20190303.sav")
Y ahora se solicitan las dimensiones del data frame para conocer su
tamaño:
dim(datos_lb)
## [1] 20204 395
De esta manera se sabe que se cuentan con 20204 filas y 395 columnas
o variables.
Además se solicita un listado de los nombres de la variables que
integran al data frame. Aquí se pide un vistazo a los primero 6 valores,
de las 395 columnas.
head(names(datos_lb))
## [1] "NUMINVES" "IDENPA" "NUMENTRE" "REG" "CIUDAD" "TAMCIUD"
A partir de este listado se identifica que los nombres de las
variables están codificados, y para conocer sus significados se debe
consultar del Libro de Códigos de la base de datos, que viene
incluido en el paquete de datos que se descarga desde la página de
Latinobarómetro.
En el libro de códigos se puede observar que la mayoría de las
variables que la integran son de tipo categóricas, y a su vez se
reconoce que no todas son de tipo binomial (cuentan con solo
dos categorías o valores posibles).
Al realizar el análisis para calcular los IC se debe reconocer,
inicialmente la distribución de los valores categóricos que integran a
cada variable. A continuación se realiza un primer acercamiento a la
exploración de la variable P12STGBS que corresponde al ítem de
Apoyo a la Democracia, y sus valores posibles son 3
categorías:
- La democracia es preferible a cualquier otra forma de gobierno.
- En algunas circunstancias, un gobierno autoritario puede ser
preferible.
- A la gente como uno, nos da lo mismo un régimen democrático que uno
no democrático.
Tabla de frecuencias absolutas:
table(datos_lb $ P12STGBS)
##
## 1 2 3
## 9723 2950 5654
Tabla de frecuencias relativas:
prop.table(table(datos_lb $ P12STGBS))
##
## 1 2 3
## 0.5305287 0.1609647 0.3085066
La librería DescTools() cuenta con distintas funciones
para construir IC para variables categóricas binominales y
multinomiales que facilitan el trabajo analítico.
En el caso de una variable categórica binominal, en donde se desea
estimar el IC primero se debe identificar la categoría de interés. En el
caso de la variable P12STGBS se considera que la categoría de interés
consiste en aquella codificada con el valor de “1”, que corresponde a la
etiqueta “1.- La democracia es preferible a cualquier otra forma de
gobierno.”
La función para solicitar el IC para esta categoría es:
BinomCI(x = 9723, #frecuencia absoluta para la categoría de interés
n = 18327,#casos válidos
conf.level = 0.95, #nivel de confianza
method = "clopper-pearson") ##Intervalo de confianza para una categoría
## est lwr.ci upr.ci
## [1,] 0.5305287 0.5232717 0.5377761
De esta manera se sabe que la proporción de encuestados que apoyan a
la democracia es del 53.05% en la muestra, y esta es nuestra mejor
estimación puntual para el apoyo a la democracia que se espera encontrar
en la población latinoamericana. Pero también se espera, con un 95% de
confianza, que el promedio de la población de ciudadanos
latinoamericanos que apoyan a la democracia se encuentre entre un 52.32%
y 53.77%.
En el caso de una variable categórica multinomial, la librería
DescTools()también cuenta con una función específica para
calcular el IC para cada una de las diversas categorías. Esta función
esMultinomCI(x =, conf.level =, sides =, method =), y se
aplicará a las 3 categorías que integran a la variable P12STGBS
observados <- c(9723, 2950, 5654) #se crea un objeto con las frecuencias absolutas para las 3 categorías
MultinomCI(observados, #se llama al objeto con las frecuencias absolutas para 3 categorías
conf.level = 0.95, # definición del nivel de confianza
method = "sisonglaz") # método para el cálculo del IC multinomial
## est lwr.ci upr.ci
## [1,] 0.5305287 0.5228352 0.5382768
## [2,] 0.1609647 0.1532711 0.1687127
## [3,] 0.3085066 0.3008130 0.3162546
3. Ejercicios.
¿La distribución de los datos en una muestra aleatoria deben
iguales a otras distribuciones en otras muestras que se recolectaron de
la misma población: Verdadero o Falso?
¿Qué significa una confianza del 95%?
- 95% de las veces el promedio de la población se encontrará dentro
del intervalo.
- 95% de las muestras aleatorias del mismo tamaño generarán IC que
contengan al valor verdadero de la población.
- 95% de la población tendrá el mismo IC.
- Se está 95% confidente de que la media muestral se encuentra dentro
del IC.
- ¿Cuál es el valor crítico apropiado para un Nivel de Confianza del
99%?
- 0.01
- 0.99
- 1.96
- 2.33
- 2.58
Calcula 50 IC con un Nivel de Confianza del 99%. No se necesita
generar nuevas muestras, solamente se requiere calcular nuevos IC
basados en las medias y desviaciones estándar de las muestras
previamente generadas. Grafica todos los intervalos y calcula la
proporción de IC que incluyen al valor del parámetro de la media
poblacional.
A partir del ejercicio anterior, ¿se esperaría que el 99% de los
intervalos contengan el valor del parámetro estimado?
- Cierto
- Falso
