Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 2 (parte 2) de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
library(dplyr) #A) Para filtrar data frames
Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
El objetivo es realizar los ejercicios que se indican en las secciones de abajo.
El objetivo es realizar los ejercicios que se indican en las siguientes secciones, teniendo en cuenta la tabla de supuestos que se muestra abajo.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
a) Considere solamente las observaciones que van desde la 2 hasta la 35. Con estas observaciones, defina el data frame "datos2a35". Verifique su tamaño, variables y estructura.
b) Dentro de "datos2a35", defina el objeto "Sexo" (género de los estudiantes). Conviértalo en factor y diga cuáles son sus respectivos niveles.
c) Dentro de "datos2a35": Construya una tabla de frecuencias para la variable Sexo y el diagrama de barras correspondiente.
d) Dentro de "datos2a35": Determine la proporción de mujeres.
e) Dentro de "datos2a35": Encuentre un intervalo del 95% de confianza para la proporción poblacional de mujeres. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
f) Dentro de "datos2a35": Construya el mismo intervalo del inciso (g) con la función prop.test y compare los resultados obtenidos.
g) Dentro de "datos2a35": Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (e) y compare los resultados obtenidos.
Filtramos y definimos como “datos2a35” al data frame con las observaciones del 2 al 35:
datos2a35 <- datosCompleto[2:35,] #A) La nueva base de datos
n <- nrow(datos2a35); n #B) Número observaciones (tamaño muestral)
## [1] 34
El número de observaciones y de variables se pueden revisar con:
dim(datos2a35) #C) Número observaciones y número de variables
Observamos que tamaño muestral es \(n=\) 34. Para revisar estructura y variables del data frame:
str(datos2a35) #D) Estructura
names(datos2a35) #E) Variables
Como la variable “Sexo” es categórica se debe definir como factor:
Sexo <- as.factor(datos2a35$Sexo) #F) La variable
Se puede revisar esta variable:
levels(Fuma)
class(Fuma)
La tabla de frecuencias no agrupadas para la variable fumadores es:
Cuentas <- table(Sexo); Cuentas #F) Tabla de frecuencias
## Sexo
## Femenino Masculino
## 20 14
El diagrama de barras:
barplot(Cuentas, main="Diagrama de barras", xlab="Sexo", ylab="Frecuencias", legend = rownames(Cuentas), col=c("pink","blue"), ylim = c(0, 30)) #G) Diagrama
Se pueden escoger más colores para las barra dando click en este aquí.
Calculamos la proporción de mujeres en la muestra, así:
f <- 20 #H) Frecuencia
pbarra <- f/n; pbarra #I) Proporción
## [1] 0.5882353
Es decir, el porcentaje de mujeres en la muestra es del 58.82%.
1. Datos:
* Unidades experimentales: Los estudiantes.
* Población: Respuesta a la pregunta: ¿Género?
* Estadístico: la proporción muestral de mujeres.
* Parámetro: la proporción poblacional de mujeres.
* Tamaño muestral: n=34.
* Tamaño poblacional: N es desconocido.
* Grado de confianza: 95%.
* Nivel de significancia: 5%.
* Otros datos: proporción muestral=0.5882353.
2. Verificación de supuestos:
De acuerdo a la tabla de supuestos (caso 1), tenemos que:
* El tamaño muestral es grande (n> 30).
3. Conclusión:
La distribución muestral de la proporción muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 1, es decir,
\[\overline{p} \,-\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}}\; < \;p \; <\; \overline{p} \,+\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} \]
El código para escribir la expresión anterior es:
$$\overline{p} \,-\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}}\; < \;p
\; <\; \overline{p} \,+\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} $$
5. Cálculos:
alfa <- 0.05
proporcion <- pbarra
muestra <- n
El error estándar (es decir, la desviación estándar del estadístico) es:
ES <- sqrt(pbarra*(1-pbarra)/n); ES
## [1] 0.08440354
El valor crítico (o valor cuantil de la distribución normal) es:
Critico <- qnorm(1- (alfa/2))
El error de estimación (o margen de error) es:
Margen <- Critico*ES; Margen
## [1] 0.1654279
El ancho o ampitud del intervalo es 2 veces el margen del error:
2*Margen
## [1] 0.3308558
Los límites del intervalo son:
izquierdo <- pbarra - Margen; izquierdo
## [1] 0.4228074
derecho <- pbarra + Margen; derecho
## [1] 0.7536632
El intervalo también se puede obtener así:
Intervalo <- pbarra + c(-Margen, Margen)
Intervalo
## [1] 0.4228074 0.7536632
Es decir, si \(p\) es la proporcional de mujeres, entonces, \[0.423 \; < \; p \; < \; 0.754 \]
El código para escribir la expresión anterior es:
$$0.423 \; < \; p \; < \; 0.754 $$
6. Interpretación: Con una confianza del 95%, podemos afirmar que el porcentaje poblacional de mujeres se encuentra entre 42.3% y 75.4%.
Con la función prop.test no se obtienen los mismo resultados, solo aproximados.
Prueba <-prop.test(f, n, conf.level =0.95, correct=TRUE)
Resultado <- Prueba$conf.int
Intervalo <- Resultado[1:2]; Intervalo
## [1] 0.4083137 0.7487349
En la imagen de abajo se puede observar que, con Geogebra, se obtienen los mismos resultados.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
a) Considere el data frame "datos2a35" y el objeto "Sexo", definidos en el ejemplo 1. Dentro de "datos2a35", defina el objeto "Fuma" como la variable que indica si el estudiante es fumador o no.
b) Dentro de "datos2a35": Construya la tabla de contingencia para Fuma y Sexo y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.). En el grupo de los fumadores, determine la proporción de mujeres.
c) Dentro de "datos2a35": Defina el data frame "Fumadores" (obtenido al filtrar "datos2a35"), que rpresenta a los estudiantes fumadores. Verifique su tamaño, variables y estructura.
d) Dentro de "Fumadores": Defina el objeto "SexoF" (género de los estudiantes), conviértalo en factor y diga cuáles son sus respectivos niveles.
e) Dentro "Fumadores": Construya una tabla de frecuencias para la variable SexoF y el diagrama de barras correspondiente.
f) Dentro "Fumadores": Determine la proporción de mujeres y compare con (b).
g) Dentro "Fumadores": Encuentre un intervalo del 95% de confianza para la proporción poblacional de mujeres. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
h) Dentro "Fumadores": Construya el mismo intervalo del inciso (g) con la función prop.test y compare los resultados obtenidos.
i) Dentro "Fumadores": Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (g) y compare los resultados obtenidos.
Como la variable “Fuma” es categórica se debe definir como factor:
Fuma <- as.factor(datos2a35$Fuma) #A) La variable
Se puede revisar esta variable:
levels(Fuma)
class(Fuma)
La tabla de frecuencias no agrupadas para la variable fumadores es:
Cuentas <- table(Sexo, Fuma); Cuentas #B) Tabla de frecuencias
## Fuma
## Sexo No Si
## Femenino 9 11
## Masculino 5 9
El diagrama de barras:
barplot(Cuentas, main="Diagrama de barras", xlab="¿Fuma?", ylab="Frecuencias", legend = rownames(Cuentas), col=c("pink","blue"), ylim = c(0, 20), beside=TRUE)
Se pueden escoger más colores para las barra dando click en este aquí.
Calculamos la proporción de mujeres dentro del grupo de los fumadores, así:
pbarra <- 11/(11+9); pbarra #C) Proporción
## [1] 0.55
Es decir, el porcentaje de mujeres en la muestra es del 55%.
Filtramos nuestra base de datos:
Fumadores <- datos2a35 %>% filter(Fuma=="Si") #D) La nueva base de datos
n <- nrow(Fumadores); n #E) Número observaciones (tamaño muestral)
## [1] 20
El número de observaciones y de variables se pueden revisar con:
dim(Fumadores) #F) Número observacions y número de variables
Observamos que tamaño muestral es \(n=\) 20. Para revisar estructura y variables del data frame:
str(Fumadores) #G) Estructura
names(Fumadores) #H) Variables
Definimos la variable categórica y revisamos sus niveles:
SexoF <- as.factor(Fumadores$Sexo) #I) La variable Sexo en "Fumadores"
Se puede revisar las propiedades de esta variable:
levels(SexoF)
class(SexoF)
La tabla de frecuencias no agrupadas para la variable fumadores es:
Cuentas <- table(SexoF); Cuentas #J) Tabla de frecuencias
## SexoF
## Femenino Masculino
## 11 9
El diagrama de barras:
barplot(Cuentas, main="Diagrama de barras", xlab="Sexo", ylab="Frecuencias", legend = rownames(Cuentas), col=c("pink","blue"), ylim = c(0, 20))
Se pueden escoger más colores para las barra dando click en este aquí.
Calculamos la proporción de mujeres en la muestra, así:
f <- 11 #K) Frecuencia de éxitos
pbarraF <- f/n; pbarraF #L) Proporción
## [1] 0.55
Es decir, el porcentaje de mujeres en la muestra es del 55%. Al comparar con la proporción hallada en la parte (b), encontramos que ambas son iguales. En R se comprueba así:
pbarra==pbarraF
## [1] TRUE
1. Datos:
* Unidades experimentales: Los estudiantes que son fumadores
* Población: Respuesta a la pregunta: ¿Género?
* Estadístico: la proporción muestral de mujeres dentro de los fumadores.
* Parámetro: la proporción poblacional de mujeres dentro de los fumadores.
* Tamaño muestral: n=20.
* Tamaño poblacional: N es desconocido.
* Grado de confianza: 95%.
* Nivel de significancia: 5%.
* Otros datos: proporción muestral=0.55.
2. Verificación de supuestos:
Se observa que el tamaño muestral es pequeño (n<30). Pero, de acuerdo a la tabla de supuestos (caso 2), tenemos que se cumplen que las dos condiciones siguientes:
* np=11 > 5 y n(1-p)=9 > 5
n*pbarra
## [1] 11
n*(1-pbarra)
## [1] 9
3. Conclusión:
La distribución muestral de la proporción muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 2, es decir,
\[\overline{p} \,-\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}}\; < \;p \; <\; \overline{p} \,+\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} \]
El código para escribir la expresión anterior es:
$$\overline{p} \,-\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}}\; < \;p
\; <\; \overline{p} \,+\, Z_{\alpha/2} \sqrt{\frac{\overline{p}(1-\overline{p})}{n}} $$
5. Cálculos:
alfa <- 0.05
proporcion <- pbarra
muestra <- n
El error estándar (es decir, la desviación estándar del estadístico) es:
ES <- sqrt(pbarra*(1-pbarra)/n); ES
## [1] 0.111243
El valor crítico (o valor cuantil de la distribución normal) es:
Critico <- qnorm(1- (alfa/2))
El error de estimación (o margen de error) es
Margen <- Critico*ES; Margen
## [1] 0.2180322
El ancho o ampitud del intervalo es 2 veces el margen del error:
2*Margen
## [1] 0.4360645
Los límites del intervalo son:
izquierdo <- pbarra - Margen; izquierdo
## [1] 0.3319678
derecho <- pbarra + Margen; derecho
## [1] 0.7680322
El intervalo también se puede obtener así:
Intervalo <- pbarra + c(-Margen, Margen)
Intervalo
## [1] 0.3319678 0.7680322
Es decir, si \(p\) es la proporcional de mujeres, entonces, \[0.332 \; < \; p \; < \; 0.768 \]
El código para escribir la expresión anterior es:
$$0.332 \; < \; p \; < \; 0.768 $$
6. Interpretación: Cuando los estudiantes fuman, con una confianza del 95%, podemos afirmar que el porcentaje poblacional de mujeres se encuentra entre 33.2% y 76.8%.
Con la función prop.test no se obtienen los mismo resultados, solo aproximados.
Prueba <-prop.test(f, n, conf.level =0.95, correct=TRUE)
Resultado <- Prueba$conf.int
Intervalo <- Resultado[1:2]; Intervalo
## [1] 0.3204804 0.7617145
En la imagen de abajo se puede observar que, con Geogebra, se obtienen los mismos resultados.
Comparar los intervalos hallados en los ejemplos 1 y 2 y dé conclusiones.
En el ejemplo 1 (con \(n=\) 34): \[0.423 \; < \; p \; < \; 0.754\]
En el ejemplo 2 (con \(n=\) 20): \[0.332 \; < \; p \; < \; 0.768\]
Se observa que cuando el tamaño muestral disminuye, el ancho del intervalo se amplía. Es decir, el error muestral aumenta.
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.
Repetir el ejemplo 1, utilizando un grado de confianza del
90%
99%
Compare los intervalos hallados.
Repetir el ejemplo 2 con un grado de confianza del
90%
99%
Compare los intervalos hallados.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere solamente las primeras 31 observaciones y defina el data frame “datos1a31”. Verifique su tamaño, variables y estructura.
Dentro de “datos1a31”, defina el objeto “Sexo” (género de los estudiantes). Conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro de “datos1a31”: Construya una tabla de frecuencias para la variable Sexo y el diagrama de barras correspondiente.
Dentro de “datos1a31”: Determine la proporción de mujeres.
Dentro de “datos1a31”: Encuentre un intervalo del 95% de confianza para la proporción poblacional de mujeres. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro de “datos1a31”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro de “datos1a31”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (e) y compare los resultados obtenidos.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere solamente las primeras 32 observaciones y defina el data frame “datos1a32”. Verifique su tamaño, variables y estructura.
Dentro de “datos1a32”, defina el objeto “Sexo” (género de los estudiantes). Conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro de “datos1a32”: Construya una tabla de frecuencias para la variable Sexo y el diagrama de barras correspondiente.
Dentro de “datos1a32”: Determine la proporción de mujeres.
Dentro de “datos1a32”: Encuentre un intervalo del 95% de confianza para la proporción poblacional de hombres. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro de “datos1a32”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro de “datos1a32”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (e) y compare los resultados obtenidos.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere solamente las primeras 31 observaciones y defina el data frame “datos1a31”. Verifique su tamaño, variables y estructura.
Dentro de “datos1a31”, defina el objeto “Fuma” (variable que representa al hecho si un estudiante fuma o no). Conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro de “datos1a31”: Construya una tabla de frecuencias para la variable Fuma y el diagrama de barras correspondiente.
Dentro de “datos1a31”: Determine la proporción de fumadores.
Dentro de “datos1a31”: Encuentre un intervalo del 95% de confianza para la proporción poblacional de fumadores. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro de “datos1a31”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro de “datos1a31”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (e) y compare los resultados obtenidos.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere solamente las primeras 31 observaciones y defina el data frame “datos1a31”. Verifique su tamaño, variables y estructura.
Dentro de “datos1a31”, defina el objeto “Fuma” (variable que representa al hecho si un estudiante fuma o no). Conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro de “datos1a31”: Construya una tabla de frecuencias para la variable Fuma y el diagrama de barras correspondiente y determine la proporción de no fumadores.
Dentro de “datos1a31”: Determine la proporción de no fumadores.
Dentro de “datos1a31”: Encuentre un intervalo del 95% de confianza para la proporción poblacional de no fumadores. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro de “datos1a31”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro de “datos1a31”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (e) y compare los resultados obtenidos.
Repetir el ejemplo 2, utilizando como referencia el grupo de los no fumadores y un grado de confianza del:
90%
95%
99%
Compare los intervalos hallados.
Repetir el ejemplo 2, con el fin de construir el intervalo para la proporción poblacional de hombres, utilizando como referencia el grupo de los no fumadores y un grado de confianza de:
90%
95%
99%
Compare los intervalos hallados. Sugerencia: En la parte (b) y (f) calcule la proporción muestral de hombres.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere el data frame “datos1a35” que contiene las primeras 35 observaciones. Dentro de “datos1a35”, defina los siguientes objetos:
Dentro de “datos1a35”: Construya la tabla de contingencia para Fuma y Sexo y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.). En el grupo de los mujeres, determine la proporción de fumadores.
Dentro de “datos1a35”: Defina el data frame “Genero” (obtenido al filtrar “datos1a35”), que representa al género femenino de los estudiantes. Verifique su tamaño, variables y estructura.
Dentro de “Genero”: Defina el objeto “FumaM” (que representa a la variable que identifica a los estudiantes que fuman o no fuman), conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro “Genero”: Construya una tabla de frecuencias para la variable FumaM y el diagrama de barras correspondiente.
Dentro “Genero”: Determine la proporción de fumadores y compare con (b).
Dentro “Genero”: Encuentre un intervalo del 90% de confianza para la proporción poblacional de fumadores. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro “Genero”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro “Genero”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (g) y compare los resultados obtenidos.
Repetir el ejercicio 9 con un grado de confianza de:
95%
99%
Compare los intervalos hallados.
Realizar los siguientes ejercicios. Interprete todas sus respuestas.
Considere el data frame “datos1a34” que contiene las primeras 34 observaciones. Dentro de “datos1a34”, defina los siguientes objetos:
Dentro de “datos1a34”: Construya la tabla de contingencia para Fuma y Sexo y el diagrama de barras correspondiente (con colores, título principal, título en los ejes, etc.). En el grupo de los mujeres, determine la proporción de no fumadores.
Dentro de “datos1a34”: Defina el data frame “Mujeres” (obtenido al filtrar “datos1a34”), que representa al género femenino de los estudiantes. Verifique su tamaño, variables y estructura.
Dentro de “Mujeres”: Defina el objeto “FumaM” (que representa a la variable que identifica a los estudiantes que fuman o no fuman), conviértalo en factor y diga cuáles son sus respectivos niveles.
Dentro “Mujeres”: Construya una tabla de frecuencias para la variable FumaM y el diagrama de barras correspondiente.
Dentro “Mujeres”: Determine la proporción de no fumadores y compare con (b).
Dentro “Mujeres”: Encuentre un intervalo del 90% de confianza para la proporción poblacional de no fumadores. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya, diga cuál es la fórmula, halle el intervalo e interprete.
Dentro “Mujeres”: Construya el mismo intervalo del inciso (e) con la función prop.test y compare los resultados obtenidos.
Dentro “Mujeres”: Con Geogebra (https://www.geogebra.org/classic#probability), construya el mismo intervalo del inciso (g) y compare los resultados obtenidos.
Repetir el ejercicio 10 con un grado de confianza de:
95%
99%
Compare los intervalos hallados.
Repita el ejercicio 9 considerando el género masculino.
Repita el ejercicio 11 considerando el género masculino.
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org