El presente informe detalla la aplicación de diversas pruebas de hipótesis estadísticas utilizando el lenguaje de programación R en el entorno RStudio. El análisis se basa en el conjunto de datos “Smokers Health Data” , el cual contiene información clínica y fisiológica de individuos adultos, clasificados como fumadores y no fumadores. Este conjunto de datos es una fuente valiosa para investigar los efectos del tabaquismo sobre variables como la frecuencia cardíaca y los niveles de colesterol.
El objetivo principal es aplicar y explicar seis pruebas de hipótesis específicas, tal como se describen en el documento ‘Prueba Hipótesis.pdf’. Para cada prueba, se proporcionarán los comandos de R necesarios, una explicación detallada de su uso e interpretación de los resultados. Adicionalmente, se abordarán los conceptos estadísticos fundamentales subyacentes a las pruebas de hipótesis y se describirá el manejo de los datos en RStudio para llevar a cabo dichos análisis. Este informe está diseñado para ser publicable en RPubs, ofreciendo una guía clara y reproducible.
Las pruebas de hipótesis son una herramienta esencial en la inferencia estadística que permite tomar decisiones sobre una población basándose en la evidencia muestral. A continuación, se definen los componentes clave:
Pasos Generales de una Prueba de Hipótesis [2, 8]: 1. Formular la hipótesis nula (\(H_0\)) y la hipótesis alternativa (\(H_1\)). 2. Elegir un nivel de significancia (\(\alpha\)). 3. Seleccionar el estadístico de prueba apropiado y calcular su valor a partir de los datos muestrales. 4. Determinar el valor p asociado con el estadístico de prueba. 5. Tomar una decisión: Si p < \(\alpha\), rechazar \(H_0\). Si p \(\geq \alpha\), no rechazar \(H_0\). 6. Interpretar la decisión en el contexto del problema.
RStudio es un Entorno de Desarrollo Integrado (IDE) para R que facilita la escritura de código, la visualización de datos y resultados, y la gestión de proyectos.[10] Su interfaz se divide típicamente en un editor de scripts, una consola, un panel de entorno/historial y un panel de archivos/gráficos/paquetes.[10] Para este análisis, se utilizarán los siguientes paquetes:
dplyr: Para la manipulación de datos, como la creación
de nuevas variables.[11, 12]readr (o read.csv de R base): Para la
importación de archivos CSV.[13]knitr: Para la creación de tablas bien formateadas en
el informe.[14]```r # Cargar paquetes necesarios library(dplyr) library(readr) # Para read_csv(), alternativamente se puede usar read.csv() de R base library(knitr) # Para tablas formateadas con kable()
datos <- read.csv(“ws_rstudio/smoking_health_data_final.csv”)
View(datos)
kable(head(datos), caption = “Primeras 6 Filas del Conjunto de Datos”)
cat(“Dimensiones del dataset (filas, columnas):”, dim(datos), “”) cat(“Número de filas:”, nrow(datos), “”) cat(“Número de columnas:”, ncol(datos), “”)
cat(“Nombres de las columnas:”, paste(names(datos), collapse=“,”), “”)
datos\(current_smoker <- factor(datos\)current_smoker, levels = c(“no”, “yes”), labels = c(“No Fumador”, “Fumador”))
# Verificar si hay algún NA en todo el dataset
cat(“¿Hay algún NA en el dataset?:”, any(is.na(datos)), “”)
cat(“Total de NAs en el dataset:”, sum(is.na(datos)), “”)