I. Introducción

El presente informe detalla la aplicación de diversas pruebas de hipótesis estadísticas utilizando el lenguaje de programación R en el entorno RStudio. El análisis se basa en el conjunto de datos “Smokers Health Data” , el cual contiene información clínica y fisiológica de individuos adultos, clasificados como fumadores y no fumadores. Este conjunto de datos es una fuente valiosa para investigar los efectos del tabaquismo sobre variables como la frecuencia cardíaca y los niveles de colesterol.

El objetivo principal es aplicar y explicar seis pruebas de hipótesis específicas, tal como se describen en el documento ‘Prueba Hipótesis.pdf’. Para cada prueba, se proporcionarán los comandos de R necesarios, una explicación detallada de su uso e interpretación de los resultados. Adicionalmente, se abordarán los conceptos estadísticos fundamentales subyacentes a las pruebas de hipótesis y se describirá el manejo de los datos en RStudio para llevar a cabo dichos análisis. Este informe está diseñado para ser publicable en RPubs, ofreciendo una guía clara y reproducible.

II. Conceptos Fundamentales de Pruebas de Hipótesis

Las pruebas de hipótesis son una herramienta esencial en la inferencia estadística que permite tomar decisiones sobre una población basándose en la evidencia muestral. A continuación, se definen los componentes clave:

Hipótesis Nula (\(H_0\)): Es una afirmación sobre un parámetro poblacional (como la media \(\mu\) o la proporción \(p\)) que se asume como verdadera hasta que la evidencia estadística sugiera lo contrario. Generalmente, postula la “no diferencia” o “no efecto”.[2, 3] Por ejemplo, \(H_0: \mu = 75\) indica que la media poblacional es igual a 75.[1, 3]
Hipótesis Alternativa (\(H_1\) o \(H_a\)): Es una afirmación que contradice a la hipótesis nula y es la que el investigador usualmente busca probar.[3, 4] Puede ser bilateral (ej. \(H_1: \mu \neq 75\), la media es diferente de 75) o unilateral (ej. \(H_1: \mu > 200\), la media es mayor que 200; o \(H_1: \mu < 200\), la media es menor que 200).[1, 3]
Nivel de Significancia (\(\alpha\)): Es la probabilidad máxima con la que se está dispuesto a cometer un Error Tipo I. Es un umbral, comúnmente fijado en 0.05 (5%) o 0.01 (1%), que se establece antes de realizar la prueba.[2, 5] Define la región crítica o de rechazo de \(H_0\).[3, 5]
Valor p (p-value): Es la probabilidad de observar un estadístico de prueba tan extremo o más extremo que el obtenido a partir de los datos muestrales, asumiendo que la hipótesis nula (\(H_0\)) es verdadera.[6, 7] Si el valor p es menor que el nivel de significancia \(\alpha\) (p < \(\alpha\)), se rechaza \(H_0\) en favor de \(H_1\). Si p \(\geq \alpha\), no se rechaza \(H_0\).[7, 8] Es importante notar que un valor p bajo no prueba que \(H_1\) sea verdadera, sino que la evidencia muestral es inconsistente con \(H_0\).[6]
Errores en Pruebas de Hipótesis:
- Error Tipo I (\(\alpha\)): Ocurre cuando se rechaza la hipótesis nula (\(H_0\)) siendo esta verdadera (un falso positivo).[2, 9] La probabilidad de cometer este error es igual al nivel de significancia \(\alpha\).[9]
- Error Tipo II (\(\beta\)): Ocurre cuando no se rechaza la hipótesis nula (\(H_0\)) siendo esta falsa (un falso negativo).[2, 9] La probabilidad de cometer este error es \(\beta\). La potencia de una prueba es \(1-\beta\), que es la probabilidad de rechazar correctamente una \(H_0\) falsa.

Pasos Generales de una Prueba de Hipótesis [2, 8]: 1. Formular la hipótesis nula (\(H_0\)) y la hipótesis alternativa (\(H_1\)). 2. Elegir un nivel de significancia (\(\alpha\)). 3. Seleccionar el estadístico de prueba apropiado y calcular su valor a partir de los datos muestrales. 4. Determinar el valor p asociado con el estadístico de prueba. 5. Tomar una decisión: Si p < \(\alpha\), rechazar \(H_0\). Si p \(\geq \alpha\), no rechazar \(H_0\). 6. Interpretar la decisión en el contexto del problema.

III. Preparación del Entorno y Datos en RStudio

3.1. Uso de RStudio y Carga de Paquetes

RStudio es un Entorno de Desarrollo Integrado (IDE) para R que facilita la escritura de código, la visualización de datos y resultados, y la gestión de proyectos.[10] Su interfaz se divide típicamente en un editor de scripts, una consola, un panel de entorno/historial y un panel de archivos/gráficos/paquetes.[10] Para este análisis, se utilizarán los siguientes paquetes:

dplyr: Para la manipulación de datos, como la creación de nuevas variables.[11, 12]
readr (o read.csv de R base): Para la importación de archivos CSV.[13]
knitr: Para la creación de tablas bien formateadas en el informe.[14]

```r # Cargar paquetes necesarios library(dplyr) library(readr) # Para read_csv(), alternativamente se puede usar read.csv() de R base library(knitr) # Para tablas formateadas con kable()

Importar los datos

Se asume que el archivo.csv está en el directorio de trabajo o se proporciona la ruta completa.

datos <- read.csv(“ws_rstudio/smoking_health_data_final.csv”)

Para visualizar el dataset en una nueva pestaña en RStudio (opcional)

View(datos)

Primeras 6 filas del data frame

kable(head(datos), caption = “Primeras 6 Filas del Conjunto de Datos”)

Dimensiones del data frame (filas, columnas)

cat(“Dimensiones del dataset (filas, columnas):”, dim(datos), “”) cat(“Número de filas:”, nrow(datos), “”) cat(“Número de columnas:”, ncol(datos), “”)

Nombres de las columnas

cat(“Nombres de las columnas:”, paste(names(datos), collapse=“,”), “”)

datos\(current_smoker <- factor(datos\)current_smoker, levels = c(“no”, “yes”), labels = c(“No Fumador”, “Fumador”))

# Verificar si hay algún NA en todo el dataset

cat(“¿Hay algún NA en el dataset?:”, any(is.na(datos)), “”)

Total de NAs en el dataset

cat(“Total de NAs en el dataset:”, sum(is.na(datos)), “”)

Untitled