I. Introducción

El presente informe detalla la aplicación de diversas pruebas de hipótesis estadísticas utilizando el lenguaje de programación R en el entorno RStudio. El análisis se basa en el conjunto de datos “Smokers Health Data” , el cual contiene información clínica y fisiológica de individuos adultos, clasificados como fumadores y no fumadores. Este conjunto de datos es una fuente valiosa para investigar los efectos del tabaquismo sobre variables como la frecuencia cardíaca y los niveles de colesterol.

El objetivo principal es aplicar y explicar seis pruebas de hipótesis específicas, tal como se describen en el documento ‘Prueba Hipótesis.pdf’. Para cada prueba, se proporcionarán los comandos de R necesarios, una explicación detallada de su uso e interpretación de los resultados. Adicionalmente, se abordarán los conceptos estadísticos fundamentales subyacentes a las pruebas de hipótesis y se describirá el manejo de los datos en RStudio para llevar a cabo dichos análisis. Este informe está diseñado para ser publicable en RPubs, ofreciendo una guía clara y reproducible.

II. Conceptos Fundamentales de Pruebas de Hipótesis

Las pruebas de hipótesis son una herramienta esencial en la inferencia estadística que permite tomar decisiones sobre una población basándose en la evidencia muestral. A continuación, se definen los componentes clave:

Pasos Generales de una Prueba de Hipótesis [2, 8]: 1. Formular la hipótesis nula (\(H_0\)) y la hipótesis alternativa (\(H_1\)). 2. Elegir un nivel de significancia (\(\alpha\)). 3. Seleccionar el estadístico de prueba apropiado y calcular su valor a partir de los datos muestrales. 4. Determinar el valor p asociado con el estadístico de prueba. 5. Tomar una decisión: Si p < \(\alpha\), rechazar \(H_0\). Si p \(\geq \alpha\), no rechazar \(H_0\). 6. Interpretar la decisión en el contexto del problema.

III. Preparación del Entorno y Datos en RStudio

3.1. Uso de RStudio y Carga de Paquetes

RStudio es un Entorno de Desarrollo Integrado (IDE) para R que facilita la escritura de código, la visualización de datos y resultados, y la gestión de proyectos.[10] Su interfaz se divide típicamente en un editor de scripts, una consola, un panel de entorno/historial y un panel de archivos/gráficos/paquetes.[10] Para este análisis, se utilizarán los siguientes paquetes:

  • dplyr: Para la manipulación de datos, como la creación de nuevas variables.[11, 12]
  • readr (o read.csv de R base): Para la importación de archivos CSV.[13]
  • knitr: Para la creación de tablas bien formateadas en el informe.[14]

```r # Cargar paquetes necesarios

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr) 

library(knitr) 

Importar los datos

Se asume que el archivo.csv está en el directorio de trabajo o se proporciona la ruta completa.

Para visualizar el dataset en una nueva pestaña en RStudio (opcional)

View(datos)

Primeras 6 filas del data frame

kable(head(datos), caption = “Primeras 6 Filas del Conjunto de Datos”)

Dimensiones del data frame (filas, columnas)

cat(“Dimensiones del dataset (filas, columnas):”, dim(datos), “”) cat(“Número de filas:”, nrow(datos), “”) cat(“Número de columnas:”, ncol(datos), “”)

Nombres de las columnas

cat(“Nombres de las columnas:”, paste(names(datos), collapse=“,”), “”)

datos\(current_smoker <- factor(datos\)current_smoker, levels = c(“no”, “yes”), labels = c(“No Fumador”, “Fumador”))

# Verificar si hay algún NA en todo el dataset

cat(“¿Hay algún NA en el dataset?:”, any(is.na(datos)), “”)

Total de NAs en el dataset

cat(“Total de NAs en el dataset:”, sum(is.na(datos)), “”)