1. Considere la base de datos dada en el archivo taller05_datos.txt, la cual contiene los datos de \(n=1,000\) individuos en relación con las siguientes variables:
  • Conteo de células CD4 (por milímetro cúbico de sangre).
  • Contagio (1 = Sí; 0 = No).

Las células CD4 son un tipo de linfocito (glóbulo blanco). Son una parte importante del sistema inmune. Hay dos tipos principales de células CD4. Las células T-4 o CD4 son las células “ayudantes”, las que dirigen el ataque contra las infecciones. Las células T-8 o CD8 son las células “supresoras”, las que finalizan una respuesta inmunológica. El VIH infecta a menudo las células CD4. El código genético del virus se incorpora en las células. Cuando las células CD4 se multiplican para combatir infecciones, hacen más copias del VIH.

Cuando alguien ha estado infectado con el VIH pero no ha empezado el tratamiento, el número de células CD4 disminuye. Este es un signo de que el sistema inmune se ha debilitado. Cuanto más bajo sea el recuento de células CD4, más posibilidades hay de que la persona se enferme.

A continuación, se presenta el procedimiento para importar este conjunto de datos en R. Observe que para importar la base de datos exitosamente en R por medio de la rutina read.table, hay que proporcionar la ruta de acceso estableciendo el directorio de trabajo con setwd. ¡No olvide actualizar esta ruta!

# establecer el directorio de trabajo
# setwd("C:/Users/Juan Camilo/Dropbox/UN/Cursos/bioestadistica/rmd/")

# importar base de datos en el objeto llamado datos
datos <- read.table(file = "taller05_datos.txt", header = TRUE, sep = ";")

# tamaño de la muestra
n <- nrow(datos)

# extraer los conteos de los no contagiados en x
x <- datos$CD4[datos$contagio == 0]

# extraer los conteos de los sí contagiados en y
y <- datos$CD4[datos$contagio == 1]

El objetivo de este ejercicio es comparar el comportamiento del conteo de células CD4 en términos del contagio.

  1. Hacer una tabla de frecuencias relativas y un diagrama de barras para la variable contagio.

  2. Completar la siguiente tabla y hacer un histograma con 15 categorías y un diagrama de caja para cada grupo.

Grupo Tamaño Mín. Máx. Prom. Cuar. 1 Cuar. 2 Cuar. 3 DE CV (%)
Todos
No contagio
Sí contagio

DE: desviación estándar. CV: coeficiente de variación de Pearson.

  1. Comentar los resultados obtenidos.
  1. Relacione cada histograma con el diagrama de caja que representa el mismo conjunto de datos.