Taller 2

1. El pH indica la concentración de iones de hidrógeno presentes en determinadas disoluciones, y determina muchas características notables de la estructura y de la actividad de las moléculas correspondientes. El pH de una disolución se puede medir de manera aproximada empleando indicadores: ácidos o bases débiles que presentan un color diferente según el pH; generalmente se emplea un papel indicador, que consiste en papel impregnado con una mezcla de indicadores cualitativos para la determinación del pH (el indicador más conocido es el papel de litmus o papel tornasol). Tal medición utiliza una escala que va de 1 a 14. Por debajo de 7 unidades, las disoluciones son ácidas; igual a 7 unidades, las disoluciones son neutras; y por encima de 7 unidades, las disoluciones son básicas. El siguiente conjunto de datos corresponde al pH (aproximado) de una muestra de disoluciones:

pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
        8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
        11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)
  1. Hacer la tabla de distribución de frecuencias con \(m = 14\) categorías (1 a 14) utilizando los datos dados en pH. La tabla debe estar constituida por las categorías de la variable, las frecuencias absolutas, las frecuencias relativas, las frecuencias absolutas acumuladas, y las frecuencias relativas acumuladas.

    pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
            8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
            11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)
    
    n = length(pH) # total de datos
    nj = table(factor(pH, levels = 1:14)) # frecuencia absoluta
    hj = nj/n # frecuencia relativa
    Nj = cumsum(nj) # frecuencia absoluta acumulada
    Hj = cumsum(hj) # frecuencia relativa acumulada
    
    # tabla
    tab = cbind(nj, hj, Nj, Hj) # unir por columnas
    total = c(sum(tab[,1]), sum(tab[,2]), NA, NA) # fila de totales
    tab = rbind(tab,total) # unir por filas
    nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada",   "F. Rel. Acumulada")
    colnames(tab) = nombres_c
    
    knitr::kable(tab)
    F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
    1 0 0.0000000 0 0.0000000
    2 0 0.0000000 0 0.0000000
    3 0 0.0000000 0 0.0000000
    4 0 0.0000000 0 0.0000000
    5 1 0.0133333 1 0.0133333
    6 1 0.0133333 2 0.0266667
    7 6 0.0800000 8 0.1066667
    8 9 0.1200000 17 0.2266667
    9 18 0.2400000 35 0.4666667
    10 19 0.2533333 54 0.7200000
    11 12 0.1600000 66 0.8800000
    12 5 0.0666667 71 0.9466667
    13 4 0.0533333 75 1.0000000
    14 0 0.0000000 75 1.0000000
    total 75 1.0000000 NA NA
  2. Hacer un diagrama de barras para las frecuencias relativas.

    barplot(100*hj, xlab = "pH",  # Grafico de barras frecuencias relativas
          ylab = "Cantidad de muestras", col = "darkseagreen", border = "darkseagreen4", 
          ylim = c(0, 30))

  3. Hacer un diagrama de barras para las frecuencias relativas acumuladas.

    barplot(100*Hj, xlab = "pH",  # Grafico de barras frecuencias relativas acumuladas
      ylab = "Porcentaje de muestras", col = "darkorange", border = "darkorange4", 
      ylim = c(0, 100))

  4. Usando la información de la tabla y de los diagramas, responder las siguientes preguntas:

    • ¿Cuántas observaciones se realizaron en este caso?
      • Se realizaron 75 observaciones
    • ¿Cuántas observaciones en la muestra tienen un pH neutro? ¿ácido? ¿básico?
      • Hay 2 observaciones con pH ácido, 6 con pH neutro y 67 con pH básico
    • ¿Qué porcentaje de observaciones tienen un pH neutro? ¿ácido? ¿básico?
      • El \(2,6\%\) tienen pH ácido, \(8\%\) tiene pH neutro y el \(89,4\%\) tienen pH básico
    • ¿Que porcentaje de observaciones tienen un pH entre 9 y 11 unidades, inclusive?
      • El \(65,3\%\) tienen un pH en el intervalo [9,11]
  5. Comentar brevemente el comportamiento del pH en esta muestra de disoluciones.

    • Gracias a la gráfica de frecuencia relativa, se tiene que la mayoría de las muestras tienen un pH básico en este experimento observado.

2. Considere la información de la siguiente distribución de frecuencias

  1. Completar la tabla

    n = 80
    
    nj = c(4,12,20,24,20)
    hj = nj / n
    Nj = cumsum(nj)
    Hj = cumsum(hj)
    
    tab = cbind(nj, hj, Nj, Hj)
    total = c(sum(tab[,1]), sum(tab[,2]), NA, NA)
    tab = rbind(tab, total)
    
    # Nombres de columnas y filas
    nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada", "F. Rel. Acumulada")
    nombres_f = c(5, 10, 15, 20, 25, "Total")
    colnames(tab) = nombres_c
    rownames(tab) = nombres_f
    
    # Mostrar tabla
    knitr::kable(tab)
    F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
    5 4 0.05 4 0.05
    10 12 0.15 16 0.20
    15 20 0.25 36 0.45
    20 24 0.30 60 0.75
    25 20 0.25 80 1.00
    Total 80 1.00 NA NA
  2. ¿Falso o verdadero? Justifique su respuesta.

    • La cantidad de datos mayores a 15 es 44%.
      • Falso, ya que hasta 15 está acumulado el \(45\%\), por lo tanto el porcentaje restante es mayor y es \(55\%\)
    • La cantidad de datos mayores que 5 pero menores que 20 es 36.
      • Falso, ya que al ser estrictamente mayor que 5 y menores que 20 solo agrupa 32 observaciones.
    • La proporción de datos mayores que 10 es 95.
      • Falso, ya que hasta 10 la frecuencia relativa acumulada es de 20, por lo tanto la proporción restante serán los datos mayores y corresponden al \(80\%\)
    • La proporción de datos entre 10 y 20, inclusive, es 70%.
      • Verdadero, ya que la suma de sus frecuencias relativas es igual al \(70\%\)

3. En dos estudios diferentes donde se quiere categorizar una variable cuantitativa continua, se tiene que los tamaños de muestra son \(n=25\) y \(n=10,000\) individuos, respectivamente. Calcule el número de clases para cada estudio con los dos métodos, y comente por qué no es ideal el método empírico para una muestra grande.

En primer lugar se tiene que la formula empírica para hallar las \(m\) clases es de la forma: \[ m \approx \sqrt{n} \] Por otro lado, se tiene la regla de Sturges, que está dada por: \[ m \approx 1 + 3.3\log_{10}(n) \] Así que calculando para \(n = 25\):

  1. Regla empírica \[ m \approx \sqrt{25}\\ m = 5 \]
  2. Regla de Sturges \[ m \approx 1 + 3.3\log_{10}(25)\\ m \approx 5.6 \]

y para \(n = 10,000\):

  1. Regla empírica \[ m \approx \sqrt{25}\\ m = 100 \]
  2. Regla de Sturges \[ m \approx 1 + 3.3\log_{10}(10,000)\\ m \approx 14.2 \]

Como podemos observar, la regla empírica no difiere de la regla de Sturges significativamente para poblaciones pequeñas, sin embargo, cuando aumentamos la población la regla empírica arroja valores para \(m\) muy altos, lo que hace que el análisis de datos pueda no ser muy efectivo ya que no agrupa de manera adecuada los datos, mientras que la regla de Sturges mantiene números de clase mas compactos que facilitan el análisis.