1. El pH indica la concentración de iones de
hidrógeno presentes en determinadas disoluciones, y determina muchas
características notables de la estructura y de la actividad de las
moléculas correspondientes. El pH de una disolución se puede medir de
manera aproximada empleando indicadores: ácidos o bases débiles que
presentan un color diferente según el pH; generalmente se emplea un
papel indicador, que consiste en papel impregnado con una mezcla de
indicadores cualitativos para la determinación del pH (el indicador más
conocido es el papel de litmus o papel tornasol). Tal medición utiliza
una escala que va de 1 a 14. Por debajo de 7 unidades, las disoluciones
son ácidas; igual a 7 unidades, las disoluciones son neutras; y por
encima de 7 unidades, las disoluciones son básicas.
El siguiente conjunto de datos corresponde al pH (aproximado) de una
muestra de disoluciones:
pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)
Hacer la tabla de distribución de frecuencias con \(m = 14\) categorías (1 a 14) utilizando los datos dados en pH. La tabla debe estar constituida por las categorías de la variable, las frecuencias absolutas, las frecuencias relativas, las frecuencias absolutas acumuladas, y las frecuencias relativas acumuladas.
pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)
n = length(pH) # total de datos
nj = table(factor(pH, levels = 1:14)) # frecuencia absoluta
hj = nj/n # frecuencia relativa
Nj = cumsum(nj) # frecuencia absoluta acumulada
Hj = cumsum(hj) # frecuencia relativa acumulada
# tabla
tab = cbind(nj, hj, Nj, Hj) # unir por columnas
total = c(sum(tab[,1]), sum(tab[,2]), NA, NA) # fila de totales
tab = rbind(tab,total) # unir por filas
nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada", "F. Rel. Acumulada")
colnames(tab) = nombres_c
knitr::kable(tab)
| F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada | |
|---|---|---|---|---|
| 1 | 0 | 0.0000000 | 0 | 0.0000000 |
| 2 | 0 | 0.0000000 | 0 | 0.0000000 |
| 3 | 0 | 0.0000000 | 0 | 0.0000000 |
| 4 | 0 | 0.0000000 | 0 | 0.0000000 |
| 5 | 1 | 0.0133333 | 1 | 0.0133333 |
| 6 | 1 | 0.0133333 | 2 | 0.0266667 |
| 7 | 6 | 0.0800000 | 8 | 0.1066667 |
| 8 | 9 | 0.1200000 | 17 | 0.2266667 |
| 9 | 18 | 0.2400000 | 35 | 0.4666667 |
| 10 | 19 | 0.2533333 | 54 | 0.7200000 |
| 11 | 12 | 0.1600000 | 66 | 0.8800000 |
| 12 | 5 | 0.0666667 | 71 | 0.9466667 |
| 13 | 4 | 0.0533333 | 75 | 1.0000000 |
| 14 | 0 | 0.0000000 | 75 | 1.0000000 |
| total | 75 | 1.0000000 | NA | NA |
Hacer un diagrama de barras para las frecuencias relativas.
barplot(100*hj, xlab = "pH", # Grafico de barras frecuencias relativas
ylab = "Cantidad de muestras", col = "darkseagreen", border = "darkseagreen4",
ylim = c(0, 30))
Hacer un diagrama de barras para las frecuencias relativas acumuladas.
barplot(100*Hj, xlab = "pH", # Grafico de barras frecuencias relativas acumuladas
ylab = "Porcentaje de muestras", col = "darkorange", border = "darkorange4",
ylim = c(0, 100))
Usando la información de la tabla y de los diagramas, responder las siguientes preguntas:
Comentar brevemente el comportamiento del pH en esta muestra de disoluciones.
2. Considere la información de la siguiente distribución de frecuencias
Completar la tabla
n = 80
nj = c(4,12,20,24,20)
hj = nj / n
Nj = cumsum(nj)
Hj = cumsum(hj)
tab = cbind(nj, hj, Nj, Hj)
total = c(sum(tab[,1]), sum(tab[,2]), NA, NA)
tab = rbind(tab, total)
# Nombres de columnas y filas
nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada", "F. Rel. Acumulada")
nombres_f = c(5, 10, 15, 20, 25, "Total")
colnames(tab) = nombres_c
rownames(tab) = nombres_f
# Mostrar tabla
knitr::kable(tab)
| F. Absoluta | F. Relativa | F. Abs. Acumulada | F. Rel. Acumulada | |
|---|---|---|---|---|
| 5 | 4 | 0.05 | 4 | 0.05 |
| 10 | 12 | 0.15 | 16 | 0.20 |
| 15 | 20 | 0.25 | 36 | 0.45 |
| 20 | 24 | 0.30 | 60 | 0.75 |
| 25 | 20 | 0.25 | 80 | 1.00 |
| Total | 80 | 1.00 | NA | NA |
¿Falso o verdadero? Justifique su respuesta.
3. En dos estudios diferentes donde se quiere categorizar una variable cuantitativa continua, se tiene que los tamaños de muestra son \(n=25\) y \(n=10,000\) individuos, respectivamente. Calcule el número de clases para cada estudio con los dos métodos, y comente por qué no es ideal el método empírico para una muestra grande.
En primer lugar se tiene que la formula empírica para hallar las \(m\) clases es de la forma: \[ m \approx \sqrt{n} \] Por otro lado, se tiene la regla de Sturges, que está dada por: \[ m \approx 1 + 3.3\log_{10}(n) \] Así que calculando para \(n = 25\):
y para \(n = 10,000\):
Como podemos observar, la regla empírica no difiere de la regla de Sturges significativamente para poblaciones pequeñas, sin embargo, cuando aumentamos la población la regla empírica arroja valores para \(m\) muy altos, lo que hace que el análisis de datos pueda no ser muy efectivo ya que no agrupa de manera adecuada los datos, mientras que la regla de Sturges mantiene números de clase mas compactos que facilitan el análisis.