Taller 2 PyEF

Taller 2

1. El pH indica la concentración de iones de hidrógeno presentes en determinadas disoluciones, y determina muchas características notables de la estructura y de la actividad de las moléculas correspondientes. El pH de una disolución se puede medir de manera aproximada empleando indicadores: ácidos o bases débiles que presentan un color diferente según el pH; generalmente se emplea un papel indicador, que consiste en papel impregnado con una mezcla de indicadores cualitativos para la determinación del pH (el indicador más conocido es el papel de litmus o papel tornasol). Tal medición utiliza una escala que va de 1 a 14. Por debajo de 7 unidades, las disoluciones son ácidas; igual a 7 unidades, las disoluciones son neutras; y por encima de 7 unidades, las disoluciones son básicas. El siguiente conjunto de datos corresponde al pH (aproximado) de una muestra de disoluciones:

pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
        8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
        11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)

Hacer la tabla de distribución de frecuencias con \(m = 14\) categorías (1 a 14) utilizando los datos dados en pH. La tabla debe estar constituida por las categorías de la variable, las frecuencias absolutas, las frecuencias relativas, las frecuencias absolutas acumuladas, y las frecuencias relativas acumuladas.

pH = c(8,9,8,10,10,9,10,7,12,12,11,12,9,10,11,11,9,10,11,9,9,10,11,9,8,10,8,9,10,
        8,9,13,13,7,10,10,9,9,9,9,10,13,11,6,8,7,7,10,8,5,11,11,7,10,10,12,8,9,13,
        11,10,11,10,9,9,8,11,12,10,9,7,10,11,10,9)

n = length(pH) # total de datos
nj = table(factor(pH, levels = 1:14)) # frecuencia absoluta
hj = nj/n # frecuencia relativa
Nj = cumsum(nj) # frecuencia absoluta acumulada
Hj = cumsum(hj) # frecuencia relativa acumulada

# tabla
tab = cbind(nj, hj, Nj, Hj) # unir por columnas
total = c(sum(tab[,1]), sum(tab[,2]), NA, NA) # fila de totales
tab = rbind(tab,total) # unir por filas
nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada",   "F. Rel. Acumulada")
colnames(tab) = nombres_c

knitr::kable(tab)

	F. Absoluta	F. Relativa	F. Abs. Acumulada	F. Rel. Acumulada
1	0	0.0000000	0	0.0000000
2	0	0.0000000	0	0.0000000
3	0	0.0000000	0	0.0000000
4	0	0.0000000	0	0.0000000
5	1	0.0133333	1	0.0133333
6	1	0.0133333	2	0.0266667
7	6	0.0800000	8	0.1066667
8	9	0.1200000	17	0.2266667
9	18	0.2400000	35	0.4666667
10	19	0.2533333	54	0.7200000
11	12	0.1600000	66	0.8800000
12	5	0.0666667	71	0.9466667
13	4	0.0533333	75	1.0000000
14	0	0.0000000	75	1.0000000
total	75	1.0000000	NA	NA

Hacer un diagrama de barras para las frecuencias relativas.

barplot(100*hj, xlab = "pH",  # Grafico de barras frecuencias relativas
      ylab = "Cantidad de muestras", col = "darkseagreen", border = "darkseagreen4", 
      ylim = c(0, 30))

Hacer un diagrama de barras para las frecuencias relativas acumuladas.

barplot(100*Hj, xlab = "pH",  # Grafico de barras frecuencias relativas acumuladas
  ylab = "Porcentaje de muestras", col = "darkorange", border = "darkorange4", 
  ylim = c(0, 100))

Usando la información de la tabla y de los diagramas, responder las siguientes preguntas:
- ¿Cuántas observaciones se realizaron en este caso?
  - Se realizaron 75 observaciones
- ¿Cuántas observaciones en la muestra tienen un pH neutro? ¿ácido? ¿básico?
  - Hay 2 observaciones con pH ácido, 6 con pH neutro y 67 con pH básico
- ¿Qué porcentaje de observaciones tienen un pH neutro? ¿ácido? ¿básico?
  - El \(2,6\%\) tienen pH ácido, \(8\%\) tiene pH neutro y el \(89,4\%\) tienen pH básico
- ¿Que porcentaje de observaciones tienen un pH entre 9 y 11 unidades, inclusive?
  - El \(65,3\%\) tienen un pH en el intervalo [9,11]
Comentar brevemente el comportamiento del pH en esta muestra de disoluciones.
- Gracias a la gráfica de frecuencia relativa, se tiene que la mayoría de las muestras tienen un pH básico en este experimento observado.

2. Considere la información de la siguiente distribución de frecuencias

Completar la tabla

n = 80

nj = c(4,12,20,24,20)
hj = nj / n
Nj = cumsum(nj)
Hj = cumsum(hj)

tab = cbind(nj, hj, Nj, Hj)
total = c(sum(tab[,1]), sum(tab[,2]), NA, NA)
tab = rbind(tab, total)

# Nombres de columnas y filas
nombres_c = c("F. Absoluta", "F. Relativa", "F. Abs. Acumulada", "F. Rel. Acumulada")
nombres_f = c(5, 10, 15, 20, 25, "Total")
colnames(tab) = nombres_c
rownames(tab) = nombres_f

# Mostrar tabla
knitr::kable(tab)

	F. Absoluta	F. Relativa	F. Abs. Acumulada	F. Rel. Acumulada
5	4	0.05	4	0.05
10	12	0.15	16	0.20
15	20	0.25	36	0.45
20	24	0.30	60	0.75
25	20	0.25	80	1.00
Total	80	1.00	NA	NA

¿Falso o verdadero? Justifique su respuesta.
- La cantidad de datos mayores a 15 es 44%.
  - Falso, ya que hasta 15 está acumulado el \(45\%\), por lo tanto el porcentaje restante es mayor y es \(55\%\)
- La cantidad de datos mayores que 5 pero menores que 20 es 36.
  - Falso, ya que al ser estrictamente mayor que 5 y menores que 20 solo agrupa 32 observaciones.
- La proporción de datos mayores que 10 es 95.
  - Falso, ya que hasta 10 la frecuencia relativa acumulada es de 20, por lo tanto la proporción restante serán los datos mayores y corresponden al \(80\%\)
- La proporción de datos entre 10 y 20, inclusive, es 70%.
  - Verdadero, ya que la suma de sus frecuencias relativas es igual al \(70\%\)

3. En dos estudios diferentes donde se quiere categorizar una variable cuantitativa continua, se tiene que los tamaños de muestra son \(n=25\) y \(n=10,000\) individuos, respectivamente. Calcule el número de clases para cada estudio con los dos métodos, y comente por qué no es ideal el método empírico para una muestra grande.

En primer lugar se tiene que la formula empírica para hallar las \(m\) clases es de la forma: \[ m \approx \sqrt{n} \] Por otro lado, se tiene la regla de Sturges, que está dada por: \[ m \approx 1 + 3.3\log_{10}(n) \] Así que calculando para \(n = 25\):

Regla empírica \[ m \approx \sqrt{25}\\ m = 5 \]
Regla de Sturges \[ m \approx 1 + 3.3\log_{10}(25)\\ m \approx 5.6 \]

y para \(n = 10,000\):

Regla empírica \[ m \approx \sqrt{25}\\ m = 100 \]
Regla de Sturges \[ m \approx 1 + 3.3\log_{10}(10,000)\\ m \approx 14.2 \]

Como podemos observar, la regla empírica no difiere de la regla de Sturges significativamente para poblaciones pequeñas, sin embargo, cuando aumentamos la población la regla empírica arroja valores para \(m\) muy altos, lo que hace que el análisis de datos pueda no ser muy efectivo ya que no agrupa de manera adecuada los datos, mientras que la regla de Sturges mantiene números de clase mas compactos que facilitan el análisis.

Taller 2 PyEF

Alejandro Bello León (abellol@unal.edu.co)

Andrés Mateo Ortiz Aya (aortizay@unal.edu.co)

Julio César Fernández Fereira (jufernandezf@unal.edu.co)

Taller 2