Comparaciones simples

Docente: Delio SALGADO.

2024-01-30

Situación inicial

La fuerza de la tensión de adhesión del mortero de cemento portland es una característica importante del producto. Un ingeniero está interesado en comparar la fuerza de una formulación modificada en la que se han agregado emulsiones de látex de polímeros durante el mezclado, con la fuerza del mortero sin modificar. El experimentador ha reunido 10 observaciones de la fuerza de la formulación modificada y otras 10 observaciones de la formulación sin modificar. Como se observa en la siguiente tabla:

Corrida Mortero_modificado Mortero_ sin_modificar
1 16.85 17.50
2 16.40 17.63
3 17.21 18.25
4 16.35 18.00
5 16.52 17.86
6 17.04 17.75
7 16.96 18.22
8 17.15 17.90
9 16.59 17.96
10 16.57 18.15

Luego de haber evaluado el comportamiento de la varianza entre las dos muestras procedemos a evaluar el comportamiento con respecto a la presencia y ausencia del tratamiento, en el problema inicial corresponde a la formulación del mortero, esto es, conocer si existe, o no, diferencia estadística entre las dos muestras. para ello tenemos dos posible escenarios.

1. Caso en que \(\sigma_1^2=\sigma_2^2\)

2. Caso en que \(\sigma_1^2 \neq \sigma_2^2\)

Caso \(\sigma_1^2=\sigma_2^2\).

Para realizar la comparación entre las dos muestras seguimos el siguiente procedimiento:

1. Identificación de datos del experimento

Para el experimento de comparaciones simples de mortero modificado y sin modificar se tiene lo siguiente:

  • Factor: formulación del mortero.
  • Niveles del factor: 1: mortero modificado. 2 Mortero sin modificar.
  • Variable respuesta: \(y_{ij}\)
    • Con \(i: nivel\) y \(j: observación\), \(y_{ij}\) representa la fuerza de tensión de adhesión.

2. Modelo de datos

Los resultados del experimento lo podemos representar en un modelo de datos, Un modelo estadístico simple que describe los datos de un experimento como el que acaba de describirse es:

\[y_{ij}=\mu_i+\epsilon_{ij}\]

Donde:

  • \(i=1,2\)
  • \(j=1,2,3....n_i\)
  • \(y_{ij}\) representa la \(j-ésima\) observación del nivel \(i\) del factor.
  • \(\mu_i\) es la media de la respuesta para el \(i-ésimo\) factor.
  • \(\epsilon_{ij}\) representa el error aleatorio. Variable aleatoria normal asociada a la observación.

Debemos tener en cuenta que:

\[\epsilon_{ij}\thicksim N(0,\sigma^2), Independiente\]

\[y_{ij}\thicksim N(\mu,\sigma^2), Independiente\]

3. Hipótesis estadística

Una hipótesis estadística es un enunciado o afirmación acerca de los parámetros de una distribución de probabilidad o acerca de los parámetros de un modelo estadístico. Corresponden a conjeturas acerca de la situación problema.

Para el caso en cuestión la hipótesis son:

\[\begin{gather*} H_o: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \end{gather*}\]

\(H_o\) es conocida como hipótesis nula. \(H_1\) es conocida como hipótesis alternativa.

4. Estadístico de prueba

Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se utiliza en una prueba de hipótesis. El estadístico de prueba para el experimento de comparaciones simples es el siguiente:

\[t_o=\frac{\bar{y_1}-\bar{y_2}}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\]

Donde:

  • \(\bar{y_1}\): media muestral del nivel 1.
  • \(\bar{y_2}\): media muestral del nivel 2.
  • \(n_1\): tamaño de muestra del nivel 1.
  • \(n_2\): tamaño de muestra del nivel 2.
  • \(S_p^2\): es una estimación de la varianza común. \(\sigma^2_1=\sigma^2_2=\sigma^2\)

\[S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]

Donde:

  • \(S_1^2\): varianza muestral del nivel 1.
  • \(S_2^2\): varianza muestral del nivel 2.

Soluciones para la situación inicial

  • \(\bar{y_1}=16,764~kgf/cm^2\)
  • \(\bar{y_2}=17,922~kgf/cm^2\)
  • \(n_1=10\)
  • \(n_2=10\)
  • \(S_1^2=0,1001\)
  • \(S_2^2=0,0614\)
  • \(S_p^2=0,0808\)
  • \(S_p=0,2842\)

Por lo tanto:

\[t_o=\frac{16,764-17,922}{0,2842\sqrt{\frac{1}{10}+\frac{1}{10}}}=-9,1093\]

5. Distribución de referencia

La distribución de referencia para la prueba de hipótesis corresponde a la Distribución t de student con \(n_1+n_2-2\) grados de libertad, es decir:

\[t_{\frac{\alpha}{2},n_1+n_2-2}\]

El valor de \(t_{\frac{\alpha}{2},n_1+n_2-2}\) se suele tomar de tablas de probabilidad en este caso para la distribución t-student

Conocido el valor de \(t_o\) y de \(t_{\frac{\alpha}{2},n_1+n_2-2}\) rechazo la hipótesis nula si:

\[|t_o|>t_{\frac{\alpha}{2},n_1+n_2-2}\]

Soluciones para la situación inicial

Si \(\alpha=5\%\)

\[t_{\frac{5\%}{2},10+10-2}=t_{0.025,18}=2,1009\]

Por lo tanto:

\[|t_o|=9,1093>t_{0.025,18}=2,1009\]

Por lo que Rechazo H_o y se concluiría que las fuerzas de la tensión de adhesión promedio de las dos formulaciones del mortero de cemento portland son diferentes

6. Intervalo de confianza

Un intervalo de confianza es una estimación del rango en el cual está incluído el parámetro en cuestión, en este caso \(\mu_1-\mu_2\). El intervalo de confianza suele dar mayor información acerca del experimento.

Para definir un intervalo de confianza, suponga que \(\theta\) es un parámetro desconocido. Para obtener una estimación del intervalo de \(\theta\) , es necesario encontrar dos estadísticos \(L\) y \(U\) tales que la declaración de probabilidad:

\[P(L\leq\theta\leq U)= 1-\alpha\]

sea verdadera. Al intervalo

\[(L\leq\theta\leq U)\]

se le llama intervalo de confianza de \(100(1- \alpha)\) por ciento para el parámetro \(\theta\)

En este caso podemos calcular el intervalo de confianza como sigue:

\[\bar{y_1}-\bar{y_2}-t_{\frac{\alpha}{2}}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\leq\mu_1-\mu_2\leq\bar{y_1}-\bar{y_2}+t_{\frac{\alpha}{2}}S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\]

7. Otras versiones de las hipótesis

En algunos problemas quizás quiera rechazarse \(H_o\) únicamente si una de las medias es mayor que la otra, por lo tanto las hipótesis quedarían de la siguiente manera:

\[\begin{gather*} H_o: \mu_1 \leq \mu_2 \\ H_1: \mu_1 > \mu_2 \end{gather*}\]

El procedimiento inferencial es el mismo, solo debo que tener en cuenta que rechazo \(H_o\) si:

\[t_o>t_{\alpha,n_1+n_2-2}\]

Por otro lado, Si se desea rechazar \(H_o\) sólo si \(\mu_1\) es menor que \(\mu_2\), las hipótesis serían las siguientes:

\[\begin{gather*} H_o: \mu_1 \geq \mu_2 \\ H_1: \mu_1 < \mu_2 \end{gather*}\]

El procedimiento inferencial es el mismo, solo debo que tener en cuenta que rechazo \(H_o\) si:

\[t_o<t_{\alpha,n_1+n_2-2}\]

Solución de la situación inicial en R cuando \(\sigma_1^2=\sigma_2^2\)

Para realizar el procedimiento en R seguimos hacemos lo siguiente:

# Importo los datos y los asigno a un objeto tipo dataframe llamado datos
library(readxl)
datos <- read_excel("C:/Users/asus/OneDrive - UPB/UPB/Asignaturas_2024__1/Diseno_de_Experimentos_11951/Clases/1_Comparaciones_simples/2024_1/Comparaciones simples/cemento_R.xlsx")

# Defino la formulación  de cemento como factor
datos$Tratamiento <- as.factor(datos$Tratamiento)

# Realizo la prueba de diferencia de medias
t.test(datos$Fuerza~datos$Tratamiento, var.equal = T)
## 
##  Two Sample t-test
## 
## data:  datos$Fuerza by datos$Tratamiento
## t = -9.1094, df = 18, p-value = 3.678e-08
## alternative hypothesis: true difference in means between group Modificado and group SinMod is not equal to 0
## 95 percent confidence interval:
##  -1.4250734 -0.8909266
## sample estimates:
## mean in group Modificado     mean in group SinMod 
##                   16.764                   17.922
# Hallo el cuantil de la distribución teórica para un nivel de significancia de 0.05

qt((0.05/2),(10+10-2), lower.tail = FALSE)
## [1] 2.100922

Del anterior procedimiento obtenemos los siguientes resultados:

  • \(t_0=-9.1094,~entonces~ |t_o|=9.1094\)
  • \(t_{\frac{\alpha}{2},~10+10-2}=t_{0.025,~18}=2.100922\)

Por lo tanto

\[|t_o|=9.1094 > t_{0.025,~18}=2.100922\]

Por lo que existe evidencia estadística suficiente para rechazar \(H_0\) por lo que la tensión de adhesión del cemento portland con modificación es distinta a la tensión de adhesión del cemento portland sin modificación.

Caso en que \(\sigma_1^2\neq\sigma_2^2\)

Si se está probando que:

\[\begin{gather*} H_o: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \end{gather*}\]

Es necesario hacer ligeras modificaciones en la prueba t de dos muestras. En este caso el estadístico de prueba es:

\[t_o=\frac{\bar{y_1}-\bar{y_2}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\]

Este estadístico no se distribuye exactamente como t de Student. No obstante, t de Student es una buena aproximación de la distribución de \(to\) si se usa la siguiente expresión para los grados de libertad.

\[v=\frac{(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2})^2}{\frac{(\frac{S_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{S_2^2}{n_2})^2}{n_2-1}}\]

Un intervalo de confianza al \(100(1-\alpha)~por~ciento\) sería:

\[(\bar{y_1}-\bar{y_2})-t_{\frac{\alpha}{2},v}\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}\leq\mu_1-\mu_2\leq(\bar{y_1}-\bar{y_2})+t_{\frac{\alpha}{2},v}\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}\]

El procedimiento inferencial es el mismo que seguimos en el primer caso.

Solución de ejemplo cuando \(\sigma_1^2\neq\sigma_2^2\)

\[t_o=-9,1094\]

\[t_{\frac{0,05}{2},17}=2,10958\]