Inteligencia Analítica de Datos con R

Pruebas de Hipótesis

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

5/31/23

Pruebas de Hipótesis

Población - Muestra

Parámetro - Estadístico

Parámetros

  • La media poblacional (\(\mu\))
  • La varianza poblacional (\(\sigma^2\))
  • La desviación estandar poblacional (\(\sigma\))
  • La proporción poblacional (\(P\))

Estadísicos

  • La media muestral (\(\bar{x}\))
  • La varianza muestral (\(s^2\))
  • La desviación estandar poblacional (\(s\))
  • La proporción poblacional (\(\hat{p}\))

Pruebas de Hipótesis

Pruebas de Hipótesis

En la vida diaria acostumbramos a tomar decisiones; lo usual es plantearnos hipótesis al respecto de alguna situación y luego tomar elementos de juicio y decidir cual es la correcta.

¿Qué es una prueba de hipótesis?

  • Es un proceso para determinar la validez de una aseveración hecha sobre la población basándose en evidencia muestral y debe plantearse antes de obtener la muestra.
  • Esta afirmación puede sebre la población, a nivel de sus parámetros:
    • Media (\(\mu\))
      • Diferencia de medias (\(\mu_1 - \mu_2\))
    • Proporción (\(P\))
      • Diferencia de proporciones (\(P_1 - P_2\))
    • Varianza o desviación estándar (\(\sigma^2\) ó \(\sigma\))
      • Igualdad de varianzas o desviaciones estándar
        (\(\sigma_1^2=\sigma_2^2\) ó \(\sigma_1 = \sigma_2\))

Ejemplo 1

En la ciudad de Cartagena de Indias se quiere implentar un programa mediante el cual se le brinde oportunidades de preparación por medio del SENA, para los jovenes con promedio de edad de 20 años. No obstante, un funcionario de la alcaldia afirma que el programa no tendrá un fuerte impacto, ya que la mayoria de los mototaxistas tienen edades superiores a 35 años. Para tomar una decición al respecto del problema, la alcaldia sugiere contratar a un experto que haga un estudio y así saber que camino tomar; ese experto es usted.

  • ¿Qué haría?
  • ¿Cuáles serían las dos afirmaciones del problema?

El concepto de Hipótesis

Es una oración que considera una característica de una o más poblaciones. (Una oración que afirma algo)

Hipótesis estadística

Es un proceso por el cual se toma una decisión entre dos hipótesis opuestas. Estas dos hipótesis son:

Hipótesis nula (\(H_0\)): Es la hipótesis que queremos probar. Generalmente dice que el parámetro de una población asume un valor específico. A menudo se usa la frases “no hay diferencia”, “no cambia”, “no afecta” y es asumida como verdad, hasta que se encuentre evidencias de lo contrario.

Hipótesis alterna (\(H_1\)): Acerca del mismo parámetro de la población usada en la hipótesis nula. Contradice la hipótesis nula.

Nota: el rechazo de la hipótesis nula implica tomar como cierta la hipótesis alterna.

Concepto formal de hipótesis estadística

Para nuestro ejemplo tenemos que:

  • \(H_0\): La edad promedio de los mototaxistas de la ciudad de Cartagena es de 20 años
  • \(H_1\): La edad promedio de los mototaxistas de la ciudad de Cartagena es diferente a 20 años.

Formas de establecer las hipótesis nula y alterna

  • Hipótesis de igualdad vs. no igualdad (Prueba de dos colas)
    • \(H_0\): Parámetro \(=\) algún valor.
    • \(H_1\): Parámetro \(\neq\) algún valor.
  • Hipótesis de igualdad vs. menor (Prueba de cola a la izquierda)
    • \(H_0\): Parámetro \(=\) algún valor.
    • \(H_1\): Parámetro \(<\) algún valor.
  • Hipótesis de igualdad vs. menor (Prueba de cola a la derecha)
    • \(H_0\): Parámetro \(=\) algún valor.
    • \(H_1\): Parámetro \(>\) algún valor.

Diferentes pruebas de hipótesis para el parámetro \(\theta\)

Al determinar la hipótesis nula y alterna, estas se puede estructurar en tres caminos, como vimos antes.

Dos colas Cola a la derecha Cola a la izquierda
\(H_0: \theta = \theta_0\) \(H_0: \theta = \theta_0\) \(H_0: \theta = \theta_0\)
\(H_1: \theta \neq \theta_0\) \(H_1: \theta > \theta_0\) \(H_1: \theta < \theta_0\)

Regiones de aceptación y rechazo (parámetro media poblacional \(\mu\))

Ejemplo 2

Determine las hipótesis nula y alterna en el siguiente problema.

Una compañía de seguros acaba de sacar almercado un nuevo portafolio de servicios y planes. Se sabe por experiencia que el 5 por ciento de las personas que toman un seguro se retiran al cabo de 3 años. Un investigador desea saber si el porcentaje de personas que retirarán del nuevo portafolio con su seguro, será superior al 5 por ciento.

  • \(H_0\):
  • \(H_1\):

Ejemplo 3

Determine las hipótesis nula y alterna en el siguiente problema.

En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 2.5 dólares y con distribución normal. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, realizará una prueba de hipótesis.

  • \(H_0\):
  • \(H_1\):

Error tipo I y error Tipo II

Posibles resultados para una prueba de hipótesis

En relación al ejercicio 2, podemos establecer el concepto de errores tipo I y II.

Nivel de significancia \(\alpha\):

  • Es la probabilidad de cometer el error de tipo I.
  • Su selección depende de las consecuencias de cometer este error (error de tipo I).
    • Si las consecuencias son severas se debe considerar un valor pequeño, por ejemplo: \(\alpha= 0.01\).
    • Si las consecuencias no son severas se podría considerar un valor más grande que 0.01, por ejemplo \(\alpha= 0.05\) ó \(\alpha= 0.1\).

Conclusiones para una prueba de hipótesis

Una vez que se tomó la decisión de si debe o no rechazar la hipótesis nula, el investigador debe indicar su conclusión.

  • No rechazar la hipótesis nula (\(H_0\)):
    • significa que: no hay suficiente evidencia para rechazar la hipótesis de que \(H_0\) es verdadera.
  • Rechazar la hipótesis nula (\(H_0\)):
    • significa que: hay suficiente evidencia para respaldar \(H_1\).

El p - valor

¿Qué es el p-valor y cómo se debe entender?

  • Un valor \(p\) es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo.
  • El valor \(p\) es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula Ho.
  • El valor \(p\) es el mínimo nivel de significancia en el cual \(H_0\) sería rechazada cuando se utiliza un procedimiento de prueba especificado con un conjunto dado de información.
  • Una vez que el valor de P se haya determinado, la conclusión en cualquier nivel particular resulta de comparar el valor \(p\) con \(\alpha\):
    • \(\text{Si el valor } p \leqslant \alpha \Rightarrow \text{Rechazar } H_0 \text{ al nivel } \alpha\)
    • \(\text{Si el valor } p > \alpha \Rightarrow \text{ No rechazar } H_0 \text{ al nivel } \alpha\)

Volvamos a los Ejemplos 2 y 3

Determine las hipótesis nula y alterna del ejemplo 2.

Una compañía de seguros acaba de sacar almercado un nuevo portafolio de servicios y planes. Se sabe por experiencia que el 5 por ciento de las personas que toman un seguro, se retiran al cabo de 3 años. Un investigador desea saber si el porcentaje de personas que retirarán del nuevo portafolio con su seguro, será superior al 5 por ciento.

  • \(H_0: p = 0.05\)
  • \(H_1: p \neq 0.05\)

Responda:

  • ¿Si la hipótesis nula es rechazada, cuál sería la conclusión?
  • ¿Si la hipótesis nula no es rechazada, cuál sería la conclusión?

Determine las hipótesis nula y alterna del ejemplo 3.

En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 5.6 dólares. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, realizará una prueba de hipótesis.

  • \(H_0:\mu = 5.6\)
  • \(H_1: \mu > 5.6\)

Responda:

  • ¿Si la hipótesis nula es rechazada, cuál sería la conclusión?
  • ¿Si la hipótesis nula no es rechazada, cuál sería la conclusión?

Prueba de hipótesis para la media \(\mu\)

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: \mu = \mu_0\) \(H_0: \mu = \mu_0\) \(H_0: \mu = \mu_0\)
\(H_1: \mu \neq \mu_0\) \(H_1: \mu > \mu_0\) \(H_1: \mu < \mu_0\)
  1. Determine: Varianza, Distribución y Tamaño de muestra.
    • Caso 1: Varianza \(\sigma^2\) conocida, población normal y tamaño de muestra n cualquiera.
      • Estadístico de prueba: \(\displaystyle Z_0=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)\).
    • Caso 2: Varianza \(\sigma^2\) desconocida, población normal y tamaño de muestra \(n < 30\).
      • Estadístico de prueba: \(\displaystyle t_0=\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\sim t_{(n-1)}\).
  • Caso 3: Varianza \(\sigma^2\) conocida o desconocida, población No normal y tamaño de muestra \(n \geqslant 30\).
    • Estadístico de prueba: \(\displaystyle Z_0=\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\sim N(0,1)\).
  1. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).

  2. Compare la prueba estadística (Normal ó t-Student) y el valor crítico.

  3. Conclusión.

Continuación del ejemplo 3

En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 5.6 dólares. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, toma una muestra de los valores de la acción en un mes cualquiera y realiza una prueba de hipótesis. Los valores de la muestra son los siguientes.

Nota: Se sabe que el precio de la acción tiene distribución normal con varianza 9.

Solución:

  1. Hipótesis: \(H_0: \mu = 5.6\) vs. \(H_1: \mu > 5.6\)

  2. Var. conocida \(\sigma^2= 9\), Dist. normal \(N(\mu = 5.6, \sigma^2=9)\) y tamaño de muestra \(n=30\).

    • Estadístico de prueba: vemos que \(\bar{x} =6.9\); luego: \(\displaystyle Z_0=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{6.9-5.6}{\frac{3}{\sqrt{30}}} = 2.37 \sim N(0,1)\)
  3. Seleccione la significancia: \(\alpha = 0.05\).

  1. Compare la prueba estadística (Normal ó t-Student) y el valor crítico: \(Z_0 = 2.37 > 1.64 = Z_{0.05}\)
  2. Conclusión: Se rechaza, al 5%, la hipotesis nula de que los precios de las acciones sean 5.6.

Ejemplo 1 en R: (muestras grandes n > 30)

Se afirma que los automóviles recorren en promedio más de 20000 kilómetros por año pero usted cree que el promedio es en realidad menor. Para probar tal afirmación se pide a una muestra de 100 propietarios de automóviles seleccionada de manera aleatoria que lleven un registro de los kilómetros que recorren.

¿Estaría usted de acuerdo con la afirmación si la muestra aleatoria indicara un promedio de 19500 kilómetros y una desviación estándar de 3900 kilómetros? Utilice un valor P en su conclusión y use una significancia del 3%.

Solución

En este problema interesa:

  • Las hipótesis
  • Estadístico de prueba
xbarra <-   # Datos del problema
desvia <-    # Datos del problema
n <-      # Datos del problema
mu <-       # Media de referencia

est <- (xbarra - mu) / (desvia / sqrt(n))
est  # Para obtener el valor del estadístico

Calculemos el p-valor

pnorm(est)  # Para obtener el valor-P

Ejemplo 2 en R: (muestras pequeñas n < 30)

  • Para realizar este tipo de prueba se puede usar la función t.test que tiene la siguiente estructura.
t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

Los argumentos a definir dentro de t.test para hacer la prueba son:

  • x: vector numérico con los datos.
  • alternative: tipo de hipótesis alterna. Los valores disponibles son “two.sided” cuando la hipótesis alterna es “less” para el caso < y “greater” para >
  • mu: valor de referencia de la prueba.
  • conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).

Ejemplo 3 en R: (muestras pequeñas n < 30)

Para verificar si el proceso de llenado de bolsas de café con 500 gramos está operando correctamente se toman aleatoriamente muestras de tamaño diez cada cuatro horas. Una muestra de bolsas está compuesta por las siguientes observaciones: 502, 501, 497, 491, 496, 501, 502, 500, 489, 490.

¿Está el proceso llenando bolsas conforme lo dice la envoltura? Use un nivel de significancia del 5%.

Solución:

Lo primero es explorar si la muestra proviene de una distribución normal, para eso ingresamos los datos y aplicamos la prueba Anderson-Darling por medio de la función ad.test disponible en el paquete nortest (Gross and Ligges 2015) como se muestra a continuación.

contenido <- c(510, 492, 494, 498, 492,
               496, 502, 491, 507, 496) 

require(nortest) # Se debe haber instalado antes nortest
ad.test(contenido)

Escribamos las hipótesis

  • \(H_0:\)
  • \(H_1:\)
t.test(contenido, alternative='two.sided',
       conf.level=0.95, mu=500)

Prueba de hipótesis para una proporción p

Análogamente, como se hizo para la media de una población, podemos realizar pruebas de hipótesis para la proporción de una población. Para esto, sean \(X_1,\dots,X_n \sim Ber(p)\), entonces:

\[ X=X_1+\cdots+X_n \sim Bin(n,p) \]

Estimación puntual de la proporción

El estimador puntual para el parámetro \(p\) es \(\hat{p}=\frac{x}{n}\)

Donde,

  • \(x\) es el número de éxitos en la muestra.

  • \(n\) el tamaño de la muestra.

  • La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando la muestra \(n\) es grande; es decir,

    • \(np(1-p)\geqslant 5\)
    • \(np \geqslant 5\)
  • luego, el estimador \(\hat{p}\) tiene distribución

\[\hat{p}=\frac{x}{n} \sim N\left(p,\frac{p(1-p)}{n}\right)\]

  • Si estandarizamos la variable \(\hat{p}\), tenemos que: \[Z_0=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)\]

Prueba de hipótesis para una proporción p

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: p = p_0\) \(H_0: p = p_0\) \(H_0: p = p_0\)
\(H_1: p \neq p_0\) \(H_1: p > p_0\) \(H_1: p < p_0\)
  1. Seleccione el estadístico de prueba: \[\displaystyle Z_0=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)\].

  2. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).

  1. Compare la prueba estadística (Normal) y el valor crítico.

  2. Conclusión.

Ejemplo 4

El presidente de una cadena de TV dice que la audiencia de uno de sus programas sigue manteniéndose en el 25% de los espectadores. Para esto, toma una muestra de 100 personas y les pregunta si miran el programa de tv; de ellos, 30 responden que si. Con un nivel de significancia del 2%, ¿Es correcta la afirmación del presidente de la cadena?

Ejemplo 5 en R:

Un fabricante de un quitamanchas afirma que su producto quita 90% de todas las manchas. Para poner a prueba esta afirmación se toman 200 camisetas manchadas de las cuales a solo 174 les desapareció la mancha. Pruebe la afirmación del fabricante a un nivel \(\alpha =0.05\).

Solución:

  • Hipótesis:
z <- (174/200 - 0.90) / sqrt(0.90 * (1 - 0.90) / 200)
z  # Para obtener el valor del estadístico
pnorm(q=z, lower.tail=TRUE)  # Para obtener el valor-P

Ejemplo 5 en R (Otra forma)

# Para realizar la prueba  Chi2 de Pearson se usa la función 
# prop.test que tiene la siguiente estructura.

prop.test(x, n, p = NULL,
          alternative = c("two.sided", "less", "greater"),
          conf.level = 0.95, correct = TRUE)

Los argumentos a definir dentro de prop.test para hacer la prueba son:

  • x: número de éxitos en la muestra.
  • n: número de observaciones en la muestra.
  • alternative: tipo de hipótesis alterna. Los valores disponibles son “two.sided” cuando la hipótesis alterna es “less” para el caso < y “greater” para >
  • p: valor de referencia de la prueba.
  • correct: valor lógico para indicar si se usa la corrección de Yates.
  • conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).

Prueba de hipótesis para la diferencia de medias independientes \(\mu_1-\mu_2\)

Consideremos el caso en que tenemos dos variables aleatorias \(X_1\) y \(X_2\), distribuidas normalmente y que miden alguna característica común de las dos poblaciones. Esto es:

\[X_1 \sim N(\mu_1,\sigma^2_1) \qquad y \qquad X_2 \sim N(\mu_2,\sigma^2_2)\]

De cada población, se extrae mediante muestreo aleatorio simple, muestras con tamaños \(n_1\) y \(n_2\), respectivamente.

\[X_1 =\{ X_{11},X_{12},\dots,X_{1n_1}\} \quad y \quad X_2 =\{X_{21},X_{22},\dots,X_{2n_2}\}\] La diferencia de medias de medias se plantea como: \(\mu_1-\mu_2\), no obstante, tenemos las siguientes equivalencias:

  • \(\mu_1-\mu_2 \neq 0\) \(\mu_1 \neq \mu_2\)
  • \(\mu_1-\mu_2<0\) \(\mu_1<\mu_2\)
  • \(\mu_1-\mu_2>0\) \(\mu_1>\mu_2\)

Prueba de hipótesis para la diferencia de medias independientes \(\mu_1-\mu_2\)

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: \mu_1 = \mu_2\) \(H_0: \mu_1 = \mu_2\) \(H_0: \mu_1 = \mu_2\)
\(H_1: \mu_1 \neq \mu_2\) \(H_1: \mu_1 > \mu_2\) \(H_1: \mu_1 < \mu_2\)
  1. Determine: Varianzas, Distribuciones y Tamaños de muestra.
    • Caso 1: Varianzas \(\sigma_1^2\) y \(\sigma_2^2\) conocidas, población normal y tamaños de muestra \(n_1\) y \(n_2\).
      • Estadístico de prueba: \(\displaystyle Z_0=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}\sim N(0,1)\) .
  • Caso 2: Varianza \(\sigma_1^2\) y \(\sigma_2^2\) desconocidas y diferentes \(\sigma_1^2 \neq \sigma_2^2\), poblaciones normales y tamaños de muestra \(n_1\) y \(n_2\).
    • Estadístico de prueba: \(\displaystyle t_0=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}\sim t_{gl}\)

Donde \(gl\), es el grado de libertad común entre las distribuciones, esto es:

\[\displaystyle gl= \frac{\left(\displaystyle \frac{s^2_1}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{ \displaystyle \left(\displaystyle \frac{s^2_1}{n_1}\right)^2}{\displaystyle n_1-1} + \frac{ \displaystyle \left(\displaystyle \frac{s_2^2}{n_2}\right)^2}{\displaystyle n_2-1}}\]

Prueba de hipótesis para la diferencia de medias independientes \(\mu_1-\mu_2\)

  • Caso 3: Varianzas \(\sigma_1^2\) y \(\sigma_2^2\) desconocidas e iguales \(\sigma_1^2 = \sigma_2^2\) , poblaciones normales y tamaños de muestra \(n_1\) y \(n_2\).
    • Estadístico de prueba: \(\displaystyle t_0=\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t_{(n_1+n_2-2)}\).

Donde \(s_p\) es la varianza común entre \(s_1^2\) y \(s^2_2\), esto es:

\[s_p^2 = \frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}\]

  1. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
  1. Compare la prueba estadística (Normal ó t-Student) y el valor crítico.

  1. Conclusión.

Ejemplo 6

Un empresario desea comparar la productividad de dos tipos de obreros industriales de una región, supone que la productividad media de ambos tipos de trabajadores es similar pero con mayor variabilidad en uno de ellos; desviación estándar 0.9 por hora en la industria A, con solo 0.3 en la industria B. Para comprobar esta suposición controla durante un cierto tiempo la producción de 200 obreros de A y 350 obreros de B obteniendo una productividad media por hora de 1 y 0.89 respectivamente. ¿Puede concluirse en base a estos resultados que la suposición del empresario era correcta? (\(\alpha = 0.05\)).

Ejemplo 6 en R

Para realizar este tipo de prueba se puede usar la función t.test que tiene la siguiente estructura.

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

Los argumentos a definir dentro de t.test para hacer la prueba son:

x: vector numérico con la información de la muestra 1, y: vector numérico con la información de la muestra 2, - alternative: tipo de hipótesis alterna. Los valores disponibles son “two.sided” cuando la hipótesis alterna es “less” para el caso < y “greater” para > - conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional). - mu: valor de referencia de la prueba. - var.equal=TRUE: indica que las varianzas son desconocidas pero iguales. - conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).

Ejemplo 7

Se realiza un estudio para comparar los tiempos que tienen dos tipos de clientes para cancelas sus compromisos financieros con el objetivo de estudiar el riesgo de impago. Los clientes morosos C1: negligentes y C2: circunstanciales La variable respuesta es el tiempo de impago en meses. Los datos se muestran abajo. Suponga varianzas diferentes. ¿existen diferencias entre los tiempos de impago de los clientes C1 y C2? Usar un nivel de significancia del 5%?

  • C1: 76, 85, 74, 78, 82, 75, 82
  • C2: 57, 67, 55, 64, 61, 63, 63

Prueba de hipótesis para la diferencia de muestras pareadas o dependientes d

  • Las muestras pareadas o dependientes son aquellas en las que el dato de una primera muestra se corresponde a un dato de una segunda muestra.

  • Este ensayo te permitirá contrastar el valor de la media de una variable entre una condición inicial y una condición final de la variable.

  • En lugar de llevar a cabo el análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones (media muestral \(\bar{d}\)), y las hipótesis se construyen comparando la media de la diferencia poblacional \(\mu_d\).

Donde: \(\bar{d} = \frac{\sum_{i=1}^n (x_i-y_i)}{n} = \frac{\sum_{i=1}^n d_i}{n}\)

Prueba de hipótesis para la diferencia de medias pareadas o dependientes d

  • Si las muestras extraídas de ambas poblaciones son pequeñas (\(n<30\)) y pareadas, entonces la distribución de probabilidad sería la t-Student con \(gl = n-1\) grados de libertad (\(t_{(n-1)}\)).

  • Los estadísticos de la prueba son:

\[\bar{d} = \frac{\sum_{i=1}^n d_i}{n}, \qquad S_d^2 = \frac{\sum_{i=1}^n (d_i-\bar{d})^2}{n-1} \qquad t =\frac{\bar{d}-\mu_d}{\frac{S_d}{\sqrt{n}}}\]

En general, para realizar una prueba de hipótesis para muestras pareadas, se siguen los mismos pasos que muestras independientes.

Ejemplo 8

Se tienen los siguientes datos del desgaste de los cilindros(milesimas de milimetros) del motor, en un trayecto de 1000 km en una muestra aleatoria de 9 coches utilizando el mismo tipo de carburantes pero con un aditivo diferente (coches conducidos por los mismos conductores, en las mismas carreteras, las mismas distancias, etc).

  • X: 132, 139, 126, 114, 122, 132, 142, 119, 126
  • Y: 124, 141, 118, 116, 114, 132, 145, 123, 121

Contrasta al 1% si el desgaste medio con diferente aditivo es es igual.

Sulución:

Podemos hacer un boxplot para ver si hay diferencias visualmente y también, un test de normalidad y gráfica para las diferencias.

t.test(x=X, y=Y, alternative="two.sided", mu=0, 
       paired=FALSE, conf.level=0.95)

Prueba de hipótesis para la diferencia de proporciones \(p_1-p_2\)

Distribución de las proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos \(p_1\) y \(p_2\).

  • De cada población vamos a extraer muestras de tamaño \(n_1\) y \(n_2\)

  • \(X_{1_i} = \{X_{11},X_{12},\dots,X_{1n_1}\}\)

  • \(X_{2_i} = \{X_{21},X_{22},\dots,X_{2n_2}\}\)

entonces

  • \(X_1 = \sum_{i=1}^{n_1} X_{1_i} \sim Bin(n_1,p_1)\)
  • \(X_2 = \sum_{i=1}^{n_2} X_{2_i} \sim Bin(n_2,p_2)\)

Si las muestras son suficientemente grandes; es decir,

  • \(n_ip_i \geqslant 5\)
  • \(n_ip_i(1-p_i) \geqslant 5\)

tenemos que, \[ \hat{p}_1-\hat{p}_2=\frac{X_1}{n_1}-\frac{X_2}{n_2} \sim N\left(p_1-p_2,\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2} \right) \]

entonces

\[ Z_0=\frac{(\hat{p}_1-\hat{p}_2) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N(0,1) \]

Prueba de hipótesis para la diferencia de proporciones \(p_1-p_2\)

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: p_1 = p_2\) \(H_0: p_1 = p_2\) \(H_0: p_1 = p_2\)
\(H_1: p_1 \neq p_2\) \(H_1: p_1 > p_2\) \(H_1: p_1 < p_2\)
  1. Seleccione el estadístico de prueba: \[ Z_0=\frac{(\hat{p}_1-\hat{p}_2) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N(0,1) \]

  2. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).

  1. Compare la prueba estadística (Normal) y el valor crítico.

  2. Conclusión.

Ejemplo 9 en R

Se evalúan dos tipos diferentes de clientes con el fin de conocer la eficacia de la publicidad que se le hizo a un determinado producto bancario. Para tal fin, Se le pregunta a 300 personas si obtarián por el producto, sin mostrarles la publicida; de éstos, 196 optaron por no adquirir el producto. Después, se les mostró la publicidad a 300, y de estos, 253 optaron por adquirir el producto. ¿Existe alguna razón para creer que la publicidad tuvo alguna incidencia en la decisión de las personas? Utilice \(\alpha = 0.01\).

Solución:

prop.test(x=c(x1, x2), n=c(n1, n2),
          alternative = "two.sided", conf.level=0.90)

Prueba de hipótesis para una varianza

Distribución de la varianza: \(\chi^2\)

Recordemos que la , es la distribución muestral de \(s^2\); esto es, si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.\

  • Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico \(\chi^2\).
  • Si se elige una muestra de tamaño \(n\) de una población normal con varianza \(\sigma^2\).
  • El estadístico \(\chi^2\) (Chi-cuadrado) esta dado por:

\[\chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\]

El cual tiene una distribución muestral \(\chi^2\) con \(gl=n-1\) grados de libertad. Donde:

  • \(n\) es el tamaño de la muestra.
  • \(s^2\) la varianza muestral.
  • \(\sigma^2\) la varianza de la población.

Prueba de hipótesis para una varianza \(\sigma^2\)

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: \sigma^2 = \sigma^2_0\) \(H_0: \sigma^2 = \sigma^2_0\) \(H_0: \sigma^2 = \sigma^2_0\)
\(H_1: \sigma^2 \neq \sigma^2_0\) \(H_1: \sigma^2 > \sigma^2_0\) \(H_1: \sigma^2 < \sigma^2_0\)
  1. Seleccione el estadístico de prueba: \[\displaystyle \chi^2_0 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\].

  2. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).

  1. Compare la prueba estadística (Normal) y el valor crítico.

  2. Conclusión.

Ejemplo 10

Un fabricante de dulces debe controlar la temperatura. En el que se hornean los dulces. Demasiada variación causará inconsistencia en el sabor de los dulces. Viendo los registros, muestran que la desviación estándar de la temperatura es \(1.2^\circ C\). Una muestra aleatoria de 30 lotes de caramelos es seleccionada y se calcula una desviación estándar de temperatura de \(2.1^\circ C\). Para un nivel de significancia de 0.05, ¿hay evidencia de que la desviación estándar de la temperatura ha aumentado?. Asuma que las temperaturas tienen districución normal.

Ejemplo 11 en R

Para verificar si el proceso de llenado de bolsas de café está operando con la variabilidad permitida se toman aleatoriamente muestras de tamaño diez cada cuatro horas. Una muestra de bolsas está compuesta por las siguientes observaciones: 502, 501, 497, 491, 496, 501, 502, 500, 489, 490. El proceso de llenado está bajo control si presenta un varianza de 40 o menos. ¿Está el proceso llenando bolsas conforme lo dice la envoltura? Use un nivel de significancia del 5%

Solución

Debemos instalar la libreria EnvStats.

contenido <- c(510, 492, 494, 498, 492, 496, 502, 491, 507, 496)

library(EnvStats)

varTest(contenido, 
        sigma.squared = 40, 
        alternative = "greater", 
        conf.level = 0.95)

Prueba de hipótesis para el cociente de varianzas \(\sigma_1^2/\sigma_2^2\)

Distribución de Fisher para cociente de varianzas: \(F\)

Si se asume que las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son estadísticamente iguales, entonces tenemos el estadístico de prueba:

\[F = \frac{s_1^2}{s_1^2} \sim F_{(gl_1,gl_2)}\]

donde,

  • \(s_1^2\) y \(s_2^2\) son las varianzas muestrales
  • \(\nu_1 = n_1-1\) y \(\nu_2 = n_2 -1\) son los grados de libertad de la distribución \(F\)
    • \(n_1\), \(n_2\) son los tamaños de muestra.

Prueba de hipótesis para el cociente de varianzas \(\sigma_1^2/\sigma_2^2\)

  1. Determine la hipótesis nula y alterna.
Dos colas Cola a la derecha Cola a la izquierda
\(H_0: \sigma^2_1 = \sigma^2_2\) \(H_0: \sigma^2_1 = \sigma^2_1\) \(H_0: \sigma^2_1 = \sigma^2_2\)
\(H_1: \sigma^2_1 \neq \sigma^2_2\) \(H_1: \sigma^2_1 > \sigma^2_2\) \(H_1: \sigma^2_1 < \sigma^2_2\)
  1. Seleccione el estadístico de prueba: \[\displaystyle F_0 = \frac{s_1^2}{s_2^2} \sim F_{\nu_1,\nu_2}\].

  2. Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).

  1. Compare la prueba estadística (Normal) y el valor crítico.

  2. Conclusión.

Ejemplo 12

La variabilidad en la cantidad de impurezas presentes en un lote de productos químicos, utilizada para un proceso en particular, depende del tiempo que tarda el proceso. Un fabricante que emplea dos líneas de producción 1 y 2, hizo un pequeño ajuste al proceso 2, con la esperanza de reducir la variabilidad, así como la cantidad media de impurezas en los productos químicos. Muestras de \(n_1=25\) y \(n_2=20\) mediciones de dos lotes produjeron las siguientes medias y varianzas:

  • \(\bar{x}_1 =3.2, s^2_1= 3.0\)
  • \(\bar{x}_2 =1.04, s^2_2= 0.51\)

¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso son menores para el 2? Realice una prueba con un \(\alpha = 0.05\).

Ejemplo 13 en R

Se realiza un estudio para comparar los tiempos que tienen dos tipos de clientes para cancelas sus compromisos financieros con el objetivo de estudiar el riesgo de impago. Los clientes morosos C1: negligentes y C2: circunstanciales La variable respuesta es el tiempo de impago en meses. Los datos se muestran abajo. ¿Son las varianzas de los tiempos iguales o diferentes? Usar un nivel de significancia del 5%?.

  • C1: 76, 85, 74, 78, 82, 75, 82
  • C2: 57, 67, 55, 64, 61, 63, 63

Debemos instalar la libreria stats.

C1 = c(76, 85, 74, 78, 82, 75, 82)
C2 = c(57, 67, 55, 64, 61, 63, 63)

library(stats)

var.test(x=C1, y=C2, null.value=1, 
                 alternative="two.sided",
                 conf.level=0.95)

Ejercicio 1

  • Nota: Usar los datos carseats para responder los siguientes interrogantes.

Un vendedor de carseats sustenta que la media de las ventas de carseats han ido menguando últimamente y afirma que es inferior a 7000 unidades. Usar una significancia del 5% para probar esta afirmación.

Nota: Recuerde

  • Construir las hipótesis
  • Verificar normalidad para los datos completos (test y gráfico) e interpretar el p-value.
  • Hacer la prueba, interpretar el p-value y concluir usando el contexto del problema. (tenga en cuenta la cantidad de datos y si hay normalidad)

Ejercicio 2

El mismo vendedor afirma además, que el promedio de las ventas de carseats puede estar disminuyendo debido a que la mayoria personas de 50 años o menos están comprando menos carseats. Realizar una prueba de hipótesis al 1%, para verificar esta afirmación.

Nota: Recuerde

  • Construir las hipótesis
  • Verificar normalidad para los datos completos (test y gráfico) e interpretar el p-value.
  • Verificar normalidad para los individuos de 50 o menos años y para los de más de 50 años e interpretar el p-value.
  • Hacer un boxplot para los individuos de 50 o menos años y para los de más de 50 años.
  • Verificar varianzas (iguales o diferentes), interpretar el p-value
  • Hacer la prueba, interpretar el p-value y concluir usando el contexto del problema.
  • ¿Qué podria estar ocurriendo en este caso con las ventas de carseats y la edad?

Ejercicio 3

Se quiere implementar una publicidad de volantes y cruza-calles para incrementar la venta de los carseats; no obstante, uno de los dueños de una tienda mayorista de carseats, afirma que la cantidad de clientes que hay en la zona rural, no amerita llevar la publicidad a esos lugares, ya que representan menos del 20% de los clientes potenciales. ¿Estaría usted de acuerdo con el mayorista? Haga una prueba de hipótesis al 5% para verificar esta afirmación.

Nota: Recuerde

  • Verificar los supuestos
  • Construir un gráfico de barras para los individuos de 50 o menos años y para los de más de 50 años (editar colores, nombres de ejes, título, etc), usar la librería ggplot2.
  • Hacer la prueba, interpretar el p-value y concluir usando el contexto del problema.