Pruebas de Hipótesis
Universidad Tecnológica de Bolivar
5/31/23
En la vida diaria acostumbramos a tomar decisiones; lo usual es plantearnos hipótesis al respecto de alguna situación y luego tomar elementos de juicio y decidir cual es la correcta.
En la ciudad de Cartagena de Indias se quiere implentar un programa mediante el cual se le brinde oportunidades de preparación por medio del SENA, para los jovenes con promedio de edad de 20 años. No obstante, un funcionario de la alcaldia afirma que el programa no tendrá un fuerte impacto, ya que la mayoria de los mototaxistas tienen edades superiores a 35 años. Para tomar una decición al respecto del problema, la alcaldia sugiere contratar a un experto que haga un estudio y así saber que camino tomar; ese experto es usted.
Es una oración que considera una característica de una o más poblaciones. (Una oración que afirma algo)
Es un proceso por el cual se toma una decisión entre dos hipótesis opuestas. Estas dos hipótesis son:
Hipótesis nula (\(H_0\)): Es la hipótesis que queremos probar. Generalmente dice que el parámetro de una población asume un valor específico. A menudo se usa la frases “no hay diferencia”, “no cambia”, “no afecta” y es asumida como verdad, hasta que se encuentre evidencias de lo contrario.
Hipótesis alterna (\(H_1\)): Acerca del mismo parámetro de la población usada en la hipótesis nula. Contradice la hipótesis nula.
Nota: el rechazo de la hipótesis nula implica tomar como cierta la hipótesis alterna.
Al determinar la hipótesis nula y alterna, estas se puede estructurar en tres caminos, como vimos antes.
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: \theta = \theta_0\) | \(H_0: \theta = \theta_0\) | \(H_0: \theta = \theta_0\) |
| \(H_1: \theta \neq \theta_0\) | \(H_1: \theta > \theta_0\) | \(H_1: \theta < \theta_0\) |
Una compañía de seguros acaba de sacar almercado un nuevo portafolio de servicios y planes. Se sabe por experiencia que el 5 por ciento de las personas que toman un seguro se retiran al cabo de 3 años. Un investigador desea saber si el porcentaje de personas que retirarán del nuevo portafolio con su seguro, será superior al 5 por ciento.
En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 2.5 dólares y con distribución normal. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, realizará una prueba de hipótesis.
En relación al ejercicio 2, podemos establecer el concepto de errores tipo I y II.
Una vez que se tomó la decisión de si debe o no rechazar la hipótesis nula, el investigador debe indicar su conclusión.
Una compañía de seguros acaba de sacar almercado un nuevo portafolio de servicios y planes. Se sabe por experiencia que el 5 por ciento de las personas que toman un seguro, se retiran al cabo de 3 años. Un investigador desea saber si el porcentaje de personas que retirarán del nuevo portafolio con su seguro, será superior al 5 por ciento.
En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 5.6 dólares. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, realizará una prueba de hipótesis.
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: \mu = \mu_0\) | \(H_0: \mu = \mu_0\) | \(H_0: \mu = \mu_0\) |
| \(H_1: \mu \neq \mu_0\) | \(H_1: \mu > \mu_0\) | \(H_1: \mu < \mu_0\) |
Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
Compare la prueba estadística (Normal ó t-Student) y el valor crítico.
Conclusión.
En estudios previos se ha determinado que el precio promedio de un activo de una empresa es de 5.6 dólares. Un economista piensa que en realidad el precio será mucho más elevado y que el precio actual es solo efectos pasajeros del mercado de valores. Para justificar o demostrar su afirmación, toma una muestra de los valores de la acción en un mes cualquiera y realiza una prueba de hipótesis. Los valores de la muestra son los siguientes.
Nota: Se sabe que el precio de la acción tiene distribución normal con varianza 9.
Hipótesis: \(H_0: \mu = 5.6\) vs. \(H_1: \mu > 5.6\)
Var. conocida \(\sigma^2= 9\), Dist. normal \(N(\mu = 5.6, \sigma^2=9)\) y tamaño de muestra \(n=30\).
Seleccione la significancia: \(\alpha = 0.05\).
Se afirma que los automóviles recorren en promedio más de 20000 kilómetros por año pero usted cree que el promedio es en realidad menor. Para probar tal afirmación se pide a una muestra de 100 propietarios de automóviles seleccionada de manera aleatoria que lleven un registro de los kilómetros que recorren.
¿Estaría usted de acuerdo con la afirmación si la muestra aleatoria indicara un promedio de 19500 kilómetros y una desviación estándar de 3900 kilómetros? Utilice un valor P en su conclusión y use una significancia del 3%.
En este problema interesa:
Calculemos el p-valor
Los argumentos a definir dentro de t.test para hacer la prueba son:
Para verificar si el proceso de llenado de bolsas de café con 500 gramos está operando correctamente se toman aleatoriamente muestras de tamaño diez cada cuatro horas. Una muestra de bolsas está compuesta por las siguientes observaciones: 502, 501, 497, 491, 496, 501, 502, 500, 489, 490.
¿Está el proceso llenando bolsas conforme lo dice la envoltura? Use un nivel de significancia del 5%.
Lo primero es explorar si la muestra proviene de una distribución normal, para eso ingresamos los datos y aplicamos la prueba Anderson-Darling por medio de la función ad.test disponible en el paquete nortest (Gross and Ligges 2015) como se muestra a continuación.
Escribamos las hipótesis
Análogamente, como se hizo para la media de una población, podemos realizar pruebas de hipótesis para la proporción de una población. Para esto, sean \(X_1,\dots,X_n \sim Ber(p)\), entonces:
\[ X=X_1+\cdots+X_n \sim Bin(n,p) \]
El estimador puntual para el parámetro \(p\) es \(\hat{p}=\frac{x}{n}\)
Donde,
\(x\) es el número de éxitos en la muestra.
\(n\) el tamaño de la muestra.
La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando la muestra \(n\) es grande; es decir,
\[\hat{p}=\frac{x}{n} \sim N\left(p,\frac{p(1-p)}{n}\right)\]
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: p = p_0\) | \(H_0: p = p_0\) | \(H_0: p = p_0\) |
| \(H_1: p \neq p_0\) | \(H_1: p > p_0\) | \(H_1: p < p_0\) |
Seleccione el estadístico de prueba: \[\displaystyle Z_0=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)\].
Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
Compare la prueba estadística (Normal) y el valor crítico.
Conclusión.
El presidente de una cadena de TV dice que la audiencia de uno de sus programas sigue manteniéndose en el 25% de los espectadores. Para esto, toma una muestra de 100 personas y les pregunta si miran el programa de tv; de ellos, 30 responden que si. Con un nivel de significancia del 2%, ¿Es correcta la afirmación del presidente de la cadena?
Un fabricante de un quitamanchas afirma que su producto quita 90% de todas las manchas. Para poner a prueba esta afirmación se toman 200 camisetas manchadas de las cuales a solo 174 les desapareció la mancha. Pruebe la afirmación del fabricante a un nivel \(\alpha =0.05\).
Los argumentos a definir dentro de prop.test para hacer la prueba son:
Consideremos el caso en que tenemos dos variables aleatorias \(X_1\) y \(X_2\), distribuidas normalmente y que miden alguna característica común de las dos poblaciones. Esto es:
\[X_1 \sim N(\mu_1,\sigma^2_1) \qquad y \qquad X_2 \sim N(\mu_2,\sigma^2_2)\]
De cada población, se extrae mediante muestreo aleatorio simple, muestras con tamaños \(n_1\) y \(n_2\), respectivamente.
\[X_1 =\{ X_{11},X_{12},\dots,X_{1n_1}\} \quad y \quad X_2 =\{X_{21},X_{22},\dots,X_{2n_2}\}\] La diferencia de medias de medias se plantea como: \(\mu_1-\mu_2\), no obstante, tenemos las siguientes equivalencias:
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: \mu_1 = \mu_2\) | \(H_0: \mu_1 = \mu_2\) | \(H_0: \mu_1 = \mu_2\) |
| \(H_1: \mu_1 \neq \mu_2\) | \(H_1: \mu_1 > \mu_2\) | \(H_1: \mu_1 < \mu_2\) |
Donde \(gl\), es el grado de libertad común entre las distribuciones, esto es:
\[\displaystyle gl= \frac{\left(\displaystyle \frac{s^2_1}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{ \displaystyle \left(\displaystyle \frac{s^2_1}{n_1}\right)^2}{\displaystyle n_1-1} + \frac{ \displaystyle \left(\displaystyle \frac{s_2^2}{n_2}\right)^2}{\displaystyle n_2-1}}\]
Donde \(s_p\) es la varianza común entre \(s_1^2\) y \(s^2_2\), esto es:
\[s_p^2 = \frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}\]
Un empresario desea comparar la productividad de dos tipos de obreros industriales de una región, supone que la productividad media de ambos tipos de trabajadores es similar pero con mayor variabilidad en uno de ellos; desviación estándar 0.9 por hora en la industria A, con solo 0.3 en la industria B. Para comprobar esta suposición controla durante un cierto tiempo la producción de 200 obreros de A y 350 obreros de B obteniendo una productividad media por hora de 1 y 0.89 respectivamente. ¿Puede concluirse en base a estos resultados que la suposición del empresario era correcta? (\(\alpha = 0.05\)).
Para realizar este tipo de prueba se puede usar la función t.test que tiene la siguiente estructura.
Los argumentos a definir dentro de t.test para hacer la prueba son:
x: vector numérico con la información de la muestra 1, y: vector numérico con la información de la muestra 2, - alternative: tipo de hipótesis alterna. Los valores disponibles son “two.sided” cuando la hipótesis alterna es “less” para el caso < y “greater” para > - conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional). - mu: valor de referencia de la prueba. - var.equal=TRUE: indica que las varianzas son desconocidas pero iguales. - conf.level: nivel de confianza para reportar el intervalo de confianza asociado (opcional).
Se realiza un estudio para comparar los tiempos que tienen dos tipos de clientes para cancelas sus compromisos financieros con el objetivo de estudiar el riesgo de impago. Los clientes morosos C1: negligentes y C2: circunstanciales La variable respuesta es el tiempo de impago en meses. Los datos se muestran abajo. Suponga varianzas diferentes. ¿existen diferencias entre los tiempos de impago de los clientes C1 y C2? Usar un nivel de significancia del 5%?
Las muestras pareadas o dependientes son aquellas en las que el dato de una primera muestra se corresponde a un dato de una segunda muestra.
Este ensayo te permitirá contrastar el valor de la media de una variable entre una condición inicial y una condición final de la variable.
En lugar de llevar a cabo el análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones (media muestral \(\bar{d}\)), y las hipótesis se construyen comparando la media de la diferencia poblacional \(\mu_d\).
Donde: \(\bar{d} = \frac{\sum_{i=1}^n (x_i-y_i)}{n} = \frac{\sum_{i=1}^n d_i}{n}\)
Si las muestras extraídas de ambas poblaciones son pequeñas (\(n<30\)) y pareadas, entonces la distribución de probabilidad sería la t-Student con \(gl = n-1\) grados de libertad (\(t_{(n-1)}\)).
Los estadísticos de la prueba son:
\[\bar{d} = \frac{\sum_{i=1}^n d_i}{n}, \qquad S_d^2 = \frac{\sum_{i=1}^n (d_i-\bar{d})^2}{n-1} \qquad t =\frac{\bar{d}-\mu_d}{\frac{S_d}{\sqrt{n}}}\]
En general, para realizar una prueba de hipótesis para muestras pareadas, se siguen los mismos pasos que muestras independientes.
Se tienen los siguientes datos del desgaste de los cilindros(milesimas de milimetros) del motor, en un trayecto de 1000 km en una muestra aleatoria de 9 coches utilizando el mismo tipo de carburantes pero con un aditivo diferente (coches conducidos por los mismos conductores, en las mismas carreteras, las mismas distancias, etc).
Contrasta al 1% si el desgaste medio con diferente aditivo es es igual.
Podemos hacer un boxplot para ver si hay diferencias visualmente y también, un test de normalidad y gráfica para las diferencias.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos \(p_1\) y \(p_2\).
De cada población vamos a extraer muestras de tamaño \(n_1\) y \(n_2\)
\(X_{1_i} = \{X_{11},X_{12},\dots,X_{1n_1}\}\)
\(X_{2_i} = \{X_{21},X_{22},\dots,X_{2n_2}\}\)
entonces
Si las muestras son suficientemente grandes; es decir,
tenemos que, \[ \hat{p}_1-\hat{p}_2=\frac{X_1}{n_1}-\frac{X_2}{n_2} \sim N\left(p_1-p_2,\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2} \right) \]
entonces
\[ Z_0=\frac{(\hat{p}_1-\hat{p}_2) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N(0,1) \]
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: p_1 = p_2\) | \(H_0: p_1 = p_2\) | \(H_0: p_1 = p_2\) |
| \(H_1: p_1 \neq p_2\) | \(H_1: p_1 > p_2\) | \(H_1: p_1 < p_2\) |
Seleccione el estadístico de prueba: \[ Z_0=\frac{(\hat{p}_1-\hat{p}_2) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N(0,1) \]
Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
Compare la prueba estadística (Normal) y el valor crítico.
Conclusión.
Se evalúan dos tipos diferentes de clientes con el fin de conocer la eficacia de la publicidad que se le hizo a un determinado producto bancario. Para tal fin, Se le pregunta a 300 personas si obtarián por el producto, sin mostrarles la publicida; de éstos, 196 optaron por no adquirir el producto. Después, se les mostró la publicidad a 300, y de estos, 253 optaron por adquirir el producto. ¿Existe alguna razón para creer que la publicidad tuvo alguna incidencia en la decisión de las personas? Utilice \(\alpha = 0.01\).
Recordemos que la , es la distribución muestral de \(s^2\); esto es, si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.\
\[\chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\]
El cual tiene una distribución muestral \(\chi^2\) con \(gl=n-1\) grados de libertad. Donde:
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: \sigma^2 = \sigma^2_0\) | \(H_0: \sigma^2 = \sigma^2_0\) | \(H_0: \sigma^2 = \sigma^2_0\) |
| \(H_1: \sigma^2 \neq \sigma^2_0\) | \(H_1: \sigma^2 > \sigma^2_0\) | \(H_1: \sigma^2 < \sigma^2_0\) |
Seleccione el estadístico de prueba: \[\displaystyle \chi^2_0 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\].
Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
Compare la prueba estadística (Normal) y el valor crítico.
Conclusión.
Un fabricante de dulces debe controlar la temperatura. En el que se hornean los dulces. Demasiada variación causará inconsistencia en el sabor de los dulces. Viendo los registros, muestran que la desviación estándar de la temperatura es \(1.2^\circ C\). Una muestra aleatoria de 30 lotes de caramelos es seleccionada y se calcula una desviación estándar de temperatura de \(2.1^\circ C\). Para un nivel de significancia de 0.05, ¿hay evidencia de que la desviación estándar de la temperatura ha aumentado?. Asuma que las temperaturas tienen districución normal.
Para verificar si el proceso de llenado de bolsas de café está operando con la variabilidad permitida se toman aleatoriamente muestras de tamaño diez cada cuatro horas. Una muestra de bolsas está compuesta por las siguientes observaciones: 502, 501, 497, 491, 496, 501, 502, 500, 489, 490. El proceso de llenado está bajo control si presenta un varianza de 40 o menos. ¿Está el proceso llenando bolsas conforme lo dice la envoltura? Use un nivel de significancia del 5%
Debemos instalar la libreria EnvStats.
Si se asume que las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son estadísticamente iguales, entonces tenemos el estadístico de prueba:
\[F = \frac{s_1^2}{s_1^2} \sim F_{(gl_1,gl_2)}\]
donde,
| Dos colas | Cola a la derecha | Cola a la izquierda |
|---|---|---|
| \(H_0: \sigma^2_1 = \sigma^2_2\) | \(H_0: \sigma^2_1 = \sigma^2_1\) | \(H_0: \sigma^2_1 = \sigma^2_2\) |
| \(H_1: \sigma^2_1 \neq \sigma^2_2\) | \(H_1: \sigma^2_1 > \sigma^2_2\) | \(H_1: \sigma^2_1 < \sigma^2_2\) |
Seleccione el estadístico de prueba: \[\displaystyle F_0 = \frac{s_1^2}{s_2^2} \sim F_{\nu_1,\nu_2}\].
Seleccione la significancia \(\alpha\) (0.01, 0.02, 0.05, 0.1).
Compare la prueba estadística (Normal) y el valor crítico.
Conclusión.
La variabilidad en la cantidad de impurezas presentes en un lote de productos químicos, utilizada para un proceso en particular, depende del tiempo que tarda el proceso. Un fabricante que emplea dos líneas de producción 1 y 2, hizo un pequeño ajuste al proceso 2, con la esperanza de reducir la variabilidad, así como la cantidad media de impurezas en los productos químicos. Muestras de \(n_1=25\) y \(n_2=20\) mediciones de dos lotes produjeron las siguientes medias y varianzas:
¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso son menores para el 2? Realice una prueba con un \(\alpha = 0.05\).
Se realiza un estudio para comparar los tiempos que tienen dos tipos de clientes para cancelas sus compromisos financieros con el objetivo de estudiar el riesgo de impago. Los clientes morosos C1: negligentes y C2: circunstanciales La variable respuesta es el tiempo de impago en meses. Los datos se muestran abajo. ¿Son las varianzas de los tiempos iguales o diferentes? Usar un nivel de significancia del 5%?.
Debemos instalar la libreria stats.
Un vendedor de carseats sustenta que la media de las ventas de carseats han ido menguando últimamente y afirma que es inferior a 7000 unidades. Usar una significancia del 5% para probar esta afirmación.
Nota: Recuerde
El mismo vendedor afirma además, que el promedio de las ventas de carseats puede estar disminuyendo debido a que la mayoria personas de 50 años o menos están comprando menos carseats. Realizar una prueba de hipótesis al 1%, para verificar esta afirmación.
Nota: Recuerde
Se quiere implementar una publicidad de volantes y cruza-calles para incrementar la venta de los carseats; no obstante, uno de los dueños de una tienda mayorista de carseats, afirma que la cantidad de clientes que hay en la zona rural, no amerita llevar la publicidad a esos lugares, ya que representan menos del 20% de los clientes potenciales. ¿Estaría usted de acuerdo con el mayorista? Haga una prueba de hipótesis al 5% para verificar esta afirmación.
Nota: Recuerde