Códigos a trabajar en R
Para declara una variable Variable <- c(1,2,3,4,5,6,7)
Para distribuciones normales.
z.test(x=variable1,y=variable2, alternative=” ”,mu=0,sigma.x= ,sigma.y= ,conf.level=0.95).
X: es el nombre que toma una de nuestras variables para la prueba.
Y: es el nombre que toma una de nuestras variables para la prueba.
Alternative: “less”, “two.sided”,”greater” para seleccionar la region de rechazo.
Mu:Diferencia de medias (hipótesis nula).
Sigma: varianza de cada muestra.
Conf.level: nivel de confianza.
Para saber si la población es normal.
qqnorm(variable, xlab=” ”,y lab=” ”,col=””, main=” ”); qqline(variable, col=” ”) Xlab: colocar una denominación al eje de las x.
Ylab: colocar una denomicacion al eje de las y. Col: color.
Main: nombre representativo del gráfico.
Para diferencias de medias con varianza desconocidas.
t.test(variable1,variable2, alternative=” ”,mu=0, var.equal= ,conf.level=0.95) Alternative: “less”, “two.sided”,”greater” para seleccionar la region de rechazo.
Mu= diferencia de medias (hipótesis nula).
Var.equal: TRUE o FALSE para seleccionar si las varianzas son iguales TRUE y si son diferentes FALSE.
Conf.level: Nivel de confianza.
Para obtener datos resumidos de la población
Summary(variable), esta nos dara la media, mediana, cuartiles y valor mayor y menos de la población.
Para obtener la media. median(variable)
Para obtener la varianza var(variable)
Para obtener la desviación estándar. sd(variable)
Prueba t para observaciones pareadas.
Funciones de la matriz.
x<matrix(c(datos), nrow, ncol,byrow=T)
Sintaxis:
x: nombre de la matriz.
datos: datos a ingresar a la matriz.
nrow: número de filas en la matriz
ncol: número de columnas en la matriz
byrow=T activa la lectura por columna.
Funciones para editar características de la matriz.
colnames(x)<-c(“namecol”)
Sintaxis:
x: nombre de la matriz.
namecol: nombre de las columnas entre comillas y separado cada nombre por comas.
rownames(x)<-c(“namerow”)
Sintaxis:
x: nombre de la matriz.
namerow: nombre de las columnas entre comillas y separado cada nombre por comas.
Funciones a utilizar para la prueba t para datos pareados.
x<-as.data.frame(x)
as.data.frame convierte la matriz a datos separados por comas, para procesarse con otras funciones.
Sintaxis:
x: nombre de la matriz.
attach(x)
toma los datos de las columnas de los datos separados por comas. Sintaxis:
x: nombre de la matriz.
var.test(namescolms)
Compara las varianzas de las columnas Sintaxis:
namescolms: nombres de las columnas separados los nombre por comas. • shapiro.test(namecol)
Se utiliza para medir la normalidad de los datos. Sintaxis:
namecol: nombre de la columna a evaluar
t.test(nomcol,“two.sided”,paired=TRUE, conf.level )
Sintaxis:
nomcol: nombre de las columnas a evaluar.
two.sided: prueba de dos colas.
paired=TRUE: para confirmar que los datos son pareados.
conf.level: Señala el nivel de confianza a utilizar para la evaluación
boxplot (namecol)
Genera diagrama de caja y bigote
Sintaxis.
namecol: nombre de las columnas.
Procedimiento de prueba para la diferencia de proporciones de dos muestras.
Función para la prueba de la diferencia de proporciones.
eprop.test(x, n, conf.level, alternative, correct)
Los argumentos que podemos pasar a las funciones expuestas en la anterior tabla, son:
x: Vector numérico que recoge el número de elementos que cumplen la condición de cada muestra.
y: Vector numérico que recoge el total de elementos de las muestras en estudio . n: Vector númerico que recoge el número total de elementos de las muestras. conf.level: Nivel de confianza para el estudio.
alternative: Indica el tipo de la hipótesis alternativa. Existen tres modos: Hipótesis alternativa distinta: “two.sided” (por defecto seleccionada), Hipótesis alternativa mayor: “greater” o Hipótesis alternativa menor: “less”. correct: Valor lógico, indica si se aplica corrector de continuidad, por defecto TRUE.
Procedimiento de prueba de varianza para dos poblaciones.
Funciones:
var.test(x ~ m, alternative,conflevel)
Sintaxis:
x: vector de lo datos de las muestras.
m: vector asignado a que muestra pertenecen los datos. alternative: La alternativa de evaluación a considerar conf.level: Nivel de confianza para el estudio.
Inferencias Basadas en una muestra. Procedimientos de Prueba para la Media Poblacional.
CASO I: UNA POBLACIÓN NORMAL CON DESVIACION ESTANDAR CONOCIDA.
Ejemplo: Se desea contrastar con un nivel de significancia del 5% la hipótesis de que la estatura media de los hombres de 18 o más años de un país es igual a 175, contra la alternativa que es menor que 175. Suponiendo que la desviación estándar es de 4.5. Para dicha prueba se recolectaron los datos que constituyen una muestra de n=14 hombres seleccionados al azar, cuyas alturas son: 167 167 168 168 168 169 171 172 173 175 175 175 177 182.
Solución: Primero debemos verificar que la muestra que nos proporciona el ejercicio es aproximadamente normal. Para ello trabajaremos en R, así: declararemos la variable “muestra” que será la que guarde los datos de nuestra muestra y posterior a esto creamos nuestro diagrama de caja con la función “Boxplot” de la manera siguiente:
Declaramos la variable:
muestra <- c(167,167,168,168,168,169,171,172,173,175,175,175,177,182)
summary(muestra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 167.0 168.0 171.5 171.9 175.0 182.0
Luego pasamos a la prueba de hipótesis, para ello debemos definir nuestras hipótesis nula y alternativa: Ho: µ= 175 contra Ha: µ < 175.
Previo realizar nuestra prueba de hipótesis con la función z.test necesitamos instalar la biblioteca BSDA, de la siguiente manera:
install.packages(“BSDA”) library(BSDA)
library(BSDA)
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
z.test(x=muestra,y=NULL,alternative="less",mu=175,sigma.x=sd(muestra),sigma.y=NULL,conf.level=0.95)
##
## One-sample z-Test
##
## data: muestra
## z = -2.5652, p-value = 0.005156
## alternative hypothesis: true mean is less than 175
## 95 percent confidence interval:
## NA 173.8981
## sample estimates:
## mean of x
## 171.9286
Al teclear el código en R, podemos observar los resultados.
Conclusión
Debemos rechazar Ho, ya que existe suficiente evidencia de que la estatura media de los hombres en ese país es menor que 175, basado en un nivel de significancia del 5%, que comparado con el valor p, este último es mucho menor que nuestro nivel de significancia lo que nos indica que se trata de una caso poco probable el hecho de que la estatura media sea igual a 175.
CASO II: MUESTRA GRANDE DESVIACION ESTANDAR DESCONOCIDA.
Ejemplo: Cierta cadena de almacenes de descuentos emite su propia tarjeta de credito. La gerente de credito, desea descubrir si el promedio sin pagar mensual es mas de $400. El nivel de significancia se fija en 0.05.Para ello se tomo una muestra de 35 datos, los cuales se muestran a continuacion: 395,400,410,415,400,398,403,390,389,391,406,412,403,400,396,410,404,410,420,405,406,418,397,395,408,400,409,419,417,402,405,400,414,399,411.
¿Debe la gerente concluir que el medio de la poblacion es mayor a $400, o es razonable asumir que la diferencia de es debido al azar?
Solucion: Primero debemos verificar que se trata de una muestra aproximadamente normal. Para ella definimos nuestra variable “muestra”, y luego generamos nuestro boxplot, de la siguiente manera:
muestra<- c(395,400,410,415,400,398,403,390,389,391,406,412,403,400,396,410,404,410,420,405,406,418,397,395,408,400,409,419,417,402,405,400,414,399,411)
boxplot(muestra)
Además necesitamos el resumen estadístico de nuestra muestra, lo obtenemos mediante el con el código summary()
summary(muestra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 389.0 399.5 404.0 404.5 410.0 420.0
Ya que asumimos que la poblacion es aproximadamente normal, podemos pasar a la prueba de hipotesis, para ello debemos definir nuestras hipótesis nula y alternativa: Ho: µ= 400 contra Ha: µ > 400.
Previo realizar nuestra prueba de hipótesis con la función z.test necesitamos instalar la biblioteca BSDA, xcomo ya se ha mostrado anteriormente, el código que utilizaremos en R para la prueba z.test será:
z.test(x=muestra,y=NULL,alternative="greater",mu=400,sigma.x=sd(muestra),sigma.y=NULL,conf.level=0.95)
##
## One-sample z-Test
##
## data: muestra
## z = 3.197, p-value = 0.0006943
## alternative hypothesis: true mean is greater than 400
## 95 percent confidence interval:
## 402.1778 NA
## sample estimates:
## mean of x
## 404.4857
Al teclear el código en R, podemos observar los resultados
Conclusion:
Debemos rechazar Ho, ya que existe suficiente evidencia de que el impago mensual de la tarjeta de crédito es mayor que $400 mensuales, bajo un nivel de significancia de 5%, que comparado con el valor p, este último es mucho menor que nuestro nivel de significancia lo que nos indica que se trata de un caso poco probable el hecho de que la media del impago mensual de la tarjeta de crédito sea igual a $400.
CASO III: UNA POBLACIÓN NORMAL CON DESVIACION ESTANDAR DESCONOCIDA Y MUESTRA PEQUEÑA.
En el siguiente ejemplo se mostrará el proceso de resolución del caso I de prueba de hipótesis para la media poblacional aplicado en el ambiente de “R”.
Ejemplo: Una compañía ferroviaria canadiense afirma que sus trenes de mercancías no bloquean los pasos a nivel durante más de 8 minutos, en promedio. Una muestra aleatoria de 10 tiempos de bloqueo dio como resultado estos valores (en minutos): 10.1, 9.5, 6.5, 8.0, 8.8, 12, 7.2, 10.5, 8.2, 9.3. Bajo un nivel de significancia del 0.05.
Solución: Puesto que se trata de una muestra pequeña (n = 10), usaremos la distribución t de Student para el cálculo del p-valor. Empezamos por observar que en este caso tenemos todos los valores de la muestra. Si llamamos µ al tiempo medio de bloqueo, planteamos nuestras hipótesis de la siguiente manera: Ho: µ= 8 contra Ha: µ > 8
Para la prueba de hipótesis en R, usaremos la función t.test, como se muestra a continuación:
datos=c(10.1, 9.5, 6.5, 8.0, 8.8, 12, 7.2, 10.5, 8.2, 9.3)
mu0=8
t.test(datos,mu=mu0,alternative="greater",conf.level = 0.95)
##
## One Sample t-test
##
## data: datos
## t = 1.9571, df = 9, p-value = 0.04101
## alternative hypothesis: true mean is greater than 8
## 95 percent confidence interval:
## 8.063996 Inf
## sample estimates:
## mean of x
## 9.01
Conclusion:
Debemos rechazar Ho, ya que existe suficiente evidencia de que el tiempo de bloqueo de los trenes es mayor que 8 minutos, bajo un nivel de significancia del 5%, que comparado con el valor p, este último es mucho menor que nuestro nivel de significancia lo que nos indica que se trata de un caso poco probable el hecho de que la media del tiempo de bloqueo de los trenes sea igual a 8 minutos.
Uso del valor-p
Una vez obtenida la muestra, se puede calcular una cantidad que sí que permite resumir el resultado del experimento de manera objetiva. Esta cantidad es el p-valor que corresponde al nivel de significación más pequeño posible que puede escogerse, para el cual todavía se aceptaría la hipótesis alternativa con las observaciones actuales. Cualquier nivel de significación escogido inferior al p-valor (simbólicamente pv) comporta aceptar H0. Obviamente, al ser una probabilidad, se cumple que: 0 ≤ pv ≤ 1 El p-valor es una medida directa de lo verosímil que resulta obtener una muestra como la actual si es cierta H0. Los valores pequeños indican que es muy infrecuente obtener una muestra como la actual, en cambio, los valores altos que es frecuente. El p-valor se emplea para indicar cuánto (o cuán poco) contradice la muestra actual la hipótesis alternativa. Informar sobre cuál es el p-valor tiene la ventaja de permitir que cualquiera decida qué hipótesis acepta basándose en su propio nivel de riesgo α. Esto no es posible cuando se informa, como ha sido tradicional, indicando sólo el resultado de la decisión, es decir, si se acepta o se rechaza H0 con un α fijo. Al proporcionar el p-valor obtenido con la muestra actual, la decisión se hará de acuerdo a la regla siguiente: • si pv ≤ α, aceptar H1 • si pv > α, aceptar H0
Inferencias Basadas en dos Muestras. Procedimientos de Prueba para la Diferencia de medias.
CASO I: POBLACIONES NORMALES CON VARIANZAS CONOCIDAS.
Ejemplo: Un dueño de una fábrica tiene un pedido muy grande y para llevarlo a cabo necesita conocer cuál de las dos máquinas para realizar el proceso trabaja con mayor velocidad, el intuye que la maquina 2 es más efectiva y para ello hace una prueba, toman el tiempo de fabricación en minutos de 10 productos en cada máquina. Los resultados son:
Fabrica 1: (15, 16, 15, 14, 14, 15, 13, 15, 15,14) Fabrica 2: (16, 15, 14, 17, 12, 17, 15, 16, 15,14)
¿Es posible que la maquina 2 tenga un mejor tiempo de producción que la maquina 1 usando un nivel de significancia de 0.05?
Hipótesis. Ho: μ1-μ2=0 Ha: μ2>μ1
Solución. Para este caso primero debemos de usar una biblioteca llamada “BSDA” para poder usar nuestra prueba de hipótesis z.test que corresponde a distribuciones normales. Primero verificaremos si ambas poblaciones son normales esto lo haremos con el código qqnorm y qqline o también podríamos usar un diagrama de caja con la función Boxplot, luego procederemos calcular la media y varianza de cada población.
Primero llamaremos a la biblioteca BSDA:
install.packages (“BSDA”) library(BSDA)
Ahora procedemos a ingresar los datos dé cada máquina, para posteriormente obtener datos simplificados de esas dos muestras:
maquina_1 <- c(14,13,15,14,17,16,15,16,13,17)
maquina_2 <- c(16,15,14,17,12,17,15,16,15,14)
summary(maquina_1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 13 14 15 15 16 17
summary(maquina_2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 14.25 15.00 15.10 16.00 17.00
sd(maquina_1)
## [1] 1.490712
sd(maquina_2)
## [1] 1.523884
mean(maquina_1)
## [1] 15
mean(maquina_2)
## [1] 15.1
Ahora veremos si muetras muestras son normales:
qqnorm(maquina_1,col="blue",xlab="Eje z",ylab="Tiempo", main="Maquina 1"); qqline(maquina_1,col="red")
qqnorm(maquina_2,col="blue",xlab="Eje z",ylab="Tiempo", main="Maquina 2"); qqline(maquina_2,col="red")
Una vez comprobado que son normales, usaremos nuestra prueba de hipótesis, donde nuestra hipótesis alternativa es greater en otras palabras de cola superior, con nuestra Ho: μ=0 (mu=0), y sigma como nuestras varianzas con un nivel de confianza del 95%.
z.test(x=maquina_1,y=maquina_2,alternative="greater",mu=0,sigma.x=sd(maquina_1),sigma.y=sd(maquina_2),conf.level=0.95)
##
## Two-sample z-Test
##
## data: maquina_1 and maquina_2
## z = -0.14834, p-value = 0.559
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.208837 NA
## sample estimates:
## mean of x mean of y
## 15.0 15.1
Como podemos notar, nuestra hipótesis nula fue rechazada, en su lugar nuestra hipótesis alternativa es aceptada, en conclusión, podemos decir:
Conclusión:
No rechazamos Ho,existe evidencia que la maquina 2 es más igual rápida que la maquina 1 por lo que se puede hacer uso tanto de la maquina 2 como de la maquina 1 para un tiempo de producción menor y cumplir con la entrega todo esto a un nivel de significancia de 0.05
CASO II: POBLACIONES NORMALES CON VARIANZAS DESCONOCIDAS PERO IGUALES.
Ejemplo: Dos ciclistas compiten para saber quién de los dos es más rápido y entrenan a diario de la misma forma, cada día recorren 15 kilómetros durante un mes. El dato promedio del tiempo para el ciclista 1 es de 122 y para el ciclista 2 es 120. Varias personas afirman que el ciclista 2 ganara la carrera, a un nivel de significancia del 5% comprobar las especulaciones de las personas asimiento una varianza igual para ambos ciclistas.
Ciclista1:(130,129,130,124,124,122,130,125,126,123,130,126,125,128,125,125,125,125,125,125,130,123,120,122,125,123,122,127,120,121) Ciclista2:(128,130,125,125,127,123,130,125,124,123,130,125,125,129,125,125,125,124,125,125,130,122,121,121,125,125,122,128,121,125)
Hipótesis. Ho: μ1-μ2=0 Ha: μ2>μ1
Solución: En este caso debemos de comprobar si nuestras poblaciones son normales y si presentan las misma varianzas, lo haremos por medio de un diagrama de caja por medio del código boxplot, este caso se resuelve con la prueba t.student y para ello nuestra prueba de hipótesis será ejecutada por el código t.test.
ciclista_1<-c(130,129,130,124,124,122,130,125,126,123,130,126,125,128,125,125,125,125,125,125,130,123,120,122,125,123,122,127,120,121)
ciclista_2 <- c(128,130,125,125,127,123,130,125,124,123,130,125,125,129,125,125,125,124,125,125,130,122,121,121,125,125,122,128,121,125)
Luego de eso, comprobaremos si las poblaciones son normales y si sus varianzas son iguales:
boxplot(ciclista_1,ciclista_2,main="Comparacion de recorrido",ylab="Kilometros",col="Orange")
Ahora que sabemos que las varianzas son conocidas y que podemos asumir que son normales sus poblaciones realizaremos la prueba de hipotesis:
t.test(ciclista_1,ciclista_2,alternative="greater",mu=0,var.equal=TRUE,conf.level=0.95)
##
## Two Sample t-test
##
## data: ciclista_1 and ciclista_2
## t = -0.13547, df = 58, p-value = 0.5536
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.333857 Inf
## sample estimates:
## mean of x mean of y
## 125.1667 125.2667
Conclusion:
No rechazar Ho,la prueba t.test nos dice que la diferencia de media entre los ciclistas es aproximadamente igual, por ende, el ciclista 2 y ciclista 1 tienen las mismas opciones de ganar la Carrera basándonos en la estadística a un nivel de significancia del 5%.
CASO III: POBLACIONES NORMALES CON VARIANZAS DESCONOCIDAS Y DIFERENTES.
Ejemplo: En un supermercado se evalúan los contenidos de cajas de cereal de dos compañías, el encargado de tal tarea asegura que los contenidos son los mismos, pero a la queja de los clientes se decide realizar una nueva evaluación tomando 30 cajas de cereal pesadas en gramos. Los datos son:
Marca1(600,605,604,603,597,604,602,600,600,600,600,599,598,597,597,597,600,600,600,602,600,598,597,605,605,605,600,604,603,603) Marca2(605,602,600,597,598,604,601,604,600,598,600,600,598,605,597,597,604,600,602,602,597,600,597,600,605,597,600,604,600,600
Demuestre si el contenido de ambas marcas es el mismo usando un nivel de confianza del 95%
Hipótesis. Ho: μ1-μ2=0 Ha: μ2≠μ1
Solución: En este caso primero usaremos un diagrama de caja para comprobar que la población sea normal y quela varianza sea diferente, luego de eso aplicaremos un test para nuestra prueba de hipótesis con varianzas desconocidas y diferentes. Ingresamos los datos.
marca_1<- c(600,605,604,603,597,604,602,600,600,600,600,599,598,597,597,597,600,600,600,602,600,598,597,605,605,605,600,604,603,603)
marca_2<- c(605,602,600,597,598,604,601,604,600,598,600,600,598,605,597,597,604,600,602,602,597,600,597,600,605,597,600,604,600,600)
Luego comprobamos la diferencia de varianza con un boxplot.
boxplot(marca_1,marca_2,col="yellow",ylab="Gramos",main="Diferencia de pesos")
Luego de comprobar que las varianzas son diferentes y que las poblaciones son aproximadamente normales, realizaremos la prueba de hipótesis:
t.test(marca_1,marca_2,alternative="two.sided",mu=0,var.equal=FALSE,conf.level=0.95)
##
## Welch Two Sample t-test
##
## data: marca_1 and marca_2
## t = 0.52299, df = 57.993, p-value = 0.603
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.036729 1.770062
## sample estimates:
## mean of x mean of y
## 600.8333 600.4667
Conclusión:
No rechazamos Ho,la prueba nos dice que la diferencia de media de ambas marcas es aproximadamente la misma y por ende contienen los mismos contenidos, dando la razón al empleador que realizo la prueba en un inicio con un nivel de significancia del 5%.
Prueba t para observaciones pareadas.
Ejemplo: Una empresa afirma que el control para videojuegos que el produce tiene la misma duración media que el control original.
Se realiza una prueba para 5 marcas de baterías de la duración del control en uso. Los datos son los siguientes:
datos<-matrix(c(4.1,3.7,3.8,4.1,4.5,3.9,3.6,3.8,4.2,4.0),
nrow=5,byrow=T)
colnames(datos)<-c("Original","Generico")
datos
## Original Generico
## [1,] 4.1 3.7
## [2,] 3.8 4.1
## [3,] 4.5 3.9
## [4,] 3.6 3.8
## [5,] 4.2 4.0
datos<-as.data.frame(datos)
attach(datos)
var.test(Original,Generico)
##
## F test to compare two variances
##
## data: Original and Generico
## F = 4.92, num df = 4, denom df = 4, p-value = 0.1519
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.5122583 47.2542870
## sample estimates:
## ratio of variances
## 4.92
shapiro.test(Original)
##
## Shapiro-Wilk normality test
##
## data: Original
## W = 0.98097, p-value = 0.9397
shapiro.test(Generico)
##
## Shapiro-Wilk normality test
##
## data: Generico
## W = 0.98676, p-value = 0.9672
t.test(Original,Generico,"two.sided",paired=TRUE, conf.level=0.95)
##
## Paired t-test
##
## data: Original and Generico
## t = 0.81373, df = 4, p-value = 0.4615
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.3376777 0.6176777
## sample estimates:
## mean of the differences
## 0.14
boxplot (Original,Generico)
Conclusión: Se tiene de la prueba que el valor-P es de 0.4615, lo cual es un valor-P mayor al nivel de significancia de α = 0.05 (al nivel de confianza del 95%), por lo tanto, se acepta la hipótesis nula y se rechaza la hipótesis alterna. La afirmación de la empresa es cierta, el control de videojuegos que fabrican tiene una duración de batería media igual a la del original.
Procedimiento de prueba para la diferencia de proporciones de dos muestras.
Ejemplo: Se desea conocer si la proporción de consumidores de un restaurante que son hombres y consumen más de $5.00, es igual a la proporción de mujeres que visita el restaurante y consume más de $5.00.
Un día se recogió que de 120 hombres que se atendieron,78 consumió más de $5.00. Mientras que el mismo día se recogió que de 69 mujeres que se atendieron el restaurante, 28 consumió más de $5.00. Solución:
Hipótesis nula: La proporción de hombres que consumen más de $5.00 en el restaurante es igual a la proporción de mujeres que consumen más de $5.00 en el restaurante.
Hipótesis alterna: La proporción de hombres que consumen más de $5.00 en el restaurante es diferente a la proporción de mujeres que consumen más de $5.00 en el restaurante.
x <- c(78, 28)
n <- c(120, 69)
prop.test(x, n, conf.level = 0.95, correct = FALSE)
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: x out of n
## X-squared = 10.607, df = 1, p-value = 0.001126
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1003035 0.3881023
## sample estimates:
## prop 1 prop 2
## 0.6500000 0.4057971
Conclusión: Se tiene de la prueba que el valor-P es de 0.001126, lo cual es un valor-P menor al nivel de significancia de α = 0.05 (al nivel de confianza del 95%), por lo tanto, se rechaza la hipótesis nula y se acepta la hipótesis alterna. Es decir, la proporción de hombres que consumen más de $5.00 en el restaurante es diferente a la proporción de mujeres que consumen más de $5.00 en el restaurante.
Procedimiento de prueba de varianza para dos poblaciones
Ejemplo: Una empresa está produciendo tablas para repisas de madera, la empresa cuenta con dos máquinas, y desea evaluar si la variación entre la producción realizada por las dos máquinas es igual. Se analiza a un nivel de significancia del 0.05.
Máquina A: 16.99,17.54,18.89,17.27,18.75,16.12,18.55,18.58,15.55,16.71,16.42,17.72,17.94 Máquina B: 16.87,15.13,17.33,20.38,19.26,22.39,20.18,15.58,17.42,20.35,14.96,17.52,12.26,13.39,17.99,17.34,13.59,15.43,17.31,19.72,15.86.
x<- c(16.99,17.54,18.89,17.27,18.75,16.12,18.55,18.58,15.55,16.71,16.42,17.72,17.94,16.87,15.13,17.33,20.38,19.26,22.39,20.18,15.58,17.42,20.35,14.96,17.52,12.26,13.39,17.99,17.34,13.59,15.43,17.31,19.72,15.86)
m<- c("A","A","A","A","A","A","A","A","A","A","A","A","A","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B","B")
var.test(x ~ m, alternative="two.sided", conf.level = 0.95)
##
## F test to compare two variances
##
## data: x by m
## F = 0.16895, num df = 12, denom df = 20, p-value = 0.002921
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.0631379 0.5191336
## sample estimates:
## ratio of variances
## 0.1689463
Conclusión: Se tiene de la prueba que el valor-P es de 0.002921, lo cual es un valor-P menor al nivel de significancia de α = 0.05 (al nivel de confianza del 95%), por lo tanto, se rechaza la hipótesis nula y se acepta la hipótesis alterna. Es decir, existe diferencia entre la varianza de la producción de la máquina A y la máquina B. A un nivel de significancia del 0.05