Pruebas de hipótesis

Cátedra de Bioestadística - Escuela de Ciencias Biológicas UNA

2024-04-11

Test de Hipótesis y Pruebas No paramétricas

En estadística se plantean siempre dos tipos de hipótesis:

Una hipótesis nula: H0 (de no efecto) Una hipótesis alternativa: H1 (de diferencia o efecto)

Figura 1. Los 3 tipos de planteamiento de hipótesis

TEST DE HIPÓTESIS DE UNA VARIABLE E INTERVALOS DE CONFIANZA

Distribución z (Cuando la varianza es conocida) R no posee los comandos para desarrollar esta prueba de manera directa. La forma estadistica para probar una media de datos con varianza conocida es:

Figura 2. Fórmula para el cálculo de Z

La mejor forma de obtener el estadistico es desarrollarla de forma simple.

Ejemplo 7.1. Se esta interesado en obtener una estimacion del peso, de una especie de ave en una cierta poblacion que se ubica en una zona seca. Se toman 27 muestras de forma aleatoria de la misma especie y se determina el peso para cada una de ellas. El peso medio reportado fue de 37.4 gramos con una varianza de 25. Supongase que los datos asumen una distribucion aproximadamente normal.

a) Es posible concluir que el peso medio de las aves de esa poblacion sea igual a 40 gramos.

xbar=37.4
n = 27
mu = 40
var = 25
z<-(xbar-mu)/(var/sqrt(n))
z
[1] -0.5403999
Dado que el valor z al 95% de confianza, no cae fuera del area de aceptacion (mas menos 1.96), se acepta el H0 (Figura. 1).

Figura 3. Área de rechazo para la curva normal z al 95% de confianza

R/ podemos concluir que el peso medio de las aves es igual a 40 gramos. (z=-0.54; gl=26; P>0.05) al 95% de confianza.
Para calcular el valor de p.
dnorm(-0.5403999)
[1] 0.3447435
El valor de la p es de 34,47%, que es la probabilidad de que ocurra el evento.
Si se nos hubiera planteado lo siguiente.

b) Es posible que el peso medio de las aves sea menor de 39?:

xbar=37.4
 n<-27
mu<-39
var<-25
z<-(xbar-mu)/(var/sqrt(n))
z
[1] -0.3325538
pnorm(-.3325538) #se obtiene el valor de la probabilidad.
[1] 0.3697356
R/ podemos concluir que el peso medio de las aves no es menor a 39 (z=-0.33;gl=26; P>0.05) al 95 % de confianza.
El valor de la p es de 36.97%, corresponde a la probabilidad de que ocurra el evento.
Distribución t- student (Cuando la varianza es desconocida)
El t-test es basado en el supuesto de que sus datos provienen de una distribucion normal, los datos son continuos, y la muestra es tomada en forma aleatoria de la poblacion.
La función matemática que describe la distribucion t-student esta dada por:

Figura 4. Fórmula para el cálculo de Z

Revisamos los parámetros de t.test
 ?t.test
Recuerde que cuando se conoce el sigma de la poblacion el estadistico a aplicar es z.

Figura 5. Comparación de la distribución normal y t-student

El t-student permite ademas, calcular los intervalos de confianza de la poblacion. Normalmente se trabajan al 95% y 99%. En otras areas puede trabajar en otros tipos de intervalo (96%, 97%, etc).
Los intervalos de confianza contienen informacion del posible error en la estimacion a traves de la dispersion y de la distribucion muestral del estimador. El error en la estimacion esta directamente relacionado con la distribucion muestral del estimador y con la varianza poblacional, e inversamente relacionado con el tamano muestral.
Los intervalos de confianza de un parametro poblacional desconocido nos brindan una idea de la precision y exactitud de la inferencia obtenida. Es decir, es mas valido en Bioestadistica decir, que tenemos una poblacion x en vida silvestre cuyo tamano es de 100 mas menos 13 individuos a decir que, hay exactamente 100 individuos, cuando en la realidad lo que estamos brindando en una aproximacion de la estimacion. El intervalo de confianza nos permite, estar entre el error posible del parametro estimado, en nuestro caso esperariamos entre 87 a 113 animales y no 100 exactamente.
Para proceder con el uso de t-student es necesario previo al analisis aplicar la prueba de normalidad.

PRUEBA DE DISTRIBUCION NORMAL

Uno de los supuestos que debemos de tratar en este tipo de prueba es el de distribucion normal. Utilizaremos para ello el estadistico de Shapiro-Wilk, existen otros estadisticos que pueden tambien utilizarse para probar la distribucion normal.
shapiro.test(x) # donde x son los valores de un vector de datos numericos

T.TEST PARA UNA MUESTRA

El estadístico aplicado es el t-student. Recomendado para trabajar con muestras pequenas. Sin embargo, cuando se trabaja con muestras grandes los datos son proximos a una distribucion aproximadamente normal.
Ejemplo 7.2. Se realiza un experimento donde se midio la produccion de vainas de frijol por cada mata producida, en 12 unidades experimentales sometidas bajo las mismas condiciones.
mf<- c(18,11,17,10,20,25,13,16,25,20,19,20)
Probamos el supuesto de normalidad de nuestros datos
shapiro.test(mf)

    Shapiro-Wilk normality test

data:  mf
W = 0.9413, p-value = 0.5152

Hipótesis

H0= Los datos provienen de una distribucion normal H1: Los datos presentan una distribucion asimetrica.
Aceptamos H0: Nuestros datos cumplen con el supuesto de normalidad.

a.Construya un intervalo de confianza al 95% para el rendimiento promedio del numero de vainas producidas por cada mata de frijol. Los datos presentan una distribucion normal.

Solución:
El intervalo de confianza es construido a traves de la prueba t.test (x)
t.test(mf)

    One Sample t-test

data:  mf
t = 12.864, df = 11, p-value = 5.673e-08
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 14.78220 20.88447
sample estimates:
mean of x 
 17.83333 
El intervalo de confianza al 95% obtenido es: [14.78 a 20.88], lo que representa es el intervalo de la media de la poblacion de las vainas de frijol. Asi mismo se obtienen otros resultados como la media de la muestra de: 17.83.
Se nos brinda informacion adicional del valor calculado de t=12.86, los grados de libertad (df=11), obtenidos de la formula gl=n-1 (numero de observaciones menos uno), y la probabilidad resultante (p-value = 5.673e-08), en nuestro caso es menor a 0.05, por lo que nuestro resultado es significativo dado la hipotesis por defecto.
H0: media igual a 0
H1: media es diferente de 0
alternative hypothesis: true mean is not equalto 0: significa solo el planteaiento de nuestra hipotesis alternativa (la media es diferente de cero), no es una conclusion de nuestros resultados.

b.Construya un intervalo de confianza al 99% de confianza para el rendimiento promedio de la de vainas producidas por cada mata de frijol.

t.test(mf, conf.level=0.99)

    One Sample t-test

data:  mf
t = 12.864, df = 11, p-value = 5.673e-08
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
 13.52788 22.13879
sample estimates:
mean of x 
 17.83333 
Respuesta: Tengo una confianza al 99% que la media de la poblacion se encuentra entre [13.52 a 22.13] vainas de frijol por cada mata.

c.Supongamos que deseamos verificar la siguiente hipotesis estadistica: el numero de vainas producidas por mata de frijol, es diferente de 23, al 99% de confianza.

Como plantearia su hipótesis?
t.test(mf,mu=23, alternative="two.sided", conf.level = 0.99)

    One Sample t-test

data:  mf
t = -3.7271, df = 11, p-value = 0.003341
alternative hypothesis: true mean is not equal to 23
99 percent confidence interval:
 13.52788 22.13879
sample estimates:
mean of x 
 17.83333 
Respuesta: el numero de vainas producidas por mata es diferente de 23, de manera significativa (t = -3.72; gl = 11; p-value = 0.003 o P<0.01).

d.Supongamos que deseamos verificar la siguiente hipotesis: el numero de vainas producidas por mata es mayor que 23, al 99% de confianza.

Cómo plantearia su hipótesis?
t.test(mf, mu=23, alternative="greater", conf.level = 0.99)

    One Sample t-test

data:  mf
t = -3.7271, df = 11, p-value = 0.9983
alternative hypothesis: true mean is greater than 23
99 percent confidence interval:
 14.06537      Inf
sample estimates:
mean of x 
 17.83333 
Respuesta: el numero de vainas producidas por mata es menor o igual a 23 a un 99% de confianza, de manera no significativa (t = -3.72; gl = 11; p-value = 0.99).

e.Suponga que se desea conocer que: si, el numero de vainas producidas por mata es menor de 6, al 95% de confianza.

Como plantearia su hipotesis?
t.test(mf,mu=6, alternative="less", conf.level = 0.95)

    One Sample t-test

data:  mf
t = 8.5362, df = 11, p-value = 1
alternative hypothesis: true mean is less than 6
95 percent confidence interval:
    -Inf 20.3229
sample estimates:
mean of x 
 17.83333 
Respuesta: el numero de vainas producidas por mata de frijol no es menor que 6, de manera no significativa (t = 8.53; gl = 11; p-value = 1), al 95% de confianza.
Nota: Revise siempre sus datos que sean simetricos (para ello puede generar un histograma) y que ademas, no presenten datos extremos (en el mayor de los casos, aunque esto no es un problema, mas que el tipo de distribucion que se ajusta), esto resulta facil de observar a traves de un boxplot.
En nuestro caso los datos parecen ser simetricos y no presentar datos extremos (outlier), (Figura. 2)
par(mfrow=c(1,2))
mf<- c(18,11,17,10,20,25,13,16,25,20,19,20)
mean(mf)
[1] 17.83333
boxplot(mf,col="gray85", main="Standard\nBoxplot")
points(mean(mf), pch=20, cex = 1.5)
text(17.5, "Promedio", col="red", font=8 )

median(mf)
[1] 18.5
hist(mf)
text(19, "Mediana",  font=8)

quantile(mf)
   0%   25%   50%   75%  100% 
10.00 15.25 18.50 20.00 25.00 
hist(mf)
text(14, "Cuantil 1", font=8)
text(20.4, "Cuantil 3", font=8)

Figura 6. Boxplot e histograma de frecuencia para ver la simetria (hist) y existencia de datos extremos (boxplot).

###EXPLORACIÓN GRÁFICA DE LOS DATOS

Recuerde siempre visualizar los valores en cuanto a estadisticas descriptivas para dar un reconocimiento previo de sus datos. Recomendamos para esta ocasion instalar el paquete PASWR: http://cran.r-project.org/web/packages/PASWR/index.html. la ventaja de este paquete es que arroja una serie de estadistica de forma automática, ademas de una seccion gráfica.
library(PASWR)
EDA(mf)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  12.000    0.000   10.000   15.250   17.833   18.500   17.833   20.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
  25.000    4.802   23.061    1.386    4.750   15.000   -1.144   -0.114 
SW p-val 
   0.515 
Figura. 7. Análisis gráfico exploratorio de EDA (PASWR)
Ejemplo 7.3. Genere 100 numeros aleatorios con distribucion normal, con una media de 15, cuya desviacion estandar sea de 4.65.

a) Calcule el intervalo al 95% de confianza de los 100 datos aleatorios con distribucion normal.

set.seed(12345) 
rnorm(100,mean=15, sd=4.65)->x
t.test(x)

    One Sample t-test

data:  x
t = 31.138, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 15.11165 17.16869
sample estimates:
mean of x 
 16.14017 
par(mfrow=c(1,2))
boxplot(x,col="gray85", main="Standard\nBoxplot")
hist(x, main="Histrograma\nDatos", col="gray85")

Figura. 8. Boxplot e histograma de frecuencia para ver la simetria (hist) y existencia de datos extremos (boxplot).
R/ el intervalo de confianza al 95% de la variable aleatoria de x es de [15.11 a 17.16].

PRUEBA NO-PARAMÉTRICA: Test de Wilcoxon

Se utiliza como alternativa a la prueba de t-student, cuando no se cumple con el supuesto de la distribucion normal de los datos. Al no cumplir con este supuesto se vuelve una prueba no parametrica. Las estadisticas no parametricas prueban hipotesis respecto a la mediana y no a la media.
El test de Wilcoxon, se aplica en mediciones en escala ordinal para muestras dependientes.
El test de Wilcoxon, compara la mediana de una o dos poblaciones de muestras relacionadas y determina si existen diferencias entre ellas.
?wilcox.test

Test de Wilcoxon para una muestra

Nota: utilice exact = FALSE, cuando se trata de muestras menores a 50.
Ejemplo 7.4. Se cuentan en una parcela experimental, la cantidad de maleza producida por metro cuadrado en una plantacion de maiz. Los datos son los siguientes.

a)Se quiere saber si la cantidad de maleza por metro cuadrado es mayor a 10.

ma<-c(1,3,6,4,18,11,6,6,3,4,2,5,5,4)
EDA(ma)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  14.000    0.000    1.000    3.250    5.571    4.500    5.571    6.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
  18.000    4.292   18.418    1.147    2.750   17.000    2.356    1.711 
SW p-val 
   0.002 
shapiro.test(ma)

    Shapiro-Wilk normality test

data:  ma
W = 0.7653, p-value = 0.001917
Como se observa podemos utilizar el test de Wilcoxon, debido a que los datos no presentan normalidad. Asi mismo los datos presentan outlier y no son simétricos.
wilcox.test(ma, mu=10, alternative = "g", exact = FALSE)

    Wilcoxon signed rank test with continuity correction

data:  ma
V = 13.5, p-value = 0.9935
alternative hypothesis: true location is greater than 10
R/. La cantidad de malezas producida por metro cuadro no es mayor a 10 (Wilcoxon=13.5; gl=13;p-value=0.99).

Ejemplo 7.5. Se lleva a cabo una encuesta, donde se les solicita a pacientes de un hospital, que califiquen la atencion que se les ha brindado en dicha institucion. Se clasifican las respuestas utilizando una escala de 1 a 10, donde 10 denota la mejor calificacion. Los datos son los siguientes.

a) El administrador desea sabe si la respuesta de calificacion media obtenida es mayor a 7.

x<-c(3,6,2,8,8,6,5,8,4,8,3,4,2,6,4,8,4,7,4,5,9,2,3,2,4,2,7,6)
EDA(x)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  28.000    0.000    2.000    3.000    5.000    4.500    4.962    7.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
   9.000    2.244    5.037    0.424    4.000    7.000   -1.373    0.171 
SW p-val 
   0.027 
shapiro.test(x)

    Shapiro-Wilk normality test

data:  x
W = 0.91541, p-value = 0.02675
wilcox.test(x, alternative="greater", mu=7, conf.level = 0.95,exact = FALSE )

    Wilcoxon signed rank test with continuity correction

data:  x
V = 36, p-value = 0.9998
alternative hypothesis: true location is greater than 7

a) Preocupado el administrador por los primeros resultados, ahora desea conocer si el puntaje medio es menor a 7.

wilcox.test(x, mu=7, alternative = "l", exact = FALSE )

    Wilcoxon signed rank test with continuity correction

data:  x
V = 36, p-value = 0.0001878
alternative hypothesis: true location is less than 7

Test pareado T-test

Cuando la toma de muestras no es independiente, se recomienda el test pareado. Esto es cuando la muestra de un evento es medida en dos tiempos diferentes, y cuando se les aplica a una poblacion o muestra algun sistema o tratamiento.
Cada pareja de datos, debe ser independiente y la forma de lograrlo facilmente es seleccionada al azar al elegir los componentes de las muestras. No es necesaria la homogeneidad de las varianzas, ni que las muestras sean extraidas de la misma poblacion.
La hipótesis nula es: los signos se distribuyen al azar alrededor de la mediana.
La aplicación en R es la misma al t-test, excepto que hay que especificar paired=T, indicando que se quiere un test pareado, de otra manera paired=F, se obtiene el t de student, no pareado.

Ejemplo 7.6. Se desarrolla una investigacion para conocer el efecto placebo en pacientes con cierto tipo de enfermedad. Se mide una cierta determinacion medica en un tiempo uno (t1: sin tomar el placebo) y su respuesta en un tiempo dos (t2: despues de haber tomado el placebo), para conocer si hubo un efecto. Los pacientes desconocen que el medicamento es un simple placebo. Los datos son los siguientes:

t1<-c(23,34,26,36,17,37,24,26,19,24,29,29)
t2<-c(25,37,27,33,22,36,30,30,25,29,32,34)
Para ver mejor nuestros datos realizamos un unico boxplot que contenga la union de nuestros datos.
cbind(t1,t2)->tp
boxplot(tp,col=c("wheat3","skyblue4"),main="Boxplot\nEfecto Placebo")

Figura 9. Boxplot del efecto placebo en t1 y t2.
R/ existe un efecto placebo de manera significativa entre los pacientes (t=-3.67; gl=11,p.value<0.05).

Test pareado de Wilcoxon

Es similar al test de una muestra de Wilcoxon, y analogo al t-test, y trabaja elaborando rangos para el calculo de p.value (Dalggard, 2002). Pertenece al grupo de las pruebas no parametricas.
Ejemplo 7.7. Se evalua la reduccion del peso (Kg) en personas obesas luego de seguir un regimen de dieta y ejercicios. Se les tomo el peso inicial (p1), y tres meses despues el peso final (p2). Los datos son los siguientes:
P1<-c(111,128,111,117,119,90,115,118,109,115,118,113,92,79,75,93,86,99,118)
P2<-c(88,118,100,107,119,87,105,121,111,117,108,103,96,82,72,90,91,92,115)

a) Se desea conocer si el regimen medio de la dieta fue efectivo?

####Solucion.

Importante siempre verificar el supuesto de normalidad
shapiro.test(P1)

    Shapiro-Wilk normality test

data:  P1
W = 0.89668, p-value = 0.04239
shapiro.test(P2)

    Shapiro-Wilk normality test

data:  P2
W = 0.95637, p-value = 0.5031
data.frame(P1,P2)->rd
rd 
    P1  P2
1  111  88
2  128 118
3  111 100
4  117 107
5  119 119
6   90  87
7  115 105
8  118 121
9  109 111
10 115 117
11 118 108
12 113 103
13  92  96
14  79  82
15  75  72
16  93  90
17  86  91
18  99  92
19 118 115

######hay 19 pares de observaciones (util para obtener los gl)

boxplot(rd,col="gray85", main="Boxplot\nRegimen de Dieta")

wilcox.test(P1,P2, paired=T,conf.int = TRUE, exact = FALSE)

    Wilcoxon signed rank test with continuity correction

data:  P1 and P2
V = 138, p-value = 0.02262
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 0.4999421 8.5000487
sample estimates:
(pseudo)median 
      3.999956 
R/ el régimen de dieta aplicado a las personas resulto ser efectivo (Wilcox=138; gl=17;p-value=0.02).
Nota: Observe que los grados de libertad salen de pares de observaciones menos 2.

Comparación de varianzas

En R es posible obtener la comparacion de varianza a traves de la prueba de dos muestras t.test.
La hipótesis establecida asume que las varianzas son iguales en los dos grupos.
Utilizaremos los datos del ejemplo 7.6.
var.test(P1,P2)

    F test to compare two variances

data:  P1 and P2
F = 1.1874, num df = 18, denom df = 18, p-value = 0.7195
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4574801 3.0820885
sample estimates:
ratio of variances 
          1.187432 
R/ los dos grupos presentan varianzas iguales.
En caso de trabajar con datos pareados.
Utilizaremos los datos del ejemplo 7.5. En este caso el comando paired=T no afecta el resultado de sus datos. O sea el test puede aplicarse sin el comando de pareado.
var.test(t1,t2)

    F test to compare two variances

data:  t1 and t2
F = 1.8403, num df = 11, denom df = 11, p-value = 0.3264
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.5297915 6.3927739
sample estimates:
ratio of variances 
          1.840336 
R/ los dos grupos presentan varianzas iguales.
Para comparar varianzas de dos o mas grupos, tambien puede realizar a traves de Bartlett’s o Levene’s test, que seran desarrollados en los proximos capitulos.

Kolmogorov-Smirnov test

Este es otro tipo de prueba que se utiliza para comparar la normalidad de un conjunto de datos. La prueba determina si los datos provienen de una misma distribucion. Puede ser utilizado tambien para comparar si un conjunto de datos se ajustan a una distribucion (en nuestro caso normal).
Cuando las muestras son pequenas la prueba de Kolmogorov es una prueba menos poderosa para detectar diferencias significativas.
Respecto a la prueba de normalidad de Shapiro, esta resulta ser mas sensitiva que Kolmogorov. Es probable que la primera muestre que no existe normalidad y la segunda que si. Veamos una comparacion de resultados segun la prueba de Datos ejemplo 7.7
shapiro.test(P1)

    Shapiro-Wilk normality test

data:  P1
W = 0.89668, p-value = 0.04239
mean<-mean(P1)
sd<-sd(P1)
ks.test(P1, "pnorm", mean=mean(P1), sd=sd(P1))

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  P1
D = 0.21985, p-value = 0.3174
alternative hypothesis: two-sided
Como observa, en este caso Shapiro muestra que no existe normalidad de datos (P1), mientras que Kolmogorov si lo muestra, en el mismo vector, demostrando asi la sensibilidad de cada una de las pruebas.
Para aplicar la prueba de Kolmogorov, trabajaremos siempre con los datos del ejemplo 7.7.
ks.test(P1,P2)

    Exact two-sample Kolmogorov-Smirnov test

data:  P1 and P2
D = 0.31579, p-value = 0.2798
alternative hypothesis: two-sided
Los datos presentan normalidad. Recuerde siempre visualizar de forma gráfica los datos.
plot(ecdf(P1),xlim=range(c(P1,P2)),main="Distribucion Empirica Acumulada\n(P1,P2)")
plot(ecdf(P2), add=TRUE, lty="dashed", col="red")

Figura 10. Distribucion empirica acumulada para los vectores P1 y P2
qqplot(P1,P2, main="Q-Q Plot de P1 y P2")

Figura 11. Q-Q plot para los vectores P1 y P2
-qqplot-es la funcion para el trazado de los cuantiles una muestra contra los cuantiles de la muestra de otra muestra.
La normalidad es un supuesto que ciertas pruebas lo requieren, por eso es que se puede recurrir a la transformacion de datos cuando el supuesto no se cumple (mas adelante se muestrara como ejecutarlo) cuando queremos ajustar esos valores.

###Transformacion de datos

Muchos eventos en ocasiones no se comportan de manera lineal (distribucion normal), por lo que ocasionalmente se pueden utilizar transformaciones estadisticas (Logan, 2010). Una transformacion en lo que incide, es tratar de estabilizar la varianza, o normalizar los datos. Algunos tipos mas comunes de transformacion son:

Siguiendo con los datos del ejemplo 7.7.

Transformación Logarítmica.

qqplot(log(P1),log(P2), main="Q-Q Plot de log(P1) y log(P2)")

Transformación raíz cuadrada

qqplot(sqrt(P1),sqrt(P2), main="Q-Q Plot de sqrt(P1) y sqrt(P2)")

Figura. 10. Q-Q plot de transformacion logarítmica y raiz cuadra para el vector P1

TEST DE DOS MUESTRAS

A. partir de Poblaciones con Distribucion Normal: Se Desconoce Las Varianzas de las Poblaciones, pero supone que son iguales
Trabaja el igual que la prueba de t-test. La diferencia es que analiza dos grupos. En este tipo de analisis podemos agruparlos en:
-Requiere de distribucion normal, varianza desconocida
El estadístico de prueba es:

Ejemplo 7.8. Se tiene dos grupos experimentales, donde se seleccionan al azar 25 muestras de cada grupo. Se mide en cada grupo una variable aleatoria x, y se obtiene que la media del primer grupo es de 25.6 con una desviacion estandar de 4.4. El grupo dos presento una media de 22.5, con una desviacion estandar de 2.98.

a) Se quiere determinar si existe diferencia en los grupos experimentales, al 95% de confianza.

set.seed(12345)
rnorm(25,mean=25.6, sd=4.4)->g1
set.seed(12345)
rnorm(25,mean=22.5, sd=2.98)->g2
shapiro.test(g1)

    Shapiro-Wilk normality test

data:  g1
W = 0.97523, p-value = 0.7774
shapiro.test(g2)

    Shapiro-Wilk normality test

data:  g2
W = 0.97523, p-value = 0.7774
Se recomienda visualizar la normalidad de los datos utilizando qqnorm. Esta funcion le permite realizar una plot de probabilidad normal, que calcula los cuantiles de muestra contra los cuantiles teoricos. Si los puntos se distribuyen de forma simetrica, entonces los puntos se dispersan en torno a una línea recta.
par(mfrow=c(1,2))
qqnorm(g1); text(-1,23,"Grupo\ng1", col="red",font=8)
qqline(g1)
qqnorm(g2);text(-1,23,"Grupo\ng2", col="red",font=8)
qqline(g2)

Figura. 11. Cuantil-cuantil (Q-Q plot) de los datos g1 y g1.

ii. Probar si las varianzas son iguales

var.test(g1,g2)

    F test to compare two variances

data:  g1 and g2
F = 2.1801, num df = 24, denom df = 24, p-value = 0.06199
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.9606944 4.9472105
sample estimates:
ratio of variances 
          2.180082 
Nuestros datos presentan una distribucion normal, varianzas desconocidas, pero suponen son iguales.
t.test (g1,g2,var.equal = T)

    Two Sample t-test

data:  g1 and g2
t = 3.0845, df = 48, p-value = 0.003378
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.078647 5.118009
sample estimates:
mean of x mean of y 
 25.59482  22.49649 
-Visualice un boxplot de las dos variables.
R/ Se encontro que existe una diferencia significativa entre los dos grupos experimentales de manera significativa (t=4.29; gl=48;p-value<0.05)

B. A partir de Poblaciones con Distribucion Normal: Se Desconoce Las Varianzas de las Poblaciones, pero supone que son desiguales.

En este caso el test de Welch es el recomendado para prueba de hipótesis, estimacion de intervalos de confianza y estimacion de la media.

Ejemplo 7.9. Se compara la edad de estudiantes que cursan el ultimo ano de colegio. El grupo 1, se trata de un colegio diurno y el grupo 2 de un colegio nocturno

Los datos son los siguientes.

edad1<-c(21.2, 23.8, 21.6, 23.0, 22.4, 22.8, 24.4, 21.7, 24.2, 21.7, 24.8, 22.4, 23.6, 23.2, 23.5, 22.4, 23.4, 23.7, 23.6, 23.5, 24.0, 24.3, 24.7, 24.3)

edad2<-c(24.1, 32.5, 34.8, 23.6, 24.3, 19.5, 26.1, 28.3, 19.8, 23.9, 19.0, 21.6, 29.0, 17.7, 29.0, 19.6, 26.5, 20.9, 19.9, 23.8,  19.1, 39.2, 29.2, 22.8)

a) Se desea conocer si las edades medias de los grupos son diferentes.

Recuerda siempre correr los supuestos de normalidad y homogeneidad de varianzas.
shapiro.test(edad1)

    Shapiro-Wilk normality test

data:  edad1
W = 0.94707, p-value = 0.2339
shapiro.test(edad2) 

    Shapiro-Wilk normality test

data:  edad2
W = 0.91722, p-value = 0.05071
var.test(edad1,edad2)

    F test to compare two variances

data:  edad1 and edad2
F = 0.035479, num df = 23, denom df = 23, p-value = 1.395e-11
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.01534787 0.08201412
sample estimates:
ratio of variances 
        0.03547875 
t.test(edad1,edad2,var.equal=F)

    Welch Two Sample t-test

data:  edad1 and edad2
t = -1.3164, df = 24.63, p-value = 0.2002
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.8486441  0.8486441
sample estimates:
mean of x mean of y 
 23.25833  24.75833 
Note el test que se aplica ahora es el de Welch, que asume que las varianzas de los grupos son desiguales, y es independiente del tamano de la muestra.

C. A partir de Poblaciones con Distribucion asimetrica

El estadístico de prueba es el Wilcoxon-Mann conocido tambien como prueba de Whitney U test, o Mann-Whitney-Wilcoxon Test.

La prueba se usa cuando no se puede verificar la suposicion de dos poblaciones normales con varianzas iguales.
Compara las muestras independientes cuando estas no siguen una distribucion normal y estas pueden ser de tipo cuantitativo, ordinal o categorico. Resulta util para encontrar si dos muestras independientes proceden de poblaciones simetricas que tienen la misma media o mediana.

Ejemplo 7.10.

Se desarrolla un experimento donde se desea conocer si un tipo de atrayente resulta ser mas efectivo para la atraccion de insectos, los datos son medidos cada hora y se contabiliza la cantidad de insectos que visitan los atrayentes. Se utiliza un atrayente natural, vrs uno artificial.
Atrayente natural color ciruela (plum) 19,25,35,30,29,29,28,30,16,25,26,16,17,21,24,35
Atrayente artificial, color zumo dulce (honeydew) 9,30,3,30,19,29,28,3,6,30,17,18,2,23,19,3
an<-c(19,25,35,30,29,29,28,30,16,25,26,16,17,21,24,35)
ar<-c(9,30,3,30,19,29,28,3,6,30,17,18,2,23,19,3)
shapiro.test(an)

    Shapiro-Wilk normality test

data:  an
W = 0.93929, p-value = 0.3404
shapiro.test(ar)

    Shapiro-Wilk normality test

data:  ar
W = 0.86496, p-value = 0.02279
cbind(an,ar)->df
boxplot(df, col=c("plum3","honeydew2"),main="Boxplot\natrayentes")

Figura. 12. Boxplot de atrayente an y ar.
wilcox.test(an,ar,  alternative = "g",correct=F)

    Wilcoxon rank sum test

data:  an and ar
W = 179, p-value = 0.02688
alternative hypothesis: true location shift is greater than 0
diff<-c(an-ar)
diff
 [1] 10 -5 32  0 10  0  0 27 10 -5  9 -2 15 -2  5 32
R/ Se encontro que el atrayente natural resulto resulto ser mas efectivo que el artificial de manera significativa (W=179; gl=14; p-value=0.02).

#FIN RECUERDE REPASAR CON EL LIBRO DANIELS