Bibliografía

#https://derek-corcoran-barrios.github.io/AyduantiaStats/_book/t-student.html
#https://rpubs.com/mgtagle-73/Analisis_CapIII
#https://rpubs.com/dsfernandez/423172

Importar la base de datos

1.- Subir el archivo excel a google sheets
2.- Dar click en Archivo->Guardar conmo Google sheets
3.- Abrir el archivo de google sheets y dar click en:
4.- Archivo->Compartir->Publicar en la web->Publicar como xlsx
5.- Copiar ese link

library(openxlsx)
df = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=2)
head(df)
##   variedad produccion
## 1        1       1735
## 2        1       2002
## 3        1       1820
## 4        1       2082
## 5        1       1894
## 6        1       1816

T de student para una muestra

Las pruebas de una muestra nos permiten poner a prueba si la media de una población son distintas a una media teórica. Como ejemplo veremos el caso de las erupciones del géiser Old Faithful, localizado en el Parque Nacional Yellowstone. Un guarda-parque del lugar dice que este géiser erupta cada 1 hora. Por suerte R posee una base de datos de Azzalini and Bowman (1990) llamada faithfull, la cual utilizaremos para determinar si esto es cierto o no usando la función t.test. Esta base de datos tiene dos columnas eruptions, que muestra la duración en minutos de cada erupción y waiting que presenta la espera en minutos entre erupciones.

Cuando usamos esta función con una muestra necesitamos llenar 2 argumentos:

x: Un vector con los valores numéricos de a poner a prueba
mu: La media teórica a poner a prueba
alternative: Puede ser “two.sided”, “less” o “greater”, dependiendo de si uno quiere probar que la muestra posee una media distinta, menor o mayor que la media teórica.
En este caso haríamos lo siguiente

data("faithful")
t.test(x = faithful$waiting, mu = 60, alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  faithful$waiting
## t = 13.22, df = 271, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 60
## 95 percent confidence interval:
##  69.27418 72.51994
## sample estimates:
## mean of x 
##  70.89706

En este caso el valor de p nos dice que la media es diferente a 60, sin embargo hay que tener en cuenta si sigue los supuestos

qqnorm(faithful$waiting)


no hay distribución normal

summary(faithful$waiting)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    43.0    58.0    76.0    70.9    82.0    96.0

como son menos de 50 muestras se aplica shapiro wilk

shapiro.test(faithful$waiting)
## 
##  Shapiro-Wilk normality test
## 
## data:  faithful$waiting
## W = 0.92215, p-value = 1.015e-10

los resultados indican que no hay distribución normal


Vamos a probar si es menor

t.test(x = faithful$waiting, mu = 60, alternative = "less")
## 
##  One Sample t-test
## 
## data:  faithful$waiting
## t = 13.22, df = 271, p-value = 1
## alternative hypothesis: true mean is less than 60
## 95 percent confidence interval:
##      -Inf 72.25759
## sample estimates:
## mean of x 
##  70.89706

Nos dice que el valor no es menor que 60


Vamos a probar si es mayor

t.test(x = faithful$waiting, mu = 60, alternative = "greater")
## 
##  One Sample t-test
## 
## data:  faithful$waiting
## t = 13.22, df = 271, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 60
## 95 percent confidence interval:
##  69.53653      Inf
## sample estimates:
## mean of x 
##  70.89706

Efectivamente el valor es mayor que 60

Queremos comparar estadisticamente

datos = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=10)
head(datos)
##   vacas_produccion vacas_secas costos_alimentacion costos_totales anios_lechero
## 1               26          26                2.08           3.52            30
## 2               20          10                2.93           3.19            25
## 3                9           2                2.93           4.00            32
## 4                5           0                1.09           1.83            15
## 5               15           7                2.93           3.56            10
## 6               16           5                2.76           3.57             4
##   hectareas_totales
## 1              2.03
## 2             15.00
## 3             11.25
## 4              0.50
## 5             15.00
## 6             13.00

Ver cuáles variables, cumplen con el supuesto de normalidad

library(nortest) #biblioteca para el test de normalidad
lillie.test(datos$vacas_produccion)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$vacas_produccion
## D = 0.18131, p-value = 6.765e-09
lillie.test(datos$vacas_secas)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$vacas_secas
## D = 0.19102, p-value = 6.24e-10
lillie.test(datos$costos_alimentacion)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$costos_alimentacion
## D = 0.15847, p-value = 1.061e-06
lillie.test(datos$costos_totales)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$costos_totales
## D = 0.044928, p-value = 0.8767
lillie.test(datos$anios_lechero)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$anios_lechero
## D = 0.093828, p-value = 0.02868

Histogramas de las variables

par(mfrow=c(3,2))

for (i in 1:5){
  hist(datos[,i], main=names(datos[i]), breaks = 20)
}
par(mfrow=c(1,1))

la variable costos totales sigue una distribución normal

hist(datos$costos_totales, breaks = 20 ,col="yellow")

#hacemos la gráfica de histograma
hist(datos$costos_totales, breaks=20 , col="lightblue", freq = FALSE)

#obtenemos la línea de densidad
lines(density(datos$costos_totales), lwd = 2, col = 'blue')

#tendencia de curva normal
x <- seq(min(datos$costos_totales), max(datos$costos_totales), length = 40)
f <- dnorm(x, mean = mean(datos$costos_totales), sd = sd(datos$costos_totales))
lines(x, f, col = "red", lwd = 2)


Prueba T para saber si los costos totales de los agricultores lecheros es igual a 3000 mil pesos (3.0)

t.test(datos$costos_totales,mu=3.0,alternative ="two.sided", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  datos$costos_totales
## t = 4.5712, df = 102, p-value = 1.365e-05
## alternative hypothesis: true mean is not equal to 3
## 95 percent confidence interval:
##  3.166310 3.421263
## sample estimates:
## mean of x 
##  3.293786

Plantear la hipótesis nula y la del investigador:
Ho: El valor de la media teórica de 3.0 de costos totales de producción es equiparable a el promedio de los costos totales de producción de los productores de los Altos de Jalisco
Ha: El valor de la media teórica de 3.0 de costos totales de producción es diferente a el promedio de los costos totales de producción de los productores de los Altos de Jalisco
Nivel de significancia: alfa de 5% o alfa de 0.05
Establecer estadístico de prueba: Prueba T para una muestra
Lectura del valor de P: 1.365e-05
Toma de decisiones (responder la hipótesis nula):
Estadísticamente: P<0.05 entonces rechazamos la hipótesis nula
En palabras: Con una confianza del 95% podemos decir que el promedio de los costos totales de producción de los productores de los Altos de Jalisco es diferente a 3.0


Vamos a probar si es mayor a 3.0, es decir hacer lo mismo pero de una cola

t.test(datos$costos_totales,mu=3.0,alternative ="greater", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  datos$costos_totales
## t = 4.5712, df = 102, p-value = 6.823e-06
## alternative hypothesis: true mean is greater than 3
## 95 percent confidence interval:
##  3.187105      Inf
## sample estimates:
## mean of x 
##  3.293786

los datos anteriores nos indican que la ha= “la media verdadera es mayor que 3” y como el p valor es menor a 0.05, entonces tiene razón, se rechaza la h0 y se acepta la ha

t.test(datos$costos_totales,mu=3.0,alternative ="less", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  datos$costos_totales
## t = 4.5712, df = 102, p-value = 1
## alternative hypothesis: true mean is less than 3
## 95 percent confidence interval:
##      -Inf 3.400468
## sample estimates:
## mean of x 
##  3.293786

los datos anteriores nos indican que la ha= “la media verdadera es menor que 3” y como el p valor es mayor a 0.05, entonces se acepta la h0 y se rechaza la ha

Wilcoxon para una muestra

Vamos a ver la variable vacas en producción y comparar si su media es igual a 25
primero checamos la normalidad

hist(datos$vacas_produccion)


efectivamente no tiene una distribución normal, la mediana es menor que la media

summary(datos$vacas_produccion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00   11.50   18.00   23.57   29.50  115.00
par(mfrow=c(2,1)) #para dividir el gráfico en dos
hist(datos$vacas_produccion, col="yellow",breaks=20) #color y cortes
boxplot(datos$vacas_produccion, bty="l", range=1.5, col="yellow", horizontal=T,xlab="residuos") #boxplot

par(mfrow=c(1,1)) #devolver a los parametros iniciales


Hacemos el test de normalidad

library(nortest) #biblioteca para el test de normalidad
lillie.test(datos$vacas_produccion)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos$vacas_produccion
## D = 0.18131, p-value = 6.765e-09

p valor menos a 0.05 entonces se rechaza el supuesto de normalidad

summary(datos$vacas_produccion)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00   11.50   18.00   23.57   29.50  115.00
boxplot(datos$vacas_produccion, horizontal = T)

t.test(datos$vacas_produccion, mu=25,alternative ="two.sided", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  datos$vacas_produccion
## t = -0.71235, df = 102, p-value = 0.4779
## alternative hypothesis: true mean is not equal to 25
## 95 percent confidence interval:
##  19.59888 27.54675
## sample estimates:
## mean of x 
##  23.57282

De acuerdo a los resultados anteriores, en el rango de la media si puede caer el 25, ya que su rango va de 19.5 a 27.5 por lo tanto ya que p valor es mayor a 0.05 se acepta la hipotesis nula mu = 25


Plantear la hipótesis nula y la del investigador:
Ho: La media teórica de 25 vacas en producción es equiparable a la media poblacional de los productores de los Altos de Jalisco
Ha: La media teórica de 25 vacas en producción es diferente a la media poblacional de los productores de los Altos de Jalisco
Nivel de significancia: alfa de 5% o alfa de 0.05
Establecer estadístico de prueba: Prueba T para una muestra
Lectura del valor de P: 0.478
Toma de decisiones (responder la hipótesis nula): Estadísticamente: P>0.05 entonces aceptamos la hipótesis nula
En palabras: Con una confianza del 95% podemos decir que el promedio de vacas en producción de los productores de los Altos de Jalisco es equivalente a 25


Sin embargo como la variable no sigue una distribución normal, la mediana sería el estadístico más representativo, si probaramos que la mediana entra en 25 los hacemos con el test de wilcoxon

wilcox.test(datos$vacas_produccion, mu=25,alternative ="two.sided", conf.level = 0.95)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  datos$vacas_produccion
## V = 1817, p-value = 0.006901
## alternative hypothesis: true location is not equal to 25

p valor menor a 0.05 entonces la mediana no es igual a 25

wilcox.test(datos$vacas_produccion, mu=25,alternative ="less", conf.level = 0.95)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  datos$vacas_produccion
## V = 1817, p-value = 0.00345
## alternative hypothesis: true location is less than 25

p valor menor a 0.05 entonces se acepta la hipótesis alternativa, la cual se traduce “la verdadera ubicación de la mediana es inferior a 25”


Comprobar los supuestos siguientes:

anios_lechero Media=20.0
vacas_secas Media=10.0
costos_alimentacion Media=2.5


Hay una fabrica de baterías que dicen que los amperios es de 140 amperios-hora, la fiscalia del consumidor quiere checar este supuesto e inspecciona 20 baterias, de las cuales se encontraron los siguientes valores,
137.4,140,138.8,139.1,144.4,139.2,141.8,137.3,135.5,138.2,141.1,139.7,136.7,136.3,135.6,138,140.9,140.6,136.7,134.1

baterias2<-c(137.4,140,138.8,139.1,144.4,139.2,144.4,139.2,141.8,137.3,135.5,138.2,141.1,139.7,136.7,136.3,135.6,138,140.9,140.6,136.7,134.1)

str(baterias2)
##  num [1:22] 137 140 139 139 144 ...
baterias<-c(137.4,140,138.8,139.1,144.4,139.2,141.8,137.3,135.5,138.2,141.1,139.7,136.7,136.3,135.6,138,140.9,140.6,136.7,134.1)
mean(baterias)
## [1] 138.57
shapiro.test(baterias)
## 
##  Shapiro-Wilk normality test
## 
## data:  baterias
## W = 0.98506, p-value = 0.9819
t.test(baterias, mu=140, conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  baterias
## t = -2.5636, df = 19, p-value = 0.019
## alternative hypothesis: true mean is not equal to 140
## 95 percent confidence interval:
##  137.4025 139.7375
## sample estimates:
## mean of x 
##    138.57

no entra en el rango, vamos a ver si es mayor

t.test(baterias, mu=140, alternative = "greater")
## 
##  One Sample t-test
## 
## data:  baterias
## t = -2.5636, df = 19, p-value = 0.9905
## alternative hypothesis: true mean is greater than 140
## 95 percent confidence interval:
##  137.6055      Inf
## sample estimates:
## mean of x 
##    138.57

no es mayor, vamos a ver si es menor

t.test(baterias, mu=140, alternative = "less", conf.level = 0.95 )
## 
##  One Sample t-test
## 
## data:  baterias
## t = -2.5636, df = 19, p-value = 0.009502
## alternative hypothesis: true mean is less than 140
## 95 percent confidence interval:
##      -Inf 139.5345
## sample estimates:
## mean of x 
##    138.57

también nos dice que es menor,
¿Qué pasa si lo hacemos con baterias 2?


Ejercio
1- las puntuaciones en un test que mide la variable creatividad siguen, en la población general de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.
A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
La interpretación sería que no hay evidencia de que el programa sea efectivo. se acepta la H0


T de student dos muestras independientes

Problema 1

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

library(openxlsx)
indice = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=9)
head(indice)
##   planta   IE Tratamiento
## 1      1 0.80        Ctrl
## 2      2 0.66        Ctrl
## 3      3 0.65        Ctrl
## 4      4 0.87        Ctrl
## 5      5 0.63        Ctrl
## 6      6 0.94        Ctrl
boxplot(IE ~ Tratamiento, data=indice,  col = c("#FFE0B2", "#FFA726", "#F57C00")) 


El Índice de Esbeltez (IE) en plántulas con fertilizante (Fert) es diferente con respecto a las plántulas del tratamiento (Ctrl).

La formulación de una hipótesis en el método científico se inicia definiendo la hipótesis nula (H0) y la hipótesis alternativa (H1); generalmente la H0 establece que no hay diferencias entre los grupos a compararse, en este caso Ctrl y el grupo Fert. La hipótesis alternativa (H1) por otra parte, se indica como el complemento de la H0, por lo tanto H1 establecerá que si existen diferencias significativas entre los grupos en estudio (Zar 2010; A. Field, Miles, and Field 2012). Por lo tanto mediante procedimientos estadísticos que veremos en esta clase, se tratará rechazar nuestra hipótesis H0.
H0: IE Ctrl = IE Fert; H1= IE Ctrl ≠ IE Fert

summary(indice)
##      planta            IE         Tratamiento       
##  Min.   : 1.00   Min.   :0.5500   Length:42         
##  1st Qu.:11.25   1st Qu.:0.7025   Class :character  
##  Median :21.50   Median :0.7950   Mode  :character  
##  Mean   :21.50   Mean   :0.8371                     
##  3rd Qu.:31.75   3rd Qu.:0.9375                     
##  Max.   :42.00   Max.   :1.1600

como son menos de 50 datos usamos el test de shapiro para comporbar la normalidad

Ftrl <- subset(indice, Tratamiento == 'Fert')
shapiro.test(Ftrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ftrl$IE
## W = 0.95339, p-value = 0.3941
Ctrl <- subset(indice, Tratamiento == 'Ctrl')
shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908

Las dos variables siguen una distribución normal


ahora probar homogeneidad de varianzas

El F-test, también conocido como contraste de la razón de varianzas, contrasta la hipótesis nula de que dos poblaciones normales tienen la misma varianza. Es muy potente, detecta diferencias muy sutiles, pero es muy sensible a violaciones de la normalidad de las poblaciones. Por esta razón, no es un test recomendable si no se tiene mucha certeza de que las poblaciones se distribuyen de forma normal.

var.test(Ctrl$IE, Ftrl$IE)
## 
##  F test to compare two variances
## 
## data:  Ctrl$IE and Ftrl$IE
## F = 0.41068, num df = 20, denom df = 20, p-value = 0.05304
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1666376 1.0121038
## sample estimates:
## ratio of variances 
##          0.4106757

test de levene
El test de Levene se puede aplicar con la función leveneTest() del paquete car. Se caracteriza, además de por poder comparar 2 o más poblaciones, por permitir elegir entre diferentes estadísticos de centralidad :mediana (por defecto), media, media truncada. Esto es importante a la hora de contrastar la homocedasticidad dependiendo de si los grupos se distribuyen de forma normal o no.

library(car)
## Loading required package: carData
leveneTest(y = indice$IE, group = indice$Tratamiento, center = "median")
## Warning in leveneTest.default(y = indice$IE, group = indice$Tratamiento, :
## indice$Tratamiento coerced to factor.
## Levene's Test for Homogeneity of Variance (center = "median")
##       Df F value  Pr(>F)  
## group  1  3.9744 0.05305 .
##       40                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

test de bartlett
Permite contrastar la igualdad de varianza en 2 o más poblaciones sin necesidad de que el tamaño de los grupos sea el mismo. Es más sensible que el test de Levene a la falta de normalidad, pero si se está seguro de que los datos provienen de una distribución normal, es la mejor opción.

a <- indice[indice$Tratamiento == "Ctrl", "IE"]
b <- indice[indice$Tratamiento == "Fert", "IE"]
bartlett.test(list(a,b))
## 
##  Bartlett test of homogeneity of variances
## 
## data:  list(a, b)
## Bartlett's K-squared = 3.7423, df = 1, p-value = 0.05305

Test de Fligner-Killeen Se trata de un test no paramétrico que compara las varianzas basándose en la mediana. Es también una alternativa cuando no se cumple la condición de normalidad en las muestras.

fligner.test(x = list(a,b))
## 
##  Fligner-Killeen test of homogeneity of variances
## 
## data:  list(a, b)
## Fligner-Killeen:med chi-squared = 4.6258, df = 1, p-value = 0.0315


Salvo el último test, los demás dijeron que habia homogeneidad de varianzas

# var.equal=T, supone que las varainzas son iguales
t.test(Ctrl$IE, Ftrl$IE, var.equal=T)
## 
##  Two Sample t-test
## 
## data:  Ctrl$IE and Ftrl$IE
## t = -2.9813, df = 40, p-value = 0.004868
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23331192 -0.04478332
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

De acuerdo con el valor de P obtenido es menor que 0.05, aceptamos la H1 es decir aún existen diferencias significativas entre ambos grupos Ctrl y Fert.

t.test(indice$IE~indice$Tratamiento, var.equal=TRUE, conf.level=0.95)
## 
##  Two Sample t-test
## 
## data:  indice$IE by indice$Tratamiento
## t = -2.9813, df = 40, p-value = 0.004868
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23331192 -0.04478332
## sample estimates:
## mean in group Ctrl mean in group Fert 
##          0.7676190          0.9066667

Segundo problema

#https://www.youtube.com/watch?v=NlYgJJR2Qzc&t=490s

library(openxlsx)
df = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=11)
head(df,13)
##           group IIEF lncircunf
## 1  Experimental   24      9.24
## 2  Experimental   25      7.15
## 3  Experimental   21     25.92
## 4  Experimental   25     10.12
## 5       Control   25     16.67
## 6  Experimental   23      0.99
## 7  Experimental   21     23.42
## 8       Control   21     40.44
## 9       Control   23     19.44
## 10      Control   25     22.17
## 11      Control   24     16.20
## 12      Control   22     38.92
## 13      Control   24     21.97
t.test(df$IIEF~df$group, var.equal=TRUE, conf.level=0.95)
## 
##  Two Sample t-test
## 
## data:  df$IIEF by df$group
## t = 0.66986, df = 42, p-value = 0.5066
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.9148515  1.8239424
## sample estimates:
##      mean in group Control mean in group Experimental 
##                   22.72727                   22.27273

No hay diferencias significativas
vamos a crear un objeto

t.objeto<-t.test(df$IIEF~df$group, var.equal=TRUE, conf.level=0.95)

vamos a hacer que lo lea tipo apa

library(apa) #para agregar desviacion estandar
t_apa(t.objeto, es="cohens_d", format=c("text"), print=TRUE)
## t(42) = 0.67, p = .507, d = 0.20

En el caso de los t-test de medias independientes, existen dos medidas posibles del tamaño del efecto: la d de Cohen y la r de Pearson. Ambas son equivalentes y pueden transformarse de una a otra. Cada una de estas medidas tiene unas magnitudes recomendadas para considerar el tamaño del efecto como pequeño, mediano o grande. La función cohen.d() del paquete effsize permite calcular el tamaño del efecto de la diferencia de medias independientes.


Los límites más utilizados para clasificar el tamaño del efecto con d-Cohen son:

d ≤ 0.2 pequeño
d ≥ 0.5 mediano
d = 0.8 grande

también se puede utilizar r de pearson

t.objeto
## 
##  Two Sample t-test
## 
## data:  df$IIEF by df$group
## t = 0.66986, df = 42, p-value = 0.5066
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.9148515  1.8239424
## sample estimates:
##      mean in group Control mean in group Experimental 
##                   22.72727                   22.27273

En el ejemplo anterior faltó ver los supuestos y se puede aprovechar la otra variable cuantitativa


Otra prueba para checar

Grupo.A = c(15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15, 16, 14, 16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 17, 18, 16, 14)
Grupo.B = c(11, 16, 14, 18, 6, 8, 9, 14, 12, 12, 10, 15, 12, 9, 13, 16, 17, 12, 8, 7, 15, 5, 14, 13, 13, 12, 11, 13, 11, 7)
t.test(Grupo.A,Grupo.B)
## 
##  Welch Two Sample t-test
## 
## data:  Grupo.A and Grupo.B
## t = 4.1887, df = 53.88, p-value = 0.0001046
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.650905 4.682428
## sample estimates:
## mean of x mean of y 
##  14.93333  11.76667


Ejercicio considerar son muestras pareadas
Un psicologo desea probar un nuevo tratamiento para dejar de fumar. Estetratamiento ha sido probado en otros países como Italia, Estados Unidos y ReinoUnidos con excelentes resultados, sin embargo el especialista se pregunta sifuncionará en México en un grupo de individuos quienes se encuentranrehabilitandose en una clínica porque no pueden dejar de fumar. De esta formaobtiene una pequeña muestra de nueve participantes y evalua el total de cigarrillosque fuman a la semana y posteriormente aplica su intervención, la cual duraquince dias, para posteriormente volver a medir la frecuenca de cigarrillosfumados durante la semana posterior al tratamiento. El psicólogo esta muyinteresado en tener el mínimo de error posible, por tanto, calcula una t de studentpara muestras dependientes o relacionadas con un nivel de significancia de .01.Los datos obtenidos son los siguientes:

cigarrillos por semana antes:
25,34,34,56,45,34,23,12,34

cigarrillos por semana después:
23,30,10,30,34,12,21,4,21

Ejercicio

Ejemplo 1: Tenemos datos de un experimento con dos drogas (A y B) que afectan la coagulación de la sangre (medida en minutos) en conejos adultos. Las hipótesis son:

H0:μ1=μ2HA:μ1≠μ2

drogaA <- c(8.8,8.4,7.9,8.7,9.1,9.6)
drogaB <- c(9.9,9.0,11.1,9.6,8.7,10.4,9.5)
#hipótesis alterna: droga A - drogaB diferente de 0 (menor o mayor)
pruebat <- t.test(drogaA,drogaB, var.equal = TRUE, alternative = "two.sided")
pruebat
## 
##  Two Sample t-test
## 
## data:  drogaA and drogaB
## t = -2.4765, df = 11, p-value = 0.03076
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.8752609 -0.1104534
## sample estimates:
## mean of x mean of y 
##  8.750000  9.742857

Ejercicio

Ejemplo 2: Un jardinero experimenta con un nuevo fertilizante, el cual es anunciado como mejor a otro que ha estado usando el jardinero. El jardinero aplica una misma cantidad del fertilizante tradicional (T) a 10 plantas de una especie, y del nuevo fertilizante (N) a 8 plantas de la misma especie; se sabe que esta especie responde a los fertilizantes con un mayor crecimiento en altura (cm). El jardinero quiere probar si el nuevo fertilizante produce una media de altura (μ2) mayor que la media de altura (μ1) de las plantas con fertilizante tradicional:

H0:μ1≥μ2HA:μ1<μ2

fertT <- c(48.2,54.6,58.3,47.8,51.4,52.0,55.2,49.1,49.9,52.6)
fertN <- c(52.3,57.4,55.6,53.2,61.3,58.0,59.8,54.8)
#hipótesis alterna: fertT - fertN < 0
pruebat <- t.test(fertT, fertN, var.equal = TRUE, alternative = "less")
pruebat
## 
##  Two Sample t-test
## 
## data:  fertT and fertN
## t = -2.9884, df = 16, p-value = 0.004343
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -1.929255
## sample estimates:
## mean of x mean of y 
##     51.91     56.55

ejercicio

Ejemplo 3: Queremos probar si las patas izquierdas delanteras de una muestra de 10 de venados son diferentes en longitud (cm), en comparación con las patas izquierdas traseras del mismo individuo. Podríamos realizar la comparación entre dos muestras, pero introduciríamos un factor de diversidad entre los venados. Para controlar ese efecto, vamos a comparar (calcular diferencia) entre la pata izquierda anterior y la pata izquierda posterior de cada individuo. Las hipótesis serían: H0:μd=0HA:μd≠0 Como no tenemos de antemano una hipótesis alterna direccional (diferencia mayor o menor), la prueba es una de dos colas, y vamos a considerar un α aceptable de 0.05.

pataD <- c(142,140,144,144,142,146,149,150,142,148)
pataT <- c(138,136,147,139,143,141,143,145,136,146)
pruebatpar <- t.test(pataD, pataT, paired = TRUE, alternative = "two.sided")
pruebatpar 
## 
##  Paired t-test
## 
## data:  pataD and pataT
## t = 3.4138, df = 9, p-value = 0.007703
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.113248 5.486752
## sample estimates:
## mean of the differences 
##                     3.3

Pruebas sobre dos muestras apareadas

El siguiente cuadro muestra los datos de un experimento de comparación de los kilogramos de semillas de Pinus pseudostrobes obtenidos de 10 árboles en el año 2010 (antes) y en el año 2013 (después).

Kilogranos de semillas obtenidas en dos años diferentes (2010 y 2013) de la especie Pinus pseudostrobus

library(openxlsx)
semillas = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=12)
head(semillas)
##   Kilogramos tiempo
## 1          9  T2010
## 2          8  T2010
## 3          6  T2010
## 4          9  T2010
## 5          9  T2010
## 6          7  T2010
test.tiempo <- t.test(semillas$Kilogramos ~ semillas$tiempo, paired=TRUE)
test.tiempo
## 
##  Paired t-test
## 
## data:  semillas$Kilogramos by semillas$tiempo
## t = 1.5927, df = 15, p-value = 0.1321
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1902958  1.3152958
## sample estimates:
## mean of the differences 
##                  0.5625

ejercicio

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para decidir si al cabo de un año mantienen su contrato se selecciona aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en 100 metros lisos al inicio del año, al final del año se volverá a cronometrar a esos mismos 10 corredores. En vista de los datos obtenidos ¿Hay diferencia significativa entre el rendimiento de los corredores tras un año de entrenar con el nuevo instructor?

Se trata de un caso de estudio en el que las mediciones se realizan sobre los mismos individuos bajo dos condiciones distintas, se trata de datos pareados.

datos <- data.frame(
          corredor = c(1:10),
          antes = c(12.9, 13.5, 12.8, 15.6, 17.2, 19.2, 12.6, 15.3, 14.4, 11.3),
          despues = c(12.7, 13.6, 12.0, 15.2, 16.8, 20.0, 12.0, 15.9, 16.0, 11.1)
        )
head(datos, 4)
##   corredor antes despues
## 1        1  12.9    12.7
## 2        2  13.5    13.6
## 3        3  12.8    12.0
## 4        4  15.6    15.2
t.test(x = datos$antes, y = datos$despues, alternative = "two.sided",
       mu = 0, paired = TRUE, conf.level = 0.95)
## 
##  Paired t-test
## 
## data:  datos$antes and datos$despues
## t = -0.21331, df = 9, p-value = 0.8358
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.5802549  0.4802549
## sample estimates:
## mean of the differences 
##                   -0.05
# library(effsize)
# cohen.d(d = datos$antes, f = datos$despues, paired = TRUE)

Ejercicio

numero de errores ortográficos entre hombre y mujeres
mujeres (5,10,7,2,3,8,2,1,6,5,3)
hombres (4,3,6,5,5,4,7,6,5,2,3)
Son con distribucion normal pero presentan heterocedasticidad
las mujeres cometen menos errores ortograficos que los hombres *la respuesta al 94 los errores de las mujeres son mayores o iguales a la mediana de los errores ortograficos de los varones, ambos presentan la misma cantidad

#https://www.youtube.com/watch?v=OJFYOnME1TE

*si la variable aletoria es una variable ordinal, se puede usar u de mann wnitney

#https://www.youtube.com/watch?v=njFz4QmgrWU

Ejercicion

Se desea comparar el efecto de dos dietas distintas en un sistema intensivo de engorda de bovinos. En la siguiente tabla se muestra la ganancia diaria de peso (GDP) en kilogramos de los animales bajo cada dieta. Utilice Use alfa = 0.05 para responder.

library(openxlsx)
dietas = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=13)
head(dietas)
##   animal   gdp dieta
## 1      1 1.660     1
## 2      2 1.637     1
## 3      3 1.619     1
## 4      4 1.565     1
## 5      5 1.597     1
## 6      6 1.674     1
  1. Compruebe los supuestos de normalidad y homogeneidad de varianzas, sino se cumplen haga lo conducente.
    b).- Plantee las hipótesis nula y alternativa, tanto en palabras como de manera estadística. Obtenga la magnitud de la diferencia de medias, el valor de t, el p- valium, y el intervalo de confianza de la diferencia de medias. Interprete sus resultados y concluya acerca de qué dieta es mejor y porqué.

Ejercicio

Problema 2. Las universidades A y B se preguntan si el nivel formativo en estadística de una y otra es diferente. Para tratar de dar respuesta a esa pregunta, someten a 42 alumnos de cada universidad elegidos al azar, a un mismo examen. Utilice alfa=0.05. Las calificaciones de los estudiantes de cada universidad son los siguientes; emplee Spss para responder.

a).- Compruebe los supuestos de normalidad y homogeneidad de varianzas, sino se cumplen haga lo conducente.
b).- Plantee las hipótesis nula y alternativa, tanto en palabras como de manera estadística. Obtenga la magnitud de la diferencia de medias, el valor de t, el p- valium, y el intervalo de confianza de la diferencia de medias. Interprete sus resultados y concluya acerca de cual universidad es mejor y porqué.

library(openxlsx)
unis = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=14)
head(unis)
##   calificacion universidad
## 1           78           a
## 2           62           a
## 3           56           a
## 4           52           a
## 5           36           a
## 6           50           a

u de mann whitney una variable ordinal

Se desea averiguar el efecto de la música en la relajación de las personas} valores del 1 al 5 donde 1 nada relajado y 5 muy relajado

#https://www.youtube.com/watch?v=vetDaoj7LhQ
control<-c(3,4,3,1,5,2,3,4,1,3,3)
conMusi<-c(5,5,2,5,4,5,5,4,5,5,5)
wilcox.test(control,conMusi,alternative = "two.sided",mu=0)
## Warning in wilcox.test.default(control, conMusi, alternative = "two.sided", :
## cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  control and conMusi
## W = 16.5, p-value = 0.002813
## alternative hypothesis: true location shift is not equal to 0

¿qué pasa si se ordena primero?

Ejercicio u de mann whitney

Se quiere saber el puntaje matemático en dos niveles educativos

library(openxlsx)
mate = read.xlsx("https://docs.google.com/spreadsheets/d/e/2PACX-1vTSnSZS9JeD0AjKOwD3pNECLaQODO7T0u4E8xKi6_pts5QOAY5R_GtXDiqEl5Ta83Q-e8s0zk0Z7G1G/pub?output=xlsx",sheet=15)
head(mate)
##   id punt_mate nivel_educativo
## 1  1      42.5            alto
## 2  2      80.0            alto
## 3  3      65.0            alto
## 4  4      50.0            alto
## 5  5      65.0            alto
## 6  6      40.0            alto
altoN <- subset(mate, nivel_educativo == 'alto')
lillie.test(altoN$punt_mate)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  altoN$punt_mate
## D = 0.14, p-value = 0.006411
bajoN <- subset(mate, nivel_educativo == 'bajo')
lillie.test(bajoN$punt_mate)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  bajoN$punt_mate
## D = 0.086721, p-value = 0.1188

se tiene que probar la normalidad y homogeneidad dentro de cada grupo