En la tabla de datos disponible aquí se encuentran datos de las estaturas de un grupo anterior de la especialización en estadística aplicada
library(readxl)
library(dplyr)
taller3 <- read_excel("taller3.xlsx")
Femenino<- taller3 %>% filter(Genero=="1")
Masculino<- taller3 %>% filter(Genero=="0")
Estime la media, desviación estándar de cada género y la proporción de hombres y mujeres del curso.
mean(Femenino$Estatura) # Media de la estatura de las mujeres
## [1] 161.6667
mean(Masculino$Estatura) # Media de la estatura de los hombres
## [1] 174
sd(Femenino$Estatura) # Desviación estandar de la estatura de las mujeres
## [1] 5.046451
sd(Masculino$Estatura) # Desviación estandar de la estatura de los hombres
## [1] 4.690416
tabla <- table(taller3$Genero)
prop.table(tabla)
##
## 0 1
## 0.7272727 0.2727273
Escriba la hipótesis nula y alternativa de la estatura de cada género con referencia al artículo del Tiempo.
\[ H_o: \mu=1.72\\ H_a: \mu<1.72\\ \]
Realizar los respectivos contrastes y concluir
#Hombres
library(tigerstats)
ttestGC(~Estatura,data=Masculino, mu=172,
alternative="less",graph=TRUE)
##
##
## Inferential Procedures for One Mean mu:
##
##
## Descriptive Results:
##
## variable mean sd n
## Estatura 174.000 4.690 16
##
##
## Inferential Results:
##
## Estimate of mu: 174
## SE(x.bar): 1.173
##
## 95% Confidence Interval for mu:
##
## lower.bound upper.bound
## -Inf 176.055634
##
## Test of Significance:
##
## H_0: mu = 172
## H_a: mu < 172
##
## Test Statistic: t = 1.706
## Degrees of Freedom: 15
## P-value: P = 0.9457
\[ H_o:\mu=1.60\\ H_a: \mu<1.60\\ \]
#Mujeres
ttestGC(~Estatura,data=Femenino, mu=160,
alternative="less",graph=TRUE)
##
##
## Inferential Procedures for One Mean mu:
##
##
## Descriptive Results:
##
## variable mean sd n
## Estatura 161.667 5.046 6
##
##
## Inferential Results:
##
## Estimate of mu: 161.7
## SE(x.bar): 2.06
##
## 95% Confidence Interval for mu:
##
## lower.bound upper.bound
## -Inf 165.818079
##
## Test of Significance:
##
## H_0: mu = 160
## H_a: mu < 160
##
## Test Statistic: t = 0.809
## Degrees of Freedom: 5
## P-value: P = 0.7724
Teniendo en cuenta que el Pvalor de los hombres y de las mujeres es mayor a un nivel de significacia de 0.05 no tenemos evidencia estadística para rechazar las dos hipótesis nulas.
Ahora ponga a prueba la hipótesis de diferencia de altura de ambos géneros en el curso. para ver si la altura media de las mujeres es igual a la altura media de los hombres.
\[ H_o:\mu\ Mujeres= \mu\ Hombres\\ H_a: \mu\ Mujeres - \mu\ Hombres\ < 0 \\ \]
Concluya y escriba las consecuencias de la decisión
t.test(Femenino$Estatura, Masculino$Estatura, alternative="less")
##
## Welch Two Sample t-test
##
## data: Femenino$Estatura and Masculino$Estatura
## t = -5.2028, df = 8.468, p-value = 0.0003418
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -7.956585
## sample estimates:
## mean of x mean of y
## 161.6667 174.0000
Teniendo en cuenta el pvalor se rechaza la Hipotesis nula en favor de la hipótesis alternativa, es decir la diferencia entre la media de altura de las mujeres menos la media de altura de los hombres es menor a 0.
Considere el conjunto de datos en Kaggle sobre Datos reales sobre el cáncer de mama aquí
Realizar un análisis descriptivo (numérico, gráfico,…) de por lo menos dos variables y comente sus resultados
Especifique una prueba de hipótesis, contratela y concluya
library(readr)
BRCA <- read_csv("BRCA.csv")
View(BRCA)
EtapaI<-BRCA %>% filter(Tumour_Stage=="I")
EtapaII<-BRCA %>% filter(Tumour_Stage=="II")
EtapaIII<-BRCA %>% filter(Tumour_Stage=="III")
library(dplyr)
library(PASWR2)
eda(EtapaI$Age)
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 64.000 0.000 29.000 52.000 62.359 61.500 62.552 75.250
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 89.000 14.202 201.694 1.775 23.250 60.000 -0.692 -0.093
## SW p-val
## 0.476
eda(EtapaII$Age)
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 189.000 0.000 29.000 50.000 59.053 59.000 58.813 68.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 88.000 12.580 158.263 0.915 18.000 59.000 -0.630 0.257
## SW p-val
## 0.022
eda(EtapaIII$Age)
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 81.000 0.000 36.000 47.000 55.753 53.000 55.192 62.000
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 90.000 12.201 148.863 1.356 15.000 54.000 0.092 0.708
## SW p-val
## 0.004
Con el conjunto de datos de cancer de mamá, se realiza una prueba de significación para ver si la edad media de las personas en Etapa I es igual a la edad media de las personas en Etapa II, a un nivel de significación = 0,05, donde ahora las varianzas son desconocidas pero desiguales.
\[ H_o:\mu\ Etapa I= \mu\ EtapaII \\ H_a: \mu\ Etapa I - \mu\ Etapa II \ < 0 \\ \]
t.test(EtapaI$Age, EtapaII$Age, alternative="less")
##
## Welch Two Sample t-test
##
## data: EtapaI$Age and EtapaII$Age
## t = 1.6555, df = 98.594, p-value = 0.9495
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf 6.622742
## sample estimates:
## mean of x mean of y
## 62.35938 59.05291
Teniendo en cuenta el Pvalor y un valor de significación de 0.05, no tenemos evidencia estadística para rechazar la hipotesis nula.