1. Revisar los datos

En la tabla de datos disponible aquí se encuentran datos de las estaturas de un grupo anterior de la especialización en estadística aplicada

library(readxl)
library(dplyr)
taller3 <- read_excel("taller3.xlsx")

Femenino<- taller3 %>% filter(Genero=="1")
Masculino<- taller3 %>% filter(Genero=="0")

2. Estimación de parámetros

Estime la media, desviación estándar de cada género y la proporción de hombres y mujeres del curso.

mean(Femenino$Estatura) # Media de la estatura de las mujeres
## [1] 161.6667
mean(Masculino$Estatura) # Media de la estatura de los hombres
## [1] 174
sd(Femenino$Estatura) # Desviación estandar de la estatura de las mujeres
## [1] 5.046451
sd(Masculino$Estatura) # Desviación estandar de la estatura de los hombres
## [1] 4.690416
tabla <- table(taller3$Genero)
prop.table(tabla)
## 
##         0         1 
## 0.7272727 0.2727273

3. Hipótesis

Escriba la hipótesis nula y alternativa de la estatura de cada género con referencia al artículo del Tiempo.

\[ H_o: \mu=1.72\\ H_a: \mu<1.72\\ \]

Realizar los respectivos contrastes y concluir

#Hombres

library(tigerstats)
ttestGC(~Estatura,data=Masculino, mu=172,
        alternative="less",graph=TRUE)
## 
## 
## Inferential Procedures for One Mean mu:
## 
## 
## Descriptive Results:
## 
## variable  mean     sd       n          
## Estatura  174.000  4.690    16         
## 
## 
## Inferential Results:
## 
## Estimate of mu:   174 
## SE(x.bar):    1.173 
## 
## 95% Confidence Interval for mu:
## 
##           lower.bound         upper.bound          
##           -Inf                176.055634           
## 
## Test of Significance:
## 
##  H_0:  mu = 172 
##  H_a:  mu < 172 
## 
##  Test Statistic:     t = 1.706 
##  Degrees of Freedom:   15 
##  P-value:        P = 0.9457

\[ H_o:\mu=1.60\\ H_a: \mu<1.60\\ \]

#Mujeres

ttestGC(~Estatura,data=Femenino, mu=160,
        alternative="less",graph=TRUE)
## 
## 
## Inferential Procedures for One Mean mu:
## 
## 
## Descriptive Results:
## 
## variable  mean     sd       n          
## Estatura  161.667  5.046    6          
## 
## 
## Inferential Results:
## 
## Estimate of mu:   161.7 
## SE(x.bar):    2.06 
## 
## 95% Confidence Interval for mu:
## 
##           lower.bound         upper.bound          
##           -Inf                165.818079           
## 
## Test of Significance:
## 
##  H_0:  mu = 160 
##  H_a:  mu < 160 
## 
##  Test Statistic:     t = 0.809 
##  Degrees of Freedom:   5 
##  P-value:        P = 0.7724

CONCLUSIÓN PUNTO 3.

Teniendo en cuenta que el Pvalor de los hombres y de las mujeres es mayor a un nivel de significacia de 0.05 no tenemos evidencia estadística para rechazar las dos hipótesis nulas.

4 .Hipótesis diferencia de estatura entre géneros

Ahora ponga a prueba la hipótesis de diferencia de altura de ambos géneros en el curso. para ver si la altura media de las mujeres es igual a la altura media de los hombres.

\[ H_o:\mu\ Mujeres= \mu\ Hombres\\ H_a: \mu\ Mujeres - \mu\ Hombres\ < 0 \\ \]

Concluya y escriba las consecuencias de la decisión

t.test(Femenino$Estatura, Masculino$Estatura, alternative="less")
## 
##  Welch Two Sample t-test
## 
## data:  Femenino$Estatura and Masculino$Estatura
## t = -5.2028, df = 8.468, p-value = 0.0003418
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -7.956585
## sample estimates:
## mean of x mean of y 
##  161.6667  174.0000

CONCLUSIÓN PUNTO 4.

Teniendo en cuenta el pvalor se rechaza la Hipotesis nula en favor de la hipótesis alternativa, es decir la diferencia entre la media de altura de las mujeres menos la media de altura de los hombres es menor a 0.

5. Cáncer de mama

Considere el conjunto de datos en Kaggle sobre Datos reales sobre el cáncer de mama aquí

library(readr)
BRCA <- read_csv("BRCA.csv")
View(BRCA)
EtapaI<-BRCA %>% filter(Tumour_Stage=="I")
EtapaII<-BRCA %>% filter(Tumour_Stage=="II")
EtapaIII<-BRCA %>% filter(Tumour_Stage=="III") 

library(dplyr)
library(PASWR2)

eda(EtapaI$Age)

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   64.000    0.000   29.000   52.000   62.359   61.500   62.552   75.250 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   89.000   14.202  201.694    1.775   23.250   60.000   -0.692   -0.093 
## SW p-val 
##    0.476
eda(EtapaII$Age)

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##  189.000    0.000   29.000   50.000   59.053   59.000   58.813   68.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   88.000   12.580  158.263    0.915   18.000   59.000   -0.630    0.257 
## SW p-val 
##    0.022
eda(EtapaIII$Age)

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   81.000    0.000   36.000   47.000   55.753   53.000   55.192   62.000 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   90.000   12.201  148.863    1.356   15.000   54.000    0.092    0.708 
## SW p-val 
##    0.004

Prueba de hipotesis.

Con el conjunto de datos de cancer de mamá, se realiza una prueba de significación para ver si la edad media de las personas en Etapa I es igual a la edad media de las personas en Etapa II, a un nivel de significación = 0,05, donde ahora las varianzas son desconocidas pero desiguales.

\[ H_o:\mu\ Etapa I= \mu\ EtapaII \\ H_a: \mu\ Etapa I - \mu\ Etapa II \ < 0 \\ \]

t.test(EtapaI$Age, EtapaII$Age, alternative="less")
## 
##  Welch Two Sample t-test
## 
## data:  EtapaI$Age and EtapaII$Age
## t = 1.6555, df = 98.594, p-value = 0.9495
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 6.622742
## sample estimates:
## mean of x mean of y 
##  62.35938  59.05291

Conclusión.

Teniendo en cuenta el Pvalor y un valor de significación de 0.05, no tenemos evidencia estadística para rechazar la hipotesis nula.