Estadistica descriptiva

En el primer paso estudiaremos el conjuntos de datos desde el punto de vista de la Estadística Descriptiva, para ello construiremos un gráfico de caja, obteniendo algunas medidas de centralidad y dispersión.

library(readxl)
Invento <- read_excel("C:/Users/Carlo/OneDrive/Escritorio/Usach/2 Years/Analisis Estadistico/Invento.xlsx")
print(Invento)
## # A tibble: 64 x 3
##     Peso Medicamento grasa
##    <dbl> <chr>       <dbl>
##  1    60 AG            0.5
##  2    64 AG            0.5
##  3    68 AG            0.5
##  4    80 AG            0.5
##  5    97 AG            0.5
##  6   120 AG            0.5
##  7   100 AG            0.5
##  8    85 AG            0.5
##  9    94 AG            0.5
## 10    98 AG            0.5
## # ... with 54 more rows
Peso <- Invento$Peso
Medicamento <- Invento$Medicamento

#Construcción de Gráfico de Caja
library("ggplot2")
g=ggplot(Invento, aes(Medicamento,Peso)) +  geom_boxplot(fill = "paleturquoise", color = "cadetblue4") + 
  labs(x="Medicamento", y="Peso") +
  theme_bw() +
  theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12)) 
plot(g)

Los datos presentados corresponden a una tabla inventada, con datos aleatorios, se someten distintas personas de distinto peso, a experimento sobro medicamentos PS y AG, Ps = Placebo y AG = Eliminador de grasas, lo que busca nuestra farmaceutica es buscar la solucion al comer mucho genera sobre peso.

Evaluación de supuestos paramétricos

## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
## 
##  Descriptive statistics by group 
## group: AG
##    vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
## X1    1 31 88.84 16.41     88   88.28 16.31  60 130    70 0.27    -0.36 2.95
## ------------------------------------------------------------ 
## group: PS
##    vars  n  mean   sd median trimmed   mad min max range skew kurtosis   se
## X1    1 33 86.24 21.7     78   85.44 17.79  45 130    85 0.37    -0.69 3.78

Evaluación de supuesto de normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Invento$Peso
## D = 0.13965, p-value = 0.003386
t1a=lillie.test(Invento$Peso[which(Invento$Medicamento=="AG")])
t1b=shapiro.test(Invento$Peso[which(Invento$Medicamento=="AG")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Invento$Peso[which(Invento$Medicamento == "AG")]
## D = 0.14212, p-value = 0.114
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  Invento$Peso[which(Invento$Medicamento == "AG")]
## W = 0.95842, p-value = 0.2648
t1a=lillie.test(Invento$Peso[which(Invento$Medicamento=="PS")])
t1b=shapiro.test(Invento$Peso[which(Invento$Medicamento=="PS")])
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Invento$Peso[which(Invento$Medicamento == "PS")]
## D = 0.20648, p-value = 0.001009
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  Invento$Peso[which(Invento$Medicamento == "PS")]
## W = 0.9475, p-value = 0.1125

Las pruebas de contraste indican que la distribución indicada no es normal. Podemos complementar el análisis con un gráfico QQ.

#QQplot
qqnorm(Invento$Peso, pch = 19, col = "gray50")
qqline(Invento$Peso)

Podemos aplicar la prueba F para evaluar el principio de homocedasticidad. En este caso ambos conjuntos tienen varianza homogénea.

#Prueba F
t1 = var.test(Invento$Peso[which(Invento$Medicamento=="AG")],Invento$Peso[which(Invento$Medicamento=="PS")],conf.level=0.95)
print(t1)
## 
##  F test to compare two variances
## 
## data:  Invento$Peso[which(Invento$Medicamento == "AG")] and Invento$Peso[which(Invento$Medicamento == "PS")]
## F = 0.572, num df = 30, denom df = 32, p-value = 0.1276
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2802754 1.1771636
## sample estimates:
## ratio of variances 
##          0.5719962

Aplicamos la prueba Wilcoxon test, evaluando sobre la media, esta prueba se realiza sobre datos NO parametricos, con dos muestras NO pareadas ( Paired t test), nivel de confianza del 95% (p<0.05).

#Prueba Wilcoxon rank-sum

res = wilcox.test(Peso ~ Medicamento, data = Invento,conf.level = 0.95,
                   exact = FALSE,paired = F)
print(res)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Peso by Medicamento
## W = 565.5, p-value = 0.4718
## alternative hypothesis: true location shift is not equal to 0

Dado el resultado se puede concluir que el medicamento no tiene efectividad sobre la poblacion muestral.