## Warning: package 'psych' was built under R version 4.3.1
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library("nortest")
documentoData <- read.csv("Sleep_Efficiency.csv")
felicidadMundial <- read.csv("world_happiness_2016.csv")Este documento contiene las instrucciones y enunciados asociados a la Prueba Especial Programada (PEP) del curso de Estadística Computacional modalidad vespertina. Con respecto a ello:
La siguiente base de datos muestra informacion sobre un grupo de sujetos de prueba a los cuales se les realizaron mediciones de diferentes patrones del sueño con la finalidad de identificar la calidad y eficiencia de sus horas de descanso. Considerando estos datos responda las siguientes preguntas:
Los siguientes corresponden a los valores estadisticos de los datos de horas de sueño entre hombres y mujeres: Desde estos datos podemos observar que las mujeres tienen una media de 7.5, mientras que los hombres tiene una media de 7.43. Esto implica que, en promedio, los valores de horas de sueño en mujeres son ligeramente mayores que los de hombres. Sin embargo, la diferencia es pequeña. Por otro lado la mediana tiene el mismo valor para ambos grupos, la desviacion también es igual en ambos casos. Sin embargo, los valores de medida de forma presentan algunas diferencias, como el coeficiente de simetria que el caso de mujeres presenta el valor de 0.05 lo que sugiere una ligera asimetría hacia la derecha en la distribución de datos, esto indica una pequeña tendencia hacia valores más altos, por el contrario en hombres el coeficiente es de -0.02 que muestra una asimetria hacia la izquierda, mostrando un ligera tendencia hacia valores más bajos.
g=ggplot(documentoData, aes(Gender,Sleep.duration)) + geom_boxplot(fill = "paleturquoise", color = "cadetblue4") +
labs(x="Sexo biológico", y="Horas de sueño") +
theme_bw() +
theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12))
plot(g)estadisticos=describeBy(documentoData$Sleep.duration, documentoData$Gender, mat = F)
print(estadisticos)##
## Descriptive statistics by group
## group: Female
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 224 7.5 0.87 7.5 7.5 0.74 5 10 5 0.05 0.92 0.06
## ------------------------------------------------------------
## group: Male
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 228 7.43 0.87 7.5 7.44 0.74 5 10 5 -0.02 1.03 0.06
#Evaluación de normalidad
#Pruebas de hipótesis
t1a=lillie.test(documentoData$Sleep.duration)
t1b=shapiro.test(documentoData$Sleep.duration)
print(t1a)##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: documentoData$Sleep.duration
## D = 0.19594, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: documentoData$Sleep.duration
## W = 0.92995, p-value = 1.04e-13
#Evaluar normalidad con gráfico QQplot
qqnorm(documentoData$Sleep.duration, pch = 19, col = "gray50")
qqline(documentoData$Sleep.duration)A partir de los resultados obtenidos con los test y de forma gráfica podemos observar que las distribuciones utilizadas no corresponden a distribuciones normales, por lo que se utilizarán herramientas No paramétricas.
#Prueba Wilcoxon rank-sum para pruebas no paramétricas
res = wilcox.test(Sleep.duration ~ Gender, data = documentoData,conf.level = 0.95,
exact = FALSE,paired = F)
print(res)##
## Wilcoxon rank sum test with continuity correction
##
## data: Sleep.duration by Gender
## W = 26614, p-value = 0.4238
## alternative hypothesis: true location shift is not equal to 0
Considerando un grado de confianza del 95% (p<0.05) y los resultados obtenidos en el p-value, se rechaza la hipotesis nula y se concluye que si existe diferencia entre los valores de sueño de hombres y mujeres.
Continuamente las naciones unidas, espedificamente la Red de soluciones de desarrollo sostenible clasifica los paises segun sus niveles de felicidad, la publicacion de estos datos corresponde al informe mundial de la felicidad https://www.kaggle.com/datasets/bhanupratapbiswas/world-happiness-2016
#--------------------------
#Regresión lineal
#--------------------------
fit_linear = lm(Happiness.Score ~ Economy..GDP.per.Capita.,felicidadMundial)
print(fit_linear)##
## Call:
## lm(formula = Happiness.Score ~ Economy..GDP.per.Capita., data = felicidadMundial)
##
## Coefficients:
## (Intercept) Economy..GDP.per.Capita.
## 3.296 2.187
##
## Call:
## lm(formula = Happiness.Score ~ Economy..GDP.per.Capita., data = felicidadMundial)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.86118 -0.45634 -0.02735 0.54094 2.14382
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.2962 0.1415 23.30 <2e-16 ***
## Economy..GDP.per.Capita. 2.1869 0.1362 16.06 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7017 on 155 degrees of freedom
## Multiple R-squared: 0.6246, Adjusted R-squared: 0.6222
## F-statistic: 257.9 on 1 and 155 DF, p-value: < 2.2e-16
De los valores obtenidos podemos observar que los valores del coeficiente de regresion lineal corresponden a 2.18 lo que indica que existe una relacion positiva entre las variables sin embargo escapa de ser perfecta, por otro lado a partir del valor de p-value podemos concluir que existe relacion entre las variables analizadas.