library(readr)
library(ggplot2)
library("psych")
## Warning: package 'psych' was built under R version 4.3.1
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
library("nortest")

documentoData <- read.csv("Sleep_Efficiency.csv")
felicidadMundial <- read.csv("world_happiness_2016.csv")

PEP 2

1. Instrucciones

Este documento contiene las instrucciones y enunciados asociados a la Prueba Especial Programada (PEP) del curso de Estadística Computacional modalidad vespertina. Con respecto a ello:

  • La prueba tiene un total de 60 puntos, lo que sumado al puntaje base permitirá calcular directamente su nota final sumando un máximo de 70 puntos.
  • Se dispone de todo el bloque de clases para realizar la evaluación. Esta deberá ser desarrollada en R.
  • Las respuestas escritas empleando RMarkdown deberán ser enviadas al profesor por correo electrónico al finalizar el tiempo de evaluación.
  • Puede usar apuntes y material disponible en Moodle como apoyo.
  • Cualquier sospecha de falta ética será castigada directamente con nota 1.0 en la evaluación.
  • En cada caso, no responda sólo numéricamente, sino que contextualice su respuesta para el problema. Esto puede ser al final de cada pregunta.

2. Preguntas

Pregunta 1 - (20 puntos)

La siguiente base de datos muestra informacion sobre un grupo de sujetos de prueba a los cuales se les realizaron mediciones de diferentes patrones del sueño con la finalidad de identificar la calidad y eficiencia de sus horas de descanso. Considerando estos datos responda las siguientes preguntas:

Preguntas

  1. Compare las horas de sueño entre hombres y mujeres usando valores estadisticos.
  2. Compuebe que tipos de pruebas se pueden realizar en los datos estudiados (Parametricas o no parametricas).
  3. Los datos muestran que no existe gran diferencia entre la mediana de las horas de sueño de hombres y mujeres. Evalue la información descrita.

Respuestas

Los siguientes corresponden a los valores estadisticos de los datos de horas de sueño entre hombres y mujeres: Desde estos datos podemos observar que las mujeres tienen una media de 7.5, mientras que los hombres tiene una media de 7.43. Esto implica que, en promedio, los valores de horas de sueño en mujeres son ligeramente mayores que los de hombres. Sin embargo, la diferencia es pequeña. Por otro lado la mediana tiene el mismo valor para ambos grupos, la desviacion también es igual en ambos casos. Sin embargo, los valores de medida de forma presentan algunas diferencias, como el coeficiente de simetria que el caso de mujeres presenta el valor de 0.05 lo que sugiere una ligera asimetría hacia la derecha en la distribución de datos, esto indica una pequeña tendencia hacia valores más altos, por el contrario en hombres el coeficiente es de -0.02 que muestra una asimetria hacia la izquierda, mostrando un ligera tendencia hacia valores más bajos.

Gráfico
g=ggplot(documentoData, aes(Gender,Sleep.duration)) +  geom_boxplot(fill = "paleturquoise", color = "cadetblue4") + 
  labs(x="Sexo biológico", y="Horas de sueño") +
  theme_bw() +
  theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank()) + theme(text = element_text(size = 12)) 
plot(g)

Parte a
estadisticos=describeBy(documentoData$Sleep.duration, documentoData$Gender, mat = F)
print(estadisticos)
## 
##  Descriptive statistics by group 
## group: Female
##    vars   n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 224  7.5 0.87    7.5     7.5 0.74   5  10     5 0.05     0.92 0.06
## ------------------------------------------------------------ 
## group: Male
##    vars   n mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 228 7.43 0.87    7.5    7.44 0.74   5  10     5 -0.02     1.03 0.06
Parte b
#Evaluación de normalidad
#Pruebas de hipótesis
t1a=lillie.test(documentoData$Sleep.duration)
t1b=shapiro.test(documentoData$Sleep.duration)
print(t1a)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  documentoData$Sleep.duration
## D = 0.19594, p-value < 2.2e-16
print(t1b)
## 
##  Shapiro-Wilk normality test
## 
## data:  documentoData$Sleep.duration
## W = 0.92995, p-value = 1.04e-13
#Evaluar normalidad con gráfico QQplot
qqnorm(documentoData$Sleep.duration, pch = 19, col = "gray50")
qqline(documentoData$Sleep.duration)

A partir de los resultados obtenidos con los test y de forma gráfica podemos observar que las distribuciones utilizadas no corresponden a distribuciones normales, por lo que se utilizarán herramientas No paramétricas.

Parte c
#Prueba Wilcoxon rank-sum para pruebas no paramétricas


res = wilcox.test(Sleep.duration ~ Gender, data = documentoData,conf.level = 0.95,
                  exact = FALSE,paired = F)
print(res)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Sleep.duration by Gender
## W = 26614, p-value = 0.4238
## alternative hypothesis: true location shift is not equal to 0

Considerando un grado de confianza del 95% (p<0.05) y los resultados obtenidos en el p-value, se rechaza la hipotesis nula y se concluye que si existe diferencia entre los valores de sueño de hombres y mujeres.

Pregunta 2 - (20 puntos)

Continuamente las naciones unidas, espedificamente la Red de soluciones de desarrollo sostenible clasifica los paises segun sus niveles de felicidad, la publicacion de estos datos corresponde al informe mundial de la felicidad https://www.kaggle.com/datasets/bhanupratapbiswas/world-happiness-2016

Preguntas

  1. Proponga un modelo de regresión lineal que relacione el indice de felicidad y la renta percapita. Evalúe el modelo usando los criterios de calidad visto en clases.

Respuestas

Parte a
#--------------------------
#Regresión lineal
#--------------------------
fit_linear = lm(Happiness.Score ~ Economy..GDP.per.Capita.,felicidadMundial)
print(fit_linear)
## 
## Call:
## lm(formula = Happiness.Score ~ Economy..GDP.per.Capita., data = felicidadMundial)
## 
## Coefficients:
##              (Intercept)  Economy..GDP.per.Capita.  
##                    3.296                     2.187
print(summary(fit_linear))
## 
## Call:
## lm(formula = Happiness.Score ~ Economy..GDP.per.Capita., data = felicidadMundial)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.86118 -0.45634 -0.02735  0.54094  2.14382 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                3.2962     0.1415   23.30   <2e-16 ***
## Economy..GDP.per.Capita.   2.1869     0.1362   16.06   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7017 on 155 degrees of freedom
## Multiple R-squared:  0.6246, Adjusted R-squared:  0.6222 
## F-statistic: 257.9 on 1 and 155 DF,  p-value: < 2.2e-16

De los valores obtenidos podemos observar que los valores del coeficiente de regresion lineal corresponden a 2.18 lo que indica que existe una relacion positiva entre las variables sin embargo escapa de ser perfecta, por otro lado a partir del valor de p-value podemos concluir que existe relacion entre las variables analizadas.

Referencias