#Población:Conjunto completo de elementos o individuos que comparten una característica.
#Muestra:Se usa para hacer inferencias sobre la población sin estudiarla completamente solo una pequeña parte.
#Parámetro:Es un valor numerico representativo respecto a la población.
#Estadístico:Medida calculada a partir de una muestra.
#Error de muestreo:Se debe al hecho de trabajar con una muestra y no con toda la población.
#Nivel de significancia (α):Valor umbral para decidir si un resultado es estadísticamente significativo.
#Distribución muestral:Distribución de un estadístico calculado en múltiples muestras.
#Pruebas de normalidad:
#Shapiro-Wilk:Evalúa si una muestra tiene de una distribución normal y capta pequeñas desviaciones en la normalidad.
#Kolmogorov-Smirnov:Es útil para datos continuos y tiene una versión para muestras pequeñas.
#Gráfico de dispersión (plot):Representación gráfica de dos variables, permite visualizar la relación entre ambas.
#Correlación
#Pearson:Mide la relación lineal entre dos variables continuas.
#Spearman:Mide la relación monotomica entre variables usando rangos.
#Kendall:Mide la concordancia entre dos variables ordinales,se basa en pares ordenados concordantes y discordantes.
#Prueba de hipótesis:Compara los datos con lo esperado bajo una hipótesis nula.
#Hipótesis Nula (H₀):Representa una situación de no efecto o no diferencia.
#Hipótesis Alterna (H₁):Representa un efecto o diferencia significativa.
#Valor-p: Probabilidad de obtener un resultado igual a la hipotesis nula, asumiendo que H₀ es verdadera.
#Intervalo de confianza:Es un rango de valores dentro del cual se espera que esté el parámetro poblacional se expresa normalmente con un porcentaje.
#Pruebas para datos paramétricos:Pruebas estadísticas que asumen que los datos siguen una distribución específica (normal generalmente).
#Pruebas para datos no paramétricos:Son pruebas estadísticas que no requieren supuestos sobre la distribución de los datos, como la normalidad.
Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar
Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
Verificar si ambas variables se distribuyen normalmente con shapiro.test().
Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.
Horas_usodelcelular <- c(18.2 ,23.5 ,15.6 ,21.6 ,18.9 ,16.7 ,24.9 ,20.5 ,23.1 ,22.2,
14.3 ,19.7 ,22.6 ,26.3 ,20.1 ,21.9 ,18.4 ,23.8 ,20.7 ,21.8, 22.5 ,17.6 ,19.3 ,20.0 ,16.4, 25.6 ,19.8 ,18.0 ,24.2 ,22.7,20.9 ,19.5 ,15.9 ,23.0 ,21.3 ,13.8 ,27.1 ,21.0 ,17.2 ,22.0)
Puntaje_examen <- c( 73.6 ,70.9 ,66.4 ,72.3 ,70.5 ,74.5, 67.9, 70.8, 73.2 ,66.9, 70.6, 75.3, 69.3, 72.3 ,70.9, 66.5, 73.3 ,69.8, 75.5, 69.6, 65.9, 66.5 ,60.4, 65.7, 65.5, 68.4, 63.5, 63.2,61.3 ,61.5, 64.5, 67.2 ,64.6, 62.6, 66.5 ,61.4 ,69.8, 63.2 ,64.8, 68.4)
dat<- data.frame(Horas_usodelcelular,Puntaje_examen)
shapiro.test(Horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: Horas_usodelcelular
## W = 0.99045, p-value = 0.9798
shapiro.test(Puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: Puntaje_examen
## W = 0.97303, p-value = 0.4464
cor.test(Horas_usodelcelular,Puntaje_examen, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: Horas_usodelcelular and Puntaje_examen
## t = 0.67636, df = 38, p-value = 0.5029
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2095633 0.4067557
## sample estimates:
## cor
## 0.1090659
¿Existe una relación significativa entre horas de estudio y puntaje?
#Si hay una correlación positiva debil
¿La relación es positiva o negativa?
#La relación es positiva
Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:
Plantea las hipótesis nula y alterna:
Verifica la normalidad de los datos:
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
hist( Horas_usodelcelular,
col="yellow",main="Horas_usodelcelular",
xlab="Horas uso celular")
hist( Puntaje_examen,
col="yellow",main="Punatje Examen",
xlab="Puntaje Examen")
Con los histogramas se puede ver que existe una distribución normal
Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).
Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
Notas <- c(1.8 ,2.3,3.4 ,4.3,2.8 ,3.7, 4.1 ,1.9, 4.9, 3.0 ,2.1 ,4.4 ,3.8, 1.4 ,2.9 ,3.1, 4.8 ,2.5 ,1.7,3.5, 4.0 ,2.7, 1.2 ,3.9,4.6, 2.0, 3.3, 1.5 ,4.2, 3.6)
shapiro.test(Notas)
##
## Shapiro-Wilk normality test
##
## data: Notas
## W = 0.96127, p-value = 0.3336
Los datos sigure una distribución normal