#Poblacion
Muestra: un subconjunto de la población
Parámetro: Valor numérico que describe una característica de una población.
Estadístico: cualquier valor calculado a partir de una muestra.
Error de muestreo: es la diferencia entre los valores del estadístico muestral y la poblacion total del estudio.
es la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando esta es verdadera
La distribución muestral es la distribución de un estadístico calculado a partir de muchas muestras aleatorias extraídas de una misma población
#Pruebas de normalidad
Shapiro-Wilk: Evalúa si una muestra tiene una distribución normal o no
Kolmogorov-Smirnov: se utiliza para decidir si una muestra proviene de una población con una distribución específica como la normal.
Gráfico que muestra la relación entre dos variables cuantitativas mediante puntos.
#Correlación
Pearson: indica si dos variables cuantitativas poseen correlacion, se utiliza cuando los datos se distribuyen de forma normal
spearman: evalua la correlacion entre dos variables, estas no necesariamente deben tener una distribucion normal
Kendall: mide la correlacion entre dos variables ordinales
#Prueba de hipótesis:
Prueba de hipótesis: Procedimiento estadístico para decidir si se acepta o rechaza una suposición sobre una población.
Hipótesis Nula (H₀): Afirmación que se somete a prueba, usualmente que no hay efecto o diferencia.
Hipótesis alterna (H₁): Contraparte de H₀, plantea que sí hay un efecto o diferencia.
Valor-p: Probabilidad de obtener resultados iguales o más extremos que los observados, si H₀ es verdadera.
Intervalo de confianza: Rango de valores donde probablemente se encuentra el parámetro poblacional, con un nivel de confianza dado (ej. 95%)
#Pruebas para datos paramétricos: Pruebas que asumen que los datos siguen una distribución específica, generalmente normal
#Prueba para datos no paramétricos: Pruebas que no requieren supuestos sobre la distribución de los datos
#Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes.Realizar
Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
horas_estudio <- c(9.56, 7.07, 9.36, 11.29, 6.67, 6.79, 7.43, 7.91, 7.44, 7.2,
10.29, 8.91, 9.32, 7.03, 7.59, 5.91, 8.71, 7.07, 6.83, 5.42,
7.53, 9.12, 6.92, 9.73, 8.53, 9.68, 7.24, 7.77, 7.59, 6.88,
10.82, 6.53, 6.96, 8.33, 7.91, 6.9, 9.15, 6.4, 8.91, 10.52)
puntaje_examen <- c(76.21, 73.64, 85.39, 71.85, 73.84, 66.2, 76.31, 75.35, 69.48, 74.28,
68.91, 77.18, 72.78, 82.35, 73.61, 64.77, 81.69, 75.94, 80.24, 67.63,
70.65, 80.6, 69.76, 82.86, 76.86, 82.71, 64.61, 75.41, 78.34, 67.82,
74.89, 79.46, 75.9, 72.82, 71.86, 79.38, 64.6, 70.1, 74.71, 70.12)
• Verificar si ambas variables se distribuyen normalmente con shapiro.test().
shapiro.test(horas_estudio)
##
## Shapiro-Wilk normality test
##
## data: horas_estudio
## W = 0.95364, p-value = 0.1012
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.98002, p-value = 0.6904
#ambas variables se distribuyen normalmente al ser su p-value > 0.05
• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.
cor.test(horas_estudio, puntaje_examen, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: horas_estudio and puntaje_examen
## t = 1.4057, df = 38, p-value = 0.1679
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.09581791 0.49925959
## sample estimates:
## cor
## 0.2223275
plot(horas_estudio, puntaje_examen)
• Interpretar: o ¿Existe una relación significativa entre horas de estudio y puntaje?
la correlacion es de 0.2223275 lo que significa que existe una correlacion muy debil, por lo que no existe evidencia estadistica suficiente para afirmar que estas dos variables poseen correlacion.
o ¿La relación es positiva o negativa?
La relacion es positiva lo que significa que de haber tendrian una relacion directamente proporcional
• Plantea las hipótesis nula y alterna: con respecto al ejercicio anterior las hipotesis serian las siguientes: Ho: las variables no poseen correlacion (p-value=0) H1: las variables si poseen correlacion (p-value≠0)
• Verifica la normalidad de los datos:
shapiro.test(horas_estudio)
##
## Shapiro-Wilk normality test
##
## data: horas_estudio
## W = 0.95364, p-value = 0.1012
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.98002, p-value = 0.6904
#ambas variables se distribullen de forma normal ya que su p-value >0.05
hist(horas_estudio, probability = TRUE, col = "lightblue", main = "Campana de Gauss horas de estudio",
xlab = "Valor", ylab = "Densidad")
curve(dnorm(x, mean = mean(horas_estudio), sd = sd(horas_estudio)),
col = "red", lwd = 2, add = TRUE)
hist(puntaje_examen, probability = TRUE, col = "lightblue", main = "Campana de Gauss puntaje examen",
xlab = "Valor", ylab = "Densidad")
curve(dnorm(x, mean = mean(puntaje_examen), sd = sd(puntaje_examen)),
col = "red", lwd = 2, add = TRUE)
• Simula o carga un conjunto de datos llamado notas (al menos 30
observaciones).
notas <- c(58.2, 65.4, 71.8, 69.3, 60.7, 72.5, 75.6, 66.0, 62.3, 68.1,
73.9, 64.7, 70.2, 59.8, 78.5, 61.4, 67.9, 69.0, 74.3, 60.9,
63.5, 65.8, 62.6, 76.1, 66.3, 68.9, 71.2, 64.1, 67.0, 69.7)
• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
shapiro.test(notas)
##
## Shapiro-Wilk normality test
##
## data: notas
## W = 0.9829, p-value = 0.8963
#si siguen una distribucion normal ya que p-value >0.05
hist(notas, probability = TRUE, col = "lightblue", main = "Campana de Gauss puntaje examen",
xlab = "Valor", ylab = "Densidad")
curve(dnorm(x, mean = mean(notas), sd = sd(notas)),
col = "red", lwd = 2, add = TRUE)