La poblacion es el conjunto total de los individuos u objetos que se desean estudiar, para asi obtener informacion.
Es un subconjunto representativo de la poblacion , que se elije para hacer el estudio.
Es un numero que describe a toda la poblacion (como el promedio de todos)
Es el numero que describe solo la muestra
Diferencia entre el parametro poblacional y estadistico, es decir, el resultado de la muestra y el verdadero valor de la poblacion.
El nivel de significancia es la probabilidad de rechazar la hipotesis nula siendo verdadera ; usualmente es de 0.05 o 0.01
Es la forma en que cambian los valores de un estadístico (como un promedio o una proporción) cuando repetimos un estudio muchas veces con diferentes muestras de la misma población.
Es una técnica estadística que se usa para comprobar si los datos siguen una distribución normal (en forma de campana).
Sirve para decidir qué tipo de análisis estadístico es el más adecuado para esos datos.
Prueba que evalua si los datos siguen una distribucion normal, recomendada para muestras pequeñas.
Interpretacion
• si el valor-p > 0.05, entonces los datos si son normales.
• si el valor-p <= 0.05, entonces los datos no son normales
Prueba que compara los datos con una distribucion normal ideal, se usa con muestras grandes, aunque puede usarse en general
Interpretacion
• si el valor-p > 0.05, entonces los datos si son normales.
• si el valor-p <= 0.05, entonces los datos no son normales
Representacion grafica que muestra puntos en el plano, y sirve para ver cómo se relacionan dos variables.
La correlación es una medida que nos dice qué tan relacionada está una variable con otra, y se refleja en el patrón de puntos de un gráfico de dispersión
Mide la relacion lineal entre dos variables continuas. Es útil cuando las variables son normales o aproximadamente normales (siguen una distribución tipo campana) y tienen una relación lineal
Mide la relación monótona (no necesariamente lineal) entre dos variables, usando rangos Es útil cuando las variables no siguen una distribución normal o cuando la relación no es lineal. Además, no se basa en el valor exacto de los datos, sino en sus rangos.
Mide la concordancia entre pares de datos, util con muestras pequeñas
Va de [-1,1]
• +1: correlacion perfectamente positiva
•0: No hay correlacion
• -1: correlacion perfectamente negativa
Una prueba de hipótesis es un procedimiento estadístico que nos ayuda a tomar decisiones sobre una población basándonos en los datos de una muestra.
Afirmacion que se pone a prueba y generalmente propone ausencia de defecto o diferencia.
Afirmacion que contradice la hipotesis nula; propone que si hay efecto o diferencia.
Probabilidad de obtener resultados tan extremos como los observados, si la hipotesis nula es cierta.
Rango de valores dentro del cual se espera que se encuentre el parametro poblacional con ciertas probabilidades (Por ejemplo 95%)
Pruebas estadisticas que se asumen una distribucion especificas, generalmente normal (ej.t de Student).
Pruebas que no asumen distribucion especifica de los datos(ej.U Mann-Whitney, prueba de Kruskal-Wallis)
A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:
Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar
• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
set.seed(123)
horas_usodelcelular <- round(runif(40, min = 1, max = 10), 1)
puntaje_examen <- round(runif(40, min = 0, max = 5), 1)
print(horas_usodelcelular)
## [1] 3.6 8.1 4.7 8.9 9.5 1.4 5.8 9.0 6.0 5.1 9.6 5.1 7.1 6.2 1.9 9.1 3.2 1.4 4.0
## [20] 9.6 9.0 7.2 6.8 9.9 6.9 7.4 5.9 6.3 3.6 2.3 9.7 9.1 7.2 8.2 1.2 5.3 7.8 2.9
## [39] 3.9 3.1
print(puntaje_examen)
## [1] 0.7 2.1 2.1 1.8 0.8 0.7 1.2 2.3 1.3 4.3 0.2 2.2 4.0 0.6 2.8 1.0 0.6 3.8 4.5
## [20] 1.9 3.3 0.5 1.9 1.4 4.1 2.2 4.1 4.1 4.0 2.2 3.8 3.1 3.6 0.0 2.4 1.1 1.9 3.1
## [39] 1.8 0.6
• Verificar si ambas variables se distribuyen normalmente con shapiro.test().
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.9418, p-value = 0.03979
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.93856, p-value = 0.03092
• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.
Se observa que en ambas p < 0.05. Por tanto, no hay normalidad
cor.test(horas_usodelcelular,puntaje_examen, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: horas_usodelcelular and puntaje_examen
## S = 11943, p-value = 0.4594
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.1203795
• Interpretar: o ¿Existe una relación significativa entre horas de uso de celular y puntaje del examen?
el valor-p(0.4594) es mayor que 0.05, por lo tanto, no se puede afirmar que existe una relacion estadisticamente significativa entre hora de uso de celular y el puntaje del examen
o ¿La relación es positiva o negativa?
La relación es negativa por que rho es -0.1204. Esto sugiere que, en promedio, a mayor uso del celular, el puntaje tiende a disminuir, pero esta tendencia no es concluyente.
Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:
• Plantea las hipótesis nula y alterna:
Hipótesis nula (H₀): No existe correlación entre las horas de uso del celular y el puntaje del examen.
Hipótesis alternativa (H₁): Existe una correlación entre las horas de uso del celular y el puntaje del examen.
• Verifica la normalidad de los datos:
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.9418, p-value = 0.03979
shapiro.test(puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: puntaje_examen
## W = 0.93856, p-value = 0.03092
Para ambas variables p< 0.05 por lo que los datos no se distribuyen normalmente.
• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).
set.seed(123)
notas <- round(runif(30, min = 0, max = 5), 1)
print(notas)
## [1] 1.4 3.9 2.0 4.4 4.7 0.2 2.6 4.5 2.8 2.3 4.8 2.3 3.4 2.9 0.5 4.5 1.2 0.2 1.6
## [20] 4.8 4.4 3.5 3.2 5.0 3.3 3.5 2.7 3.0 1.4 0.7
• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
shapiro.test(notas)
##
## Shapiro-Wilk normality test
##
## data: notas
## W = 0.94557, p-value = 0.1285
Se observa que p > 0.05 por lo que los datos siguen una distribución normal