Busca y escribe una definicion corta (1 a 2 lineas) de los siguientes terminos relacionados con la estadistica inferencial.
Es un conjunto de datos con caracteristicas en comun de quienes se busca estudiar.
Es un subconjunto de los datos que representan la poblacion
Este es un valor que describe la caracteristica a estudiar de la poblacion
Este tambien es un valor numerico que describe la caracteristica a estudiar de la muestra de la poblacion
Es la diferencia entre el estadistico muestral y el valor del parametro poblacional.
Este es la probabilidad de cometer un error tipo I.
Estos son procedimientos que se utilizan para determinar si los datos siguen una distribucion normal estadisticamente, como los siguientes:
Esta prueba tiene como proposito evaluar si una muestra proviene de una poblacion con distribucion normal
Esta prueba en cambio compara la distribucion de los datos con una distribucion teorica, ejemplo la normal.
Es aquel grafico utilizado para visualizar la relacion entre dos variables
Esta medida indica la direccion y fuerza de la relacion entre dos variables
Esta correlacion mide la relacion lineal entre dos varibles
Esta correlacion mide la relacion monotona entre dos variables y hace el uso de rangos
En cambio esta correlacion mide la relacion de orden entre dos varibles
Es un procedimiento para determinar o tomar decisiones sobre una poblacion
Se dice que esta hipotesis es una afirmacion inicial, considerada verdadera hasta que se pueda demostrar lo contrario
Se dice que esta hipotesis es la negacion de la hipotesis nula o bien lo contrario
Este es el valor de probabilidad de obtener un resultado igual o mas extremo
Este intervalo de confianza es un rango de valores, del que se espera este un parametro poblacional con un cierto nivel de confianza.
Estas son cuando los datos cumplen ciertas caracteristicas como lo son: una distribucion normal, se trate de datos cuantitativos y las varianzas sean homogeneas
Estas son cuando los datos no tienen una distribucion normal y se basan mayormente en rangos y no en valores concretos
A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:
Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar
Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.
Verificar si ambas variables se distribuyen normalmente con shapiro.test().
Según el resultado de normalidad, elige la prueba de correlación adecuada: cor.test(…, method = “pearson”) si hay normalidad. Y cor.test(…, method = “spearman”) si no hay normalidad.
Interpretar: ¿Existe una relación entre horas de uso del celular y puntaje del examen? y ¿La relación es positiva o negativa?
horas_usodelcelular <- c(15, 32, 12, 13, 30, 19, 9, 22, 30, 5, 30, 13, 31, 23, 31, 23, 12, 23, 1, 20, 26, 28, 24, 5, 18, 4, 33, 28, 23, 2, 5, 24, 10, 25, 8, 8, 4, 27, 10, 31)
horas_usodelcelular
## [1] 15 32 12 13 30 19 9 22 30 5 30 13 31 23 31 23 12 23 1 20 26 28 24 5 18
## [26] 4 33 28 23 2 5 24 10 25 8 8 4 27 10 31
Puntaje_examen <- c( 2.7,0.8, 3.6, 3.8, 1.4, 2.5, 4.3, 2.8, 1.7, 4.9, 2.6, 4.5, 2.4, 3.1, 2.8, 3.1, 3.7, 3.4, 5.0, 3.1, 2.6, 2.4, 2.7, 4.8, 4.3, 4.5, 2.4, 3.1, 3.4, 4.7, 4.3, 3.1, 3.7, 2.6, 4.5, 4.4, 4.8, 2.3, 4.1, 2.4)
Puntaje_examen
## [1] 2.7 0.8 3.6 3.8 1.4 2.5 4.3 2.8 1.7 4.9 2.6 4.5 2.4 3.1 2.8 3.1 3.7 3.4 5.0
## [20] 3.1 2.6 2.4 2.7 4.8 4.3 4.5 2.4 3.1 3.4 4.7 4.3 3.1 3.7 2.6 4.5 4.4 4.8 2.3
## [39] 4.1 2.4
shapiro.test(horas_usodelcelular)
##
## Shapiro-Wilk normality test
##
## data: horas_usodelcelular
## W = 0.92288, p-value = 0.009494
shapiro.test(Puntaje_examen)
##
## Shapiro-Wilk normality test
##
## data: Puntaje_examen
## W = 0.956, p-value = 0.1221
Dados los resultados de normalidad haremos la prueba de correlacion con los dos metodos
cor.test(horas_usodelcelular, Puntaje_examen, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: horas_usodelcelular and Puntaje_examen
## t = -12.511, df = 38, p-value = 4.772e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9445894 -0.8125828
## sample estimates:
## cor
## -0.8970296
cor.test(horas_usodelcelular, Puntaje_examen, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, Puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: horas_usodelcelular and Puntaje_examen
## S = 20321, p-value = 8.669e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.9062797
Interpretando los resultados optenidos con la relacion entre las horas del uso del celular y el puntaje del examen notamos que la Correlacion es negativamente alta, es decir que hay relacion entre las dos variables, esta relacion de manera negativa.
Del ejercicio anterior con las variables horas_usodelcelular y puntaje_examen realizar:
Plantea las hipótesis nula y alterna, Verifica la normalidad de los datos, Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones), Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.
¡no existe relacion entre las horas de uso del celular y el puntaje del examen!
¡si existe relacion entre las horas de uso del celular y el puntaje del examen!
en los resultados anteriores nos muestra por medio del valor -p que los datos:
horas_usodelcelular: no tiene distribucion normal
Puntaje_examen: tiene distribucion normal
Notas <- c(3.8, 1.4, 2.5, 4.3, 2.8, 1.7, 4.9, 2.6, 4.5, 2.4, 3.1, 2.8, 3.1, 3.7, 3.4, 5.0, 3.1, 2.6, 2.4, 2.7, 4.8, 4.3, 4.5, 2.4, 3.1, 3.4, 4.7, 4.3, 3.1, 3.7, 2.6, 4.5, 4.4, 4.8)
Notas
## [1] 3.8 1.4 2.5 4.3 2.8 1.7 4.9 2.6 4.5 2.4 3.1 2.8 3.1 3.7 3.4 5.0 3.1 2.6 2.4
## [20] 2.7 4.8 4.3 4.5 2.4 3.1 3.4 4.7 4.3 3.1 3.7 2.6 4.5 4.4 4.8
shapiro.test(Notas)
##
## Shapiro-Wilk normality test
##
## data: Notas
## W = 0.94307, p-value = 0.07614
Para los datos Notas si tiene distribucion normal