1 Taller de estadistica inferencial con R.

1.1 Ejercicio 1

Busca y escribe una definicion corta (1 a 2 lineas) de los siguientes terminos relacionados con la estadistica inferencial.

1.1.1 Poblacion

Es un conjunto de datos con caracteristicas en comun de quienes se busca estudiar.

1.1.1.1 Muestra

Es un subconjunto de los datos que representan la poblacion

1.1.1.2 Parametro

Este es un valor que describe la caracteristica a estudiar de la poblacion

1.1.1.3 Estadistico

Este tambien es un valor numerico que describe la caracteristica a estudiar de la muestra de la poblacion

1.1.1.4 Error de muestreo

Es la diferencia entre el estadistico muestral y el valor del parametro poblacional.

1.1.2 Nivel de significancia

Este es la probabilidad de cometer un error tipo I.

1.1.3 Pruebas de normalidad

Estos son procedimientos que se utilizan para determinar si los datos siguen una distribucion normal estadisticamente, como los siguientes:

1.1.3.1 Shapiro - Wilk

Esta prueba tiene como proposito evaluar si una muestra proviene de una poblacion con distribucion normal

1.1.3.2 Kolmogorov - Smirnov

Esta prueba en cambio compara la distribucion de los datos con una distribucion teorica, ejemplo la normal.

1.1.4 Gradfico de dispersion

Es aquel grafico utilizado para visualizar la relacion entre dos variables

1.1.5 Correlacion

Esta medida indica la direccion y fuerza de la relacion entre dos variables

1.1.5.1 Pearson

Esta correlacion mide la relacion lineal entre dos varibles

1.1.5.2 Spearman

Esta correlacion mide la relacion monotona entre dos variables y hace el uso de rangos

1.1.5.3 Kendall

En cambio esta correlacion mide la relacion de orden entre dos varibles

1.1.6 Prueba de hipotesis

Es un procedimiento para determinar o tomar decisiones sobre una poblacion

1.1.6.1 Hipotesis nula

Se dice que esta hipotesis es una afirmacion inicial, considerada verdadera hasta que se pueda demostrar lo contrario

1.1.6.2 hipotesis alterna

Se dice que esta hipotesis es la negacion de la hipotesis nula o bien lo contrario

1.1.6.3 Valor - p

Este es el valor de probabilidad de obtener un resultado igual o mas extremo

1.1.6.4 Intervalo de confianza

Este intervalo de confianza es un rango de valores, del que se espera este un parametro poblacional con un cierto nivel de confianza.

1.1.7 Pruebas para datos parametricos

Estas son cuando los datos cumplen ciertas caracteristicas como lo son: una distribucion normal, se trate de datos cuantitativos y las varianzas sean homogeneas

1.1.8 Pruebas para datos no parametricos

Estas son cuando los datos no tienen una distribucion normal y se basan mayormente en rangos y no en valores concretos

1.2 Ejercicio 2

A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:

Ejercicio: Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar

Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

Verificar si ambas variables se distribuyen normalmente con shapiro.test().

Según el resultado de normalidad, elige la prueba de correlación adecuada: cor.test(…, method = “pearson”) si hay normalidad. Y cor.test(…, method = “spearman”) si no hay normalidad.

Interpretar: ¿Existe una relación entre horas de uso del celular y puntaje del examen? y ¿La relación es positiva o negativa?

1.2.1 Solucion

horas_usodelcelular <- c(15, 32, 12, 13, 30, 19, 9, 22, 30, 5, 30, 13, 31, 23, 31, 23, 12, 23, 1, 20, 26, 28, 24, 5, 18, 4, 33, 28, 23, 2, 5, 24, 10, 25, 8, 8, 4, 27, 10, 31)
horas_usodelcelular
##  [1] 15 32 12 13 30 19  9 22 30  5 30 13 31 23 31 23 12 23  1 20 26 28 24  5 18
## [26]  4 33 28 23  2  5 24 10 25  8  8  4 27 10 31
Puntaje_examen <- c( 2.7,0.8, 3.6, 3.8, 1.4, 2.5, 4.3, 2.8, 1.7, 4.9, 2.6, 4.5, 2.4, 3.1, 2.8, 3.1, 3.7, 3.4, 5.0, 3.1, 2.6, 2.4, 2.7, 4.8, 4.3, 4.5, 2.4, 3.1, 3.4, 4.7, 4.3, 3.1, 3.7, 2.6, 4.5, 4.4, 4.8, 2.3, 4.1, 2.4)
Puntaje_examen
##  [1] 2.7 0.8 3.6 3.8 1.4 2.5 4.3 2.8 1.7 4.9 2.6 4.5 2.4 3.1 2.8 3.1 3.7 3.4 5.0
## [20] 3.1 2.6 2.4 2.7 4.8 4.3 4.5 2.4 3.1 3.4 4.7 4.3 3.1 3.7 2.6 4.5 4.4 4.8 2.3
## [39] 4.1 2.4
shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.92288, p-value = 0.009494
shapiro.test(Puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  Puntaje_examen
## W = 0.956, p-value = 0.1221

Dados los resultados de normalidad haremos la prueba de correlacion con los dos metodos

cor.test(horas_usodelcelular, Puntaje_examen, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  horas_usodelcelular and Puntaje_examen
## t = -12.511, df = 38, p-value = 4.772e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9445894 -0.8125828
## sample estimates:
##        cor 
## -0.8970296
cor.test(horas_usodelcelular, Puntaje_examen, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, Puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  horas_usodelcelular and Puntaje_examen
## S = 20321, p-value = 8.669e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.9062797

Interpretando los resultados optenidos con la relacion entre las horas del uso del celular y el puntaje del examen notamos que la Correlacion es negativamente alta, es decir que hay relacion entre las dos variables, esta relacion de manera negativa.

1.3 Ejercicio 3

Del ejercicio anterior con las variables horas_usodelcelular y puntaje_examen realizar:

Plantea las hipótesis nula y alterna, Verifica la normalidad de los datos, Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones), Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.

1.3.1 Solucion

1.3.1.1 Hipotesis nula

¡no existe relacion entre las horas de uso del celular y el puntaje del examen!

1.3.1.2 Hipotesis alterna

¡si existe relacion entre las horas de uso del celular y el puntaje del examen!

1.3.1.3 normalidad de los datos

en los resultados anteriores nos muestra por medio del valor -p que los datos:

horas_usodelcelular: no tiene distribucion normal

Puntaje_examen: tiene distribucion normal

1.3.1.4 Notas

Notas <- c(3.8, 1.4, 2.5, 4.3, 2.8, 1.7, 4.9, 2.6, 4.5, 2.4, 3.1, 2.8, 3.1, 3.7, 3.4, 5.0, 3.1, 2.6, 2.4, 2.7, 4.8, 4.3, 4.5, 2.4, 3.1, 3.4, 4.7, 4.3, 3.1, 3.7, 2.6, 4.5, 4.4, 4.8)
Notas
##  [1] 3.8 1.4 2.5 4.3 2.8 1.7 4.9 2.6 4.5 2.4 3.1 2.8 3.1 3.7 3.4 5.0 3.1 2.6 2.4
## [20] 2.7 4.8 4.3 4.5 2.4 3.1 3.4 4.7 4.3 3.1 3.7 2.6 4.5 4.4 4.8
shapiro.test(Notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  Notas
## W = 0.94307, p-value = 0.07614

Para los datos Notas si tiene distribucion normal