1 Terminos estadisticos

1.1 Poblacion

La poblacion es el conjunto total de los individuos u objetos que se desean estudiar, para asi obtener informacion.

1.1.1 Muestra

Es un subconjunto representativo de la poblacion , que se elije para hacer el estudio.

1.1.2 Parametro

Es un numero que describe a toda la poblacion (como el promedio de todos)

1.1.3 Estadistico

Es el numero que describe solo la muestra

1.1.4 Error de muestreo

Diferencia entre el parametro poblacional y estadistico, es decir, el resultado de la muestra y el verdadero valor de la poblacion.

1.2 Nivel de significancia (α)

El nivel de significancia es la probabilidad de rechazar la hipotesis nula siendo verdadera ; usualmente es de 0.05 o 0.01

1.3 Distribucion Muestral

Es la forma en que cambian los valores de un estadístico (como un promedio o una proporción) cuando repetimos un estudio muchas veces con diferentes muestras de la misma población.

1.4 Pruebas de normalidad

Es una técnica estadística que se usa para comprobar si los datos siguen una distribución normal (en forma de campana).

Sirve para decidir qué tipo de análisis estadístico es el más adecuado para esos datos.

1.4.1 Shapiro-Wilk

Prueba que evalua si los datos siguen una distribucion normal, recomendada para muestras pequeñas.

Interpretacion

• si el valor-p > 0.05, entonces los datos si son normales.

• si el valor-p <= 0.05, entonces los datos no son normales

1.4.2 Kolmogorov-Smirnov

Prueba que compara los datos con una distribucion normal ideal, se usa con muestras grandes, aunque puede usarse en general

Interpretacion

• si el valor-p > 0.05, entonces los datos si son normales.

• si el valor-p <= 0.05, entonces los datos no son normales

1.5 Grafico de dispercion

Representacion grafica que muestra puntos en el plano, y sirve para ver cómo se relacionan dos variables.

1.6 Correlacion

La correlación es una medida que nos dice qué tan relacionada está una variable con otra, y se refleja en el patrón de puntos de un gráfico de dispersión

1.6.1 Pearson

Mide la relacion lineal entre dos variables continuas. Es útil cuando las variables son normales o aproximadamente normales (siguen una distribución tipo campana) y tienen una relación lineal

1.6.2 Spearman.

Mide la relación monótona (no necesariamente lineal) entre dos variables, usando rangos Es útil cuando las variables no siguen una distribución normal o cuando la relación no es lineal. Además, no se basa en el valor exacto de los datos, sino en sus rangos.

1.6.3 Kendall

Mide la concordancia entre pares de datos, util con muestras pequeñas

1.6.4 Rango para la corralacion

Va de [-1,1]

• +1: correlacion perfectamente positiva

•0: No hay correlacion

• -1: correlacion perfectamente negativa

1.7 Prueba hipotesis

Una prueba de hipótesis es un procedimiento estadístico que nos ayuda a tomar decisiones sobre una población basándonos en los datos de una muestra.

1.7.1 Hipotesis Nula

Afirmacion que se pone a prueba y generalmente propone ausencia de defecto o diferencia.

1.7.2 Hipotesis Alternada

Afirmacion que contradice la hipotesis nula; propone que si hay efecto o diferencia.

1.7.3 valor-p

Probabilidad de obtener resultados tan extremos como los observados, si la hipotesis nula es cierta.

1.7.4 Intervalo de confianza

Rango de valores dentro del cual se espera que se encuentre el parametro poblacional con ciertas probabilidades (Por ejemplo 95%)

1.8 Pruebas para datos parametricos

Pruebas estadisticas que se asumen una distribucion especificas, generalmente normal (ej.t de Student).

1.9 Prueba para datos no parametricos

Pruebas que no asumen distribucion especifica de los datos(ej.U Mann-Whitney, prueba de Kruskal-Wallis)

2 Ejercicios practicos

A partir de las anteriores definiciones realizar la siguiente actividad en R, hay que recordar que en la clase se realizó el código en R y la interpretación, el procedimiento es igual:

2.1 Ejercicio :

Una institución desea saber si existe relación entre las horas de estudio semanales y el puntaje obtenido en un examen final por un grupo de estudiantes. Realizar

• Simular o carga dos vectores llamados horas_usodelcelular y puntaje_examen, con al menos 40 observaciones cada uno.

set.seed(123)
horas_usodelcelular <- round(runif(40, min = 1, max = 10), 1)
puntaje_examen <- round(runif(40, min = 0, max = 5), 1)
print(horas_usodelcelular)
##  [1] 3.6 8.1 4.7 8.9 9.5 1.4 5.8 9.0 6.0 5.1 9.6 5.1 7.1 6.2 1.9 9.1 3.2 1.4 4.0
## [20] 9.6 9.0 7.2 6.8 9.9 6.9 7.4 5.9 6.3 3.6 2.3 9.7 9.1 7.2 8.2 1.2 5.3 7.8 2.9
## [39] 3.9 3.1
print(puntaje_examen)
##  [1] 0.7 2.1 2.1 1.8 0.8 0.7 1.2 2.3 1.3 4.3 0.2 2.2 4.0 0.6 2.8 1.0 0.6 3.8 4.5
## [20] 1.9 3.3 0.5 1.9 1.4 4.1 2.2 4.1 4.1 4.0 2.2 3.8 3.1 3.6 0.0 2.4 1.1 1.9 3.1
## [39] 1.8 0.6

• Verificar si ambas variables se distribuyen normalmente con shapiro.test().

shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.9418, p-value = 0.03979
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.93856, p-value = 0.03092

• Según el resultado de normalidad, elige la prueba de correlación adecuada: o cor.test(…, method = “pearson”) si hay normalidad. o cor.test(…, method = “spearman”) si no hay normalidad.

Se observa que en ambas p < 0.05. Por tanto, no hay normalidad

cor.test(horas_usodelcelular,puntaje_examen, method = "spearman")
## Warning in cor.test.default(horas_usodelcelular, puntaje_examen, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  horas_usodelcelular and puntaje_examen
## S = 11943, p-value = 0.4594
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.1203795

• Interpretar: o ¿Existe una relación significativa entre horas de uso de celular y puntaje del examen?

el valor-p(0.4594) es mayor que 0.05, por lo tanto, no se puede afirmar que existe una relacion estadisticamente significativa entre hora de uso de celular y el puntaje del examen

o ¿La relación es positiva o negativa?

La relación es negativa por que rho es -0.1204. Esto sugiere que, en promedio, a mayor uso del celular, el puntaje tiende a disminuir, pero esta tendencia no es concluyente.

2.2 Ejercicio.

Del ejercicio anterior variables horas_usodelcelular y puntaje_examen realizar:

• Plantea las hipótesis nula y alterna:

Hipótesis nula (H₀): No existe correlación entre las horas de uso del celular y el puntaje del examen.

Hipótesis alternativa (H₁): Existe una correlación entre las horas de uso del celular y el puntaje del examen.

• Verifica la normalidad de los datos:

shapiro.test(horas_usodelcelular)
## 
##  Shapiro-Wilk normality test
## 
## data:  horas_usodelcelular
## W = 0.9418, p-value = 0.03979
shapiro.test(puntaje_examen)
## 
##  Shapiro-Wilk normality test
## 
## data:  puntaje_examen
## W = 0.93856, p-value = 0.03092

Para ambas variables p< 0.05 por lo que los datos no se distribuyen normalmente.

• Simula o carga un conjunto de datos llamado notas (al menos 30 observaciones).

set.seed(123)
notas <- round(runif(30, min = 0, max = 5), 1)
print(notas)
##  [1] 1.4 3.9 2.0 4.4 4.7 0.2 2.6 4.5 2.8 2.3 4.8 2.3 3.4 2.9 0.5 4.5 1.2 0.2 1.6
## [20] 4.8 4.4 3.5 3.2 5.0 3.3 3.5 2.7 3.0 1.4 0.7

• Usa la función shapiro.test(notas) para comprobar si los datos siguen una distribución normal.

shapiro.test(notas)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas
## W = 0.94557, p-value = 0.1285

Se observa que p > 0.05 por lo que los datos siguen una distribución normal