Para este resumen usaremos StudentPerformanceFactors obtenida de kaggle

Header de los datos

Mostraremos los primeras 6 filas de la tabla, tiene 21 columnas.

Graficos Estadisticos

Estos nos sirven para visualizar, interpretar y comparar informacion de manera clara y rapida. Tenemos que tener en cuenta que los graficos cuentan una historia, por eso, es importante saber que grafico necesitamos, ya que podemos tener buenas o malas practicas.

Graficos Comparativos

Grafico de barras simple:

El grafico de barras simple nos sirve para poder comparar datos univariados de forma rapida. En este ejemplo tenemos una distribucion normal.

Distribucion normal (gaussiana):

Modelo teorico probabilistico en el que la mayoria de los datos se agrupan cerca de la media. Esta puede tener sesgos, sean positivos o negativos.

Sesgo positivo: ocurre cuando la cola de la distribucion se extiende a la derecha, provoconda que la media sea mayor que la mediana y la moda. Sesgo negativo: ocurre cuando la cola de la distrubucion se extiende a la izquierda, la media es menor que la mediana y la moda.

Grafico circular:

Una buena practica para usar el grafico de torta es usarlo cuando tenemos una variable con solo 2 categorias, asi es mas facil de comparar los datos, por lo general el genero.

De tendencia o relacion

Estos sirven para analizar como evolucionan los datos a traves del tiempo o como se comportan 2 variables entre si, facilitando la identificacion de patrones, ciclos y predicciones futuras.

## `geom_smooth()` using formula = 'y ~ x'

Historgama

Graficos de distribucion

Sirven para visualizar como se dispersan, agrupan y ordenan los datos numéricos, facilitando la identificacion de patrones, tendencias, valores atipicos (anomalias) y la frecuencia de los valores.

Boxplot

Medidas de tendencia central

Sirven para resumir un conjunto de datos numéricos en un solo valor representativo, facilitando el análisis y la interpretación de información

Media aritmetica:

Comunmente llamada promedio, media o media muestral, sirve para resumir un conjunto de datos numéricos en un solo valor representativo, indicando el centro o punto de equilibrio de la distribución

Mediana

Sirve para identificar el punto medio exacto (percentil 50, Decil 5, Cuartil 2) que divide la muestra en dos partes iguales

Moda

Es el dato que mas se repite, nos sirve para medir tendencias a en funcion de favoritismos, es mas util en variables cualitativas.

Medidas de dispersion

Sirven para cuantificar qué tan agrupados o separados están los datos respecto a un valor central.

Rango

Es la diferencia entre el valor mayor y el valor menor de un conjunto de datos.

## [1]  55 101

Rango intercuartilico

El rango intercuartílico (RIC o IQR) es la diferencia entre el tercer cuartil y el primero, representando la dispersión del 50% central de los datos.

## [1] 4

Esto se lee como, el 50% de los datos se distribuyen en una amplitud de 4 unidades

##    Exam_Score    
##  Min.   : 55.00  
##  1st Qu.: 65.00  
##  Median : 67.00  
##  Mean   : 67.24  
##  3rd Qu.: 69.00  
##  Max.   :101.00

Aca estan todos los medias de tendencia central y rangos intercuartilicos

Varianza

Sirve para medir la dispersión de un conjunto de datos, indicando qué tan alejados están los valores con respecto a la media aritmética.

Desviacion Estandar

Sirve para medir cuánto se dispersan los datos de un conjunto con respecto a su promedio (media).

En que se diferencian?

La principal diferencia radica en la unidad de medida y la interpretación: la varianza mide la dispersión en unidades al cuadrado, mientras que la desviación estándar es la raíz cuadrada de la varianza

  • Unidades: La varianza utiliza unidades al cuadrado, lo que dificulta su interpretación directa. La desviación estándar utiliza las unidades originales, facilitando la comprensión. Cálculo: La desviación estándar es la raíz cuadrada de la varianza
  • La varianza es el promedio de las diferencias al cuadrado entre cada punto y la media.
  • Sensibilidad: La varianza eleva las diferencias al cuadrado, lo que la hace más sensible a valores atípicos (outliers) que la desviación estándar.

Coeficiente de Variacion

Sirve para comparar la dispersión o variabilidad relativa entre dos o más conjuntos de datos, incluso si tienen distintas unidades de medida o medias muy diferentes. Se expresa como un porcentaje, permitiendo terminar que grupo es mas homogeneo. Mientras mas cerca del 0 este, mas homogeneos son, osea sus datos estan agrupados.


Medidas de posicion

Las medidas de posición son herramientas estadísticas que resumen y dividen conjuntos de datos ordenados en partes porcentuales iguales (cuartiles, deciles, percentiles).

Cuartiles

Son tres medidas estadisticas (q1,q2,q3), que dividen un conjunto de datos en 4 partes iguales, representando un 25%, 50% y un 75% de la muestra. El q2 es la mediana de los datos.

Quintiles

Los quintiles son medidas de posición que dividen un conjunto de datos ordenados en cinco partes iguales, representando cada una el 20% de la población o muestra

Deciles

Dividen un conjunto de datos ordenados en diez partes iguales, representando cada una el 10% de la muestra

Solo mostrare los primero 4, pero va asi hasta el D9

Percentiles

Dividen un conjunto de datos ordenados de menor a mayor en 100 partes iguales, representando cada una el 1%.

Solo mostrare los primero 4, pero va asi hasta el P99

Concepto de analisis

Sirven para transformar datos brutos en información significativa, permitiendo entender fenómenos, identificar patrones y tomar decisiones objetivas basadas en evidencia.

Asimetria o sesgos

Esta escrito mas arriba asi que solo copiare y pegare la misma informacion

Sesgo positivo: ocurre cuando la cola de la distribucion se extiende a la derecha, provoconda que la media sea mayor que la mediana y la moda. Sesgo negativo: ocurre cuando la cola de la distrubucion se extiende a la izquierda, la media es menor que la mediana y la moda. > Permiten entender la asimetría de los datos, lo que es clave para interpretar correctamente la información

Valores atipicos (outliers)

Conjunto de datos que se desvían significativamente del patrón general, siendo inusualmente grandes o pequeños.

Dedicatoria

Para mi mujer Lourdes que amo mucho <3