Para este resumen usaremos StudentPerformanceFactors obtenida de kaggle
Mostraremos los primeras 6 filas de la tabla, tiene 21 columnas.
Estos nos sirven para visualizar, interpretar y comparar informacion de manera clara y rapida. Tenemos que tener en cuenta que los graficos cuentan una historia, por eso, es importante saber que grafico necesitamos, ya que podemos tener buenas o malas practicas.
El grafico de barras simple nos sirve para poder comparar datos univariados de forma rapida. En este ejemplo tenemos una distribucion normal.
Modelo teorico probabilistico en el que la mayoria de los datos se agrupan cerca de la media. Esta puede tener sesgos, sean positivos o negativos.
Sesgo positivo: ocurre cuando la cola de la distribucion se extiende a la derecha, provoconda que la media sea mayor que la mediana y la moda. Sesgo negativo: ocurre cuando la cola de la distrubucion se extiende a la izquierda, la media es menor que la mediana y la moda.
Una buena practica para usar el grafico de torta es usarlo cuando tenemos una variable con solo 2 categorias, asi es mas facil de comparar los datos, por lo general el genero.
Estos sirven para analizar como evolucionan los datos a traves del tiempo o como se comportan 2 variables entre si, facilitando la identificacion de patrones, ciclos y predicciones futuras.
## `geom_smooth()` using formula = 'y ~ x'
Sirven para visualizar como se dispersan, agrupan y ordenan los datos numéricos, facilitando la identificacion de patrones, tendencias, valores atipicos (anomalias) y la frecuencia de los valores.
Sirven para resumir un conjunto de datos numéricos en un solo valor representativo, facilitando el análisis y la interpretación de información
Comunmente llamada promedio, media o media muestral, sirve para resumir un conjunto de datos numéricos en un solo valor representativo, indicando el centro o punto de equilibrio de la distribución
Sirve para identificar el punto medio exacto (percentil 50, Decil 5, Cuartil 2) que divide la muestra en dos partes iguales
Es el dato que mas se repite, nos sirve para medir tendencias a en funcion de favoritismos, es mas util en variables cualitativas.
Sirven para cuantificar qué tan agrupados o separados están los datos respecto a un valor central.
Es la diferencia entre el valor mayor y el valor menor de un conjunto de datos.
## [1] 55 101
El rango intercuartílico (RIC o IQR) es la diferencia entre el tercer cuartil y el primero, representando la dispersión del 50% central de los datos.
## [1] 4
Esto se lee como, el 50% de los datos se distribuyen en una amplitud de 4 unidades
## Exam_Score
## Min. : 55.00
## 1st Qu.: 65.00
## Median : 67.00
## Mean : 67.24
## 3rd Qu.: 69.00
## Max. :101.00
Aca estan todos los medias de tendencia central y rangos intercuartilicos
Sirve para medir la dispersión de un conjunto de datos, indicando qué tan alejados están los valores con respecto a la media aritmética.
Sirve para medir cuánto se dispersan los datos de un conjunto con respecto a su promedio (media).
La principal diferencia radica en la unidad de medida y la interpretación: la varianza mide la dispersión en unidades al cuadrado, mientras que la desviación estándar es la raíz cuadrada de la varianza
Sirve para comparar la dispersión o variabilidad relativa entre dos o más conjuntos de datos, incluso si tienen distintas unidades de medida o medias muy diferentes. Se expresa como un porcentaje, permitiendo terminar que grupo es mas homogeneo. Mientras mas cerca del 0 este, mas homogeneos son, osea sus datos estan agrupados.
Las medidas de posición son herramientas estadísticas que resumen y dividen conjuntos de datos ordenados en partes porcentuales iguales (cuartiles, deciles, percentiles).
Son tres medidas estadisticas (q1,q2,q3), que dividen un conjunto de datos en 4 partes iguales, representando un 25%, 50% y un 75% de la muestra. El q2 es la mediana de los datos.
Los quintiles son medidas de posición que dividen un conjunto de datos ordenados en cinco partes iguales, representando cada una el 20% de la población o muestra
Dividen un conjunto de datos ordenados en diez partes iguales, representando cada una el 10% de la muestra
Solo mostrare los primero 4, pero va asi hasta el D9
Dividen un conjunto de datos ordenados de menor a mayor en 100 partes iguales, representando cada una el 1%.
Solo mostrare los primero 4, pero va asi hasta el P99
Sirven para transformar datos brutos en información significativa, permitiendo entender fenómenos, identificar patrones y tomar decisiones objetivas basadas en evidencia.
Esta escrito mas arriba asi que solo copiare y pegare la misma informacion
Sesgo positivo: ocurre cuando la cola de la distribucion se extiende a la derecha, provoconda que la media sea mayor que la mediana y la moda. Sesgo negativo: ocurre cuando la cola de la distrubucion se extiende a la izquierda, la media es menor que la mediana y la moda. > Permiten entender la asimetría de los datos, lo que es clave para interpretar correctamente la información
Conjunto de datos que se desvían significativamente del patrón general, siendo inusualmente grandes o pequeños.
Para mi mujer Lourdes que amo mucho <3