##MEDIDAS ESTADÍSTICAS
Se pregunto a los estudiantes del curso, ¿Cuántos años tienes?, El objetivo es obtener medidas estadísticas a partir de sus datos.
Los datos son:
#Edades
edades<- c(18,19,18,19,18,20,19,19,18,19,19,20,17,18,21,21,18)
La media aritmétia (media o promedio) de un conjunto de valores de una variable es la suma de dichos valores dividida entre el número de valores. Se denota por \(\bar{x}\)
# Opción 1
promedio = sum(edades)/length(edades)
promedio
## [1] 18.88235
# Opción 2
mean(edades)
## [1] 18.88235
Interpretación: La edad del promedio de los estudiantes del curso es: 18.88 años
Representa el valor que, al ordenar todos los valores de menos a mayor, se encuentra al medio. En caso que el número de valores sea par, la mediana es el promedio de los dos valores de en medio. Cuando la variable es de tipo ordinal, la media es la mejor medida para representar la tendencia central.
median(edades)
## [1] 19
El valor de la media es: 19
Interpretación: El 50% de los estudiantes del curso su edad maxima es de 19 años. El otro 50% (la mitad) su valor minimo es de 19 años
LA moda es el valor que tiene mayor freuencia obsoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas o cuantitativas.
# Opción 1
table(edades)
## edades
## 17 18 19 20 21
## 1 6 6 2 2
# Opción 2
library(modeest)
## Warning: package 'modeest' was built under R version 4.3.2
mfv(edades)
## [1] 18 19
Ojo: Se puede tener los siguientes resultados
Unimodal: Una sola moda. Bimodal: Dos modas. Multimodal: Más de dos modas. Amodal: No hay valor más frecuente.
Interpretación: Las edades más frecuentes ( que más se repiten) son 18 y 19 años respectivamente.
# Opción 1 (tabla)
rango = max(edades) - min(edades)
# Opción 2
range(edades)
## [1] 17 21
Representa en cuanto difiere el valor de cada observación (xi) de la media de los datos. A diferencia de las medidas anteriores, la varianza emplea todos los datos disponibles de la variable. Se recomienda su uso en cuando se compara las variabilidades de dos o más variables.
\(s^2=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1}\)
Llamada también desviación típica, es la medida de dispersión más importante y de mayor uso en trabajos estadísticos. Un valor relativamente grande, significa, que la generosidad de los datos está alejados de la media y así recíprocamente. Es la raíz cuadrada positiva de la varianza.
# Opción 1
sqrt(var(edades))
## [1] 1.111438
# Opción 2
sd(edades)
## [1] 1.111438
Interpretación: La variabilidad promedio de los datos respecto a la media es de 1.111438.
Opción: Las edades de los estudiantes del curso se alejan de la media 1.11438 en promedio.
El coeficiente de variación (CV) es una medida estadística que indica porcentualmente qué tan separados están los datos en relación con su promedio. Se obtiene al dividir la desviación estándar (S) entre el promedio (\(\bar{x}\))
\[ C V=\frac{S}{\bar{x}} \times 100 \]
• Si CV ≤ 30%, entonces la distribución es homogénea y la media es representativa.
• Si CV > 30%, entonces la distribución no es homogénea y la media no es representativa. En este caso debemos tomar la mediana como medida representativa.
coef_var <- sd(edades)/mean(edades)*100
coef_var
## [1] 5.88612
Interpretación: Como el CV es 5.88 ≤ 30%, entonces la distribución de las edades es homogénea y la media es representativa.
# Con la función summary
summary(edades)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 18.00 19.00 18.88 19.00 21.00
library(psych)
describe(edades)
##Tarea: * REalizar un levantamiento de información de dos variables cuantitativas (Peso, ingreso, altura, IMC, gasto, tiempo…) a sus colegas, amigos, familiares. * Minimo 15 datos * Calcular todas las medidas estadisticas estudiadas con opciones según corresponda. * Publicar en rpubs y enviar enlace en el aula eva * Hasta el 08-12-2023.