#Medidas Estadisticas

#Caso de edades de estudiantes

Se les pregunto a los estudiantes del curso, ¿Cuantos años tienen?, El objetivo es obtener medidas de estadisticas a partir de sus datos.

Los datos son:

#Edades
edades <- c(18,19, 18,19,18,20,19,19,18,19,19,20,17,18,21,21,18)

#Medida aritmetica

La media aritmética (media o promedio) de un conjunto de valores de una variable es la suma de dichos valores dividida entre el número de valores. Se denota por \(\bar{x}\)

#Opcion 1
promedio = sum(edades)/length(edades)
promedio
## [1] 18.88235
#Opcion 2
mean(edades)
## [1] 18.88235

Interpretacion: La edad promedio de los estudiantes del curso es: 18.88 años.

#Mediana Representa el valor que, al ordenar todos los valores de menor a mayor, se encuentra al medio. En caso que el número de valores sea par, la mediana es el promedio de los dos valores de en medio. Cuando la variable es de tipo ordinal, la mediana es la mejor medida para representar la tendencia central.

median(edades)
## [1] 19

El valor de la mediana es: 19

Interpretacion: el 50% de los estudiantes del curso su edad maxima es de 19 años. El otro 50%(la mitad) su valor minimo es 19 años

#Moda

#Opcion 1

table(edades)
## edades
## 17 18 19 20 21 
##  1  6  6  2  2
#Opcion 2
library(modeest)
## Warning: package 'modeest' was built under R version 4.3.2
mfv(edades)
## [1] 18 19

Ojo: Se pudo tener los siguientes resultados : Unimodal, una sola moda. Bimodal, dos modas. Multimodel, mas de dos modas. Amodal, no hay valor mas frecuente.

Interpretacion: Las edades mas frecuentes(que mas se repiten) son 18 y 19 años respectivamente

Medidas de variabilidad o disperción

Rango

La medida de variabilidad más sencilla es el Rango, para calcular esta medida hay que restar el valor máximo de los datos menos el valor menor.

Rango = Valor máximo – Valor mínimo

#Opcion 1
rango = max(edades) - min(edades)
rango
## [1] 4
#Opcion 2
range(edades) #Ojo que se tiene que restar las salidas
## [1] 17 21

Varianza

Representa en cuanto difiere el valor de cada observación (xi) de la media de los datos. A diferencia de las medidas anteriores, la varianza emplea todos los datos disponibles de la variable. Se recomienda su uso cuando se compara las variabilidades de dos o más variables.

\(s^2=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1}\)

Desviación estandart

Llamada tambien desviacion tipica es la medida de dispercion mas importante y que mayor uso en trabajos estadisticos. Un valor relativamente grande, significa que la generosidad de los datos esta alejado de la media y asi reciprocamente.

#Opcion 1

sqrt(var(edades))
## [1] 1.111438
#Opcion 2

sd(edades)
## [1] 1.111438

Interpretacion: La variable promedio de los datos respecto a la media es de 1.111438

Opcion: Las edades de los estudiantes del curso se alejan de la media 1.111348 en promedio

Coeficiente de variación

El coficiente de Variacion(cv) es una medida estadistica que indica porcentualmente que tan separados estan los datos en relacion con su promedio. Se obtiene al dividir la desviacion estandar(s) entre el promedio x.

\[cv=\frac{s}{\bar{x}}\times100\] Si CV ≤ 30%, entonces la distribución es homogénea y la media es representativa. Si CV > 30%, entonces la distribución no es homogénea y la media no es representativa. En este caso debemos tomar la mediana como medida representativa.

coef_var <-sd(edades)/ mean(edades)*100
coef_var
## [1] 5.88612

Interpretación: como el coeficionte de varianción es 5.88 ≤ 30% entonces la distribución de las edades.

Con la Funcion

summary(edades)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.00   18.00   19.00   18.88   19.00   21.00

Con la funcion psych

library(psych)
## Warning: package 'psych' was built under R version 4.3.2
## Registered S3 method overwritten by 'psych':
##   method         from  
##   plot.residuals rmutil
describe(edades)