Se pregunto a los estudiantes del curso, ¿Cuantos años tienes?, El objetivo obtener medidas estadisticas a partir de sus datos.
Los datos son:
edades <- c(18,19,18,19,18,20,19,19,18,19,19,20,17,18,21,21,18)
La media aritmetica (media o promedio) de un conjunto de valores de una variable es la suma de dichos valores dividida entre el numero de valores. Se denota por \(\bar{X}\)
#Opción 1
promedio = sum(edades)/length(edades)
promedio
## [1] 18.88235
#Opción 2
mean(edades)
## [1] 18.88235
Interpretacion: la edad del promedio de los estudiante es: 18.88 años
Representa el valor que, al ordenar todos los valores de menor a mayor, se encuentra al medio. En caso que el número de valores sea par, la mediana es el promedio de los dos valores de en medio. Cuando la variable es de tipo ordinal, la mediana es la mejor medida para representar la tendencia central.
median(edades)
## [1] 19
El valor de la mediana es: 19 años
Interpretacion: El 50% de los estudiantes del curso su edad maxima es 19. El otro 50% (la mitad) su valor minimo es 19 años.
La moda es el valor que tiene mayor frecuencial absoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas.
#Opción 1 (table)
table(edades)
## edades
## 17 18 19 20 21
## 1 6 6 2 2
#Opción 2
mode(edades)
## [1] "numeric"
library(modeest)
## Warning: package 'modeest' was built under R version 4.3.2
mfv(edades)
## [1] 18 19
Interpretacion: Las edades mas frecuentes (que mas se repiten) son 18 y 19 años respectivamente.
Ojo: Se puede tener los siguientes resultados
Unimodall: Una sola moda
Bimodal: Dos modas
Multimodal: Mas de dos modas
Amodal: No hay valor mas frecuente
La medida de variabilidad mas sencilla es el Rango, para calcular esta medida hay que restar el valor maximo de los datos menos el valor menor.
Rango = Valor maximo - Valor minimo
#Opcion 1
rango = max(edades) - min(edades)
rango
## [1] 4
#Opcion 2
range(edades) #Ojo se tiene que restar las salidas
## [1] 17 21
Llamada tambien desviación típica, es la medida de dispersión más importante y de mayor uso en trabajos estadisticos. Un valor relativamente grande, significa, que la generosidad de los datos esta alejados de la media y asi reciprocamente.
Es la raiz cuadrada positiva de la varianza.
#Opcion 1
sqrt(var(edades))
## [1] 1.111438
#Opcion 2
sd(edades)
## [1] 1.111438
Interpretacion: La varibilidad promedio de los datos respecto a la media es de 1.111438.
Opcion: Las edades de los estudiantes del curso se alejan de la media 1.111438 en p
El coeficiente de variacion (CV) es una medida estadistica que indica porcentualmente que tan separados estan los datos en relacion con su promedio. Se obtiene al dividir la desviacion estandar (S) entre el promedio (\(\bar{x}\))
\[ C V=\frac{S}{\bar{x}} \times 100 \]
. Si CV ≤ 30%, entonces la distribucion es homogenea y la media es representativa.
. Si CV > 30%, entonces la distribucion no es homogenea y la media no es representativa. En este caso debemos tomar la mediana como medida representativa.
coef_var <- sd(edades)/mean(edades)*100
coef_var
## [1] 5.88612
Interpretación:
como el CV es 5.88 ≤ 30%, entonces la distribucion de las edades es homogenea y la media es representativa
# Con la funcion Summary
summary(edades)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 18.00 19.00 18.88 19.00 21.00
# Con la funcion psych:
library(psych)
describe(edades)
Representa en cuanto difiere el valor de cada observacion (xi) de la media de los datos (cuadrada). A diferencia de las medidas anteriores, la varianza emplea todos los datos disponibles de la variable. Se recomienda su uso cuando se compara las variabilidades de dos o mas variables.
\(s^2=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1}\)
var(edades)
## [1] 1.235294