Medidas Estadisticas

Caso edades de Estudiantes

Se pregunto a los estudiantes del curso, ¿Cuantos años tienes?, el objetivo es obtener medidas estadisticas a partir de sus datos.

Los datos son:

#Edades
edades = c(18,19,18,19,18,20,19,19,18,19,19,20,17,18,21,21,18)

Medidas estadísticas de tendencia central

Media aritmetica

La media aritmética (media o promedio) de un conjunto de valores de una variable es la suma de dichos valores dividida entre el número de valores. Se denota por \(\bar{x}\).

#opcion 1
promedio = sum(edades)/length(edades)
promedio
## [1] 18.88235
#opcion 2
mean(edades)
## [1] 18.88235

Interpretacion: La edad promedio de los estudiantes del curso es: 18.88235 años

Mediana Aritmetica

Representa el valor que, al ordenar todos los valores de menor a mayor, se encuentra al medio. En caso que el número de valores sea par, la mediana es el promedio de los dos valores de en medio. Cuando la variable es de tipo ordinal, la mediana es la mejor medida para representar la tendencia central.

median(edades)
## [1] 19

El valor de la mediana es: 19 Interpretacion: El 50% de los estudiantes del curso su edad maxima es 19. El otro 50% (la mitad) su valor minimo es 19 años.

Moda Aritmetica

La moda es el valor que tiene mayor frecuencia absoluta. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas.

#Opcion 1
table(edades)
## edades
## 17 18 19 20 21 
##  1  6  6  2  2
#Opcion 2
library(modeest)
## Warning: package 'modeest' was built under R version 4.3.2
mfv(edades)
## [1] 18 19

Ojo: se puede tener los siguientes resultados

Unimodal: Una sola moda Bimodal: Dos modas Multimodal: Más de Dos modas Amodal: No hay valor mas frecuente.

Interpretacion: Las edades que mas frecuentes son 18 y 19 años respectivamente.

Medidas de Variabilidad O Dispercion

Rango

La medida de variabilidad más sencilla es el Rango, para calcular esta medida hay que restar el valor máximo de los datos menos el valor menor.

#Opcion 1 
rango = max(edades) - min(edades)
rango
## [1] 4
#Opcion 2
range(edades) #Se tiene que restar las edades
## [1] 17 21

Varianza

Representa en cuanto difiere el valor de cada observación (\(x_i\)) de la media de los datos. A diferencia de las medidas anteriores, la varianza emplea todos los datos disponibles de la variable. Se recomienda su uso cuando se compara las variabilidades de dos o más variables.

\(s^2=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1}\)

var(edades)
## [1] 1.235294

Deviacion estandar

Llamada también desviación típica, es la medida de dispersión más importante y de mayor uso en trabajos estadísticos. Un valor relativamente grande, significa, que la generosidad de los datos está alejados de la media y así recíprocamente.

#Opcion 1
sqrt(var(edades))
## [1] 1.111438
#Opcion 2
sd(edades)
## [1] 1.111438

Interpretacion: La variabilidad promedio de los datos respecto a la media es de 1.111438. Interpretacion 2: Las edades de los estudiantes del curso se alejan de la media 1.111438 en promedio.

Coeficiente de variación

El coeficiente de variación (CV) es una medida estadística que indica porcentualmente qué tan separados están los datos en relación con su promedio. Se obtiene al dividir la desviación estándar (S) entre el promedio (\(\bar{x}\))

\[ C V=\frac{S}{\bar{x}} \times 100 \]

• Si CV ≤ 30%, entonces la distribución es homogénea y la media es representativa. • Si CV > 30%, entonces la distribución no es homogénea y la media no es representativa. En este caso debemos tomar la mediana como medida representativa.

#Opcion 1
coeficiente_var = sd(edades)/mean(edades)*100
coeficiente_var
## [1] 5.88612

Interpretación: Como el coeficiente de variacion es 5.88612 ≤ 30%, etonces la distribución de las edades es homogenea y la media es representativa.

##Otra forma de obtenerlo es:

#Con la funcion summary
summary(edades)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.00   18.00   19.00   18.88   19.00   21.00
#Con la funcion psych
library(psych)
describe(edades)
#Con la funcion pastecs
library(pastecs)
stat.desc(edades)
##      nbr.val     nbr.null       nbr.na          min          max        range 
##   17.0000000    0.0000000    0.0000000   17.0000000   21.0000000    4.0000000 
##          sum       median         mean      SE.mean CI.mean.0.95          var 
##  321.0000000   19.0000000   18.8823529    0.2695633    0.5714486    1.2352941 
##      std.dev     coef.var 
##    1.1114379    0.0588612

TAREA: - realizar un levantamiento de informacion de dos variables cauntitativas (peso, ingreso, altura, IMC, Gasto, Tiempo, …) a sus colegas, amigos, familiares..). - Minimo 15 datos - Calcular todas las medidas estadisticas estudiadas con opciones segun corresponda. - Publicar en rpubs y enviar el enlace al aula virtual(EVA)** - Hasta: 8/12/2023