Medidas descriptivas numéricas

A continuación se cargan los paquetesa necesarios para todas las medidas descriptivas que se verán

library(datos)
library(dplyr)
library(modeest)
library(descriptr)
library(knitr)

Cargado los paquetes, se tomará una muestra de 120 registros de la base de datos diamantes. Para ello se sembrará una semilla con el número 0227 y la muestra se llamará datos_d

## # A tibble: 5 × 10
##   precio quilate corte     color claridad profundidad tabla     x     y     z
##    <int>   <dbl> <ord>     <ord> <ord>          <dbl> <dbl> <dbl> <dbl> <dbl>
## 1   3389    0.78 Ideal     D     SI1             62.2    55  5.92  5.95  3.69
## 2  12512    1.58 Premium   F     SI1             61.4    61  7.48  7.45  4.58
## 3   7279    1.21 Muy bueno H     VS1             62.4    60  6.73  6.79  4.22
## 4    611    0.41 Premium   G     SI2             61.4    58  4.75  4.8   2.93
## 5   3768    0.96 Premium   H     SI1             62.7    58  6.27  6.24  3.92

Medidas de de tendencia central

  • Promedio (Media)
  • Mediana
  • Moda
  1. Promedio: El promedio se simboliza \(\bar{x}\) y se define de la siguiente manera

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] ##### Ejemplo: Encontrar el promedio del precio de los diamantes en la base de datos: datos_d

media_precio <- mean(datos_d$precio)
cat(" La media del precio es:",media_precio)
##  La media del precio es: 4921.075
  1. Mediana Es el dato que se encuentra en el centro de un conjunto ordenado de datos. Un elemento ordenado se simboliza con un subíndice entre paréntesis, \(x_{(3)}\) que es diferente a \(x_3\) este seía el tercer dato suministrado.

La mediana se obtiene:

  • si \(n\) es impar

\[med(x)\] = \[x_{(\frac{n+1}{2})}\]

  • si \(n\) es par, la mediana será el promedio de los dos datos del centro

\[ med(x)=\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} \] ##### Ejemplo: encontrar la median del precio de los quilates en la muestra

mediana_precio <- mean(datos_d$precio)
cat(" la mediana del precio es:",mediana_precio)
##  la mediana del precio es: 4921.075
  1. Moda

La moda es el dato que más se repite. Pueden haber más de una moda: bimodal, trimodal, multimodal.

Ejemplo: encontrar la moda para el precio de la base de datos. Aquí se hace necesario usar la función mlv1 del paquete modeest
moda_precio <- mlv1(datos_d$precio)
cat(" la meda del precio es:",moda_precio)
##  la meda del precio es: 407

Medidas de variabilidad

  1. Rango
  2. Varianza
  3. Desviación estándar
  4. El coeficiente de variación
  • Rango: es la diferencia entre el dato mayor y el dato menor
  • La varianza: es la medida más usada para cuantificar la dispersión de los datos respectoa a su media. Se simboliza \(S^2\) y su fórmula es:

\[ S^2 = \frac{1}{n-1}\sum_{i = 1}^n(x_i-\bar{x})^2 \]

  • La desviación estándar: es la raíz cuadrada de la varianza, se simboliza \(S\)

\[ S = \sqrt{\frac{1}{n-1}\sum_{i = 1}^n(x_i-\bar{x})^2} \] * El coeficiente de variación: es la razón entre la desviación estándar y el promedio

\[ CV = \frac{S}{\bar{X}}100\% \] ##### Ejemplo: Encontrar todas las medidas de dispersión para la variable precio de la muestra.

Rango_precio = max(datos_d$precio)-min(datos_d$precio)
Varianza_precio = var(datos_d$precio)                              
Desv_est_precio =  sd(datos_d$precio)                               
Coef.var_precio = (Desv_est_precio/media_precio)*100                             
med_variabilidad <- data.frame(Rango_precio,Varianza_precio,Desv_est_precio,Coef.var_precio)
med_variabilidad
##   Rango_precio Varianza_precio Desv_est_precio Coef.var_precio
## 1        17673        22725667        4767.145        96.87202
Medidas de posición

Las medidas de posición dividen un conjunto de datos ordenado en partes iguales. Las medidas de posición más usadas son los curtiles y los percentiles.

Los cuartiles se simbolizan: \(Q_1, Q_2, Q_3, Q_4\), y los percentiles \(P_1,P_2,...,P_{100}\)

La fórmula para la posición es:

\[ P_k = \frac{(n+1)*k}{100} \] #### Ejemplo: encontrar los cuartiles 1 y 3 y los percentiles 30, 67 y 85 del precio de los diamantes en la muestra

mp_precio <- quantile(datos_d$precio,probs = c(0.25,0.3,0.67,0.75,0.85))
df1 <- data.frame(mp_precio)
df1
##     mp_precio
## 25%    967.25
## 30%   1169.30
## 67%   5361.68
## 75%   7262.50
## 85%  10971.60

Medidas de forma

Asimetria

La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media.

Existen tres tipos de curva de distribución según su asimetría:

  • Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
  • Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal.
  • Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la media.

Coeficiente de asimetría de Fisher

El coeficiente de asimetría de Fisher \(CA_F\) evalúa la proximidad de los datos a su media:

  • Si \(CA_F\) <0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media.
  • Si \(CA_F\) =0: la distribución es simétrica.
  • Si \(CA_F\) >0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson \(CA_P\) mide la diferencia entre la media y la moda respecto a la dispersión del conjunto

  • Si \(CA_P\) <0: la distribución tiene una asimetría negativa, puesto que la media es menor que la moda.
  • Si \(CA_P\) =0: la distribución es simétrica.
  • Si \(CA_P\) >0: la distribución tiene una asimetría positiva, ya que la media es mayor que la moda.

Coeficiente de asimetría de Bowley

El coeficiente de asimetría de Bowley \(CA_B\) toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar.

  • Si \(CA_B\) <0: la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es mayor que al tercero.
  • Si \(CA_B\) =0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana.
  • Si \(CA_B\) >0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.

Curtosis

La curtosis es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.

Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia.

En la fórmula se resta 3 porque es la curtosis de una distribución Normal. Entonces la curtosis valdrá 0 para la Normal, tomándose a ésta como referencia.

Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de curtosis se convierte en:

Ejemplo en R: calcular asimetría y curtosis del precio

library(moments)
asim_precio <- skewness(datos_d$precio)
curt_precio <- kurtosis(datos_d$precio) - 3  
cat("Asimetría:", asim_precio, "\nCurtosis:", curt_precio)
## Asimetría: 1.128343 
## Curtosis: 0.1917107