A continuación se cargan los paquetesa necesarios para todas las medidas descriptivas que se verán
library(datos)
library(dplyr)
library(modeest)
library(descriptr)
library(knitr)
Cargado los paquetes, se tomará una muestra de 120 registros de la base de datos diamantes. Para ello se sembrará una semilla con el número 0227 y la muestra se llamará datos_d
## # A tibble: 5 × 10
## precio quilate corte color claridad profundidad tabla x y z
## <int> <dbl> <ord> <ord> <ord> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3389 0.78 Ideal D SI1 62.2 55 5.92 5.95 3.69
## 2 12512 1.58 Premium F SI1 61.4 61 7.48 7.45 4.58
## 3 7279 1.21 Muy bueno H VS1 62.4 60 6.73 6.79 4.22
## 4 611 0.41 Premium G SI2 61.4 58 4.75 4.8 2.93
## 5 3768 0.96 Premium H SI1 62.7 58 6.27 6.24 3.92
\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] ##### Ejemplo: Encontrar el promedio del precio de los diamantes en la base de datos: datos_d
media_precio <- mean(datos_d$precio)
cat(" La media del precio es:",media_precio)
## La media del precio es: 4921.075
La mediana se obtiene:
\[med(x)\] = \[x_{(\frac{n+1}{2})}\]
\[ med(x)=\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} \] ##### Ejemplo: encontrar la median del precio de los quilates en la muestra
mediana_precio <- mean(datos_d$precio)
cat(" la mediana del precio es:",mediana_precio)
## la mediana del precio es: 4921.075
La moda es el dato que más se repite. Pueden haber más de una moda: bimodal, trimodal, multimodal.
moda_precio <- mlv1(datos_d$precio)
cat(" la meda del precio es:",moda_precio)
## la meda del precio es: 407
\[ S^2 = \frac{1}{n-1}\sum_{i = 1}^n(x_i-\bar{x})^2 \]
\[ S = \sqrt{\frac{1}{n-1}\sum_{i = 1}^n(x_i-\bar{x})^2} \] * El coeficiente de variación: es la razón entre la desviación estándar y el promedio
\[ CV = \frac{S}{\bar{X}}100\% \] ##### Ejemplo: Encontrar todas las medidas de dispersión para la variable precio de la muestra.
Rango_precio = max(datos_d$precio)-min(datos_d$precio)
Varianza_precio = var(datos_d$precio)
Desv_est_precio = sd(datos_d$precio)
Coef.var_precio = (Desv_est_precio/media_precio)*100
med_variabilidad <- data.frame(Rango_precio,Varianza_precio,Desv_est_precio,Coef.var_precio)
med_variabilidad
## Rango_precio Varianza_precio Desv_est_precio Coef.var_precio
## 1 17673 22725667 4767.145 96.87202
Las medidas de posición dividen un conjunto de datos ordenado en partes iguales. Las medidas de posición más usadas son los curtiles y los percentiles.
Los cuartiles se simbolizan: \(Q_1, Q_2, Q_3, Q_4\), y los percentiles \(P_1,P_2,...,P_{100}\)
La fórmula para la posición es:
\[ P_k = \frac{(n+1)*k}{100} \] #### Ejemplo: encontrar los cuartiles 1 y 3 y los percentiles 30, 67 y 85 del precio de los diamantes en la muestra
mp_precio <- quantile(datos_d$precio,probs = c(0.25,0.3,0.67,0.75,0.85))
df1 <- data.frame(mp_precio)
df1
## mp_precio
## 25% 967.25
## 30% 1169.30
## 67% 5361.68
## 75% 7262.50
## 85% 10971.60
La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución según su asimetría:
El coeficiente de asimetría de Fisher \(CA_F\) evalúa la proximidad de los datos a su media:
El coeficiente de asimetría de Pearson \(CA_P\) mide la diferencia entre la media y la moda respecto a la dispersión del conjunto
El coeficiente de asimetría de Bowley \(CA_B\) toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar.
La curtosis es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia.
En la fórmula se resta 3 porque es la curtosis de una distribución Normal. Entonces la curtosis valdrá 0 para la Normal, tomándose a ésta como referencia.
Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de curtosis se convierte en:
library(moments)
asim_precio <- skewness(datos_d$precio)
curt_precio <- kurtosis(datos_d$precio) - 3
cat("Asimetría:", asim_precio, "\nCurtosis:", curt_precio)
## Asimetría: 1.128343
## Curtosis: 0.1917107