En esta parte se desarrollará todo el análisis decriptivo numérico, esto significa que solo se puede realizar para variables cuantitativas.
Aquí se tratará con todas las medidas que permitirán describir un conjunto de datos. Estas son:
1. Medidas de Tendencia Central
Primero se tomará una muestra de 1000 registros de la base de datos diamantes del paquete datos
Esta muestra aleatoria se usa tomando una semilla con valor de 258.
## tibble [1,000 × 10] (S3: tbl_df/tbl/data.frame)
## $ precio : int [1:1000] 17068 8917 2738 5242 11365 2527 1774 1952 5939 9333 ...
## $ quilate : num [1:1000] 2.12 1.54 0.77 0.9 1.03 0.74 0.54 0.7 1.01 1.24 ...
## $ corte : Ord.factor w/ 5 levels "Regular"<"Bueno"<..: 5 4 5 5 5 4 5 3 4 5 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 6 6 5 2 3 2 3 7 1 3 ...
## $ claridad : Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 4 4 4 5 8 2 5 4 3 5 ...
## $ profundidad: num [1:1000] 62.7 61.7 62 61.3 61.3 61.3 61.1 61.1 62.3 62.2 ...
## $ tabla : num [1:1000] 56 59 56 57 56 59 57 61 60 55 ...
## $ x : num [1:1000] 8.16 7.4 5.86 6.24 6.53 5.83 5.28 5.64 6.4 6.89 ...
## $ y : num [1:1000] 8.24 7.34 5.89 6.2 6.55 5.78 5.3 5.69 6.35 6.87 ...
## $ z : num [1:1000] 5.14 4.55 3.64 3.81 4.01 3.56 3.23 3.46 3.97 4.28 ...
## # A tibble: 5 × 5
## precio quilate corte color claridad
## <int> <dbl> <ord> <ord> <ord>
## 1 17068 2.12 Ideal I VS2
## 2 8917 1.54 Premium I VS2
## 3 2738 0.77 Ideal H VS2
## 4 5242 0.9 Ideal E VS1
## 5 11365 1.03 Ideal F IF
Para obtener la media, la mediana y la moda se usan las funciones mean y median del paquete base de r y fmv del paquete modeest para encontrar la moda.
La fórmula para la media y la mediana son:
\[ \bar{x} = \frac{1}{n}\sum_{i =1}^n{x_i} \] La fórmula para posición en donde está la mediana, \(M\) es:
\[ M = \begin{cases} \ x_{(\frac {n+1}{2})} & \text{si n es impar} \\ \frac {x_{(\frac {n}{2})}+x_{(\frac {n+1}{2})}}{2} & \text{si n es par} \end{cases} \] La moda es el dato que más repite o el que tiene mayor frecuencia. Puede pasar que existan más de una moda.
Ejemplo
Encontrar las medidas de tendencia central para la variable precio
## El promedio del precio de los diamantes en la muestra es: 4159.333
## La mediana del precio es: 2564.5
## la moda(s) del precio de los diamanmtes es: 911
Nota para la mediana se ordenan los datos y se aplica la fórmula
## [1] 2564.5
2.Medidas de variabilidad
Estas medidas cuantifican qué tan dispersos se encuentran los datos con respecto a una medida de tendencia central; la medida de tendencia central más usada es el promedio. La primera medida que se va a estudiar es el rango que la medida más simple y no tiene en cuenta el promedio, la mediana o la moda.
Se define como la diferencia entre el dato mayor y el dato menor.
\[ \small Rango = \text {dato mayor - dato menor} \] La varianza es la medida más usada para medir la dispersión de los datos. Se hace con respecto a la media y se simboliza con la letra \(S^2\) y su fórmula es (Es el promedio de distancia entre cada dato y su promedio):
\[ \small S^2 = \frac {1}{n-1}\sum_{i =1}^n{(x_i-\bar{x})^2} \] La desviación estándar es la raíz cuadrada de la varianza, su símbolo es \(S\).
\[ \small S = \sqrt {S^2} \] Por último, se define el coeficiente de variació como el cociente entre la desviación estandar y el promedio.
\[ \small CV = \frac {s}{\bar{x}}*100 \]
Ejemplo
Se encontrarán las medidas de variabilidad para el precio de los diamantes en la base de datos.
## El rango del precio de los diamantes es: 18374
## la varianza del precio de los diamantes es: 18008012
## la desviación estándar del precio de los diamantes es: 4243.585
## El coeficiente de variación del precio de los diamantes es: 102.0256
3.Medidas de posición
Cuartiles: Dividen un conjunto de datos ordenado en cuatro partes iguales, y, lo que indica es la posición del dato que tiene hacia atrás un Q% de la información. Se simbolizan: \(Q_1, Q_2, Q_3, Q_4 \\ \text{Es decir, }Q_i \text{ Con } i = 1, 2, 3 \text{ y } 4\) es la posición del dato ordenado que tiene hacia atrás el \(\frac {i}{4}100\%\) de la información y es superado por el \((1-\frac {i}{4})100\%\)
Perecentiles: Dividen un conjunto de datos ordenado en 100 partes iguales, y, lo que indica es la posición del dato que tiene hacia atrás un P% de la información.\(P_1, P_2, P_3, ... , P_{100}\) El \(P_i; con \text{ } i = 1, 2, ... , 100\) es la posición del dato ordenado que tiene hacia atrás el \(\frac {i}{100}100\%\) de la información y es superado por el \((1-\frac {i}{100})100\%\)
Formula la posición del percentil k \[ P_k = \frac {(n+1)k}{100}, \begin{cases} \text{n } & \text{Es el número de datos}\\ \text{k} & \text{Es la posición del dato} \end{cases} \] Ejemplo Encontrar los percentiles, 10, 25, 30, 50, 75 y 80 del precio de los diamantes de la base de datos datos.d
## 10% 25% 30% 50% 75% 80%
## 670.1 1000.5 1125.3 2564.5 5741.5 6617.6
Ejemplo con la fórmula
Encotrar el percentil 25.
Primero encntramos la posición del percentil 25
## [1] 250.25
Se observa que el percentil 25 está en la posición 30 y a 0.25 de la distancia entre el 30 y el 31 de los datos ordenados
## [1] 1001.25
Diagrama de caja
El box-plot se construye usando 5 números de son: \(Q_1, Q_2, Q_3\) y el rango intercuartílico que es la diferencia entre el tercero y el primero \(RI = Q_3 - Q_1\) y el límite superior e inferior que se encuentran con el rango intercuartílico. Así, para el precio de los diamantes:
## 25%
## 1001.5
## 50%
## 2564.5
## 75%
## 5732.5
## 25%
## -6095
## 75%
## 12829
La medida de asimetría indica qué tanto sesgo tiene una distribución de datos de acuerdo a su media, como el mismo nombre lo indica, es una medida que nos dice qué tan simétrica es una distribución de datos. Lo posibles valores que obtenemos, son los siguientes:
1. Si la asimetría es = 0 → distribución simétrica.
2. Si la asimetría es > 0 → asimetría positiva (cola a la derecha).
3. Si la asimetría es < 0 → asimetría negativa (cola a la izquierda).
\[ \text{Frmula de Pearson; } CA_p = \frac {\bar{x}- Mo(X)}{S_x}, \begin{cases} \bar{x} & \text{Es la media}\\ Mo(X) & \text{Es la moda}\\ S_x & \text{Es la desviación típica} \end{cases} \]
## [1] 1.626849
Nuestro coeficiente de asimetría para la gráfica utilizando su función interna "skewness(datos)" es: 1.6268.
Si obtenemos el valor usando la fórmula y los valores en nuestra gráfica, obtenemos:
\[ CA_p = \frac {\bar{x}- Mo(X)}{S_x} = \frac {4,159.33 - 1,199.2}{4,243.58} = 0.6976 \]
Como vimos tal cuál en la definición un coeficiente de asimetría positivo nos indica una cola hacia la derecha ✨
Nótese como no da le mismo valor, a pesar de que ambas indican que la cola está hacia la derecha, se han obtenido por métodos distintos y sus valores no son iguales. Técnicamente son dos diferentes tipos de coeficiente de asimetría
La curtosis es una medida de la cola de una distribución. La cola se refiere a la frecuencia con la que se producen valores atípicos. El exceso de curtosis es la cola de una distribución en relación con una distribución normal.
Hay 3 tipos de clasificaciòn:
Clasificación | Descripción | Valor |
---|---|---|
Mesocúrtica | Las distribuciones con curtosis media (colas medias) | ≈ 3 |
Platicúrtica | Las distribuciones con baja curtosis (colas delgadas) | < 3 |
Leptocúrtica | Las distribuciones con alta curtosis (colas gruesas) | > 3 |
Nota: Las colas son los extremos cónicos a ambos lados de una distribución. |
Representan la probabilidad o frecuencia de valores extremadamente altos o bajos en comparación con la media. En otras palabras, las colas representan la frecuencia con la que se producen valores atípicos.
Utilizando nuestra misma gráfica previa con los diamantes y su precios:
Aquí ciertamente tenemos una cola ancha, muchos datos alejados de la media, utilizando nuestra dunción "kurtosis(datos)" obtenemos un resultado de 5.10721 que es mucho mayor a 3, lo que nos dice que nuestra gráfica es leptocúrtica o en otras palabras que tenemos bastantes datos en la(s) cola(s).
## [1] 5.10721
\[ g_{2} = \frac{\sum_{i=1}^{N} (X_{i} - \bar{X})^{4} \cdot n_{i}}{N \, S_{x}^{4}} donde \; n_{i} \; \text{es la frecuencia absoluta de } X_{i}. \]