A continuacion, se cargan los paquetes necesarios para todas las medidas descriptivas que se veran
Cargado los paquetes, se tomará una muestra de 120 registros de la base de datos diamantes. Para ello se sembrará una semilla con el número 0227 y la muestra se llamará datos.d
## La mediana del precio es : 4921.075
la mediana se obtiene:
\[ med(x) = x_{(\frac{n+1}{2})} \]
\[ med(x) = \frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} \] ##### Ejemplo: encontrar la median del precio de los quilates en la muestra
## La mediana del precio es : 3189
La moda es el dato que mas se repite, se simboliza \(mod(x)\).Pueden haber más de una moda: bimodal, trimodal, multimodal.
Rango: Es la diferencia entre el dato mayor y el dato menor
Varianaza: Es la medida mas usadapara cuantificar la dispersion de los datos respecto a su media. Se simboliza \(S^2\) y su formula es
\[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
\[ s^2 = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} \]
\[ CV = \frac{S}{\bar{X}}100\% \]
Rango_precio = max(datos.d$precio)-min(datos.d$precio)
Varianza_precio = var(datos.d$precio)
Desv_est_precio = sd(datos.d$precio)
Coef_var = (Desv_est_precio/mediana_precio)*100
coef_variabilidad <- data.frame(Rango_precio,Varianza_precio,Desv_est_precio,Coef_var)
coef_variabilidad
Las medidas de posicion dividen un conjunto de datos ordenados en partes iguales. Las medidas de posicion mas usadas son los cuartiles y los percentiles
Los cuartiles se simbolizan: \(Q_1,Q_2,Q_3,Q_4\), y los percentiles \(P_1,P_2,...P_{100}\)
La formula para la posicion es:
\[ P_k = \frac{(n+1)*k}{100} \]
La asimetría y curtosis informan sobre la forma de la distribución de una variable. Estas medidas permiten saber las características de su asimetría y homgeneidad sin necesidad de representarlos gráficamente.
La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución según su asimetría:
Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la f forma de la campana de Gauss, o distribución normal.
Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la media.
Existen tres coeficientes de asimetría:
### Coeficiente de asimetría de Fisher
El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x. Cuanto mayor sea la suma ∑(xi–x)3, mayor será la asimetría. Sea el conjunto X=(\(X_1,x_2,...x_{n}\)), entonces la fórmula de la asimetría de Fisher es:
\[ C_{AF} = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^3}{N \cdot S_x^3} \]
siendo \(\bar{x}\) la media y \(S_x\) la desviación típica.
Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de asimetría de Fisher se convierte en:
\[ C_{AF} = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^3 \cdot n_i}{N \cdot S_x^3} \]
donde: - \(x_i\) es uno de los datos
o, en datos agrupados en intervalos, la marca de clase,
- \(\bar{x}\) es la media,
- \(n_i\) es la frecuencia absoluta de
\(x_i\) o de cada intervalo \(i\),
- \(S_x\) es la desviación típica.
### Interpretación del coeficiente
### Coeficiente de asimetría de Bowley
El coeficiente de asimetría de Bowley CAB toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar. Sea el conjunto X=(x1, x2,…, xN), la asimetría de Bowley es:
\[ C_{AB} = \frac{Q_3 + Q_1 - 2Me(X)}{Q_3 - Q_1} \]
siendo \(Q_3\) el tercer cuartil, \(Q_1\) el primer cuartil y \(Me(X)\) la mediana.
Esta fórmula viene de:
\[ C_{AB} = \frac{(Q_3 - Me(X)) - (Me(X) - Q_1)}{Q_3 - Q_1} \]
siendo \(Q_3\) el tercer cuartil, \(Q_1\) el primer cuartil y \(Me(X)\) la mediana.
Recordemos que la mediana (Me) es lo mismo que el segundo cuartil (Q2). Por lo que la fórmula del coeficiente de asimetría de Bowley también se puede escribir así:
\[C_{AB} = \frac{Q_3 + Q_1 - 2Q_2}{Q_3 - Q_1}\]
Si \(CA_{B} < 0\): la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es mayor que al tercero.
Si \(CA_{B} = 0\): la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana.
Si \(CA_{B} > 0\): la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.
### Coeficiente de asimetría de Pearson
El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y la moda respecto a la dispersión del conjunto X=(\(x_1, x_2,…, x_{N}\)). Este procedimiento, menos usado, lo emplearemos solamente en distribuciones unimodales y poco asimétricas.
\[ C_{AP} = \frac{\overline{x} - Mo(X)}{S_x} \]
siendo \(\overline{x}\) la media, \(Mo(X)\) la moda y \(S_x\) la desviación típica.
Si \(CA_P\) <0: la distribución tiene una asimetría negativa, puesto que la media es menor que la moda.
Si \(CA_P\) =0: la distribución es simétrica.
Si \(CA_P\) >0 : la distribución tiene una asimetría positiva, ya que la media es mayor que la moda.
La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el conjunto X=(\(x_1, x_2,…, x_N\)), entonces el coeficiente de curtosis será:
\[ g_{2} = \frac{\sum_{i=1}^{N} (X_i - \overline{x})^4 \cdot n_i}{N S_x^4} \]
donde \(n_i\) es la frecuencia absoluta de \(x_i\).
En la fórmula se resta 3 porque es la curtosis de una distribución Normal. Entonces la curtosis valdrá 0 para la Normal, tomándose a ésta como referencia.
Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de curtosis se convierte en:
\[ \text{Exceso de curtosis} = \frac{\sum_{i=1}^{N} (X_i - \overline{x})^4 \cdot n_i}{N S_x^4} - 3 \]
donde \(n_i\) es la frecuencia absoluta del dato \(x_i\).