library(dplyr)
library(datos)
library(ggplot2)
library(descriptr)
library(flextable)
library(modeest)
library(moments)

Medidas de forma

Asimetría y Curtosis

Las medidas de Asimetría y curtosis permiten describir la forma de una distrubución de datos sin necesidad de representarla graficamente. Gracias a ellas es posible identificar si la distribución es equilibrada o si presenta sesgos, asi como su grado de concentración al rededor de la media.

Asimetría

La Asimetría evalúa el grado de simetría de una distribución respecto a su media. Los coheficientes de asimetría muestra si la mayoria de los valores se concentran de manera uniforme a ambos lados de la media, o si existe un sesgo hacia alguno de los extremos.

De acuerdo con su forma, una distribución puede clasificarse en:

Asimetría negativa: La cola se extiende hacia los valores menores de la media

Simétrica: La distribución es equilibrada a ambos lados de la media; en este caso, coinciden la media, la mediana y la moda, ajustándose añ patrón de la distribución normal o campana de Gauss.

Asimetría positiva: La cola se alarga hacia valores superiores a la media.

Gráfica de ejemplo
Gráfica de ejemplo

Ejemplo de Asimetría con la base de datos diamantes

Primero se tomará una muestra de 1000 registros de la base de datos diamantes del paquete datos

Esta muestra aleatoria se usa tomando una semilla con valor de 258.

set.seed(258)
datos.d <- sample_n(diamantes, size = 1000,replace = FALSE)
str(datos.d)
head(datos.d,c(5,5))

A continuación se muestra un ejemplo aplicado con la variable Precio del conjunto de datos diamonds.

#Histograma con curva de densidad para la muestra

# Histograma con curva de densidad
hist(datos.d$precio, main = "Histograma del precio de los diamantes",xlab = "Precio", col="pink", freq = FALSE)

# Curva de densidad para suavizar la forma
lines(density(datos.d$precio), col = "red", lwd = 2)

# Agregamos una línea en la media
abline(v = mean(datos.d$precio), col = "blue", lwd = 2, lty = 2)

# Agregamos una línea en la mediana
abline(v = median(datos.d$precio), col = "darkgreen", lwd = 2, lty = 2)

legend("topright", 
       legend = c("Densidad", "Media", "Mediana"), 
       col = c("red", "blue", "darkgreen"), 
       lwd = 2, lty = c(1,2,2))

Conclusión

En la distribución del precio de los diamantes se observa una clara asimetría postiva, ya que la cola de la distrubución se extiende hacia valores más altos. Esto significa que la mayoria de los diamantes tienen precios relativamente bajos,mientras que existen algunos con precios muy elevados que elevan la media respecto a la mediana.

coeficientes de asimetría

1.Coeficiente de Asimetría de pearson

Este coeficiente se define como la diferencia entre la Media aritmetica y la moda, dividida por la desviación estándar:

\[ CA_{P1}=\frac{\bar{x}-Mo}{S} \]\(\bar{x}\): Media aritmetica

\(Mo\): Moda

\(S\): Desviación estándar

Gráfica de Asimetría
Gráfica de Asimetría

Ejemplo de aplicación con la base de datos Diamond

x <- datos.d$precio

#Media, moda y desviación estándar

media <- mean(x)
moda <- mfv(x)
desv <- sd(x)

pearson1 <- (media - moda)/desv
cat("Coeficiente de Asimetría de pearson 1 es:",pearson1,"\n")
## Coeficiente de Asimetría de pearson 1 es: 0.7654691

1.2. Coeficiente de Asimetría de Bowley

Este coeficiente utiliza los cuartiles para medir la asimetría, siendo menos sensibñe a valores extremos.

\[ CA_{B}=\frac{Q_{3}+Q_{1}-2Q_{2}}{Q_{3}-Q_{1}} \]

\(Q_{1}\): Primer cuartil

\(Q_{2}\): Mediana

\(Q_{3}\): Tercer cuartil

Gráfica de Asimetría
Gráfica de Asimetría

Ejemplo de aplicación con la base de datos Diamond

x <- datos.d$precio

#Calcular los cuartiles
Q1 <- quantile(x, 0.25)
Q2 <- quantile(x, 0.50) #Mediana
Q3 <- quantile(x, 0.75)

#Fórmula Manual del coheciente de Asimetría de Bowley
CAB <- (Q3 - Q1) /( 3 + Q1 - 2*Q2)

cat("coeficiente de Asimetría de Bowley es:", CAB, "\n")
## coeficiente de Asimetría de Bowley es: -1.147048

1.3. Coeficiente de Asimetría de Fisher

Este coeficinte se basa en los momentos de tercer orden y mide de manera más completa la asimetría de toda la distribución.
\[ CA_{f} = \frac{\sum_{i=1}^{N}(x_i - \bar{x})^3}{N \cdot S^3} \]\(x_i\): Valor de la variable

\(\bar{x}\): Media aritmética

\(S\): Desviacion estándar

\(N\): Número de observaciones

Gráfica de Asimetría
Gráfica de Asimetría

Ejemplo de aplicación con la base de datos Diamond

x <- datos.d$precio

#Número de observaciones
N <- length(x)

#Media y desviación estandar
media <- mean(x)
desv <- sd(x)

#Aplicaciónde la fórmula manual del coeficiente de Asimetría de Fisher
CAF <- sum((x - media)^3) / (N * (desv^3))

cat("Coeficiente de Asimetría de Fisher es:", CAF, "\n")
## Coeficiente de Asimetría de Fisher es: 1.62441

Curtosis

La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.

Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:

\[ G_{2} = \frac{\sum_{i=1}^{N} (X_{i} - \bar{X})^{4} \cdot n_{i}}{N S_{x}^{4}}\ \] Cuando los datos estan agrupados en intervalos, la formula de la curtosis se convierte en:

\[ \text{Exceso de curtosis} = \frac{\sum_{i=1}^{N} (X_{i} - \bar{X})^{4} \cdot n_{i}}{N S_{x}^{4}} - 3\ \] De acuerdo con su forma, una distribución puede clasificarse en:

Leptocúrtica: Mayor concentración de datos alrededor de la media (curva más picuda). Curtosis > 0.

Mesocúrtica: Similar a la distribución normal. Curtosis ≈ 0.

Platicúrtica: Menor concentración de datos alrededor de la media (curva más aplanada). Curtosis < 0.

Gráfica de curtosis
Gráfica de curtosis

Ejemplo de Curtosis con la base de datos diamantes

# Histograma con curva de densidad y distribución normal de referencia
hist(datos.d$precio, 
     main = "Histograma del precio de los diamantes - Curtosis", 
     xlab = "Precio", 
     col = "lightblue", 
     freq = FALSE)
    

# Curva de densidad
lines(density(datos.d$precio), col = "red", lwd = 2)

# Curva de distribución normal para comparación
curve(dnorm(x, mean = mean(datos.d$precio), sd = sd(datos.d$precio)), 
      col = "darkblue", lwd = 2, lty = 2, add = TRUE)

legend("topright", 
       legend = c("Densidad observada", "Distribución normal"), 
       col = c("red", "darkblue"), 
       lwd = 2, lty = c(1, 2))

# Cálculo de la curtosis
curtosis <- kurtosis(datos.d$precio)
cat("Coeficiente de curtosis:", curtosis, "\n")
## Coeficiente de curtosis: 5.10721

Conclusión sobre la curtosis

La distribución del precio de los diamantes presenta una curtosis significativamente mayor que 0, lo que significa que:

Hay una mayor concentración de datos alrededor de la media en comparación con una distribución normal.

La curva es más picuda y elevada en el centro.

Las colas de la distribución son más pesadas que las de una distribución normal; es decir, hay más valores extremos (tanto bajos como altos) de lo esperado bajo normalidad.

Esto es consistente con la asimetría positiva previamente identificada: aunque la mayoría de los precios se concentran en valores bajos (haciendo la curva puntiaguda), también existe una cola larga hacia precios muy altos, lo que contribuye a una curtosis elevada.

Resumen final

La distribución del precio de los diamantes es leptocúrtica, con una fuerte concentración de valores alrededor de la media y colas pesadas, lo que refleja la presencia de precios extremos que alejan la distribución de la normalidad.