MEDIDAS DE TENDENCIA CENTRAL

son medidas que describen el o los datos que tienden hacia el centro del conjunto de datos. Son:

\(\bar{x} = \frac{1}{n} \sum_{i=1}^n\)

  1. Para datos pares

\[ \text{Mediana} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2} \] 2. Para datos impares

\[ \text{Mediana} = x_{\left(\frac{n+1}{2}\right)} \]

Ejemplo con la base de datos diamantes

Librerias que se necesitaran para le tema

## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Ejemplo: Encontrar las medidas de tendencia central para la variable precio de la base de datos diamantes que se encuentra en el paquete datos

media_a <- mean (diamantes$precio)
mediana <- median(diamantes$precio)
moda <- mlv1(diamantes$precio)

df <- data.frame (media_a, mediana, moda)
df
##   media_a mediana moda
## 1  3932.8    2401  605

Medidas de variabilidad

  1. Rango
  2. Varianza
  3. Desviación estandar
  4. Coeficiente de variación

*Rango: \(R\)= dato mayor - dato menor

*Varianza muestral: \[s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} \]

*Desviación estandar:\[s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} \]

**Coeficiente de variación:\[CV= \frac{s}{\bar{x}}\]

Ejemplo

Encontrar las medidas de variabilidad para el precio de los diamantes

rango_diam <- max(diamantes$precio)-min(diamantes$precio)
cat("El rango del precio de los diamantes:", rango_diam)
## El rango del precio de los diamantes: 18497

*Varianza del precio de los diamantes

var_diam <- var(diamantes$precio)
cat("La varianza del precio de los diamantes es:",var_diam)
## La varianza del precio de los diamantes es: 15915629

*Desviación estandar del precio de los diamantes

ds_diam <- sqrt(var(diamantes$precio))
cat("La desvicación estandar del precio de los diamantes es:",ds_diam)
## La desvicación estandar del precio de los diamantes es: 3989.44
  • Coeficiente de variación
CV <- (sd(diamantes$precio)/mean(diamantes$precio))*100
cat("El coeficiente de variación del precio de los diamantes es:",CV)
## El coeficiente de variación del precio de los diamantes es: 101.4402

Medidas de posicion

Las medidas de posicion nos indican un porcentaje que se encuentra antes y después de dicha medida.

Las medidas de posición que más se usan son:

  1. Los cuartiles
  2. Los percentiles

Los cuartiles dividen un conjunto de datos en cuatro partes iguales: cuartil 1, \(Q_1\), cuartil 2 \(Q_2\), cuartil 3, \(Q_3\) y cuartil 4 \(Q_4\)

Los percentiles dividen el conjunto ordenado de datos en 100 partes. EL percentil k, \(P_k\) es el valor en el conjunto ordenado que tiene hacia atras \(k\%\) de la información: La fórmula para la posición es:

\[P_k= \frac{(n+1)*k}{100}\] ### Ejemplo: encontrar todos los cuartiles y el percentil 30, 80 y 90

percentiles <- quantile(diamantes$precio, probs = c(0.25, 0.3, 0.5, 0.75, 0.8, 0.9), type = 6)
percentiles
##     25%     30%     50%     75%     80%     90% 
##  950.00 1087.00 2401.00 5324.75 6301.80 9821.00

Medidas de forma

La asimetría y curtosis informan sobre la forma de la distribución de una variable. Estas medidas permiten saber las características de su asimetría y homgeneidad sin necesidad de representarlos gráficamente.

Asimetria

La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media.

Existen tres tipos de curva de distribución según su asimetría:

Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media. Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal. Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la media.

###Curtosis La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.

Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

Ejemplo

Encontrar el coeficiente de asimetria y curtosis del precio de los diamantes

asim_diam <- ds_skewness(diamantes$precio)
curt_diam <- ds_kurtosis(diamantes$precio)

cat ("El coeficiente de asimetría del preci
     o de los diamantes es:", asim_diam)
## El coeficiente de asimetría del preci
##      o de los diamantes es: 1.618395
cat("La curtosis del precio de los diamantes es:", curt_diam)
## La curtosis del precio de los diamantes es: 2.177696

Resumen final

Todas las medidas vistas para el análisis cuantitativo se pueden resumir de la siguiente forma:

resumen_precio.diamantes<- ds_tidy_stats(diamantes,precio)
kable(resumen_precio.diamantes)
vars min max mean t_mean median mode range variance stdev skew kurtosis coeff_var q1 q3 iqrange
precio 326 18823 3932.8 3470.837 2401 605 18497 15915629 3989.44 1.618395 2.177696 101.4402 950 5324.25 4374.25