medidas descriptivas numericas

introduccion

En esta seccion se veran las medidas descriptivas numéricas, a saber:

Medidas de tendencia central
Medidas de variabilidad
Medidas de posicion
Medidas de forma

Medidas de tendencia central

Las medidas de tendencia central son el promedio aritmetico, la mediana y la moda.

Media aritmética El promedio o media aritmetica es la medida que mas se usa para describior el centro de un conjunto de datos, se simboliza \(\bar{x}\) y se define de la siguiente manera:

\[ \bar{x}= \frac{1}{n} \sum_{i=1}^n{x_i} \] El promedio se ve afectado por valores extremos. En consecuencia, cuando existen valores atipicos, la media no es aconsejable.

Mediana

La mediada es el dato que se encuentra en el centro de un conjunto ordenado de datos.Simbolizaremos la mediana \(med(x)\)

si el numero, \(n\) es par la mediana es el promedio de los datos del centro del conjunto ordenado

\[ med(x)=\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} \]

si el numero, \(n\) es impar, la mediana es el valor que se encuentra en el centro

\[ med(x)= X_{(\frac{n+1}{2})} \]

Moda

La moda es el dato que mas se repite, se puede simbolizar \(mod(x)\)

Ejemplo

Se va a encontrar las medidas de tendencia central de una muestra para la variable precio de una muestra tomada de una muestra aleatoria de 120 registros de la base de datos diamantes, del paquete datos, sembrando una semilla con el número 1927.

Primero se cargaran las librerias necesarias para todo el documento,

library(dplyr)
library(datos)
library(knitr)
library(descriptr)
library(modeest)

ahora, se tomara una muestra aleatoria de 120 registros, sembrando la semilla 1927 y nombrando datos.d el objeto que contendra la base de datos

set.seed(1927)
datos.d <-  sample_n(diamantes,size = 120 , replace = FALSE ) 
head(datos.d,5)

## # A tibble: 5 × 10
##   precio quilate corte   color claridad profundidad tabla     x     y     z
##    <int>   <dbl> <ord>   <ord> <ord>          <dbl> <dbl> <dbl> <dbl> <dbl>
## 1   6629    1.57 Premium J     VS2             59.9    57  7.56  7.52  4.52
## 2   1056    0.43 Ideal   D     VS2             62      55  4.81  4.86  3   
## 3    684    0.3  Bueno   H     VVS1            63.3    59  4.22  4.28  2.69
## 4   1637    0.54 Ideal   H     VS1             62.7    57  5.23  5.17  3.26
## 5   4054    0.88 Ideal   F     SI1             62.3    53  6.12  6.15  3.82

ahora, se encontraran las medidas solicitadas

media.precio <- mean(datos.d$precio)
mediana.precio <- median(datos.d$precio)
moda.precio <- mlv1(datos.d$precio)

df1 <- data.frame(media.precio,mediana.precio,moda.precio)
df1 <- kable(df1)
df1

media.precio	mediana.precio	moda.precio
3738.892	2028	707

Medidas de variabilidad

El rango

Es la diferencia entre el valor máximo y el valor mínimo en el conjunto de datos.

\[ \text{Rango} = \text{Valor maximo} - \text{Valor minimo} \]

Varianza

La varianza nos dice qué tanto se alejan los datos del promedio. Si los datos están muy separados del promedio, la varianza es grande. Si están cerca, es pequeña.

Varianza muestral

Se usa cuando tienes \(una\) \(parte\) \(de\) \(los\) \(datos\), Compara los datos con el promedio de la muestra y Se divide entre (n - 1) para hacer la cuenta más justa.

\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]

\(n\): número de datos en la muestra
\(x_i\): cada valor de la muestra
\(\bar{x}\) : media muestral
\(n-1\) : se usa para corregir el sesgo de la estimación

Varianza poblacional

Se usa cuando \(tienes\) \(todos\) \(los\) \(datos\) \(de\) \(una\) \(poblacion\), y compara cada dato con el promedio de toda la poblacion y se divide entre el total de datos.

\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \]

\(N\): Número total de elementos en la población
\(X_i\) : Cada valor en la población
\(\mu\) : Media poblacional

Medidas de posición

Son números que nos indican dónde están ubicados o cómo se distribuyen los datos en un conjunto, es decir, nos dicen qué valor ocupa cierta posición importante dentro de los datos.

Cuartiles

Dividen los datos en cuatro partes iguales.

\(Q_1\) : 25% de los datos están por debajo
\(Q_2\) : Es la mediana, 50% de los datos están por debajo
\(Q_3\) : 75% de los datos están por debajo

Percentiles

Dividen los datos en 100 partes iguales.Por ejemplo, el percentil 90 es el valor bajo el cual esta el 90% de los datos

Desviación estandar

La desviación estándar es una medida que nos indica qué tan lejos están los datos del promedio. Si la desviación estándar es pequeña, significa que los datos están muy cerca del promedio. Si es grande, los datos están más dispersos o variados.

\[ s = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 } \]
El coeficiente de variación

El coeficiente de variación (CV) es una medida relativa de dispersión que indica el tamaño de la desviación estándar en relación con la media. Se expresa generalmente en porcentaje y permite comparar la variabilidad entre diferentes conjuntos de datos, incluso si tienen medias diferentes.

\[ CV = \frac{s}{\bar{x}} \times 100\% \]