En esta seccion se veran las medidas descriptivas numéricas, a saber:
Las medidas de tendencia central son el promedio aritmetico, la mediana y la moda.
\[ \bar{x}= \frac{1}{n} \sum_{i=1}^n{x_i} \] El promedio se ve afectado por valores extremos. En consecuencia, cuando existen valores atipicos, la media no es aconsejable.
La mediada es el dato que se encuentra en el centro de un conjunto ordenado de datos.Simbolizaremos la mediana \(med(x)\)
\[ med(x)=\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} \]
\[ med(x)= X_{(\frac{n+1}{2})} \]
La moda es el dato que mas se repite, se puede simbolizar \(mod(x)\)
Se va a encontrar las medidas de tendencia central de una muestra para la variable precio de una muestra tomada de una muestra aleatoria de 120 registros de la base de datos diamantes, del paquete datos, sembrando una semilla con el número 1927.
Primero se cargaran las librerias necesarias para todo el documento,
library(dplyr)
library(datos)
library(knitr)
library(descriptr)
library(modeest)
ahora, se tomara una muestra aleatoria de 120 registros, sembrando la semilla 1927 y nombrando datos.d el objeto que contendra la base de datos
set.seed(1927)
datos.d <- sample_n(diamantes,size = 120 , replace = FALSE )
head(datos.d,5)
## # A tibble: 5 × 10
## precio quilate corte color claridad profundidad tabla x y z
## <int> <dbl> <ord> <ord> <ord> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 6629 1.57 Premium J VS2 59.9 57 7.56 7.52 4.52
## 2 1056 0.43 Ideal D VS2 62 55 4.81 4.86 3
## 3 684 0.3 Bueno H VVS1 63.3 59 4.22 4.28 2.69
## 4 1637 0.54 Ideal H VS1 62.7 57 5.23 5.17 3.26
## 5 4054 0.88 Ideal F SI1 62.3 53 6.12 6.15 3.82
ahora, se encontraran las medidas solicitadas
media.precio <- mean(datos.d$precio)
mediana.precio <- median(datos.d$precio)
moda.precio <- mlv1(datos.d$precio)
df1 <- data.frame(media.precio,mediana.precio,moda.precio)
df1 <- kable(df1)
df1
| media.precio | mediana.precio | moda.precio |
|---|---|---|
| 3738.892 | 2028 | 707 |
El rango
Es la diferencia entre el valor máximo y el valor mínimo en el conjunto de datos.
\[ \text{Rango} = \text{Valor maximo} - \text{Valor minimo} \]
Varianza
La varianza nos dice qué tanto se alejan los datos del promedio. Si los datos están muy separados del promedio, la varianza es grande. Si están cerca, es pequeña.
Varianza muestral
Se usa cuando tienes \(una\) \(parte\) \(de\) \(los\) \(datos\), Compara los datos con el promedio de la muestra y Se divide entre (n - 1) para hacer la cuenta más justa.
\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \]
\(n\): número de datos en la muestra
\(x_i\): cada valor de la muestra
\(\bar{x}\) : media muestral
\(n-1\) : se usa para corregir el sesgo de la estimación
Varianza poblacional
Se usa cuando \(tienes\) \(todos\) \(los\) \(datos\) \(de\) \(una\) \(poblacion\), y compara cada dato con el promedio de toda la poblacion y se divide entre el total de datos.
\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \]
\(N\): Número total de elementos en la población
\(X_i\) : Cada valor en la población
\(\mu\) : Media poblacional
Son números que nos indican dónde están ubicados o cómo se distribuyen los datos en un conjunto, es decir, nos dicen qué valor ocupa cierta posición importante dentro de los datos.
Cuartiles
Dividen los datos en cuatro partes iguales.
Percentiles
Dividen los datos en 100 partes iguales.Por ejemplo, el percentil 90 es el valor bajo el cual esta el 90% de los datos
Desviación estandar
La desviación estándar es una medida que nos indica qué tan lejos están los datos del promedio. Si la desviación estándar es pequeña, significa que los datos están muy cerca del promedio. Si es grande, los datos están más dispersos o variados.
\[ s = \sqrt{ \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 } \]
El coeficiente de variación
El coeficiente de variación (CV) es una medida relativa de dispersión que indica el tamaño de la desviación estándar en relación con la media. Se expresa generalmente en porcentaje y permite comparar la variabilidad entre diferentes conjuntos de datos, incluso si tienen medias diferentes.
\[ CV = \frac{s}{\bar{x}} \times 100\% \]