Las medidas descriptivas son valores numéricos que resumen la información contenida en un conjunto de datos.

Las medidas descriptivas pueden calcularse a partir de lo datos de una muestra o los datos de una población. Para hacer una distinción entre ellas, se tienen las siguientes definiciones:

  1. Una medida descriptiva calculada a partir de los datos de una muestra recibe el nombre de Estadística/o.

  2. Una medida descriptiva calculada a partir de los datos de una población recibe el nombre de Parámetro.

Las medidas descriptivas se clasifican en:

1. Medidas de Tendencia Central (MTC)

Las medidas de tendencia central son valores alrededor de los cuales los datos tienden a agruparse. Estas MTC son:

a. Media aritmética (promedio, media muestral)

\[{\mathbf{\overline{x}}}=\frac{x_{1}+x_{2}+...+x_{n}}{n}=\frac{\sum_{i=1}^{n}{x_{i}}}{n}\] Si se tiene registro de toda la población, entonces se le denomina media poblacional y está dada por:

\[{\mathbf{\mu}} =\frac{x_{1}+x_{2}+...+x_{N}}{N}=\frac{\sum_{i=1}^{N}{x_{i}}}{N}\]

Ejemplo:

x = c(20, 30, 25, 18, 15, 19, 20, 24)
mean(x)
## [1] 21.375

b. Mediana

Es el valor que divide al arreglo ordenado de datos en dos partes iguales, tales que el número de datos iguales o mayores que la mediana es igual al número de datos menores o iguales que ella. Su expresión matemática está dada por:

\[{\mathbf{M_{e}}}=\left\{\begin{matrix} \frac{x_{\left (\frac{n}{2}\right)}+x_{\left (\frac{n}{2}+1\right)}}{2} & ,\,\text{si $n$ es par}\\ \ x_{\left (\frac{n+1}{2}\right)}& \,\,\,\,\,\, ,\,\text{si $n$ es impar} \end{matrix}\right. \]

Ejemplo:

y = c(54, 21, 53, 33, 10)
median(y)
## [1] 33

c. Moda

La moda en un conjunto de datos es aquel valor que ocurre con más frecuencia.

• Si todos los valores en el conjunto de datos son diferentes, se dice que no existe moda.

• Un conjunto de datos puede tener más de una moda (Unimodal-Bimodal-Multimodal).

Notación: \({\mathbf{M_{o}}}\)

Ejemplo:

A = c(20, 46, 16, 21, 25, 22, 30, 20, 20, 40, 20, 20)
table(A)
## A
## 16 20 21 22 25 30 40 46 
##  1  5  1  1  1  1  1  1

2. Medidas de Dispersión

La dispersión de un conjunto de observaciones se refiere a la variabilidad que exhiben los valores observados. Si todos los datos son los mismos, no existe dispersión; si no son todos iguales hay dispersión en los datos.

Estas medidas son:

a. Rango

Se denota por R, y se define como la diferencia entre el valor máximo y el valor mínimo del conjunto de observaciones:

\[{\mathbf{R}}={x_{\mathbf{max}}-x_{\mathbf{min}}}\] Ejemplo:

range(x)
## [1] 15 30

Otra forma:

Rango = max(x) - min(x)
Rango
## [1] 15

Otra forma:

Rango = diff(range(x))
Rango
## [1] 15

b. Varianza muestral

Es una medida de dispersión que mide la diseminación de los valores alrededor de su media. Está dada por:

\[\mathbf{S}^{2}=\frac{\sum_{i=1}^{n}\left (x_{i}-\overline{x}\right)^{2}}{n-1}\] Si se tiene registro de toda la población, entonces se le denomina varianza poblacional y está dada por:

\[\sigma^{2}=\frac{\sum_{i=1}^{N}\left (x_{i}-\mu\right)^{2}}{N}\]

Ejemplo:

W = c(34, 45, 21, 37, 28, 30, 28)
var(W)
## [1] 59.14286

c. Desviación estándar muestral

Se define como la raíz cuadrada de la varianza muestral:

\[\mathbf{S}=\sqrt{\mathbf{S}^{2}}\]

Si se tiene registro de toda la población, entonces se le denomina desviación estándar poblacional y está dada por:

\[\sigma=\sqrt{\sigma^{2}}\]

Ejemplo: Para el ejemplo inmediatamente anterior.

sd(W)
## [1] 7.690439

d. Coeficiente de variación

El coeficiente de variación es independiente de la unidad de medida por lo tanto permite compara varios conjuntos expresados en diferentes unidades o con la misma unidad de medida. Está dado por:

\[\mathbf{C_{v}}=\frac{\mathbf{S}}{\left |\overline{x} \right |}\times 100\,\,\%\]

Ejemplo:

CV = ((sd(W))/(mean(W)))*100
CV
## [1] 24.14039

3. Medidas de Posición

Valores que dividen a un conjunto de datos ordenados en dos partes no necesariamente iguales.

Estas medidas son:

a. Cuartiles Tres valores que dividen a un conjunto de datos ordenados en cuatro partes iguales, y se denotan por \(Q_k\).

Ejemplo:

Q1 = quantile(W,0.25)
Q1
## 25% 
##  28
Q2 = quantile(W,0.50)
Q2
## 50% 
##  30
Q3 = quantile(W,0.75)
Q3
##  75% 
## 35.5

b. Deciles Nueve valores que dividen a un conjunto de datos ordenados en diez partes iguales, y se denotan por \(D_k\).

Ejemplo:

D1 = quantile(W,0.10)
D1
##  10% 
## 25.2
D2 = quantile(W,0.20)
D2
## 20% 
##  28

c. Percentiles Noventa y nueve valores que dividen a un conjunto de datos ordenados en cien partes iguales, y se denotan por \(P_k\).

Ejemplo:

P1 = quantile(W,0.01)
P1
##    1% 
## 21.42
P2 = quantile(W,0.02)
P2
##    2% 
## 21.84

Podemos observar que tanto los cuartiles como los deciles son casos paticulares de los percentiles, por tanto solo citamos una expresión matemática para calcular cualquier medida de posición. Esta expresión está dada por:

\[\textbf{P}_{\alpha}=x_{(h)}+\left (x_{(h+1)}-x_{(h)}\right)\left(i-h\right )\] donde, \[i=\left ( \frac{n-1}{100}\times\alpha\right ) \,\, \text{y} \,\,\, h = \left [ \left|i\right|\right].\] 4. Medidas de Forma

a. Asimetría

La asimetría de una distribución se refiere a la forma geométrica de la curva de frecuencias. Una de las curvas de frecuencias más interesantes en estadística es la curva simétrica en forma de campana, llamada curva normal. En general, ningún conjunto de datos provenientes de un muestreo tiene exactamente la forma simétrica o normal.

Como no siempre es posible determinar la asimetría de un conjunto de datos a partir de la inspección de la curva de frecuencias, se utilizan medidas de asimetría para determinar qué tan deformada está la curva respecto a la campana de gauss, estas medidas son llamadas coeficiente de asimetría, y permiten identificar las características de la distribución de los datos sin necesidad de generar el gráfico.

\[\mathbf{g}_{1}=\frac{1}{\text{S}^{3}}\sum_{i=1}^{n}\frac{\left (x_{i}-\overline{x} \right )^{3}}{n} \,\,\,\,\,\,\text{o}\,\,\,\,\,\, \mathbf{C.P}=\frac{3\left ( \overline{x}-\text{M}_\text{e} \right )}{\text{S}} \] Si uno de estos coeficientes es menor que cero la curva es asimétrica hacia la izquierda, si uno de ellos es mayor que cero la curva es asimétrica a la derecha, y si son iguales a cero la curva será simétrica. Para efectos prácticos, una curva con asimetría entre \(-0.37\) y \(+0.37\) puede considerarse simétrica y menores que \(-1\) o mayores que \(1\) indican que la curva tiene una asimetría muy pronunciada.

b. Curtosis

La curtosis es una medida de forma que mide la mayor o menor concentración de los datos alrededor de la moda, indicando si la curva es más puntiaguda o más plana respecto a la curva normal.

La siguiente figura ilustra los tres tipos de curtosis:

Las medidas más utilizadas son la del cuarto momento propuesta por Fisher y denotada por \(g_2\) y la medida de basada en los cuantiles que se denota por \(K\):

\[\mathbf{g}_{2}=\frac{1}{\text{S}^{4}}\sum_{i=1}^{n}\frac{\left (x_{i}-\overline{x} \right )^{4}}{n} \,\,\,\,\,\,\text{o}\,\,\,\,\,\, \mathbf{K}=\frac{Q}{2\left(D_{9}-D_{1}\right)}\] Donde \(Q\) es el rango intercuartílico, y \(D_1\) y \(D_9\) son el primero y noveno decil respectivamente. Para interpretar estos coeficientes los comparamos con \(3\) para el caso de \(g_2\) y con \(0.26\) para el caso de \(K\), puesto que son los valores de estas medidas que se corresponden con la curva normal. Así entonces, si \(g_2 < 3\) o \(K < 0.26\) la curva es platicúrtica, si \(g_2 > 3\) o \(K > 0.26\) la curva será leptocúrtica y si \(g_2 = 3\) o \(K = 0.26\) entonces la curva será mesocúrtica o normal.

Nota: La función para hallar el rango intercuartílico \(Q\) es IQR.

Estas medidas se pueden determinar fácilmente en R mediante las instrucciones kurtosis() y skewness() para la curtosis y para la asimetría, respectivamente. Ellas utilizan la medida de los momentos. Es de importancia para el lector tener presente que para ejecutar estas funciones se debe haber instalado previamente la librería e1071 del R.

library(e1071)
skewness(W)
## [1] 0.3188293
kurtosis(W)
## [1] -1.165924

De los resultados anteriores se tiene que el coeficiente de asimetría es \(0.31\) lo que indicaría que la curva es asimétrica a la derecha, o que tiene un sesgo a la derecha. Sin embargo como \(g_1 = 0.31 < 0.37\) el valor de la asimetría se encuentra dentro del rango permisible para asumir que la distribución es aproximadamente simétrica con un leve sesgo a derecha. Para el caso de la curtosis se encontró que \(g_2 = -0.16\) que claramente es menor que tres \((g_2 < 3)\), por lo tanto se puede concluir que la curva es platicúrtica

Existe una función en R que nos entrega rápido seis estadíscos resumen. A saber:

summary(W)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21.00   28.00   30.00   31.86   35.50   45.00

Finalmente, si tenemos una base de datos importada en R como un Data.frame podemos usar la función summary() para determinar los seis estadísticos resumen de cada una de ellas.

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
##