Inteligencia Analítica de Datos con R

Estadística Descriptiva

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

7/11/22

Estadística Descriptiva

La estadística descriptiva es el área de la estadística que trata de la organización, resumen, análisis e interpretación de datos mediante un análisis descriptivo.

Población: Conjunto de elementos que contine una o más características observables de características cuantitativas o cualitativas. Ejemplos:

  • Los bancos que hacen parte de la red de Asobancaria en Colombia.
  • Los doctores de la Escuela Profesional de Economía.

Muestra: es una parte o subconjunto de elementos que se seleccionan previamente de una población para realizar un estudio.

Variables Estadísticas

Las variables estadísticas pueden ser:

Variables Cualitativas: Son aquellas que no se pueden medir numéricamente como el sexo, la nacionalidad, color de ojos, etc. Pueden ser:

  • Dicótomicas cuando solo presenta dos categorías como el sexo (masculino o femenino)
  • Politómicas cuando presentan más de una categoría como (Alto, medio y bajo). A su vez, pueden ser:
    • Ordinales: El orden es importante. Ejemplo nivel de escolarización: primaria, secundaria, academia, universidad, etc.
    • Nominales: No existe un orden. Ejemplo la nacionalidad: Peruano, argentino, chileno, etc.

Variables Cuantitativas: Son aquellas que sí se pueden metir numéricamente como la edad, el gasto, el ingreso, el precio, etc. Pueden ser:

  • Discretas: Se dice que una variable es discreta cuando no puede tomar ningún valor entre dos consecutivos. Ejemplos: número de empleados de una fábrica (1, 2, 3, …); número de hijos; número de cuentas ocultas en Suiza.
  • Continuas: cuando puede tomar cualquier valor dentro de un intervalo. Ejemplo: la estatura de una persona (1.72 m, 1.719 m, 1.718 m, …); el tiempo que toma un atleta en recorrer 100 metros planos.

Distribución de Frecuencias

Para el estudio estadístico de una muestra es necesario ordenar y agrupar los datos en una tabla de frecuencias. La tabla de distribución de frecuencias contiene lo siguiente:

  • Frecuencias absolutas (f), se define como el número de ocurrecias totales en cada categorı́a en los datos.
  • Frecuencias relativa (fr), se define como el número de ocurrecias relativas al total en cada categorı́a de los datos.
  • Frecuencias relativa porcentual (f%), se define como el porcentaje de individuos con esa categorı́a. Se obtiene multiplicando la frecuencia relativa por 100.
  • Frecuencias acumulada (F), se define como la suma del número de ocurrencias hasta cada nivel en cada categorı́a.
  • Frecuencias relativa acumulada (Fr), se define como la suma relativa del número de ocurrencias hasta cada nivel en cada categorı́a.
  • Frecuencias relativa acumulada porcentual (F%), se define como el porcentaje de la suma relativa del número de ocurrencias hasta cada nivel en cada categorı́a. Se obtiene multiplicando por 100 la frecuencia relativa acumulada.

Datos y librerías que se usarán

Primero, debemos instalar y descargar las librerías que vamos a utilizar.

Librerías

library(readr)
library(dplyr)
library(ggplot2)
library(modeest)   # Para hallar la moda
library(moments)   # Para hallar las medidas de forma

Datos

El conjunto de datos se obtuvo de múltiples fuentes, incluidas encuestas, sitios de publicación de trabajos y otras fuentes disponibles públicamente. Se recopiló un total de 6704 instancias. El conjunto de datos incluye cinco variables:

  • Age (edad)
  • Gender (Genero)
  • Education_Level (Nivel de educación)
  • Job_Title (Título laboral)
  • Years_of_Experience (Años de experiencia)
  • Salary (Salario)

Medidas estadísticas

Se pueden organizar en cuatro (4) grandes grupos, como se muestra en la figura de abajo. En cada grupo mencionamos solo algunas medidas.

Observaciones a cercad de las medidas estadística

media, varianza y desviación estándar

  • La media, varianza y desviación estándar no se interpretan.

Coeficiente de variación

  • El coeficiente de variación es: \(0\% \leqslant CV \leqslant 100 \%\)
    • Si CV es próximo a 0%, existe poca variabilidad en los datos.
    • Si CV es próximo a 100%, es una muestra muy dispersa.

Coeficiente de asimetría muestral (o de sesgo)

Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas al cubo, dividido por la desviación típica al cubo. En fórmula:

\[\mbox{Sesgo}= \frac{\sum(x_i - \overline{x})^3\cdot f_i}{s^3}\]

donde:

  • \(x_i\): es el i-ésimo dato
  • \(f_i\): es la frecuencia del i-ésimo dato
  • \(\bar{x}\): es la media de la muestra
  • \(s\): es la desviación estándar de la muestra

La distribución de los datos es:

  • Asimétrica positiva o a la derecha (o positivamente sesgada): si \(Sesgo>0\)
  • Asimétrica negativa o a la izquierda (o netativamente sesgada): si \(Sesgo<0\)
  • Simétrica: si \(Sesgo=0\)

Coeficiente de apuntalamiento muestral (o curtosis)

Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación típica a la cuarta y al resultado se le resta 3. es decir:

\[\mbox{Curtosis}= \frac{\sum(x_i - \overline{x})^4\cdot f_i}{s^4} - 3 \]

donde:

  • \(x_i\): es el i-ésimo dato
  • \(f_i\): es la frecuencia del i-ésimo dato
  • \(\bar{x}\): es la media de la muestra
  • \(s\): es la desviación estándar de la muestra

La distribución de los datos es:

  • Platicúrtica, si existe una baja concentración de los valores en torno a su media (Curtosis<0 ).

  • Mesocúrtica, si existe una concentración normal de los valores en torno a su media (Curtosis=0 ).

  • Leptocúrtica, si existe una gran concentración de los valores en torno a su media (Curtosis>0 ).

Comparación de media mediana y moda en una distribución

Medidas de orden

Las medidas de posicion son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.

Los cuartiles son 3: Q1,Q2 y Q3

  • El cuartil 1 (\(Q_1\)): deja un 25% de los datos por debajo del valor \(Q_1\) y un 75% de los datos por encima de \(Q_1\).
  • El cuartil 2 (\(Q_2\) = Mediana): deja un 50% de los datos por debajo del valor \(Q_2\) y un 50% de los datos por encima de \(Q_2\).
  • El cuartil 3 (\(Q_3\)): deja un 75% de los datos por debajo del valor \(Q_3\) y un 25% de los datos por encima de \(Q_3\).

Los cuartiles: posición y valor

Posición del cuartil

Si se tienen una serie de valores \(x_1, x_2, x_3, \dots, x_n\), el cuartil \(Q_k\), \(k=1,2,3\) se localiza mediante las siguientes fórmulas:

  • Cuando \(n\) es par:
    • Posición del cuartil es: \(pos=\frac{kn}{4}\)
  • Cuando \(n\) es impar:
    • Posición del cuartil es: \(pos=\frac{k(n+1)}{4}\)

Valor del cuartil

Cuando encontramos la posición, debemos tener en cuenta la siguiente regla:

  • Si la posición es decimal y la parte decimal es menor o mayor a 0.5.
    • redondeamos al entero más cercano y el cuartil será: \[Q_k=x_{round(pos)}\]
  • Si la posición es decimal y la parte decimal es igual a 0.5.
    • promediamos los valores \(x_{(pos-0.5)}\) y \(x_{(pos+0.5)}\) y el cuartil será: \[Q_k=\frac{x_{(pos-0.5)}+x_{(pos+0.5)}}{2}\]

Obervación: para los deciles y percentiles es análogo el procedimiento. Solo se debe considerar el denominador en el cociente de la posisicón; que en el caso de los deciles es 10 y en los percentiles es 100.

La función summary() y describe()

Recordemos que las funciones summary() y describe(), nos ayudan a obtener algunos estadísticos desciptivos de un conjunto de datos.

  • En R, la función summary() muestra un resumen general sobre las variables del data.frame (mínimo, máximo, media, mediana, primer y tercer cuartil).}
  • Además, R reconoce que las variables categóricas, por lo que muestra la frecuencia de cada categoría.

En esta ocación, vamos a trabajar los datos salary_data.csv para realizar algunos ejemplos.

# carguemos los datos
salary_data <- read_csv("datos/salary_data.csv")

#elimenos los NAs

salary_data <- na.omit(salary_data)

head(salary_data)

Usemos las funciones describe() (recoerdemos la librería dlookr) y summary().

describe(salary_data)
summary(salary_data)

Medidas de tendencia central, disperción, posición y forma en R

La media

x <- salary_data$Salary

mean(x) #Media aritmética

La mediana

median(x) # Mediana
quantile(x, probs=0.5) # Mediana = cuartil 2

La moda

Debemos usar la librería modeest y usar la función mfv().

library(modeest)

mfv(x)  # moda

Medidas de dispersión o de variabilidad

Varianza

var(x) # varianza muestral

Desviación estandar

sqrt(var(x))  # Desviación estandar muestral
sd(x)        # Desviación estandar muestral 

Desviación media

sum(abs(x-mean(x)))/length(x)   # Desviación media muestral 

Rango

max(x)-min(x) # rango muestral 

Coeficiente de variación

(mean(x)/sd(x))*100 # coeficiente de variacion muestral 

Medidas de posición relativa

Cuartiles

quantile(x, probs = seq(0.25, 0.75, by=0.25))

Deciles

quantile(x, probs = seq(0.1, 0.9, by=0.1))

Percentiles

quantile(x, probs = seq(0.01, 0.99, by=0.01))

Medidas de simetría(sesgo) y de forma

La simetría(sesgo) y la curtosis se hallan de la librería moments.

skewness(x)    #Sesgo
kurtosis(x)    #Curtosis

Medidas en uno o varias etapas

Medidas en una etapa

Son todas las medidas calculadas de toda la muestra completa (sin particionar por niveles de un factor). Como hicimos hasta el momento para la variable Salary.

Ejemplo:

mean(salary_data$Salary)

Medidas en dos etapas

Son las medidas calculadas en una partición de la muestra, ubicada en un segundo nivel. Se pueden calcular de dos maneras:

  • Caso 1: Medidas en todos los niveles categóricos.
  • Caso 2: Medidas dentro de un nivel categórico.

Explicaremos, a continuación, cada uno de estos casos.

Caso 1: Medidas en todos los niveles categóricos

Supongamos que se quiere calcular una medida (digamos, la media) para cada uno de los niveles de una variable categórica (digamos el genero). Entonces aplicamos la función tapply() para realizar la operación corespondiente.

Ejemplo:

Usando la función tapply(vector, index, function). Como se observa, esta función tiene tres argumentos:

  • El primero, la variable numérica a la que queremos aplicar la función.
  • El segundo, el factor para cada uno de cuyos niveles vamos a calcular la función.
  • El tercero, la función que queremos calcular (en nuestro ejemplo, la media).
tapply(salary_data$Salary , salary_data$Gender, mean)

Caso 2: Medida dentro de un nivel categórico

Supongamos que se quiere calcular una medida (digamos, la media de Nivel de educación: Masters) para un nivel específico de una variable categórica (digamos el genero). Primero, se aplica la función “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.