La estadística descriptiva es el área de la estadística que trata de la organización, resumen, análisis e interpretación de datos mediante un análisis descriptivo.
Población: Conjunto de elementos que contine una o más características observables de características cuantitativas o cualitativas. Ejemplos:
Los bancos que hacen parte de la red de Asobancaria en Colombia.
Los doctores de la Escuela Profesional de Economía.
Muestra: es una parte o subconjunto de elementos que se seleccionan previamente de una población para realizar un estudio.
Variables Estadísticas
Las variables estadísticas pueden ser:
Variables Cualitativas: Son aquellas que no se pueden medir numéricamente como el sexo, la nacionalidad, color de ojos, etc. Pueden ser:
Dicótomicas cuando solo presenta dos categorías como el sexo (masculino o femenino)
Politómicas cuando presentan más de una categoría como (Alto, medio y bajo). A su vez, pueden ser:
Ordinales: El orden es importante. Ejemplo nivel de escolarización: primaria, secundaria, academia, universidad, etc.
Nominales: No existe un orden. Ejemplo la nacionalidad: Peruano, argentino, chileno, etc.
Variables Cuantitativas: Son aquellas que sí se pueden metir numéricamente como la edad, el gasto, el ingreso, el precio, etc. Pueden ser:
Discretas: Se dice que una variable es discreta cuando no puede tomar ningún valor entre dos consecutivos. Ejemplos: número de empleados de una fábrica (1, 2, 3, …); número de hijos; número de cuentas ocultas en Suiza.
Continuas: cuando puede tomar cualquier valor dentro de un intervalo. Ejemplo: la estatura de una persona (1.72 m, 1.719 m, 1.718 m, …); el tiempo que toma un atleta en recorrer 100 metros planos.
Distribución de Frecuencias
Para el estudio estadístico de una muestra es necesario ordenar y agrupar los datos en una tabla de frecuencias. La tabla de distribución de frecuencias contiene lo siguiente:
Frecuencias absolutas (f), se define como el número de ocurrecias totales en cada categorı́a en los datos.
Frecuencias relativa (fr), se define como el número de ocurrecias relativas al total en cada categorı́a de los datos.
Frecuencias relativa porcentual (f%), se define como el porcentaje de individuos con esa categorı́a. Se obtiene multiplicando la frecuencia relativa por 100.
Frecuencias acumulada (F), se define como la suma del número de ocurrencias hasta cada nivel en cada categorı́a.
Frecuencias relativa acumulada (Fr), se define como la suma relativa del número de ocurrencias hasta cada nivel en cada categorı́a.
Frecuencias relativa acumulada porcentual (F%), se define como el porcentaje de la suma relativa del número de ocurrencias hasta cada nivel en cada categorı́a. Se obtiene multiplicando por 100 la frecuencia relativa acumulada.
Datos y librerías que se usarán
Primero, debemos instalar y descargar las librerías que vamos a utilizar.
Librerías
library(readr)library(dplyr)library(ggplot2)library(modeest) # Para hallar la modalibrary(moments) # Para hallar las medidas de forma
Datos
El conjunto de datos se obtuvo de múltiples fuentes, incluidas encuestas, sitios de publicación de trabajos y otras fuentes disponibles públicamente. Se recopiló un total de 6704 instancias. El conjunto de datos incluye cinco variables:
Age (edad)
Gender (Genero)
Education_Level (Nivel de educación)
Job_Title (Título laboral)
Years_of_Experience (Años de experiencia)
Salary (Salario)
Medidas estadísticas
Se pueden organizar en cuatro (4) grandes grupos, como se muestra en la figura de abajo. En cada grupo mencionamos solo algunas medidas.
Observaciones a cercad de las medidas estadística
media, varianza y desviación estándar
La media, varianza y desviación estándar no se interpretan.
Coeficiente de variación
El coeficiente de variación es: \(0\% \leqslant CV \leqslant 100 \%\)
Si CV es próximo a 0%, existe poca variabilidad en los datos.
Si CV es próximo a 100%, es una muestra muy dispersa.
Coeficiente de asimetría muestral (o de sesgo)
Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas al cubo, dividido por la desviación típica al cubo. En fórmula:
Asimétrica positiva o a la derecha (o positivamente sesgada): si \(Sesgo>0\)
Asimétrica negativa o a la izquierda (o netativamente sesgada): si \(Sesgo<0\)
Simétrica: si \(Sesgo=0\)
Coeficiente de apuntalamiento muestral (o curtosis)
Es el promedio de las desviaciones de los valores de la muestra respecto de la media muestral, elevadas a la cuarta, dividido por la desviación típica a la cuarta y al resultado se le resta 3. es decir:
Platicúrtica, si existe una baja concentración de los valores en torno a su media (Curtosis<0 ).
Mesocúrtica, si existe una concentración normal de los valores en torno a su media (Curtosis=0 ).
Leptocúrtica, si existe una gran concentración de los valores en torno a su media (Curtosis>0 ).
Comparación de media mediana y moda en una distribución
Medidas de orden
Las medidas de posicion son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.
Los cuartiles son 3: Q1,Q2 y Q3
El cuartil 1 (\(Q_1\)): deja un 25% de los datos por debajo del valor \(Q_1\) y un 75% de los datos por encima de \(Q_1\).
El cuartil 2 (\(Q_2\) = Mediana): deja un 50% de los datos por debajo del valor \(Q_2\) y un 50% de los datos por encima de \(Q_2\).
El cuartil 3 (\(Q_3\)): deja un 75% de los datos por debajo del valor \(Q_3\) y un 25% de los datos por encima de \(Q_3\).
Los cuartiles: posición y valor
Posición del cuartil
Si se tienen una serie de valores \(x_1, x_2, x_3, \dots, x_n\), el cuartil \(Q_k\), \(k=1,2,3\) se localiza mediante las siguientes fórmulas:
Cuando \(n\) es par:
Posición del cuartil es: \(pos=\frac{kn}{4}\)
Cuando \(n\) es impar:
Posición del cuartil es: \(pos=\frac{k(n+1)}{4}\)
Valor del cuartil
Cuando encontramos la posición, debemos tener en cuenta la siguiente regla:
Si la posición es decimal y la parte decimal es menor o mayor a 0.5.
redondeamos al entero más cercano y el cuartil será: \[Q_k=x_{round(pos)}\]
Si la posición es decimal y la parte decimal es igual a 0.5.
promediamos los valores \(x_{(pos-0.5)}\) y \(x_{(pos+0.5)}\) y el cuartil será: \[Q_k=\frac{x_{(pos-0.5)}+x_{(pos+0.5)}}{2}\]
Obervación: para los deciles y percentiles es análogo el procedimiento. Solo se debe considerar el denominador en el cociente de la posisicón; que en el caso de los deciles es 10 y en los percentiles es 100.
La función summary() y describe()
Recordemos que las funciones summary() y describe(), nos ayudan a obtener algunos estadísticos desciptivos de un conjunto de datos.
En R, la función summary() muestra un resumen general sobre las variables del data.frame (mínimo, máximo, media, mediana, primer y tercer cuartil).}
Además, R reconoce que las variables categóricas, por lo que muestra la frecuencia de cada categoría.
En esta ocación, vamos a trabajar los datos salary_data.csv para realizar algunos ejemplos.
# carguemos los datossalary_data <-read_csv("datos/salary_data.csv")#elimenos los NAssalary_data <-na.omit(salary_data)head(salary_data)
Usemos las funciones describe() (recoerdemos la librería dlookr) y summary().
describe(salary_data)
summary(salary_data)
Medidas de tendencia central, disperción, posición y forma en R
sum(abs(x-mean(x)))/length(x) # Desviación media muestral
Rango
max(x)-min(x) # rango muestral
Coeficiente de variación
(mean(x)/sd(x))*100# coeficiente de variacion muestral
Medidas de posición relativa
Cuartiles
quantile(x, probs =seq(0.25, 0.75, by=0.25))
Deciles
quantile(x, probs =seq(0.1, 0.9, by=0.1))
Percentiles
quantile(x, probs =seq(0.01, 0.99, by=0.01))
Medidas de simetría(sesgo) y de forma
La simetría(sesgo) y la curtosis se hallan de la librería moments.
skewness(x) #Sesgokurtosis(x) #Curtosis
Medidas en uno o varias etapas
Medidas en una etapa
Son todas las medidas calculadas de toda la muestra completa (sin particionar por niveles de un factor). Como hicimos hasta el momento para la variable Salary.
Ejemplo:
mean(salary_data$Salary)
Medidas en dos etapas
Son las medidas calculadas en una partición de la muestra, ubicada en un segundo nivel. Se pueden calcular de dos maneras:
Caso 1: Medidas en todos los niveles categóricos.
Caso 2: Medidas dentro de un nivel categórico.
Explicaremos, a continuación, cada uno de estos casos.
Caso 1: Medidas en todos los niveles categóricos
Supongamos que se quiere calcular una medida (digamos, la media) para cada uno de los niveles de una variable categórica (digamos el genero). Entonces aplicamos la función tapply() para realizar la operación corespondiente.
Ejemplo:
Usando la función tapply(vector, index, function). Como se observa, esta función tiene tres argumentos:
El primero, la variable numérica a la que queremos aplicar la función.
El segundo, el factor para cada uno de cuyos niveles vamos a calcular la función.
El tercero, la función que queremos calcular (en nuestro ejemplo, la media).
Supongamos que se quiere calcular una medida (digamos, la media de Nivel de educación: Masters) para un nivel específico de una variable categórica (digamos el genero). Primero, se aplica la función “filter” de la librería “dplyr” para filtrar y luego se obtiene la medida de interés.