La variable educación puede ser medida usando diferentes escalas de medición
Nominal: Se clasifica a las personas según (a) tengan educación formal o (b) no tengan educación formal
Ordinal: Se clasifica a las personas según se trata de personas (1) sin educación formal, (2) primaria incompleta, (3) primaria completa, (4) secundaria incompleta, (5) secundaria completa, (6) superior incompleta, o (7) superior completa
Intervalar o numérica: Se le pregunta a la persona cuántos años de educación formal ha completado
Revisión del cuestionario del Latinobarometro.
La escala de medición de una variable dice mucho sobre el tipo o la naturaleza de información que registra o contiene una variable
Para describir de manera adecuada ese tipo o naturaleza de información se requiere seleccionar el o los métodos estadísticos de análisis apropiados para esa información.
El nivel de medición de una variable determina cuál es la técnica más apropiada para describir y analizar una variable
Cuanto más preciso sea el nivel de medición, mucha más información estará contenida en su descripción y análisis, y por lo tanto muchas más opciones se tendrá al momento de seleccionar las herramientas de análisis estadístico
Es una tabla que muestra la distribución de los datos mediante sus frecuencias (conteo). Se utiliza para variables cualitativas y cuantitativas.
La distribución de una variable nos dice qué categorías o valores contiene esa variable y cómo se distribuyen los sujetos o individuos de una población o muestra a lo largo de esas categorías o valores (cuál es la frecuencia de esa distribución)
Entonces, todas las variables (independientemente de su escala de medición) poseen una distribución
Distribución de una variable categórica nominal Distribución de una variable categórica ordinal Distribución de una variable intervalar
[1] "Países" "Ranking_Felicidad" "Puntuación"
[4] "Var" "Situación_Libertad"
'data.frame': 142 obs. of 5 variables:
$ Países : chr "España" "Alemania" "Reino Unido" "Francia" ...
$ Ranking_Felicidad : num 36 24 20 27 41 55 23 51 60 22 ...
$ Puntuación : num 6.42 6.72 6.75 6.61 6.32 ...
$ Var : num -0.0024 -0.0251 -0.0069 -0.0079 -0.0126 0.0103 -0.0245 -0.0113 0.0266 0.0246 ...
$ Situación_Libertad: chr "Problemática" "Más bien buena" "Difícil" "Problemática" ...
[3] Indica el número de la columna de la variable que deseamos cambiar.
[1] "factor"
Difícil Más bien buena Muy grave Problemática
33 8 20 81
La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos.
Utilizamos las medidas de tendencia central y de dispersión para informar sobre cómo se comportan los datos.
Se pueden describir bases de datos extraídas a partir de una encuesta o en un registro.
Si los individuos son los objetos descritos por un conjunto de datos. Los individuos pueden ser personas, pero también pueden ser animales o cosas.(Filas) Y una variable es cualquier característica de un individuo. Una variable puede tomar distintos valores para distintos individuos.(Columnas)
¿Qué? ¿Cuántas variables contienen los datos? ¿Cuáles son las definiciones exactas de dichas variables? ¿En qué unidades se ha registrado cada variable? El peso, por ejemplo, se puede expresar en kilogramos, en quintales o en toneladas.
¿Por qué? ¿Qué propósito se persigue con estos datos? ¿Queremos responder alguna pregunta concreta? ¿Queremos obtener conclusiones so- bre unos individuos de los que no tenemos realmente datos?
Un estadístico de tendencia central proporciona una estimación de la puntuación típica, común o normal encontrada en una distribución de puntuaciones en bruto (Ritchey 2008)
Por lo general, la descripción de la distribución de una variables incluye una medida de su centro o tendencia central (Nota: Aunque pueda sonar extraño, esto también aplica para las variables categóricas nominales y ordinales)
Las medidas más comunes de esta tendencia central son:
Moda
Mediana
Media o Promedio
Usamos el comando table para solicitar una tabla de frencuencias e identificar el valor más alto.
Difícil Más bien buena Muy grave Problemática
33 8 20 81
1.721 2.707 3.186 3.245 3.295 3.341 3.383 3.421 3.502 3.561 3.566 3.781 3.861
1 1 1 1 1 1 1 1 2 1 1 1 1
3.886 3.898 3.977 4.054 4.186 4.214 4.228 4.232 4.269 4.289 4.341 4.355 4.372
1 1 1 1 1 1 1 1 1 1 1 1 1
4.377 4.422 4.47 4.471 4.485 4.505 4.548 4.556 4.657 4.795 4.832 4.873 4.874
1 1 1 1 1 1 1 1 1 1 1 1 1
4.88 4.881 4.893 4.923 4.969 4.975 5.023 5.08 5.106 5.139 5.158 5.166 5.185
1 1 1 1 1 1 1 1 1 1 1 1 1
5.216 5.222 5.281 5.304 5.316 5.364 5.369 5.422 5.455 5.463 5.568 5.607 5.695
1 1 1 1 1 1 1 1 1 1 1 1 1
5.696 5.707 5.714 5.725 5.784 5.785 5.816 5.823 5.841 5.842 5.866 5.877 5.934
1 1 1 1 1 1 2 1 1 1 1 1 1
5.942 5.959 5.968 5.973 5.975 5.976 5.977 6.017 6.03 6.043 6.048 6.058 6.06
1 1 1 1 1 1 1 1 1 1 1 1 1
6.068 6.188 6.195 6.235 6.257 6.272 6.284 6.287 6.324 6.346 6.358 6.36 6.411
1 2 1 1 1 1 1 1 1 1 1 1 1
6.421 6.442 6.448 6.469 6.491 6.504 6.523 6.594 6.609 6.612 6.678 6.719 6.725
1 1 1 1 1 1 1 1 1 1 1 1 1
6.733 6.743 6.749 6.818 6.822 6.838 6.894 6.9 6.905 6.951 6.955 7.029 7.057
1 1 1 1 1 1 1 1 1 1 1 1 1
7.06 7.122 7.302 7.319 7.341 7.344 7.525 7.583 7.741
1 1 1 1 1 1 1 1 1
data %>% ## Paso 1: DATA count(Situación=Situación, name = "Frecuencia") ## Paso 2: Pido una tabla de frecuencia de la variable continent
Situación Frecuencia
1 Difícil 33
2 Más bien buena 8
3 Muy grave 20
4 Problemática 81
data %>%
count(Situación=Situación, name = "Frecuencia") %>% mutate(Porcentaje=Frecuencia/sum(Frecuencia)*100)
Situación Frecuencia Porcentaje
1 Difícil 33 23.239437
2 Más bien buena 8 5.633803
3 Muy grave 20 14.084507
4 Problemática 81 57.042254
La Mediana es el punto medio de una distribución, es decir el valor que divide a la distribución en dos partes iguales.
Por lo tanto, debajo de ese valor se ubica el 50% de los casos y por encima de ese valor se ubica el otro 50% de los casos El cálculo de la Mediana es posible o tiene sentido cuando la variable que se está analizando es por lo menos ordinal.
Para hallar la Mediana de una distribución se necesita:
Ordenar todas las observaciones de la mínima a la máxima (lista ordenada)
Si el número de observaciones es impar, entonces la mediana es la observación central de la lista ordenada.
Para hallar la observación central (por lo tanto, el valor de la mediana), se usa la siguiente fórmula: (n + 1) / 2
Si el número de observaciones es par, la mediana es el promedio (o la media) de las dos observaciones centrales de la lista ordenada.
Tengo 11 números.
Tengo 20 números.
Usamos el comando median para solicitar la mediana.
[1] 5.7845
Otra forma con el paquete dplyr
Mediana
1 5.7845
La media o el promedio es la suma de todas las mediciones (valores) divididas por el número total de mediciones u observaciones
Usamos el comando media para solicitar la media
[1] 5.520345
Otra forma con el paquete dplyr
Promedio
1 5.520345
La media es un estadístico sensible a los valores extremos.Basta que algún dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá alterado.
La mediana, en cambio, es un estadístico robusto. Aunque los extremos de los datos se vean alterados, la mediana permanece invariable.
Usamos los paquetes dplyr y tidyverse
Usamos el pipe %>% para ordenar los comandos.
data %>% ## Paso 1: DATA
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2: Resumir
Promedio Mediana
1 5.520345 5.7845
Usamos el paquete kableExtra
Usamos los comandos kable y kable_styling para elaborar una tabla.
data %>% ## Paso 1: DATA
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) %>% ## Paso 2: Resumir
kable() %>% # Paso 3: Convierte la tabla en código HTML
kable_styling()# Paso 4: Se visualiza mejor la tabla.Esto te servirá cuando utilices Rmd dado que este crear un archivo HTML.
Promedio | Mediana |
---|---|
5.520345 | 5.7845 |
data %>% ## Paso 1: DATA
group_by(Continente) %>% ## Paso 2: group_by
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2:summarize
Para variables numéricas
Para variables categóricas
Más información en: https://www.sharpsightlabs.com/blog/barplot-r-geom_bar/
La media y la mediana proporcionan dos medidas distintas del centro de una distribución.
Sin embargo, caracterizar una distribución solo con una medida de su centro puede ser engañoso.
Dos provincias con la misma mediana de ingresos por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación entre familias.
Un lote de medicinas con una concentración promedio adecuada en su componente activo puede ser muy peligroso si hay comprimidos con contenidos del componente activo muy elevados y otros con contenidos muy bajos (Moore 2005: 38)
Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).
Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).
Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)
Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?
Dos perspectivas:
La dispersión o variación es un atributo de variables intervalara.
Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)
La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.
La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1
Ejemplo:
La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central
La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).
A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande
La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales
Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado
Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.
Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande
La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)
Desviación Típica
[1] 1.171614
[1] 1.171614
Varianza
[1] 1.37268
Las Medidas de Posición son otra forma de describir la distribución de una variable
Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos
La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles
[1] 7.741
[1] 1.721
[1] 1.721 7.741
El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .
El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él
Pregunta: ¿Qué nombre tiene el percentil 50?
Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:
Deciles (10%)
Cuartiles (25%)
Quintiles (20%)
El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones
El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades
El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones
Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales
Rango entre cuartiles
0% 25% 50% 75% 100%
1.72100 4.69150 5.78450 6.39825 7.74100
Es la diferencia entre el tercer cuartil y el primer cuartil.
[1] 1.70675
Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.
La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).
library(ggplot2)
ggplot(data, aes(y = Puntuación )) +
stat_boxplot(geom = "errorbar", # Error bars
width = 0.25) + # Bars width
geom_boxplot()