La variable educación puede ser medida usando diferentes escalas de medición
Nominal: Se clasifica a las personas según (a) tengan educación formal o (b) no tengan educación formal
Ordinal: Se clasifica a las personas según se trata de personas (1) sin educación formal, (2) primaria incompleta, (3) primaria completa, (4) secundaria incompleta, (5) secundaria completa, (6) superior incompleta, o (7) superior completa
Intervalar o numérica: Se le pregunta a la persona cuántos años de educación formal ha completado
La escala de medición de una variable dice mucho sobre el tipo o la naturaleza de información que registra o contiene una variable
Para describir de manera adecuada ese tipo o naturaleza de información se requiere seleccionar el o los métodos estadísticos de análisis apropiados para esa información.
El nivel de medición de una variable determina cuál es la técnica más apropiada para describir y analizar una variable
Cuanto más preciso sea el nivel de medición, mucha más información estará contenida en su descripción y análisis, y por lo tanto muchas más opciones se tendrá al momento de seleccionar las herramientas de análisis estadístico
Es una tabla que muestra la distribución de los datos mediante sus frecuencias (conteo). Se utiliza para variables cualitativas y cuantitativas.
La distribución de una variable nos dice qué categorías o valores contiene esa variable y cómo se distribuyen los sujetos o individuos de una población o muestra a lo largo de esas categorías o valores (cuál es la frecuencia de esa distribución)
Entonces, todas las variables (independientemente de su escala de medición) poseen una distribución
Distribución de una variable categórica nominal Distribución de una variable categórica ordinal Distribución de una variable intervalar
[1] "Pais" "Puntuación" "Situación" "Puesto_2021" "Evol"
[6] "Rg_Pol" "Rg_Leg" "Rg_Eco" "Rg_Soc" "Rg_Seg"
[11] "Continente"
'data.frame': 180 obs. of 11 variables:
$ Pais : chr "Noruega" "Dinamarca" "Suecia" "Estonia" ...
$ Puntuación : num 92.6 90.3 88.8 88.8 88.4 ...
$ Situación : chr "Buena" "Buena" "Buena" "Buena" ...
$ Puesto_2021: num 1 4 3 15 2 12 9 5 28 23 ...
$ Evol : num 0 2 0 11 -3 6 2 -3 19 13 ...
$ Rg_Pol : num 1 2 3 5 6 9 4 17 11 20 ...
$ Rg_Leg : num 1 4 3 5 9 14 18 6 16 15 ...
$ Rg_Eco : num 1 3 2 6 5 8 9 11 13 19 ...
$ Rg_Soc : num 2 9 12 13 10 4 3 4 16 14 ...
$ Rg_Seg : num 11 7 32 6 10 2 18 3 23 1 ...
$ Continente : chr "Europe - Asie centrale" "Europe - Asie centrale" "Europe - Asie centrale" "Europe - Asie centrale" ...
[1] "factor"
Buena Difícil Más bien buena Muy grave Problemática
8 42 40 28 62
La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos.
Utilizamos las medidas de tendencia central y de dispersión para informar sobre cómo se comportan los datos.
Se pueden describir bases de datos extraídas a partir de una encuesta o en un registro.
Si los individuos son los objetos descritos por un conjunto de datos. Los individuos pueden ser personas, pero también pueden ser animales o cosas.(Filas) Y una variable es cualquier característica de un individuo. Una variable puede tomar distintos valores para distintos individuos.(Columnas)
¿Qué? ¿Cuántas variables contienen los datos? ¿Cuáles son las definiciones exactas de dichas variables? ¿En qué unidades se ha registrado cada variable? El peso, por ejemplo, se puede expresar en kilogramos, en quintales o en toneladas.
¿Por qué? ¿Qué propósito se persigue con estos datos? ¿Queremos responder alguna pregunta concreta? ¿Queremos obtener conclusiones so- bre unos individuos de los que no tenemos realmente datos?
Un estadístico de tendencia central proporciona una estimación de la puntuación típica, común o normal encontrada en una distribución de puntuaciones en bruto (Ritchey 2008)
Por lo general, la descripción de la distribución de una variables incluye una medida de su centro o tendencia central (Nota: Aunque pueda sonar extraño, esto también aplica para las variables categóricas nominales y ordinales)
Las medidas más comunes de esta tendencia central son:
Moda
Mediana
Media o Promedio
Usamos el comando table para solicitar una tabla de frencuencias e identificar el valor más alto.
Buena Difícil Más bien buena Muy grave Problemática
8 42 40 28 62
1.3923 2.5026 2.5172 3.6628 3.7778 4.0963 4.4009 4.5183 4.6421 4.6582
1 1 1 1 1 1 1 1 1 1
4.6786 4.8279 5.0152 5.5758 5.6411 5.8358 5.9124 6.8787 6.8965 6.9248
1 1 1 1 1 1 1 1 1 1
7.2738 7.6461 7.8528 7.8675 7.8714 8.1837 8.8298 19.6241 23.2227 25.0062
1 1 1 1 1 1 1 1 1 1
26.1104 27.3192 28.5948 28.9354 28.9827 29.1445 30.2275 30.9684 33.7124 34.6064
1 1 1 1 1 1 1 1 1 1
35.7459 35.9886 36.6388 37.0939 37.8739 37.9865 38.2726 38.8209 39.4002 39.6203
1 1 1 1 1 1 1 1 1 1
40.2556 40.9993 41.2462 41.6418 41.8411 42.1277 42.4323 42.5277 43.1621 43.4776
1 1 1 1 1 1 1 1 1 1
43.9616 44.2297 44.4588 44.9416 45.4245 45.5336 45.7411 46.3476 47.0598 47.5723
1 1 1 1 1 1 1 1 1 1
47.5771 47.6555 47.9422 48.2754 48.3946 48.6553 49.0336 49.0957 49.2718 49.8896
1 1 1 1 1 1 1 1 1 1
50.5316 51.5451 54.0909 54.4819 55.3586 55.3978 55.5239 55.7381 56.0003 56.1806
1 1 1 1 1 1 1 1 1 1
56.9058 56.9577 57.1657 57.1685 58.0191 58.1042 58.4866 58.4931 58.6399 58.7939
1 1 1 1 1 1 1 1 1 1
59.1692 59.2972 59.3852 59.5536 59.6242 59.8005 59.8186 60.1556 60.6144 61.0842
1 1 1 1 1 1 1 1 1 1
61.4014 61.5147 61.5496 61.7541 62.6672 62.7713 62.7752 63.0749 64.2456 64.3671
1 1 1 1 1 1 1 1 1 1
64.5463 64.5913 64.6111 65.6354 65.6357 65.9741 66.0688 66.5394 66.6618 67.0049
1 1 1 1 1 1 1 1 1 1
67.4269 67.7968 68.1647 68.4352 68.4592 68.4903 68.5366 68.9543 69.7442 70.4181
1 1 1 1 1 1 1 1 1 1
70.6703 71.0272 71.3937 72.0325 72.1123 73.1226 73.4694 73.7674 74.0784 74.4632
1 1 1 1 1 1 1 1 1 1
75.3693 75.5586 76.4081 76.7116 76.7368 76.9028 77.2769 77.9268 78.3651 78.8601
1 1 1 1 1 1 1 1 1 1
79.1695 79.8121 80.5392 81.7405 81.8889 82.0439 82.6891 82.7221 83.3282 83.3521
1 1 1 1 1 1 1 1 1 1
83.5385 84.0277 84.1424 85.9158 87.0694 88.4171 88.8293 88.8421 90.2671 92.6493
1 1 1 1 1 1 1 1 1 1
data %>% ## Paso 1: DATA count(Situación=Situación, name = "Frecuencia") ## Paso 2: Pido una tabla de frecuencia de la variable continent
Situación Frecuencia
1 Buena 8
2 Difícil 42
3 Más bien buena 40
4 Muy grave 28
5 Problemática 62
data %>%
count(Situación=Situación, name = "Frecuencia") %>% mutate(Porcentaje=Frecuencia/sum(Frecuencia)*100)
Situación Frecuencia Porcentaje
1 Buena 8 4.444444
2 Difícil 42 23.333333
3 Más bien buena 40 22.222222
4 Muy grave 28 15.555556
5 Problemática 62 34.444444
La Mediana es el punto medio de una distribución, es decir el valor que divide a la distribución en dos partes iguales.
Por lo tanto, debajo de ese valor se ubica el 50% de los casos y por encima de ese valor se ubica el otro 50% de los casos El cálculo de la Mediana es posible o tiene sentido cuando la variable que se está analizando es por lo menos ordinal.
Para hallar la Mediana de una distribución se necesita:
Ordenar todas las observaciones de la mínima a la máxima (lista ordenada)
Si el número de observaciones es impar, entonces la mediana es la observación central de la lista ordenada.
Para hallar la observación central (por lo tanto, el valor de la mediana), se usa la siguiente fórmula: (n + 1) / 2
Si el número de observaciones es par, la mediana es el promedio (o la media) de las dos observaciones centrales de la lista ordenada.
Tengo 11 números.
Tengo 20 números.
Usamos el comando median para solicitar la mediana.
[1] 56.5432
Otra forma con el paquete dplyr
Mediana
1 56.5432
La media o el promedio es la suma de todas las mediciones (valores) divididas por el número total de mediciones u observaciones
Usamos el comando media para solicitar la media
[1] 50.74272
Otra forma con el paquete dplyr
Promedio
1 50.74272
La media es un estadístico sensible a los valores extremos.Basta que algún dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá alterado.
La mediana, en cambio, es un estadístico robusto. Aunque los extremos de los datos se vean alterados, la mediana permanece invariable.
Usamos los paquetes dplyr y tidyverse
Usamos el pipe %>% para ordenar los comandos.
data %>% ## Paso 1: DATA
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2: Resumir
Promedio Mediana
1 50.74272 56.5432
Usamos el paquete kableExtra
Usamos los comandos kable y kable_styling para elaborar una tabla.
data %>% ## Paso 1: DATA
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) %>% ## Paso 2: Resumir
kable() %>% # Paso 3: Convierte la tabla en código HTML
kable_styling()# Paso 4: Se visualiza mejor la tabla.Esto te servirá cuando utilices Rmd dado que este crear un archivo HTML.
Promedio | Mediana |
---|---|
50.74272 | 56.5432 |
data %>% ## Paso 1: DATA
group_by(Continente) %>% ## Paso 2: group_by
summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2:summarize
# A tibble: 5 × 3
Continente Promedio Mediana
<fct> <dbl> <dbl>
1 Afrique 49.9 56.6
2 Amériques 53.4 61.2
3 Asie-Pacifique 45.5 43.9
4 Europe - Asie centrale 58.1 66.5
5 Maghreb - Moyen-Orient 37.2 36.0
Para variables numéricas
Para variables categóricas
Más información en: https://www.sharpsightlabs.com/blog/barplot-r-geom_bar/
La media y la mediana proporcionan dos medidas distintas del centro de una distribución.
Sin embargo, caracterizar una distribución solo con una medida de su centro puede ser engañoso.
Dos provincias con la misma mediana de ingresos por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación entre familias.
Un lote de medicinas con una concentración promedio adecuada en su componente activo puede ser muy peligroso si hay comprimidos con contenidos del componente activo muy elevados y otros con contenidos muy bajos (Moore 2005: 38)
Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).
Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).
Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)
Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?
Dos perspectivas:
La dispersión o variación es un atributo de variables intervalara.
Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)
La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.
La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1
Ejemplo:
La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central
La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).
A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande
La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales
Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado
Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.
Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande
La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)
Desviación Típica
[1] 24.57483
[1] 24.57483
Varianza
[1] 603.9223
Las Medidas de Posición son otra forma de describir la distribución de una variable
Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos
La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles
[1] 92.6493
[1] 1.3923
[1] 1.3923 92.6493
El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .
El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él
Pregunta: ¿Qué nombre tiene el percentil 50?
Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:
Deciles (10%)
Cuartiles (25%)
Quintiles (20%)
El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones
El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades
El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones
Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales
Rango entre cuartiles
0% 25% 50% 75% 100%
1.39230 37.95835 56.54320 68.46697 92.64930
Es la diferencia entre el tercer cuartil y el primer cuartil.
[1] 30.50862
Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.
La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).
ggplot(data, aes(y = Puntuación )) +
stat_boxplot(geom = "errorbar", # Error bars
width = 0.25) + # Bars width
geom_boxplot()