Estadística para el Análisis Político | Semana 2

Marylia Cruz

Motivación

https://www.youtube.com/watch?v=U3ALALe_O10

Motivación

https://happiness-report.s3.amazonaws.com/2024/WHR+24.pdf

Una variable con diferentes escalas de medición

La variable educación puede ser medida usando diferentes escalas de medición

Nominal: Se clasifica a las personas según (a) tengan educación formal o (b) no tengan educación formal

Ordinal: Se clasifica a las personas según se trata de personas (1) sin educación formal, (2) primaria incompleta, (3) primaria completa, (4) secundaria incompleta, (5) secundaria completa, (6) superior incompleta, o (7) superior completa

Intervalar o numérica: Se le pregunta a la persona cuántos años de educación formal ha completado

Revisión de la tarea

Revisión del cuestionario del Latinobarometro.

https://www.latinobarometro.org/lat.jsp

Pirámide de transformación de variables

Escala de medición (1)

  • La escala de medición de una variable dice mucho sobre el tipo o la naturaleza de información que registra o contiene una variable

  • Para describir de manera adecuada ese tipo o naturaleza de información se requiere seleccionar el o los métodos estadísticos de análisis apropiados para esa información.

Escala de medición (2)

  • El nivel de medición de una variable determina cuál es la técnica más apropiada para describir y analizar una variable

  • Cuanto más preciso sea el nivel de medición, mucha más información estará contenida en su descripción y análisis, y por lo tanto muchas más opciones se tendrá al momento de seleccionar las herramientas de análisis estadístico

Tabla de frecuencias

Es una tabla que muestra la distribución de los datos mediante sus frecuencias (conteo). Se utiliza para variables cualitativas y cuantitativas.

Distribución de una variable

La distribución de una variable nos dice qué categorías o valores contiene esa variable y cómo se distribuyen los sujetos o individuos de una población o muestra a lo largo de esas categorías o valores (cuál es la frecuencia de esa distribución)

Entonces, todas las variables (independientemente de su escala de medición) poseen una distribución

Distribución de una variable categórica nominal Distribución de una variable categórica ordinal Distribución de una variable intervalar

Abrimos la base de datos en R Studio

  1. Indicar el directorio de trabajo. En el directorio de trabajo debe estar la base de datos en excel.
setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278")
  1. Instalar el paquete rio
install.packages("rio")
library(rio)
  1. Importamos la base de datos de excel. Usamos el comando import
data=import("Indice_de_Felicidad.xlsx")

Comandos básicos en R Studio

  1. Usamos el comando names para solicitar el nombre de las variables
names(data)
[1] "Países"            "Ranking Felicidad" "Índice Felicidad" 
[4] "Var."              "...5"             
  1. Usamos el comando str para solicitar la estrura de las variables
str(data)
'data.frame':   142 obs. of  5 variables:
 $ Países           : chr  "España [+]" "Alemania [+]" "Reino Unido [+]" "Francia [+]" ...
 $ Ranking Felicidad: chr  "36º" "24º" "20º" "27º" ...
 $ Índice Felicidad : num  6421 6719 6749 6609 6324 ...
 $ Var.             : logi  NA NA NA NA NA NA ...
 $ ...5             : chr  "-0,24%" "-2,51%" "-0,69%" "-0,79%" ...

Calmbiamos el nombre de las variables en R Studio

[3] Indica el número de la columna de la variable que deseamos cambiar.

names(data)[3]="Puntuación"

names(data)[5]="Situación"

Damos formato a las variables en R Studio

  1. Usamos el comando as.numeric para solicitar dar el formato de variable numérica.
data$Puntuación=as.numeric(data$Puntuación)
  1. Usamos el comando as.factor para solicitar dar el formato de variable factor o categorica.
data$Situación=as.factor(data$Situación)
  1. Usamos el comando class para verificar el formato de variable. Similar a str.
class(data$Situación)
[1] "factor"

Tabla de frencuencia en R Studio

  1. Usamos el comando table para solicitar una tabla de frencuencias. En R es util para las variables categóricas, mas no para las numéricas.
table(data$Situación)

 -0,05%  -0,06%  -0,12%  -0,19%  -0,24%  -0,27%  -0,34%  -0,38%  -0,40%  -0,41% 
      1       3       1       1       1       1       1       1       1       1 
 -0,49%  -0,53%  -0,58%  -0,62%  -0,69%  -0,79%  -0,81%  -0,87%  -0,88%  -0,90% 
      1       1       1       1       2       1       1       1       1       1 
 -0,92%  -0,95%  -0,97%  -1,01%  -1,05%  -1,13%  -1,20%  -1,26%  -1,32%  -1,37% 
      1       1       1       1       1       2       1       1       1       1 
 -1,46%  -1,47%  -1,49%  -1,51%  -1,67%  -1,76%  -1,92%  -1,93%  -1,99% -12,05% 
      1       1       1       1       1       1       1       1       1       1 
-12,24% -15,15%  -2,00%  -2,12%  -2,20%  -2,45%  -2,47%  -2,48%  -2,51%  -2,71% 
      1       1       1       1       1       1       1       1       1       1 
 -2,98% -20,34%  -3,27%  -3,47%  -3,77%  -3,91%  -4,63%  -4,65%  -5,40%  -5,62% 
      1       1       1       1       1       1       1       1       1       1 
 -6,85%  -7,42%  -9,25%  -9,28%   0,05%   0,08%   0,15%   0,35%   0,40%   0,42% 
      1       1       1       1       1       1       1       1       1       1 
  0,45%   0,51%   0,54%   0,55%   0,60%   0,65%   0,71%   0,73%   0,81%   0,95% 
      1       2       1       1       1       1       1       1       2       1 
  1,03%   1,15%   1,22%   1,40%   1,42%   1,48%   1,50%   1,60%   1,70%   1,76% 
      1       1       1       1       1       1       1       1       1       1 
  1,79%   1,81%   1,85%  10,06%  13,14%  13,85%   2,03%   2,12%   2,20%   2,22% 
      1       1       1       1       1       1       1       1       2       2 
  2,28%   2,34%   2,35%   2,41%   2,44%   2,46%   2,66%   2,73%   2,75%   2,79% 
      1       1       1       1       1       1       1       1       1       1 
  2,90%   2,98%   3,00%   3,43%   4,16%   4,30%   4,34%   4,35%   4,56%   4,80% 
      1       1       1       1       1       1       2       1       2       1 
  4,85%   5,20%   5,25%   5,30%   5,51%   5,52%   5,60%   5,67%   5,70%   7,60% 
      1       1       1       1       1       1       1       1       1       1 
  7,84%   9,50% 
      1       1 

Estadística Descriptiva

La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos.

Utilizamos las medidas de tendencia central y de dispersión para informar sobre cómo se comportan los datos.

Se pueden describir bases de datos extraídas a partir de una encuesta o en un registro.

Preguntas claves para describir (1)

Si los individuos son los objetos descritos por un conjunto de datos. Los individuos pueden ser personas, pero también pueden ser animales o cosas.(Filas) Y una variable es cualquier característica de un individuo. Una variable puede tomar distintos valores para distintos individuos.(Columnas)

  1. ¿Quién? ¿Qué individuos describen los datos? ¿Cuántos individuos aparecen en los datos?

Preguntas claves para describir (2)

  1. ¿Qué? ¿Cuántas variables contienen los datos? ¿Cuáles son las definiciones exactas de dichas variables? ¿En qué unidades se ha registrado cada variable? El peso, por ejemplo, se puede expresar en kilogramos, en quintales o en toneladas.

  2. ¿Por qué? ¿Qué propósito se persigue con estos datos? ¿Queremos responder alguna pregunta concreta? ¿Queremos obtener conclusiones so- bre unos individuos de los que no tenemos realmente datos?

Medidas de tendencia central (1)

  • A las medidas de centralidad también se les conoce también como medidas de tendencia central
  1. Las medidas de tendencia central (moda, mediana y media) muestran la medición más típica o representativa de una determinada distribución (Agresti y Finlay 1997)

Un estadístico de tendencia central proporciona una estimación de la puntuación típica, común o normal encontrada en una distribución de puntuaciones en bruto (Ritchey 2008)

Medidas de tendencia central (2)

Por lo general, la descripción de la distribución de una variables incluye una medida de su centro o tendencia central (Nota: Aunque pueda sonar extraño, esto también aplica para las variables categóricas nominales y ordinales)

Las medidas más comunes de esta tendencia central son:

  • Moda

  • Mediana

  • Media o Promedio

Moda

  • La Moda es el valor que ocurre con mayor frecuencia
  • Es particularmente útil con variables categóricas nominales y categóricas ordinales
  • A esta mayor frecuencia de un determinado valor corresponde el significado de centralidad en variables categóricas

Moda en R Studio

Usamos el comando table para solicitar una tabla de frencuencias e identificar el valor más alto.

table(data$Situación)

 -0,05%  -0,06%  -0,12%  -0,19%  -0,24%  -0,27%  -0,34%  -0,38%  -0,40%  -0,41% 
      1       3       1       1       1       1       1       1       1       1 
 -0,49%  -0,53%  -0,58%  -0,62%  -0,69%  -0,79%  -0,81%  -0,87%  -0,88%  -0,90% 
      1       1       1       1       2       1       1       1       1       1 
 -0,92%  -0,95%  -0,97%  -1,01%  -1,05%  -1,13%  -1,20%  -1,26%  -1,32%  -1,37% 
      1       1       1       1       1       2       1       1       1       1 
 -1,46%  -1,47%  -1,49%  -1,51%  -1,67%  -1,76%  -1,92%  -1,93%  -1,99% -12,05% 
      1       1       1       1       1       1       1       1       1       1 
-12,24% -15,15%  -2,00%  -2,12%  -2,20%  -2,45%  -2,47%  -2,48%  -2,51%  -2,71% 
      1       1       1       1       1       1       1       1       1       1 
 -2,98% -20,34%  -3,27%  -3,47%  -3,77%  -3,91%  -4,63%  -4,65%  -5,40%  -5,62% 
      1       1       1       1       1       1       1       1       1       1 
 -6,85%  -7,42%  -9,25%  -9,28%   0,05%   0,08%   0,15%   0,35%   0,40%   0,42% 
      1       1       1       1       1       1       1       1       1       1 
  0,45%   0,51%   0,54%   0,55%   0,60%   0,65%   0,71%   0,73%   0,81%   0,95% 
      1       2       1       1       1       1       1       1       2       1 
  1,03%   1,15%   1,22%   1,40%   1,42%   1,48%   1,50%   1,60%   1,70%   1,76% 
      1       1       1       1       1       1       1       1       1       1 
  1,79%   1,81%   1,85%  10,06%  13,14%  13,85%   2,03%   2,12%   2,20%   2,22% 
      1       1       1       1       1       1       1       1       2       2 
  2,28%   2,34%   2,35%   2,41%   2,44%   2,46%   2,66%   2,73%   2,75%   2,79% 
      1       1       1       1       1       1       1       1       1       1 
  2,90%   2,98%   3,00%   3,43%   4,16%   4,30%   4,34%   4,35%   4,56%   4,80% 
      1       1       1       1       1       1       2       1       2       1 
  4,85%   5,20%   5,25%   5,30%   5,51%   5,52%   5,60%   5,67%   5,70%   7,60% 
      1       1       1       1       1       1       1       1       1       1 
  7,84%   9,50% 
      1       1 
table(data$Puntuación) #No tiene sentido generar una tabla de variables numéricas.

1721 2707 3186 3245 3295 3341 3383 3421 3502 3561 3566 3781 3861 3886 3898 3977 
   1    1    1    1    1    1    1    1    2    1    1    1    1    1    1    1 
4054 4186 4214 4228 4232 4269 4289 4341 4355 4372 4377 4422 4470 4471 4485 4505 
   1    1    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
4548 4556 4657 4795 4832 4873 4874 4880 4881 4893 4923 4969 4975 5023 5080 5106 
   1    1    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
5139 5158 5166 5185 5216 5222 5281 5304 5316 5364 5369 5422 5455 5463 5568 5607 
   1    1    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
5695 5696 5707 5714 5725 5784 5785 5816 5823 5841 5842 5866 5877 5934 5942 5959 
   1    1    1    1    1    1    1    2    1    1    1    1    1    1    1    1 
5968 5973 5975 5976 5977 6017 6030 6043 6048 6058 6060 6068 6188 6195 6235 6257 
   1    1    1    1    1    1    1    1    1    1    1    1    2    1    1    1 
6272 6284 6287 6324 6346 6358 6360 6411 6421 6442 6448 6469 6491 6504 6523 6594 
   1    1    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
6609 6612 6678 6719 6725 6733 6743 6749 6818 6822 6838 6894 6900 6905 6951 6955 
   1    1    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
7029 7057 7060 7122 7302 7319 7341 7344 7525 7583 7741 
   1    1    1    1    1    1    1    1    1    1    1 

Moda en R Studio (2)

  • Otra forma con el paquete dplyr
install.packages("dplyr")
library(dplyr)
  • Usamos el pipe %>% para ordenar los comandos.
data %>%                      ## Paso 1: DATA    count(Situación=Situación, name = "Frecuencia") ## Paso 2: Pido una tabla de frecuencia de la variable continent
    Situación Frecuencia
1      -0,05%          1
2      -0,06%          3
3      -0,12%          1
4      -0,19%          1
5      -0,24%          1
6      -0,27%          1
7      -0,34%          1
8      -0,38%          1
9      -0,40%          1
10     -0,41%          1
11     -0,49%          1
12     -0,53%          1
13     -0,58%          1
14     -0,62%          1
15     -0,69%          2
16     -0,79%          1
17     -0,81%          1
18     -0,87%          1
19     -0,88%          1
20     -0,90%          1
21     -0,92%          1
22     -0,95%          1
23     -0,97%          1
24     -1,01%          1
25     -1,05%          1
26     -1,13%          2
27     -1,20%          1
28     -1,26%          1
29     -1,32%          1
30     -1,37%          1
31     -1,46%          1
32     -1,47%          1
33     -1,49%          1
34     -1,51%          1
35     -1,67%          1
36     -1,76%          1
37     -1,92%          1
38     -1,93%          1
39     -1,99%          1
40    -12,05%          1
41    -12,24%          1
42    -15,15%          1
43     -2,00%          1
44     -2,12%          1
45     -2,20%          1
46     -2,45%          1
47     -2,47%          1
48     -2,48%          1
49     -2,51%          1
50     -2,71%          1
51     -2,98%          1
52    -20,34%          1
53     -3,27%          1
54     -3,47%          1
55     -3,77%          1
56     -3,91%          1
57     -4,63%          1
58     -4,65%          1
59     -5,40%          1
60     -5,62%          1
61     -6,85%          1
62     -7,42%          1
63     -9,25%          1
64     -9,28%          1
65      0,05%          1
66      0,08%          1
67      0,15%          1
68      0,35%          1
69      0,40%          1
70      0,42%          1
71      0,45%          1
72      0,51%          2
73      0,54%          1
74      0,55%          1
75      0,60%          1
76      0,65%          1
77      0,71%          1
78      0,73%          1
79      0,81%          2
80      0,95%          1
81      1,03%          1
82      1,15%          1
83      1,22%          1
84      1,40%          1
85      1,42%          1
86      1,48%          1
87      1,50%          1
88      1,60%          1
89      1,70%          1
90      1,76%          1
91      1,79%          1
92      1,81%          1
93      1,85%          1
94     10,06%          1
95     13,14%          1
96     13,85%          1
97      2,03%          1
98      2,12%          1
99      2,20%          2
100     2,22%          2
101     2,28%          1
102     2,34%          1
103     2,35%          1
104     2,41%          1
105     2,44%          1
106     2,46%          1
107     2,66%          1
108     2,73%          1
109     2,75%          1
110     2,79%          1
111     2,90%          1
112     2,98%          1
113     3,00%          1
114     3,43%          1
115     4,16%          1
116     4,30%          1
117     4,34%          2
118     4,35%          1
119     4,56%          2
120     4,80%          1
121     4,85%          1
122     5,20%          1
123     5,25%          1
124     5,30%          1
125     5,51%          1
126     5,52%          1
127     5,60%          1
128     5,67%          1
129     5,70%          1
130     7,60%          1
131     7,84%          1
132     9,50%          1

Moda en R Studio (3)

  • Otra forma con el paquete mutate para crear una nueva variable.
data %>%                     
count(Situación=Situación, name = "Frecuencia") %>%  mutate(Porcentaje=Frecuencia/sum(Frecuencia)*100)  
    Situación Frecuencia Porcentaje
1      -0,05%          1  0.7042254
2      -0,06%          3  2.1126761
3      -0,12%          1  0.7042254
4      -0,19%          1  0.7042254
5      -0,24%          1  0.7042254
6      -0,27%          1  0.7042254
7      -0,34%          1  0.7042254
8      -0,38%          1  0.7042254
9      -0,40%          1  0.7042254
10     -0,41%          1  0.7042254
11     -0,49%          1  0.7042254
12     -0,53%          1  0.7042254
13     -0,58%          1  0.7042254
14     -0,62%          1  0.7042254
15     -0,69%          2  1.4084507
16     -0,79%          1  0.7042254
17     -0,81%          1  0.7042254
18     -0,87%          1  0.7042254
19     -0,88%          1  0.7042254
20     -0,90%          1  0.7042254
21     -0,92%          1  0.7042254
22     -0,95%          1  0.7042254
23     -0,97%          1  0.7042254
24     -1,01%          1  0.7042254
25     -1,05%          1  0.7042254
26     -1,13%          2  1.4084507
27     -1,20%          1  0.7042254
28     -1,26%          1  0.7042254
29     -1,32%          1  0.7042254
30     -1,37%          1  0.7042254
31     -1,46%          1  0.7042254
32     -1,47%          1  0.7042254
33     -1,49%          1  0.7042254
34     -1,51%          1  0.7042254
35     -1,67%          1  0.7042254
36     -1,76%          1  0.7042254
37     -1,92%          1  0.7042254
38     -1,93%          1  0.7042254
39     -1,99%          1  0.7042254
40    -12,05%          1  0.7042254
41    -12,24%          1  0.7042254
42    -15,15%          1  0.7042254
43     -2,00%          1  0.7042254
44     -2,12%          1  0.7042254
45     -2,20%          1  0.7042254
46     -2,45%          1  0.7042254
47     -2,47%          1  0.7042254
48     -2,48%          1  0.7042254
49     -2,51%          1  0.7042254
50     -2,71%          1  0.7042254
51     -2,98%          1  0.7042254
52    -20,34%          1  0.7042254
53     -3,27%          1  0.7042254
54     -3,47%          1  0.7042254
55     -3,77%          1  0.7042254
56     -3,91%          1  0.7042254
57     -4,63%          1  0.7042254
58     -4,65%          1  0.7042254
59     -5,40%          1  0.7042254
60     -5,62%          1  0.7042254
61     -6,85%          1  0.7042254
62     -7,42%          1  0.7042254
63     -9,25%          1  0.7042254
64     -9,28%          1  0.7042254
65      0,05%          1  0.7042254
66      0,08%          1  0.7042254
67      0,15%          1  0.7042254
68      0,35%          1  0.7042254
69      0,40%          1  0.7042254
70      0,42%          1  0.7042254
71      0,45%          1  0.7042254
72      0,51%          2  1.4084507
73      0,54%          1  0.7042254
74      0,55%          1  0.7042254
75      0,60%          1  0.7042254
76      0,65%          1  0.7042254
77      0,71%          1  0.7042254
78      0,73%          1  0.7042254
79      0,81%          2  1.4084507
80      0,95%          1  0.7042254
81      1,03%          1  0.7042254
82      1,15%          1  0.7042254
83      1,22%          1  0.7042254
84      1,40%          1  0.7042254
85      1,42%          1  0.7042254
86      1,48%          1  0.7042254
87      1,50%          1  0.7042254
88      1,60%          1  0.7042254
89      1,70%          1  0.7042254
90      1,76%          1  0.7042254
91      1,79%          1  0.7042254
92      1,81%          1  0.7042254
93      1,85%          1  0.7042254
94     10,06%          1  0.7042254
95     13,14%          1  0.7042254
96     13,85%          1  0.7042254
97      2,03%          1  0.7042254
98      2,12%          1  0.7042254
99      2,20%          2  1.4084507
100     2,22%          2  1.4084507
101     2,28%          1  0.7042254
102     2,34%          1  0.7042254
103     2,35%          1  0.7042254
104     2,41%          1  0.7042254
105     2,44%          1  0.7042254
106     2,46%          1  0.7042254
107     2,66%          1  0.7042254
108     2,73%          1  0.7042254
109     2,75%          1  0.7042254
110     2,79%          1  0.7042254
111     2,90%          1  0.7042254
112     2,98%          1  0.7042254
113     3,00%          1  0.7042254
114     3,43%          1  0.7042254
115     4,16%          1  0.7042254
116     4,30%          1  0.7042254
117     4,34%          2  1.4084507
118     4,35%          1  0.7042254
119     4,56%          2  1.4084507
120     4,80%          1  0.7042254
121     4,85%          1  0.7042254
122     5,20%          1  0.7042254
123     5,25%          1  0.7042254
124     5,30%          1  0.7042254
125     5,51%          1  0.7042254
126     5,52%          1  0.7042254
127     5,60%          1  0.7042254
128     5,67%          1  0.7042254
129     5,70%          1  0.7042254
130     7,60%          1  0.7042254
131     7,84%          1  0.7042254
132     9,50%          1  0.7042254

Mediana

  • La Mediana es el punto medio de una distribución, es decir el valor que divide a la distribución en dos partes iguales.

  • Por lo tanto, debajo de ese valor se ubica el 50% de los casos y por encima de ese valor se ubica el otro 50% de los casos El cálculo de la Mediana es posible o tiene sentido cuando la variable que se está analizando es por lo menos ordinal.

Cálculo de la Mediana

Para hallar la Mediana de una distribución se necesita:

  1. Ordenar todas las observaciones de la mínima a la máxima (lista ordenada)

  2. Si el número de observaciones es impar, entonces la mediana es la observación central de la lista ordenada.

  3. Para hallar la observación central (por lo tanto, el valor de la mediana), se usa la siguiente fórmula: (n + 1) / 2

  4. Si el número de observaciones es par, la mediana es el promedio (o la media) de las dos observaciones centrales de la lista ordenada.

Cálculo de la Mediana cuando el número es impar

Tengo 11 números.

Cálculo de la Mediana cuando el número es par

Tengo 20 números.

Mediana en R Studio

Usamos el comando median para solicitar la mediana.

median(data$Puntuación,na.rm=T)
[1] 5784.5

Otra forma con el paquete dplyr

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Mediana=median(Puntuación))  ## Paso 2: Resumir 
  Mediana
1  5784.5

Media

La media o el promedio es la suma de todas las mediciones (valores) divididas por el número total de mediciones u observaciones

  • Fórmula para el cálculo de la Media (Promedio):

Media en R Studio

Usamos el comando media para solicitar la media

mean(data$Puntuación,na.rm=T)
[1] 5520.345

Otra forma con el paquete dplyr

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación))  ## Paso 2: Resumir 
  Promedio
1 5520.345

Media vs. mediana

  • La media es un estadístico sensible a los valores extremos.Basta que algún dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá alterado.

  • La mediana, en cambio, es un estadístico robusto. Aunque los extremos de los datos se vean alterados, la mediana permanece invariable.

Media vs. mediana en R studio

  • Usamos los paquetes dplyr y tidyverse

  • Usamos el pipe %>% para ordenar los comandos.

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación))  ## Paso 2: Resumir 
  Promedio Mediana
1 5520.345  5784.5

Media vs. mediana en R studio en una tabla

  • Usamos el paquete kableExtra

  • Usamos los comandos kable y kable_styling para elaborar una tabla.

data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) %>%  ## Paso 2: Resumir  
  kable() %>%  # Paso 3: Convierte la tabla en código HTML
  kable_styling()# Paso 4: Se visualiza mejor la tabla.Esto te servirá cuando utilices Rmd dado que este crear un archivo HTML.
Promedio Mediana
5520.345 5784.5

Media vs. mediana en R studio por grupos

  • Usamos el comando group_by para referir los grupos en los que deseamos resumir la información.
data %>%                      ## Paso 1: DATA 
  group_by(Continente) %>%    ## Paso 2: group_by
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2:summarize

Gráfico : Histograma

Para variables numéricas

  1. Instalar el paquete ggplot2
install.packages("ggplot2")
library(ggplot2)
  1. El comando aes denomina a las coordenadas ‘x’ y ‘y’.
ggplot(data, aes(x=Puntuación))
  1. El comando geom_histogram genera el histograma.
ggplot(data, aes(x=Puntuación)) + geom_histogram()

Gráfico : Gráfico de Barras

Para variables categóricas

  1. Instalar el paquete ggplot2
install.packages("ggplot2")
library(ggplot2)
  1. El comando aes denomina a las coordenadas ‘x’ y ‘y’.
ggplot(data, aes(x=Puntuación))
  1. El comando geom_bar genera el gráfico de barras.
ggplot(data = data, aes(x = Situación)) +
  geom_bar(fill = 'red')

Más información en: https://www.sharpsightlabs.com/blog/barplot-r-geom_bar/

Resumen de estadísticos de tendencia central

Resumen de estadísticos de tendencia central

Medidas de dispersión

  • La media y la mediana proporcionan dos medidas distintas del centro de una distribución.

  • Sin embargo, caracterizar una distribución solo con una medida de su centro puede ser engañoso.

  • Dos provincias con la misma mediana de ingresos por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación entre familias.

  • Un lote de medicinas con una concentración promedio adecuada en su componente activo puede ser muy peligroso si hay comprimidos con contenidos del componente activo muy elevados y otros con contenidos muy bajos (Moore 2005: 38)

Medidas de dispersión

  • Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).

  • Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).

  • Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)

  • Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?

Medidas de dispersión

Dos perspectivas:

  1. La dispersión o variación es un atributo de variables intervalara.

  2. Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)

Desviación Típica o Estándar y Varianza

  • La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.

  • La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1

Desviación Típica o Estándar y Varianza

Desviación Típica o Estándar y Varianza

Ejemplo:

Propiedades de la Desviación Típica o Estándar (1)

  • La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central

  • La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).

  • A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande

Propiedades de la Desviación Típica o Estándar (2)

  • La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales

  • Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado

Propiedades de la Desviación Típica o Estándar (3)

  • Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.

  • Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande

  • La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)

Desviación Típica y Varianza en R.

Desviación Típica

  • Usamos el comando sd para solicitar la Desviación Típica.
sd(data$Puntuación)
[1] 1171.614
sqrt(var(data$Puntuación))
  • Usamos el comando sqrt para solicitar la raiz cuadrada.
[1] 1171.614

Varianza

  • Usamos el comando var para solicitar la varianza
var(data$Puntuación)
[1] 1372680

Medidas de Posición

  • Las Medidas de Posición son otra forma de describir la distribución de una variable

  • Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos

  • La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles

Medidas de Posición: Rango

  • Indica cómo las puntuaciones de una variable ordinal o numérica se distribuyen de menor a mayor. Diferencia entre la puntuación máxima y mínima.

Medidas de Posición: Rango en R Studio

  • Usamos el comando max para solicitar el valor máximo.
max(data$Puntuación)
[1] 7741
  • Usamos el comando min para solicitar el valor mínimo.
min(data$Puntuación)
[1] 1721
  • Usamos el comando range para solicitar el rango
range(data$Puntuación)
[1] 1721 7741

Medidas de Posición: Percentiles

  • El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .

  • El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él

  • Pregunta: ¿Qué nombre tiene el percentil 50?

Medidas de Posición: Deciles, Cuartiles y Quintiles

Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:

  • Deciles (10%)

  • Cuartiles (25%)

  • Quintiles (20%)

Medidas de Posición: Cuartiles

El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones

El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades

El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones

Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales

Rango entre cuartiles

Medidas de Posición: Cuartiles en R Studio

  • Usamos el comando quantile para solicitar el cuartiles
quantile(data$Puntuación)
     0%     25%     50%     75%    100% 
1721.00 4691.50 5784.50 6398.25 7741.00 

Medidas de Posición: Rango Intercuartil

Es la diferencia entre el tercer cuartil y el primer cuartil.


Medidas de Posición: Rango Intercuartil en R Studio

IQR(data$Puntuación)
[1] 1706.75

Valores Extremos

  • Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:

  • Si un dato es < Q1 – 1.5(Q3-Q1)

  • Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.

La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).

Gráfico: Boxplot

library(ggplot2)
ggplot(data, aes(y = Puntuación )) + 
  stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
  geom_boxplot()

Practica lo aprendido