Estadística para el Análisis Político | Lección 1

Marylia Cruz

Bievenid@

A la aventura más divertida del semestre 2025-2.

Guías:

  • Marylía Cruz - marylia.cruz@pucp.edu.pe
  • Alvaro Carbajal - a.carbajal@pucp.edu.pe

Conociéndonos

  • Mi nombre es …

  • Estudio …

  • Compromiso …

¿Cómo nos relacionamos?

  • Con respeto y amabilidad.

Motivación

https://www.youtube.com/shorts/yYBQD0RXbIY

Sílabo

Entra aquí para revisar el Sílabo

Página del curso

https://maryliacruzs.github.io/Estadistica1CienciaPolitica/index.html

¿Por qué la ciencia es ciencia?

  • El objetivo de la ciencia es descubrir las leyes que rigen los fenómenos de la realidad, comprenderlos y explicarlos.

  • El conocimiento científico es el conjunto de saberes comprobables dados por ciertos gracias a los pasos contemplados en el método científico.

  • El método científico es el conjunto de pasos ordenados que se emplean para adquirir nuevos conocimientos.

Pasos del método científico

El método asegura que los alcances de la ciencia, su proyección, que los conocimientos no nazcan y mueran con sus descubridores o quienes estuvieron próximos a ellos.”Metodizar” es asegurar la posibilidad de transmitir o replicar.

Enfoques de investigación

Estadística

https://www.youtube.com/watch?v=hODwSUX0kT4

  • “Sin datos, solo eres otra persona con una opinión.” – W. Edwards Deming

  • “Si uno agita la data lo suficiente, terminará diciendo lo que uno quiere escuchar” (anónimo)

  • “Es fácil mentir con estadísticas, pero es aún más fácil mentir sin ellas” (Fredrick Mosteller)

  • “Las estadísticas no mienten, pero quien las interpreta debe tener ética y curiosidad.”

  • “Los datos bien analizados no solo explican el pasado, sino que iluminan el futuro.”

Estadística

  • Término latín statisticum collegium “consejo de Estado”.
  • Según Agresti y Finlay (2009), la estadística es el conjunto de métodos para la generación y análisis de data Específicamente, la estadística ofrece métodos para: Diseñar (planear cómo generar data para ser usada en estudios o investigaciones) Describir (“resumir” la data existente: centralidad y dispersión) Inferir (hacer predicciones sobre la base de la data que ya existe)

Nota: Lo que a veces se discute es si la estadística incluye métodos para la generación de datos .

Estadística

¿Por qué la estadística en ciencia política y relaciones internacionales?

  • Para poder leer cuadro, diagramas y gráficos, y así entender el análisis de información numérica (aprender el lenguaje estadístico)

  • Las técnicas estadísticas se utilizan para la toma de decisiones.

  • El conocimiento que se tiene sobre la realidad.

  • Se utiliza como una herramienta de investigación. Nos permite plantear una pregunta de investigación y dar respuesta a la pregunta de investigación. Contrastar nuestra hipótesis.

Nociones básicas

  • Concepto: Construcción teórica o abstracta

  • Variable: Manifestación del concepto en el mundo

  • Casos o unidades de análisis: Entidad acerca de la que se va a extraer información.

  • Valores: Valor que toma la variable para cada caso o unidad de análisis [observaciones]

Nociones básicas

¿Qué es la data?

  • Data es la información que está compuesta por un conjunto de observaciones.

  • La data es lo que se analiza estadísticamente.

  • La generación de data se puede llevar a cabo de diferentes maneras (registros, encuestas, experimentos, observación directa, etc).

  • Con mucha frecuencia se analiza data que ya existe.

Nociones básicas

Base de datos

Hay dos tipos principales de bases de datos.

  • Encuestas de opinión: Un muestra de la población.

Ejemplo:

  • Encuesta Nacional de Hogares (ENAHO)

  • Datos registrales: Datos de toda la población

Ejemplo:

  • Registro Nacional de Municipalidades (RENAMU)

Nociones básicas

Base de datos

  • Por lo general la data está contenida en un base de datos.
  • Los archivos de las bases de datos pueden están contenidas en los siguientes programas:
  • Stata: (base_de_datos.dta)
  • SPSS: (base_de_datos.sav)
  • R: (base_de_datos.Rdata)
  • Excel: (base_de_datos.xlsx. /. (base_de_datos.csv).

Nociones básicas

Mediciones

  • La medición es la asignación de símbolos, tanto nombres como números, a las diferencias que observamos en las cualidades o cantidades de una variable.

¿Cómo medir?

  • Recoger información a través de un cuestionario.
  • Extraer la información de registros.

El proceso de aterrizar un concepto en determinadas variables se denomina operacionalización

¿Qué es una variable?

  • Una variable es cualquier característica que puede ser medida para un sujeto, individuos o caso.

  • Una variable es una característica que puede variar en su valor entre los sujetos que son parte de una muestra o una población (Agresti y Finlay 2007).

  • El tipo de categorías o valores que encontramos dentro de una variable es lo que determina su escala de medición.

Escala de medición

No todas las variables son iguales; es decir, no todas las variables contienen el mismo tipo o naturaleza de información.

Un a de las principales de diferencia entre las variables es lo que concierne a su escala de medición.

La escala de medición está directamente relacionada con el tipo de naturaleza de información que contienen las variables.

Tipos de variables

  • Una variable es definida como cualitativa (categórica) cuando su escala de medición es un conjunto de categorías; por lo tanto, estas diferentes categorías difieren en cualidad no en una magnitud numérica Por ejemplo: ámbito geográfico de residencia, religión, estado civil, ocupación laboral, etc.

  • Una variable es definida como cuantitativa (numérica) cuando su escala de medición posee valores numéricos y esos valores numéricos representan diferentes magnitudes de la variable Por ejemplo: edad, edad de ingreso al mercado laboral, ingreso mensual, etc.

Variable nominal

Las variables nominales son aquellas en las que los códigos sólo indican una diferencia de categoría,clase, calidad o tipo. Las variables nominales no admiten puntuaciones numéricas ordenadas. Se distinguen variables dicotómicas (2 categorías) y politómicas (+2 de categorías).

Variable ordinal

Las variables ordinales designan categorías, pero tiene la propiedad adicional de permitir clasificar desde la mayor hasta la menor, o de la mejor a la peor, o de la primera a la última. Las escalas likert son un ejemplo de variables ordinales.

  • Ejemplo: Nivel Educativo

Variable numérica I

Variable numérica continua

Son aquellas que pueden tomar una cantidad, número infinito de valores que incluya decimales en dos valores determinados.

  • Ejemplo: El ingreso del jefe de hogar.

Variable numérica discreta

Son aquellas que pueden tomar valores posibles constituyen un conjunto finito o son valores contables de valores.

  • Ejemplo: El número de menores de edad de un hogar.

Variable numérica II

Variable numérica intervalo

Con punto en el valor cero.

  • Ejemplo: La temperatura. Si el clima está a 0 grados celsius, no significa la ausencia de temperatura.

Variable numérica razón

El cero en esta escala sí indica la ausencia de atributo, es cero absoluto.

  • Ejemplo: El peso en kilogramos.Si un objeto pesa a 0 gramos, significa la ausencia de objeto.

Caso especial

Escala Likert

Vamos a conocer R y Rstudio

R en dos minutos

Vamos a conocer R y Rstudio

R es un lenguaje de programación orientado a objetos (las variables, datos, funciones, resultados, etc., se guardan en la memoria activa del computador en forma de objetos con un nombre específico)

  • Es un programa para analizar datos

  • Es un software libre (gratis, para descargar, instalar e utilizar).

  • R ha ganado amplia popularidad recientemente.

Vamos a conocer R y Rstudio

Vamos a conocer R y Rstudio

Vamos a conocer R y Rstudio

Vamos a conocer R y Rstudio

Vamos a conocer R y Rstudio

Vamos a conocer R y Rstudio

El R un software orientado a OBJETOS por lo que los datos, resultados, funciones, etc se guardan en la memoria activa en forma de objetos con un nombre específico y las características y atributos de estos objetos son a su vez otros objetos.

¿Objetos?

El objeto a contiene lo siguiente

a=1-8
a
[1] -7

Vamos a conocer R y Rstudio

Comandos

Son las ordenes que le doy al software.Escribimos comando en la consola o el script.

Los comandos se llaman también “objetos”. La lista de objetos/comandos disponibles por default en el R está disponible tipeando el comando:

numeros=c(1,2,3)
numeros
[1] 1 2 3
nombres=c("leo","rosa","coco")
nombres
[1] "leo"  "rosa" "coco"

Tipo de datos

Tipo de datos

Estos comandos me sirven para preguntar por el tipo de datos que es el objeto numeros

is.integer(numeros)
is.numeric(numeros)
is.character(numeros)
is.factor(numeros)
is.logical(numeros)
is.null(numeros)
[1] FALSE
[1] TRUE
[1] FALSE
[1] FALSE
[1] FALSE
[1] FALSE

Operadores

Un operador es una orden que le indica al R hacer una determinada tarea.

Ejercicio

Crea una base de datos con cuatro casos considerando el nombre, la edad y la especialidad de 4 de tus compañer@s.

numeros=c(1,2,3)
numeros
nombres=c("leo","rosa","coco")
nombres
[1] 1 2 3
[1] "leo"  "rosa" "coco"

Utiliza cbind para juntar los objetos

data=cbind(nombres,numeros)

data=as.dataframe(data)
data
  nombres numeros
1     leo       1
2    rosa       2
3    coco       3

Abrir una base de datos en R / Paso 1

Indicar el directorio de trabajo. Para obtener la linea de código, realiza lo siguiente:

Obtendrás la siguiente línea de código del directo, la cual debes pegarla en tu archivo de códigos.

Abrir una base de datos en R/Paso 2

Importar desde excel o spss Usamos la libreria RIO

library(rio)
felicidad=import("felicidad.xlsx")
names(felicidad)
[1] "Country"             "Indice_de_felicidad" "Continente"         

Variable categórica / Continente

Creación de una tabla

# Calcular la cantidad de países por continente
library(tidyverse)
conteo_continente <- felicidad %>%
  group_by(Continente) %>%
  summarise(Cantidad = n()) %>%
  arrange(desc(Cantidad))
# A tibble: 6 × 2
  Continente    Cantidad
  <chr>            <int>
1 Africa              41
2 Asia                41
3 Europe              40
4 South America       12
5 North America       11
6 Oceania              2

Variable categórica / Continente

Creación del gráfico

library(ggplot2)
ggplot(conteo_continente, aes(x = Continente, y = Cantidad, fill = Continente)) +
  geom_bar(stat = "identity", show.legend = FALSE) +
  scale_fill_brewer(palette = "Set2") +  # Colores atractivos
  labs(title = "Cantidad de Países por Continente", x = "Continente", y = "Número de Países") +
  theme_minimal() + 
  theme(plot.title = element_text(hjust=0.5, face="bold", size=14))

Variable numérica / Índice de felicidad

  • Resume el índice de felicidad.
summary(felicidad$Indice_de_felicidad)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.364   4.702   5.868   5.578   6.479   7.736 

Variable numérica / Índice de felicidad

  • Creación del gráfico histograma para la variable numérica
library(ggplot2)
ggplot(felicidad, aes(x=Indice_de_felicidad)) +
  geom_histogram(binwidth=0.5, fill="skyblue", color="black") +
  labs(title="Histograma de Felicidad", x="Puntuación de Felicidad", y="Frecuencia") +
  theme_minimal()

Variable numérica / Índice de felicidad

  • Creación del gráfico histograma para la variable numérica
library(ggplot2)
ggplot(felicidad, aes(x=Indice_de_felicidad, fill=..count..)) +
  geom_histogram(binwidth=0.5, color="black") +
  scale_fill_gradient(low="blue", high="red") +
  labs(title="Histograma de Felicidad con Colores", x="Puntuación de Felicidad", y="Frecuencia") +
  theme_classic() +
  theme(plot.title = element_text(hjust = 0.5, face="bold", size=14),
        axis.title = element_text(face="bold"),
        legend.position = "none")  # Ocultar leyenda para estética

Creación de una variable ordinal a partir de una numérica

Crea una variable ordinal a partir de su puntaje de felicidad.

felicidad <- felicidad %>%
  mutate(Grados_felicidad = cut(Indice_de_felicidad, 
                             breaks = c(1, 3, 5, 7, 10),  # Definir los cortes
                             labels = c("Bajo", "Medio-Bajo", "Medio-Alto", "Alto"), 
                             ordered_result = TRUE))  # Variable ordinal

Creación de una variable ordinal a partir de una numérica

# Crear una tabla de frecuencia
tabla_frecuencia <- felicidad %>%
  count(Grados_felicidad) %>%
  mutate(Porcentaje = round(n / sum(n) * 100, 1))
tabla_frecuencia
  Grados_felicidad  n Porcentaje
1             Bajo  2        1.4
2       Medio-Bajo 45       30.6
3       Medio-Alto 91       61.9
4             Alto  9        6.1

Fin de la Lección 1

  • Repaso los conceptos aprendidos.

  • Instala R Studio en la laptop o computadora que utilizarás este semestre.

  • Completa el Reto 3 para consolidar lo aprendido.

Elegir una variable categórica y otra numérica (la numérica puede ser una escala likert de 1 a 7) del Barómetro de las Américas 2023. Recuerda revisar el cuestionario.

https://www.vanderbilt.edu/lapop/peru.php

Gracias por tu atención