Estadística para el Análisis Político | Lección 9 Correlación

Marylia Cruz

Introducción

  • Relaciones bivariadas.

  • Que dos variables estén asociadas no significa necesariamente que una sea causa de la otra.

  • Una relación causal entre dos variables requiere que ellas estén asociadas; pero no sucede a la inversa.

  • La estadística bivariada estudia la relación entre dos variables de una misma muestra o conjunto de datos.

Introducción

  • La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

Motivación

https://www.gapminder.org/fw/world-health-chart/

Motivación

https://ourworldindata.org/poverty#all-charts

Motivación

Reflexiona sobre dos variables numéricas en las que pueda existir alguna relación en Sociología :

  • Género

  • Salud

  • Movimientos y conflictos sociales

  • Trabajo

  • Familias y hogares

Diagrama de dispersión

¿Dónde está el caso que corresponde a un pasaje aéreo de 3500 millas y un costo de 220?

Diagrama de dispersión

- DIAGRAMA DE DISPERSIÓN:

Rejilla bidimensional de las coordinadas de dos variables numérica X, Y.

- COORDENADA:

Punto en un diagrama de dispersión e el que se representan graficamente los valores de X y Y para un caso.

- PATRÓN LINEAL

Aquel en el que las coordenadas de un diagrama de dispersión caen en el patrón algargado que se aproxima a la forma de una recta. 

Diagrama de dispersión

¿Qué se puede observar (analizar) en un diagrama de dispersión?

  • Dispersión de los datos

  • Casos atípicos

  • Forma de la relación

  • (Si la relación es lineal) Direccionalidad de la relación (positiva o negativa)

  • Fuerza de la relación

Diagrama de dispersión

¿Es posible representar más de dos variables en un diagrama de dispersión?

¿Es posible incluir una variable categórica en un diagrama de dispersión?

En ambos casos es sí.

¿Qué es la correlación?

La correlación es el cambio sistemático en las puntuaciones de dos variables numéricas.

Coeficiente de Correlación de Pearson

  • El Coeficiente de Correlación Lineal de Pearson mide la dirección y la fuerza de la relación lineal que existe entre dos variables intervalares o cuantitativas.

  • Para que su cálculo tenga sentido, se requiere que las dos variables sean intervalares o cuantitativas.

  • Por lo general se le denota con una “r” minúscula.

Coeficiente de Correlación de Pearson

La fórmula para calcular este coeficiente es la siguiente:

Propiedades de Correlación de Pearson

  • No hace distinción alguna entre variables explicativas (independientes) o variables de respuesta (dependientes)

  • Solo mide la fuerza de una relación lineal entre dos variables (e informa sobre la dirección de esta relación)

  • La correlación lineal no mide ni describe otros tipo de relaciones (por ejemplo, relaciones curvilíneas entre variables) aunque estas sean muy fuertes

Propiedades de Correlación de Pearson

  • Tiene valores entre -1 y +1. La fuerza de la relación lineal aumenta a medida que r se aleja de 0 y se acerca a -1 ó +1

  • r es positivo cuando existe una asociación positiva entre dos variables cuantitativas

  • r es negativo cuando existe una asociación negativa entre dos variables cuantitativas

Propiedades de Correlación de Pearson

Resumiendo …

- Cuando r = 0, no hay relación lineal entre las dos variables

- Cuando r = -1, existe una relación lineal negativa perfecta

- Cuando r = 1, existe una relación lineal positiva perfecta

Propiedades de Correlación de Pearson

No posee una unidad de medida y por lo tanto no varía cuando se cambian las unidades de medida de x, y, o de ambas variables (por ejemplo, si en vez de medir el peso en kilogramos se mide en libras o si en vez de medir la altura en centímetros se mide en pulgadas, el valor de r es el mismo)

El coeficiente se ve afectado por observaciones atípicas, al igual que con la media y la desviación típica o estándar

A jugar

http://guessthecorrelation.com

Correlación Rho-Spearman

La correlación Rho-Spearman es la alternativa no paramétrica1 disponible para analizar si existe o no asociación entre dos variables intervalares o cuantitativas

Su interpretación es idéntica a la de la correlacion r de Pearson

Existen un conjunto de métodos que no requieren que los presupuestos de los métodos paramétricos. Estos métodos, llamados no paramétricos, son por lo general muy útiles cuando las muestras son pequeñas.

Determinantes del voto en la Primera Vuelta de las Elecciones Generales del 2011, Perú

Pasos para interpretar

Ejemplo 1

Ejemplo 1

Ejemplo 1