0.1 Antes de empezar a analizar los datos, veamos algunos mitos

0.1.1 Análisis complejos y rimbonbantes impresionan a las audiencias… y ayudan a la publicación.

  • “Sistema de Ecuaciones Estructurales” o “SEM”
  • “Simulación Montecarlo siguiendo una Cadena Markov” o “MCMC”
  • “Apareamiento por el calculo de puntajes de propension” o “PSM
  • Modelos estocásticos supra deterministicos

0.1.1.1 Parsimonia

Principio en la construcción de ciencia

… si la simplicidad es un criterio deseable de una buena teoría, todas las buenas teorías idealizan y simpfican de manera exagerada Mark Blaug

Navaja de Ockham: En igualdad de condiciones, la explicación más sencilla suele ser la más probable

0.1.1.2 Elegancia

\[\displaystyle e^{i\pi }+1=0\]

“The mathematician does not study pure mathematics because it is useful; he studies it because he delights in it and he delights in it because it is beautiful” Georg Cantor

0.1.2 El análisis es una de las fases finales del proceso de investigación. Claramente va después de recolectar los datos.

– Tenemos que pensar en el análisis AL INCIO del proyecto, de esta manera podemos recoger los datos que responden la pregunta de investigación. - Como lo calcularía si ya tuviera los datos.

0.1.3 Los análisis cuantitativos son los mas precisos.

– “LIES, DAM LIES AND STATISTICS” (The West Wing, 2000 o Mark Twain, o Benjamin Disraeli) – Lo importante es la calidad de los análisis!

0.1.4 Los datos tienen su propio significado

“El coeficiente beta es de 0.4 con un p-valor menor a 0.001” \[\beta_1=0.4, p<0.001\]

0.1.5 Discutir las limitaciones de una investigación disminuye la credibilidad de mi argumento”

– TODAS, ABSOLUTAMENTE TODAS las investigaciones tienen limitaciones.

0.1.6 Toda investigación debe finalizar con recomendaciones para la política y la práctica.

  • No toda pregunta de investigación tiene respuesta afirmativa

0.1.6.1 What’s the difference between a scientific law and theory? - Matt Anticole

Una ley científica pretende modelar el mundo, no que le obedezca debe sobrevivir a la verificación. (Las teorías están para Bombardearlas)

0.2 Condiciones deseables para cualquier investigación

0.2.1 Y, al principio, todo fue curiosidad - Isaac Asimov

(Murnane & Willett, 2011)

  1. Un enunciado claro de la pregunta de investigación que guiara el proyecto y la teoría que enmarcara los esfuerzos. – Articule su pregunta de investigación en términos de la relación esperada entre variable de resultado, predictores y controles. – Define una población de interés

• Por ejemplo: – “Todos los niños y niñas, sin necesidades especiales, asistiendo a primer grado en colegios públicos de la ciudad de Bogotá” – “Hombres y mujeres mayores de 18 años, niveles socio económicos alto, medio y bajo, en todo el país, excluyendo la región de Amazonia” – Obtención de una muestra que represente esta población -> validez externa

0.2.2 Definición de instrumentos y medidas que operacionalicen variables centrales en la investigación.

– Variables de resultado (outcomes) ≈ Desempeño en la prueba SABER (5to grado) en Lenguaje ≈ Nivel de participación en organizaciones comunitarias No religiosas ≈ Promedio de Nivel de estrés laboral en los últimos 30 días ≈ adherenia al tratamiento – Predictores principales – Variables de control

0.2.3 Replicabilidad en otras muestras que podrían ser obtenidas de la misma población.

0.3 Del Rigor en la Ciencia

Jorge Luis Borges En aquel Imperio, el Arte de la Cartografía logró tal Perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el tamaño del Imperio y coincidía puntualmente con él.

Menos Adictas al Estudio de la Cartografía, las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos. En los desiertos del Oeste perduran despedazadas Ruinas del Mapa, habitadas por Animales y por Mendigos; en todo el País no hay otra reliquia de las Disciplinas Geográficas.

0.4 Dicho todo esto, A modelar!

“All models are fiction, but some stories are better than others” - Richard Berk

“Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.” - George Box

0.5 ¿Qué es un módelo?

  • son representaciones simplificadas de la realidad
  • Una teoría es un conjunto abstracto de ideas que vinculan una serie de conceptos. Un modelo es una representación formal de una teoría.
  • En el mejor de los casos la teoría se aproxima a la realidad Un modelo derivado de la teoría no puede llegar mas lejos.
  • Descripciones formales (herramientas científicas) que relacionan elementos y que están basados en hipótesis.
  • Teorías y modelos están interconectados: un modelo es una invención, algo que inventamos para explicar una serie de datos que queremos interpretar.
  • Los modelos pueden ser empíricos (basados en relaciones estadísticas) y mecanicistas (basados en mecanismos).
  • Los modelos nos ayudan a clarificar nuestras descripciones verbales de la naturaleza y de los mecanismos implicados
  • Debemos admitir desde el principio que no hay modelos enteramente correctos.
  • El método científico consiste básicamente en crear, validar y modificar modelos y teorías. El científico representa en forma de teorías y modelos el conocimiento que tiene acerca del mundo que le rodea

UN MODELO ES UNA REPRESENTACIÓN CON UN PROPÓSITO

0.6 Consideraciones adicionales para la investigación empírica

  • Solo podemos rechazar un modelo. Nunca podremos probar que un modelo es valido o verdadero.
  • Un buen “ajuste” del modelo a nuestros datos no quiere decir que tenemos un modelo “verdadero”.
  • Es necesario examinar otros modelos plausibles a la luz de la teoría y los datos.
  • Es necesario explorar varias alternativas para evaluar si el modelo tiene una correspondencia razonable con LA REALIDAD

0.7 Modelos para entender una realidad caótica

0.8 Pero… antes de modelar es importante conocer los datos a profundidad!

0.8.1 Interpretabilidad

Los modelos cuentan historias, y para poder contar la historia debes conocer a tus personajes, como se conocieron y que tipo de relación tienen, para ello esta la estadística descriptiva.

0.8.2 Ajuste del modelo

El conjunto de datos Anscombe - 4 conjuntos de datos con estadísticas similares pero patrones muy diferentes - Este es un ejemplo de por qué debemos tener cuidado al analizar las estadísticas descriptivas.

library("tidyverse")
## Warning: package 'tidyverse' was built under R version 3.6.1
## -- Attaching packages ------------------------------------------------------------------------------------ tidyverse 1.2.1 --
## v ggplot2 3.2.0     v purrr   0.3.2
## v tibble  2.1.2     v dplyr   0.8.1
## v tidyr   0.8.3     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.4.0
## -- Conflicts --------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
# library("ggplot2")
ggplot(Anscombe, aes(x,y)) + 
  geom_point() + 
  facet_wrap(~ set)

Anscombe %>%
  group_by(set) %>%
  summarize(
    N = n(), 
    mean_of_x = mean(x), 
    std_dev_of_x = sd(x), 
    mean_of_y = mean(y), 
    std_dev_of_y = sd(y), 
    correlation_between_x_and_y = cor(x,y))
## # A tibble: 4 x 7
##   set       N mean_of_x std_dev_of_x mean_of_y std_dev_of_y
##   <chr> <int>     <dbl>        <dbl>     <dbl>        <dbl>
## 1 1        11         9         3.32      7.50         2.03
## 2 2        11         9         3.32      7.50         2.03
## 3 3        11         9         3.32      7.5          2.03
## 4 4        11         9         3.32      7.50         2.03
## # ... with 1 more variable: correlation_between_x_and_y <dbl>

0.9 Modelo Estadístico - Modelo Matemático

0.9.1 Modelo Matemático

surgen de ecuaciones que determinan cómo cambia un sistema de un estado a otro (ecuaciones diferenciales) y / o cómo una variable depende del valor o estado de otras variables (ecuaciones de estado). Estos también se pueden dividir en modelos numéricos o analíticos. modelos.

En suma, la ley de gravidad, la ley de Ohm para los conductores metalicos, ley de los gases de Boyle son ejemplos de modelos matemáticos deterministicos.

0.9.1.1 Proyecciones de población

(Población final = Población inicial + Nacimiento – Defunciones + Inmigraciones – Emigraciones)

Tenemos por tanto dos stocks, el inicial y el final, y unos flujos de entrada y salida.

0.9.2 Modelo Estadístico

Es un tipo especial de modelo matemático que depende de datos e incorpora incertidumbre y aleatoriedad

0.9.2.1 ejemplos…

–>

0.10 Ajuste del modelo: Ajuste Deficiente vs sobre ajuste

0.11 Origen histórico del término regresión

El termino fue acuñado Francis Galton quien planteó que, a pesar de la tendencia de los padres de estatura alta a procrear hijos altos y los padres de estatura baja, hijos bajos, la estatura promedio de los niños de padres de una estatura determinada tendía a desplazarse, o “regresar”, a la estatura promedio de la población total. La ley de regresión universal de Galton fue confirmada por su amigo Karl Pearson, quien reunió más de mil registros de estaturas de miembros de grupos familiares.

0.11.1 En la actualidad entendemos regresión como

El análisis de regresión trata del estudio de la dependencia de una variable (variable dependiente) respecto de una o más variables (variables explicativas) con el objetivo de estimar o predecir la media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos de las segundas

0.12 Regresión y causalidad

A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto de otras variables, esto no implica causalidad necesariamente. En palabras de Kendall y Stuart: “Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una conexión causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término, de una u otra teoría”.

0.12.1 Relaciones espurias

O correlación espuria es una relación en la cual dos acontecimientos no tienen conexión lógica, aunque se puede implicar que la tienen debido a un tercer factor no considerado aún (conocido com factor de confusión o variable escondida). La relación espuria da la impresión de la existencia de un vínculo apreciable entre dos grupos que es inválido cuando se examina objetivamente.

0.12.2 Regresión

  • Regresión permite ajustar una linea (plano, hiperplano) y predecir una variabel basado en el valor de otra (otras).
  • Regresión se usa para identificar el efecto del cambio de una unidad de una variable independiente \(x\) en la variable dependiente \(y\).
  • La regresión de y a \(X\) será diferente al utilizar como variable independiente una de las x.
  • Regresión en si misma no responde la causalidad, es necesario aplicar otro tipo de test como el test de Granger.

0.12.3 Causalidad

  • La causalidad debe estar soportada en una teoría

\[Causalidad = Regresión + Teoría\]

Por ejemplo, estimar el rendimiento de un cultivo puede depender del nivel de lluvias, lo contrario no. El nivel de luvias no depende del rendimiento del cultivo, aunque ambos modelos resulten significativos.

0.13 Regresión y correlación

Se relacionan estrechamente pero conceptualmento son diferentes

La correlación mide la fuerza o el grado de asociación lineal entre dos variables.

La regresión trata de estimar o pronosticar el valor promedio de una variable con base en los valores fijos de otras.

0.14 Significado del termino Lineal

0.14.1 Linealidad en las variables

El primer significado, y tal vez el más “natural”, de linealidad es aquel en que la esperanza condicional de \(Y\) es una función lineal de \(X_i\), como en la ecuación \(E(Y | X_i ) = β_1 + β_2X\) (2.2.2).6 Geométricamente, la curva de regresión en este caso es una recta. En esta interpretación, una función de regresión como \(E(Y | X_i ) = β_1 + β_2X^2\) no es una función lineal porque la variable \(X\) aparece elevada a una potencia de 2.

0.14.2 Linealidad en los parámetros

La segunda interpretación de linealidad se presenta cuando la esperanza condicional de Y, acuerdo con esta interpretación, \(E(Y|X_i)\), es una función lineal de los parámetros, los \(\beta\); puede ser o no lineal en la variable \(X\).

Se dice que una función es lineal en el parámetro, digamos \(\beta\), si \(\beta\) aparece elevado a una potencia de 1 solamente y no está multiplicado ni dividido por ningún otro parámetro (por ejemplo, \(\beta_1\beta_2\), \(\beta_1/\beta_2\), …).

De acuerdo con esta interpretación \(E(Y|X_i) = β_1 + β_2X^2\) es un modelo de regresión lineal (en el parámetro). Para ver lo anterior, supongamos que \(X\) tiene un valor de 3. Por tanto, \(E(Y | X = 3) = β1 + 9β_2\), ecuación a todas luces lineal en \(β_1\) y \(β_2\)

Así, \(E(Y|X_i) = β_1 + β_2^2X^2\) no será lineal en los parámetros.

En adelante nos ocuparemos de modelos lineales en los parámetros!

0.15 Diferencia entre PRONÓSTICO y PREDICCIÓN

El pronóstico es científico y está libre de intuiciones y prejuicios personales, mientras que la predicción es de naturaleza subjetiva y fatalista. El pronóstico es una extrapolación del pasado hacia el futuro, mientras que la predicción es crítica y tiene en cuenta los cambios que tendrán lugar en el futuro. Por lo tanto, la predicción se utiliza más en los negocios y la economía, mientras que el pronóstico tiene lugar en el clima y los terremotos. Predecir es decir algo antes del evento mientras que el pronóstico se realiza sobre la base del análisis del pasado. El pronóstico aún no es una ciencia completa ya que hay posibilidades de error.

0.16 Tipos de modelos: Explicativo versus predictivo

Cuando pensamos en algo sobre lo que queremos saber más, lo que queremos a menudo es a) explicar lo que sucedió en el pasado o está sucediendo en este momento o b) predecir lo que puede suceder a continuación o como se comporta para una nueva observacion. Para hacer esto, creamos modelos. Sin embargo, el mismo modelo rara vez puede cubrir tanto la explicación como la predicción.

Una pregunta fundamental antes de iniciar el modelado de los datos es el uso que se le dará al modelo, ello define tipos de modelos y transformación de las variables.

0.16.1 Explicar

La explicación se trata de entender las relaciones y por qué suceden ciertas cosas y otras no. Lo que necesitamos para esto es comprender la causa y el efecto.

En este caso se priman las variables en su escala original, se evita el uso de modelos de caja negra.

Ejemplo: En los catastros es necesario explicar claramente a los propietarios los avaluos

0.16.2 Pronosticar

La pronostico se trata de anticipar, estimar o pronosticar lo que pueda suceder en el futuro o con una nueva observación. Todo lo que necesitamos para esto es entender las relaciones entre variables más alla de las lineales.

Ejemplo: Aprendizaje automático, en ello buscamos rendimiento sobre humano en un dominio específico privilegiandose el desempeño sobre la interpretación.

0.17 Terminología

Y X
Variable dependiente Variable Explicativa
Variable Explicada Variable independiente
Predicha Predictora
Regresada Regresora
Respuesta Estímulo
Endógena Exógena
Resultado Covariante
Variable Controlada Variable de control

0.18 La primera regresión

Esta es la primera lección sobre modelos de regresión. Comenzaremos con el concepto de “regresión hacia la media” y lo ilustraremos con un trabajo pionero del padre de la ciencia forense, Sir Francis Galton.

Sir Francis estudió la relación entre las alturas de los padres y sus hijos. Su trabajo demostró que los padres que eran más altos que el promedio tenían hijos que también eran altos pero más cercanos a la altura promedio. Del mismo modo, los padres que eran más bajos que el promedio tenían hijos que también eran más bajos que el promedio pero menos que los padres. Es decir, estaban más cerca de la altura promedio. De una generación a la siguiente, las alturas se acercaron al promedio o retrocedieron hacia la media.

Aquí agregamos una línea roja (45 grados) de pendiente 1 e intercepto 0 a la gráfica. Si los hijos tienden a tener la misma altura que sus padres, esperaríamos que los datos varíen de manera uniforme sobre esta línea. Vemos que este no es el caso. En la mitad izquierda de la gráfica vemos una concentración de alturas sobre la línea, y en la mitad derecha vemos la concentración debajo de la línea.

Ahora hemos agregado una línea de regresión azul a la trama. Esta es la línea que tiene la variación mínima de los datos a su alrededor. Su pendiente es mayor que cero, lo que indica que las alturas de los padres sí afectan a sus hijos. La pendiente también es menor que 1, como hubiera sido el caso si los niños tendieran a la misma altura que sus padres.

ahora la línea de regresión en R se calcula mediante la función lm (modelo lineal) necesita una “fórmula” y un conjunto de datos. En términos simples, solo necesitamos especificar la variable dependiente (altura de los niños) ~ la variable independiente (altura de los padres).

La línea de regresión tendrá una pendiente e intercepto que se estiman a partir de los datos. Las estimaciones no son exactas. Su precisión se mide mediante técnicas teóricas y se expresa en términos de “error estándar”.

regrline <- lm(child ~ parent, galton)
summary(regrline)
## 
## Call:
## lm(formula = child ~ parent, data = galton)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.8050 -1.3661  0.0487  1.6339  5.9264 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 23.94153    2.81088   8.517   <2e-16 ***
## parent       0.64629    0.04114  15.711   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.239 on 926 degrees of freedom
## Multiple R-squared:  0.2105, Adjusted R-squared:  0.2096 
## F-statistic: 246.8 on 1 and 926 DF,  p-value: < 2.2e-16

Un coeficiente estará dentro de 2 errores estándar de su estimación aproximadamente el 95% de las veces. Esto significa que la pendiente de nuestra regresión es significativamente diferente de 0 o 1 ya que (.64629) +/- (2 * .04114) no está cerca ni de 0 ni de 1.

La pendiente de una línea muestra cuánto de un cambio en la dirección vertical se produce por un cambio en la dirección horizontal. Por lo tanto, los padres de “1 pulgada” por encima de la altura promedio tienden a tener hijos que están a sólo .65 pulgadas por encima de la media. El triángulo verde ilustra este punto. De la media, mover una “distancia de 1 pulgada” horizontalmente hacia la derecha (aumentando la altura de los padres) produce un aumento de “.65 pulgadas” en la dirección vertical (altura de los niños).

Del mismo modo, los padres que están 1 pulgada por debajo del promedio de estatura tienen hijos que están solo .65 pulgadas por debajo de la estatura promedio. El triángulo morado ilustra esto. Desde la media, mover una “distancia de 1 pulgada” horizontalmente hacia la izquierda (disminuyendo la altura de los padres) produce una disminución de “.65 pulgadas” en la dirección vertical (altura de los niños).

0.19 Otros tipos de modelos

Rpart no lineales en los parámetros

0.20 Referencias

Gujarati, D. N., & Porter, D. C. (2011). Econometria Básica-5. Amgh Editora.