Estimar la incertidumbre

Autores importantes — como Andrew Gelman — señalan que la estadística se enfrenta a tres retos fundamentales de inferencia:

Ya hemos hablado un poco del primer problema cuando discutimos la semántica de los datos. Y el tercero realmente es un problema de diseño de investigación que sólo en un segundo momento se convierte en un tema estadístico; para ello les sugiero leer a Judea Pearl, en especial The Book of Why y si quieren algo más estadístico, puede ser el de Hernán y Robbins, What if. Por ello este tema escapa a los alcances de la clase.

Así es que ahora nos vamos a concentrar en el segundo problema. En este contexto, la inferencia es la manera en que hacemos juicios sobre parámetros poblacionales a partir de una muestra.

Censos y Muestras

Cuando queremos hacerle una pregunta a la población entonces hay básicamente dos estrategias:

Si nosotros queremos una respuesta muy precisa entonces realizamos un censo. Sin embargo, esto sólo es factible si la población objetivo es muy pequeña (digamos, el salón de clases o la maestría) o si tenemos MUCHO dinero y MUCHO tiempo. Por lo general, cuando hablamos de poblaciones grandes, estamos hablando de muestras.

Alt text

Alt text

Las muestras son muy útiles porque al conocer la opinión de un grupo muy pequeño de la población, entonces podemos asumir que conocemos la opinión de la población. Esto significa que un parámetro poblacional (MIU) esperamos que coincida con una estimación muestral (Media).

La ventaja es que esto es más barato y más rápido que un censo. La desventaja es que hacer una muestra es un procedimiento técnico especializado y necesariamente introducimos incertidumbre en los resultados. En otras palabras, conocemos la estimación muestral pero no sabemos si le atinamos al parámetro poblacional…

Tipos de muestras

Por lo general las muestras se pueden realizar siguiendo dos estrategias con implicaciones cruciales:

  1. Probabilísticas: en las muestras probabilísticas todos los miembros de la población objetivo tienen la misma probabilidad de ser elegidos. En otras palabras, la selección es estrictamente aleatoria o al azar. La aleatoriedad suele ilustrarse con algún mecanismo, como las urnas en la lotería, o computacional con la generación de números aleatorios, como cuando asignamos exposiciones.

Si algún miembro tiene mayor probabilidad de ser seleccionado en la muestra, entonces hay un sesgo. El sesgo es un concepto metodológico amplio y se refiere a cualquier error sistemático producido en el diseño, implementación o análisis del estudio que provoca errores de estimación e interpretación.

Hay tres estrategias para conformar muestras probabilísticas:

Recuerden siempre pensar en el marco muestral, esto es, el listado a partir del cual se calculan las probabilidades de inclusión.

Ejemplo: todas las pelotas con los números al iniciar el Bingo. 
Todas las encuestas de INEGI son aleatorias y el marco muestral las Unidades Primarias de Muestreo(UPM). 
  1. Por Conveniencia: En ocasiones no es posible hacer una selección aleatoria. Si el mecanismo de aleatoriedad no es explícito: sospechen. Cuando el investigador u otro elige a quien se tiene disponible entonces se utiliza un método de conveniencia. Si bien las estimaciones provenientes de esta estrategia tienen valor exploratorio, este método de selección no permite generalizar a una población. ¿Qué tan sólidas son las encuestas en línea con millones de observaciones?

Por ello, siempre que se pueda, preferimos aleatorizar.

Cuatro criterios para diseñar una muestra

Como quedó de manifiesto al mirar los documentos técnicos del INEGI, una muestra involucra un proceso técnico especializado. No lo intenten en sus casas sin la supervisión de un experto. No obstante, hay cuatro valores centrales que definen el tamaño de una muestra probabilística simple.

Al diseñar el protocolo de un estudio cuantitativo se suele tener una hipótesis central y muchas secundarias. La importancia de definir una hipótesis central es que de ahí emanan los parámetros para el diseño de la muestra que se utilizará. Esa hipótesis suele ser la comparación de dos variables. Y la literatura previa sobre esta relación ayuda a guiar el tamaño de muestra necesario para comprobarla.

Dos tips generales y poco científicos:

Tipos de error muestral

Recuerden que todas las muestras tienen error, tienen incertidumbre en sus resultados. Esto es inevitable. El objetivo no es eliminar el error sino identificar sus fuentes y minimizarlo.

Hay dos grandes tipos de error con las muestras:

La recolección de datos debe de ser de alta calidad para que las estimaciones sean confiables

Tipos de estimaciones

Cuando consumimos resultados basados en encuestas provenientes de una muestra, con frecuencia solemos ver 2 tipos de estimaciones. La diferencia se refiere al grado de incertidumbre de una aseveración.

El error muestral (+/- 3%) vuelve incierto afirmar que la estimación puntual coincida exactamente con el parámetro poblacional.

En cambio, una estimación de intervalo incluye un rango dentro del cual el parámetro poblacional se encuentra, dada cierta probabilidad o nivel de confianza.

En términos de comunicación es más fácil reportar prevalencias o comparaciones con estimaciones puntuales, pero no es preciso porque dan la falsa impresión de que se dice con certidumbre. Aunque sea más complejo, deberíamos de utilizar intervalos, ya que comunican con mayor precisión la incertidumbre.

Vean la siguiente gráfica que presentamos hace un par de semanas

El 27% es la estimación puntual

¿Es menor que en diciembre?

Alt text

Alt text

Rmarkdown

Vamos a ver una manera más interesante de utilizar RSTUDIO. Así es más fácil seguir las notas y el output

Empezamos la exploración de Rmarkdown por Notebooks y poco a poco iremos a cosas ligeramente más sofisticadas.

Antes que otra cosa, instala el paquete; a la derecha: Packages -> Install -> “Rmarkdown”

El motivo no sólo es estético o pedagógico (ya no tenemos que poner el #). El objetivo que perseguimos es la reproducibilidad de la ciencia.

La meta es que en un archivo tengan todo su texto y todo su análisis estadístico juntos.

Así ustedes mismos pueden volver al archivo original y hacer las modificaciones que quieran.

¿Qué nos dice el machote precargado?

This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Notebook

Aquí pongan atención a que es un “Notebook”. Esta es la versión más sencilla de Rmarkdown. Nos permite hacer cosas que, de inicio, no pensamos publicar o compartir. Más adelante veremos que también podemos hacer html, .pdf,.doc y un fascinante etcétera.

En Rmarkdown tenemos tres tipos de “áreas”:

  1. YAML: Parte inicial, entre tres guiones. Ahí ponemos el título y metadatos del documento. Entre otras cosas anotamos ahí que queremos un notebook

  2. Texto: Es la sección en la que estamos ahora. Podemos escribir libremente como en un word en blanco. Es el equivalente a poner un # en el script tradicional.

  3. Código: estos son los comandos que le pedimos a R para ejecutar. Diferenciamos ambos tipos de texto con estos signos: ```{r} Noten que el pedazo de código termina con otras tres comillas. La r ahí dentro indica que usaremos el lenguaje de R; pero podríamos usar otros lenguajes, como Python o Julia. Dentro de esos corchetes podemos meter indicaciones a R, mismas que veremos poco a poco. Hay dos maneras de correr sólo ese “chunk” o pedazo de código:

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Cmd+Shift+Enter.

plot(cars)

Noten cómo ahora el output sale inmediatamente después.

Este es el shortcut para insertar código:

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Cmd+Option+I.

22+4
## [1] 26

¿Y para qué tanta molestia si apenas vamos cachando qué onda con el Script?

El Script me interesa porque es una funcionalidad similar a la de otros softwares, como STATA con el dofile o SPSS con syntax

Pero lo bueno, bueno, es lo siguiente:

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Cmd+Shift+K to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike Knit, Preview does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

Juntos iremos aprendiendo poco a poco a usar Rmarkdown.

Mientras tanto les dejo varios recursos para que le entrena su ritmo:

En las últimas semanas hubo un atractivo de Curso de Markdown en la IBERO

Projects

Uno de los mejores amigos de Markdown, y uno en el que he sido omiso, porque debí hacerlo desde el principio, es el de Proyectos. La idea es relativamente sencilla. Consiste en abrir un “folder” tipo los de sus carpetas, sólo que es un folder dedicado a un proyecto de análisis cuantitativo. Y la ventaja decisiva es que RStudio lo puede leer y alimentar DIRECTAMENTE. Como en muchas de estos temas, vale más la pena verlo que explicarlo.

File -> New Project -> New Directory -> New project.

Pongan un nombre fácil y corto y elijan en dónde va a vivir su proyecto dentro de su computadora. Una vez que aceptan, vayan a ver qué pasó en sus folders. Verán que hay un símbolo como caja tridimensional azul-verdosa. En el folder de project les sugiero que siempre creen tres folders adicionales:

  • Bases
  • Scripts
  • Outputs

Si ustedes guardan en el folder correspondiente la bd, el markdown, etc, verán que los tienen disponibles en la pestaña “Files”. Por favor, metan ahí la de pobreza multidimensional y espero ya no sufriremos tanto con la localización. Y en el de scripts metan todos los de la clase para que estén a la mano. Por lo general, en outputs, se guardan gráficas o tablas que quieran conservar. Otras personas abren un cuarto folder con pdfs relacionados al proyecto,que van desde codebooks hasta artículos. Yo todavia no hago el 100% de mi trabajo aquí y por eso con estos me basta.

Un par de cosas sobre dónde encontrar los archivos… A

Algo engorroso de Rmarkdown tiene quever con la ubicación del archivo en su project. No le es claro dónde debe encontrar sus datos y debemos decirle. Especifiquen lo siguiente:

Tools -> Global options -> Rmarkdown -> evaluate chunks in directory : Project.

Y lo salvan

Con lo anterior, su markdown debe de identificar sin problema la ubcación de su bd y correr sin obstáculos.

Un segundo problema es cuando se trabaja en equipos y la ubicación es diferete en cada compu. Una buena manera de areglar ese problema es con el paquete here(), que automatiza la búsqueda de archivos. No me quiero desviar demasiado así es que mejor les dejo este tutorial muy corto por si alguien quiere. Here

Pero, la verdad, es que si instalan bien su Project, no van a sufrir gran cosa.