Contexto

El Instituto Tecnológico de Sonora www.itson.mx es una institución de educación superior situada en el norte de Sonora, México. Dentro de las áreas que forman a ITSON existe la Dirección de Ingeniería y Tecnología en la que se imparten varios Programas Educativos de Ingeniería Oferta educativa.

En estos programas educativos de ingeniería hay una materia que se llama Probabilidad y Estadística, en la que hay contenidos temáticos de probabilidad, estadística descriptiva e inferencia estadística. Uno de los objetivos de la materia es el uso de software para análisis de datos.

Por esto último y para cumplir con la actividad de la materia Entornos de computación estadística se diseñaron una serie de actividades para el aprendizaje de la estadística y del lenguaje R. Lo mostrado en este trabajo representa solo una parte de lo que se está desarrollando para todo el curso de probabilidad y estadística.

En estas actividades se usó RStudio y Google Colab, además se creo una cuenta en Shinyapps y otra eb Rpubs para compartir las actividades. Se procuró usar lo básico de RMarkdown, para enseñar a los alumnos, como por ejemplo inserción de imágenes, ecuaciones y formatos de en la tipografía. También se usó github para alojar la página.

Las actividades desarrolladas son:

El teorema del límite central
Intervalos de confianza
Uso de google colab

Explicación de actividades

Uso de Notebook de google colab

Para el aprendizaje de R y de estadística descriptiva se realizó una Notebook de Google colab ( Colab) porque es pedagógicamente mejor puesto que son muy sencillas de elaborar para los alumnos debido a que solo hay celdas de texto (donde en primer lugar solo se usa texto simple y poco a poco se introducen formatos de texto, html e incluso latex para escribir ecuaciones) y de código. Además el maestro la comparte vacía en el grupo y se va resolviendo conforme avance la clase.

Esta actividad esta disponible aquí Notebook Colab y contiene algunas características que debemos de considerar al realizar un análisis descriptivo de un conjunto de datos numérico, en particular se usa el conjunto de datos faithful (didácticamente interesante en la estadística). Se presenta solamente la parte que corresponde a las medidas de localización (mínimo, máximo, tendencia central y percentiles) y la relación de las medidas de tendencia central con la forma de la distribución en el histograma.

Un aspecto importante es que se va introduciendo al alumno a escribir código. También es importante decir que es un muy bueno iniciar el aprendizaje en colab porque no se tienen los problemas que generalmente hay cuando se instala RStudio en los distintos equipos de los alumnos con sistemas operativos distintos y configuraciones distintas, lo que lleva en ocasiones a los alumnos a desesperarse. En el curso se llegó a la conclusión de que los inicios de R se tuvieran en Colab y una vez que avancen un poco en conocimientos los alumnos se pasa a la instalación y uso de RStudio.

Distribuciones de probabilidad

Intervalos de confianza

A esta aplicación se puede acceder en Intervalos de confianza.

Una vez que se ha explicado el objetivo de la inferencia estadística y los conceptos básicos (estimador, parámetro, estimación ,etc.) se plantea la situación de que hay una población de estudiantes universitarios con promedio 1.70 y desviación estándar de 8 cm y que se realizarán muestreos para hacer estimaciones del promedio poblacional.En esta actividad se generan graficamente intervalos de confianza (desde 1 hasta 100) donde puede modificarse el tamaño muestral (desde 20 hasta 100) y también la confianza deseada.

Esta actividad tiene varios objetivos, además de ver la importancia de la estimación, entre los cuales destacan:

Observar el efecto del tamaño de muestra en el error

De manera automática cuando se ejecuta la aplicación shiny se genera un intervalo de confianza del 95% con tamaño muestral de 20. Lo primero que se debe discutir es si el intervalo contiene a la verdadera media o no (en este caso si).

Los alumnos tienen presente la formula de los intervalos por lo que pueden deducir que pasará si el tamaño muestral se incrementa manteniendo constante la confianza. Se debate sobre ello y se ve el resultado. Como puede verse, el error disminuye.

Para evaluar esta actividad se le pidió al alumno en primer lugar interactuar con la aplicación generando un intervalo o más del promedio de la estatura poblacional, incrementando el tamaño de muestra de 10 en 10 y redactar un pequeño informe sobre el efecto de incrementar el tamaño de muestra en el ancho de estos intervalos. Esto permitió que el alumno estuviera consciente de que para reducir el error laestrategía a seguir debe ser incrementar tamaños de muestra.

Observar el efecto de la confianza en el error

Se parte de un intervalo generado y se debate sobre que pasará con el error si se aumenta la confianza o si se reduce, manteniendo constante el tamaño muestral. Luego se verifica en la aplicación.

Como claramente sabemos si la confianza aumenta, el error también. Aquí hay que aclarar que no se debe disminuir la confianza para tener un error más pequeño.

La evaluación de esta parte fue muy importante porque me permitió quitar una mala concepción que tienen los alumno al pensar que mientras la confianza crece el error disminuye. Pudieron percatarse de lo contrario y se pudo discutir la razón de tal conclusión. De la misma forma que en el punto anterior se pidió al alumno generar un pequeño informe sobre el efecto de la confianza en el tamaño del intervalo.

Que el alumno interprete correctamente los intervalos de confianza

La interpretación correcta de los intervalos de confianza es algo que preocupa a los expertos, puesto que se tienen creencias equivocadas sobre esto. En esta actividad, el alumno construirá a través de la app varios intervalos y constatará que si la confianza establecida es 95%, entonces aproximadamente el 95% de los intervalos generados contendrá al promedio poblacional. Puede verse en la figura de abajo que 94 de los 100 intervalos contienen al promedio poblacional.

Como evaluación de esta actividad se le pidió al alumno que generará 10 intervalos y que contabilizará en cuántos de ellos el promedio poblacional se encuentra. Luego se pidió hacer lo mismo con 20, 30, 40, …, 100 y que en cada uno de ellos también observará en cuantos de ellos se encontraba el promedio poblacional. Se comentaban los resultados en el grupo y se concluyó que mientras más muestras se seleccionaban se cumplia que aproximadamente en el 95% de ellos estaba el promedio poblacional. Fue un buen momento también para recordar el concepto de la probabilidad como frecuencia relativa.

Esta actividad de las 3 que se hicieron con esta aplicación fue la más significativa en el sentido de que se logró que entendieran la correcta interpretación de un intervalo del promedio poblacional.

Teorema del límite central.

Esta aplicación se encuentra en Teorema del limite central. Nos muestra de manera gráfica el teorema del límite central que establece que no importa de que distribución de probabilidades vengan las muestras, si tomamos muchas muestras de esta población, la distribución del promedio muestral será normal.

El caso Normal

Esta aplicación en un principio sirve en la parte de dstribuciones de probabilidad para observar que ocurre cuando se hacen cambios en los parámetros de la distribución (\(\mu,\sigma\)). El alumno moverá el deslizador del promedio (parámetro de localización) y observará cómo la campana se desliza hacia la derecha o izquierda según los valores del promedio, manteniendo constante la desviación estándar.

De la misma manera, mantendrá constante el promedio y moverá el parámetro de la desviación estándar (parámetro de forma) y verá como se comporta la campana.

Para evaluar esta actividad se pidió a los alumnos lo siguiente:

Generar datos de distribución normales con promedio -30, -15, 0, 15 y 30 sin modificar la desviación estándar y que escribieran un pequeño informe de lo observado.
Generar datos de distribuciones normales con promedio 5 y desviaciones estandár 5, 10, 15, 20, 40 y escribir lo observado.

Lo mismo se realizará con la distribución uniforme (no con las que tienen sesgo:

Ahora, para demostrar gráficamente el teorema del límite central. Considere que la población tiene distribución normal con promedio 0 y desviación estándar 25, como se muestra en la siguiente figura.

Los deslizadores del tamaño de muestra y del número de muestras son los que se usarán. En primer lugar, se consideran 200 muestras de tamaño 30 (por default en la aplicación). El alumno revisará en la pestaña de Muestras algunas de las 200 muestras generadas (poniendo atención en que en cada muestra se tiene un promedio y una desviación estándar:

Comentar con ellos cómo son los promedios muestrales y las desviaciones muestrales en relación a los parámetros de la distribución normal de la que provienen ademásde la formadel diagrama de puntos (debe irse pareciendo a la distribución normal cuando los tamaños de muestra se incrementan).

En la pestaña de Distribución de muestreo se debe explicar que se ha construido un histograma con los promedios de las 200 muestras de tamaño 30.

Se les pedirá que comparen el histograma generado y el promedio de todos los promedios muestrales con el promedio poblacional que era cero aproximadamente, además que verifiquen la aproximación de la desviación estándar. Esa información se generá automáticamente en el cuadro de texto de la misma aplicación. Hacerle ver al estudiante que la aproximación fue muy buena con ese tamaño de muestra y esa cantidad de muestras. Repetir esto para tamaños de muestra más grandes y mayor cantidad de muestras y observar como la aproximación es mejor cómo puede verse abajo con tamaños muestrales de 500 y aproximadamente 1000 muestras.

Reflexionar con los alumnos con ls formas de los diagramas de puntos (parecidos cada vez a una campana) y sobre el histograma de la distribución de muestreo que tambien se parece más a una campana.

Otras distribuciones poblacionales

Estas actividades se realizan con distribuciones poblacionales uniformes y sesgadas. Como por ejemplo, abajo se muestran imágenes de una población sesgada a la derecha y como puede notarse, la distribución muestral del promedio es normal.

La distribución poblacional sesgada a la derecha:

La distribucion de las muestras también sesgadas a la derecha:

Pero la distribución del promedio muestral es normal

La evaluación de esta actividad consta de lo siguiente:

Generar datos poblacionales normales con promedio y desviación elegidos por el mismo alumno. En primer lugar generar 100 muestras aleatorias con tamaño de muestra 30.

Debe hacer impresiones de los gráficos de puntos de las primeras muestras y observar sus comportamientos.
Debe hacer impresión de la distribución de muestreo y comparar los parámetros de la distribución poblacional con los parámetros de la distribución de muestreo.

Generar datos poblacionales normales con promedio y desviación elegidos en el inciso anterior. Generar 500 muestras aleatorias con tamaño de muestra 30.

Debe hacer impresiones de los gráficos de puntos de las primeras muestras y observar sus comportamientos.
Debe hacer impresión de la distribución de muestreo y comparar los parámetros de la distribución poblacional con los parámetros de la distribución de muestreo.

Generar datos poblacionales normales con promedio y desviación elegidos en inciso 1. Generar 1000 muestras aleatorias con tamaño de muestra 30.

Debe hacer impresiones de los gráficos de puntos de las primeras muestras y observar sus comportamientos.
Debe hacer impresión de la distribución de muestreo y comparar los parámetros de la distribución poblacional con los parámetros de la distribución de muestreo.

Generar un informe sobre el efecto de la cantidad de muestras seleccionadas para la distribución de muestreo.

Luego, realizar el mismo proceso pero ahora con tamaño de muestras 200 y 500 y realizar un informe sobre el efecto del tamaño de la muestra en la distribución de muestreo. Finalmente, agregar al informe sus conclusiones sobre el efecto del tamaño de muestra y el número de muestras en la estimación de los parámetros de la población a partir de la distribución del muestreo cuando los datos son normales.

De la misma manera se procederá pero ahora con una distribución uniforme y una distribución asimétrica a la izquierda. Agragará al informe los resultados de estas estimaciones de los parámetros de la población a partir de las muestras obtenidas.

Puedo concluir de esta actividad que los alumnos a través de las simulaciones entendieron un resultado teórico muy importante en el que se fundamenta la inferencia de las promedios poblacionales.

Referencias bibliográficas y recursos online.

Se tomaron como referencia para desarrollar las actividades de los intervalos de confianza y del teorema del límite central:

https://joshloyal.shinyapps.io/confidence-interval-app/

https://gallery.shinyapps.io/CLT_mean/

Actividad del itinerario 2