Esta página está alojada en https://rpubs.com/mosorio/itinerario2.
El Instituto Tecnológico de Sonora www.itson.mx es una institución de educación superior situada en el norte de Sonora, México. Dentro de las áreas que forman a ITSON existe la Dirección de Ingeniería y Tecnología en la que se imparten varios Programas Educativos de Ingeniería Oferta educativa.
En estos programas educativos de ingeniería hay una materia que se llama Probabilidad y Estadística, en la que hay contenidos temáticos de probabilidad, estadística descriptiva e inferencia estadística. Uno de los objetivos de la materia es el uso de software para análisis de datos.
Por esto último y para cumplir con la actividad de la materia Entornos de computación estadística se diseñaron una serie de actividades para el aprendizaje de la estadística y del lenguaje R. Lo mostrado en este trabajo representa solo una parte de lo que se está desarrollando para todo el curso de probabilidad y estadística.
En estas actividades se usó RStudio y Google Colab, además se creo una cuenta en Shinyapps y otra eb Rpubs para compartir las actividades. Se procuró usar lo básico de RMarkdown, para enseñar a los alumnos, como por ejemplo inserción de imágenes, ecuaciones y formatos de en la tipografía. También se usó github para alojar la página.
Las actividades desarrolladas son:
El teorema del límite central
Intervalos de confianza
Uso de google colab
Para el aprendizaje de R y de estadística descriptiva se realizó una Notebook de Google colab ( Colab) porque es pedagógicamente mejor puesto que son muy sencillas de elaborar para los alumnos debido a que solo hay celdas de texto (donde en primer lugar solo se usa texto simple y poco a poco se introducen formatos de texto, html e incluso latex para escribir ecuaciones) y de código. Además el maestro la comparte vacía en el grupo y se va resolviendo conforme avance la clase.
Esta actividad esta disponible aquí Notebook Colab y contiene algunas características que debemos de considerar al realizar un análisis descriptivo de un conjunto de datos numérico, en particular se usa el conjunto de datos faithful (didácticamente interesante en la estadística). Se presenta solamente la parte que corresponde a las medidas de localización (mínimo, máximo, tendencia central y percentiles) y la relación de las medidas de tendencia central con la forma de la distribución en el histograma.
Un aspecto importante es que se va introduciendo al alumno a escribir código. También es importante decir que es un muy bueno iniciar el aprendizaje en colab porque no se tienen los problemas que generalmente hay cuando se instala RStudio en los distintos equipos de los alumnos con sistemas operativos distintos y configuraciones distintas, lo que lleva en ocasiones a los alumnos a desesperarse. En el curso se llegó a la conclusión de que los inicios de R se tuvieran en Colab y una vez que avancen un poco en conocimientos los alumnos se pasa a la instalación y uso de RStudio.
A esta aplicación se puede acceder en Intervalos de confianza.
Una vez que se ha explicado el objetivo de la inferencia estadística y los conceptos básicos (estimador, parámetro, estimación ,etc.) se plantea la situación de que hay una población de estudiantes universitarios con promedio 1.70 y desviación estándar de 8 cm y que se realizarán muestreos para hacer estimaciones del promedio poblacional.En esta actividad se generan graficamente intervalos de confianza (desde 1 hasta 100) donde puede modificarse el tamaño muestral (desde 20 hasta 100) y también la confianza deseada.
Esta actividad tiene varios objetivos, además de ver la importancia de la estimación, entre los cuales destacan:
De manera automática cuando se ejecuta la aplicación shiny se genera un intervalo de confianza del 95% con tamaño muestral de 20. Lo primero que se debe discutir es si el intervalo contiene a la verdadera media o no (en este caso si).
Los alumnos tienen presente la formula de los intervalos por lo que pueden deducir que pasará si el tamaño muestral se incrementa manteniendo constante la confianza. Se debate sobre ello y se ve el resultado. Como puede verse, el error disminuye.
Para evaluar esta actividad se le pidió
al alumno en primer lugar interactuar con la aplicación generando un
intervalo o más del promedio de la estatura poblacional, incrementando
el tamaño de muestra de 10 en 10 y redactar un pequeño informe sobre el
efecto de incrementar el tamaño de muestra en el ancho de estos
intervalos. Esto permitió que el alumno estuviera consciente de que para
reducir el error laestrategía a seguir debe ser incrementar tamaños de
muestra.
Se parte de un intervalo generado y se debate sobre que pasará con el error si se aumenta la confianza o si se reduce, manteniendo constante el tamaño muestral. Luego se verifica en la aplicación.
Como claramente sabemos si la confianza aumenta, el error también. Aquí hay que aclarar que no se debe disminuir la confianza para tener un error más pequeño.
La evaluación de esta parte fue muy importante porque me permitió quitar una mala concepción que tienen los alumno al pensar que mientras la confianza crece el error disminuye. Pudieron percatarse de lo contrario y se pudo discutir la razón de tal conclusión. De la misma forma que en el punto anterior se pidió al alumno generar un pequeño informe sobre el efecto de la confianza en el tamaño del intervalo.
La interpretación correcta de los intervalos de confianza es algo que preocupa a los expertos, puesto que se tienen creencias equivocadas sobre esto. En esta actividad, el alumno construirá a través de la app varios intervalos y constatará que si la confianza establecida es 95%, entonces aproximadamente el 95% de los intervalos generados contendrá al promedio poblacional. Puede verse en la figura de abajo que 94 de los 100 intervalos contienen al promedio poblacional.
Como evaluación de esta actividad se le
pidió al alumno que generará 10 intervalos y que contabilizará en
cuántos de ellos el promedio poblacional se encuentra. Luego se pidió
hacer lo mismo con 20, 30, 40, …, 100 y que en cada uno de ellos también
observará en cuantos de ellos se encontraba el promedio poblacional. Se
comentaban los resultados en el grupo y se concluyó que mientras más
muestras se seleccionaban se cumplia que aproximadamente en el 95% de
ellos estaba el promedio poblacional. Fue un buen momento también para
recordar el concepto de la probabilidad como frecuencia relativa.
Esta actividad de las 3 que se hicieron con esta aplicación fue la más significativa en el sentido de que se logró que entendieran la correcta interpretación de un intervalo del promedio poblacional.
Esta aplicación se encuentra en Teorema del limite central. Nos muestra de manera gráfica el teorema del límite central que establece que no importa de que distribución de probabilidades vengan las muestras, si tomamos muchas muestras de esta población, la distribución del promedio muestral será normal.
Esta aplicación en un principio sirve en la parte de dstribuciones de probabilidad para observar que ocurre cuando se hacen cambios en los parámetros de la distribución (\(\mu,\sigma\)). El alumno moverá el deslizador del promedio (parámetro de localización) y observará cómo la campana se desliza hacia la derecha o izquierda según los valores del promedio, manteniendo constante la desviación estándar.
De la misma manera, mantendrá constante el promedio y moverá el parámetro de la desviación estándar (parámetro de forma) y verá como se comporta la campana.
Para evaluar esta actividad se pidió a los
alumnos lo siguiente:
Generar datos de distribución normales con promedio -30, -15, 0, 15 y 30 sin modificar la desviación estándar y que escribieran un pequeño informe de lo observado.
Generar datos de distribuciones normales con promedio 5 y desviaciones estandár 5, 10, 15, 20, 40 y escribir lo observado.
Lo mismo se realizará con la distribución uniforme (no con las que tienen sesgo:
Ahora, para demostrar gráficamente el teorema
del límite central. Considere que la población tiene distribución normal
con promedio 0 y desviación estándar 25, como se muestra en la siguiente
figura.
Los deslizadores del tamaño de muestra y del número de muestras son los que se usarán. En primer lugar, se consideran 200 muestras de tamaño 30 (por default en la aplicación). El alumno revisará en la pestaña de Muestras algunas de las 200 muestras generadas (poniendo atención en que en cada muestra se tiene un promedio y una desviación estándar:
Comentar con ellos cómo son los promedios
muestrales y las desviaciones muestrales en relación a los parámetros de
la distribución normal de la que provienen ademásde la formadel diagrama
de puntos (debe irse pareciendo a la distribución normal cuando los
tamaños de muestra se incrementan).
En la pestaña de Distribución de muestreo se debe explicar que se ha construido un histograma con los promedios de las 200 muestras de tamaño 30.
Se les pedirá que comparen el histograma generado y el promedio de todos los promedios muestrales con el promedio poblacional que era cero aproximadamente, además que verifiquen la aproximación de la desviación estándar. Esa información se generá automáticamente en el cuadro de texto de la misma aplicación. Hacerle ver al estudiante que la aproximación fue muy buena con ese tamaño de muestra y esa cantidad de muestras. Repetir esto para tamaños de muestra más grandes y mayor cantidad de muestras y observar como la aproximación es mejor cómo puede verse abajo con tamaños muestrales de 500 y aproximadamente 1000 muestras.
Reflexionar con los alumnos con ls formas de los diagramas de puntos (parecidos cada vez a una campana) y sobre el histograma de la distribución de muestreo que tambien se parece más a una campana.
Estas actividades se realizan con distribuciones poblacionales uniformes y sesgadas. Como por ejemplo, abajo se muestran imágenes de una población sesgada a la derecha y como puede notarse, la distribución muestral del promedio es normal.
La distribución poblacional sesgada a la derecha:
La distribucion de las muestras también
sesgadas a la derecha:
Pero la distribución del promedio muestral es
normal
La evaluación de esta actividad consta de lo
siguiente:
Luego, realizar el mismo proceso pero ahora con tamaño de muestras 200 y 500 y realizar un informe sobre el efecto del tamaño de la muestra en la distribución de muestreo. Finalmente, agregar al informe sus conclusiones sobre el efecto del tamaño de muestra y el número de muestras en la estimación de los parámetros de la población a partir de la distribución del muestreo cuando los datos son normales.
De la misma manera se procederá pero ahora con una distribución uniforme y una distribución asimétrica a la izquierda. Agragará al informe los resultados de estas estimaciones de los parámetros de la población a partir de las muestras obtenidas.
Puedo concluir de esta actividad que los alumnos a través de las simulaciones entendieron un resultado teórico muy importante en el que se fundamenta la inferencia de las promedios poblacionales.
Se tomaron como referencia para desarrollar las actividades de los intervalos de confianza y del teorema del límite central: