Simulaciones de variables aleatorias con R para la enseñanza de la inferencia estadística

Resumen

Las carreras a distancia, que se desarrollan impartiendo materias virtuales, se apoyan fuertemente en los recursos que se pueden construir mediante las herramientas tecnológicas de edición de textos, de audio, de vídeo y las plataformas de enseñanza virtual que permite alojar, organizar y compartir estos recursos con los estudiantes. En este entorno de actividades, el actor más importante de seguro es el tutor virtual, quien es el principal responsable de la elaboración, organización y construcción tanto de los recursos para la enseñanza virtual, así como la distribución y organización de estos al interior de un aula virtual. Es así como el tutor invierte mucho de su tiempo de trabajo en la confección de estos recursos, en un primer momento, pero en el caso de las materias impartidas al interior de las carreras virtuales, ocurre con frecuencia que el trabajo del tutor, luego de la primera edición del curso, se concentra en gran medida a la actualización de los materiales ya construidos, respondiendo así a un nuevo cronograma y a las variaciones ocurridas en los calendarios académicos institucionales. Este artículo presenta una propuesta de utilización combinada de algunas herramientas tecnológicas que son de amplio conocimiento y utilización en todas partes (Excel y Word), y que configuradas y vinculadas convenientemente pueden simplificar y facilitar en gran medida las tareas que se configuran de igual manera en cada nuevo periodo de un curso impartido en una carrera a distancia o presencial con apoyo virtual. Específicamente se muestran las ventajas de configurar un calendario de desarrollo de unidades y contenidos, así como de tareas y evaluaciones con una planilla electrónica Excel. Esta planilla permite, mediante el uso de ciertas fórmulas y configuraciones especiales, organizar en el tiempo las tareas, obtener las fechas de inicio y fin, así como cuantificar el tiempo necesario para cada una. Además, esta planilla convenientemente vinculada a un archivo de Word genera los documentos que describen e instruyen sobre cada actividad que debe desarrollar el estudiante, atendiendo la distribución de las fechas al interior de las unidades y sus respectivas actividades. Evitar estas tareas repetitivas, para el tutor, representaría un importante ahorro de tiempo, que bien podría ser invertido en la inclusión de nuevo recursos de aprendizaje, o en la mejora de instrumentos ya existentes de enseñanza o de evaluación.

Palabras clave: aula virtual, gestión de información, tutor virtual

Los autores

Diego Meza

Soy Licenciado en Ciencias Matemática Estadística por la Facultad de Ciencias Exactas y Naturales de la Universidad Nacional de Asunción, mismo lugar donde realicé el curso de Maestría en Matemática Estadística. Actualmente me dedico a enseñar estadísticas en la universidad, pero mi principal ocupación es la función pública donde tengo la responsabilidad de dirigir un departamento donde nos dedicamos a gestionar datos, especialmente de registros administrativos para la elaboración de proyecciones demográficas, económicas y actuariales que sirven para la toma de decisiones gerenciales. Esto apoyado principalmente en el manejo de una excelente herramienta como es el software R. [@statisti]

Prof. Diego Meza

En este enlace mi Currículum

Juan Mereles

Licenciado en Ciencias Mención Matemática Estadística, egresado de la Facultad de Ciencias Exactas y Naturales (FACEN). Magister en Elaboración, Gestión y Evaluación de Proyectos de Investigación Científica.

Se desempeña principalmente como docente universitario y como coordinador de investigación en el área de Educación a Distancia.

Prof. Juan Mereles

En este enlace mi Currículum

Objetivos

Objetivo general

Implementar la simulación de variables aleatorias con R-Project para el estudio de los conceptos relacionados a la inferencia estadística.

Objetivos específicos

• Determinar las unidades programáticas y los contenidos para incluir en el proyecto.

• Seleccionar las bases de datos a utilizar en las simulaciones.

• Construir los problemas de aplicación de contextos reales para incluir en las soluciones con la programación en R.

• Diseñar y programar las simulaciones en R para la demostración de las propiedades y teoremas estudiados.

• Generar la página web con todo el contenido diseñado para el aprovechamiento de los estudiantes.

• Difundir y socializar el producto entre los estudiantes de estadística en la modalidad presencial y a distancia.

Antecedentes

El uso del programa estadístico R para la gestión de datos y el análisis estadístico se ha masificado aproximadamente a partir el año 2000 y desde entonces se distribuye bajo la licencia gratuita GNU (Free Software Foundation, s. f.), por lo que se constituye en uno los más utilizados por la comunidad científica y estadística para la realización de variadas actividades. Así también se encuentra evidencia de su uso para la enseñanza de las estadísticas, desde dicho año, en especial en Europa y Estados Unidos. Sin embargo, a nivel nacional no se han hallado evidencias de trabajos publicados específicamente acerca de la elaboración de simulaciones con R para la enseñanza de la Inferencia Estadística, no obstante, su uso también ese encuentra ampliamente registrado en trabajos de investigación científica y académica entre las instituciones y universidades del país.

Un artículo publicado al respecto de la experiencia en un curso de implementación de R para la enseñanza de la inferencia estadística en una carrera de ingeniería ha reportado que, comenzar el desarrollo de la experiencia con el software R a partir de un problema de la vida real facilitó el aprendizaje significativo, y los alumnos pudieron establecer relaciones trascendentes entre los contenidos trabajados con anterioridad y la información nueva que se generaba (Gambetta et al., 2012).

En un curso práctico de Inferencia Estadística (Morel et al., s. f.) abordaron el uso de R desde una perspectiva sencilla, mediante ejemplos y el planteamiento de algunas cuestiones más avanzadas con el fin de destacar las posibilidades que ofrece R como complemento para la enseñanza.

Araya y Fernández en el año 2008 diseñaron e implementaron un curso denominado “Elementos de Inferencia Estadística con R” para brindar apoyo a estudiantes y docentes en el manejo de temáticas relacionadas con la disciplina, además de que el curso puede ser de utilidad para otras personas que requieran de textos de consulta sobre el conocimiento de determinados aspectos que comprende la Estadística Inferencial (Araya & Fernández, 2022).

Cheng, en un trabajo denominado “The Use of R Language in the Teaching of Statistical Inference”, concluyó que los paquetes de software estadístico como Minitab se usan comúnmente en la enseñanza de la estadística y la fuerza de estos paquetes radica en la facilidad de realizar procedimientos estadísticos estándar, como la prueba de hipótesis. Sin embargo, la misma facilidad también puede ser un obstáculo para la comprensión de los principios estadísticos que subyacen a los procedimientos. Y el problema con estos paquetes es que no son gratuitos y pueden no ser muy efectivos de implementar. El autor destacó que el lenguaje R es un poderoso software para el análisis de datos dentro del cual se han implementado muchos procedimientos estadísticos, y la ventajea y la fuerza de R se derivan de sus muchas capacidades además de ser una herramienta de análisis de datos. En su artículo presenta una exploración de las capacidades de simulación y representación gráfica de R en la enseñanza de la inferencia estadística, con el fin de mejorar la comprensión conceptual de la metodología de inferencia por parte de los estudiantes (Cheang, s. f.)

Descripción y desarrollo del trabajo

La metodología

Este proyecto se inició con el objetivo de elaborar un material de apoyo para el desarrollo del curso de Inferencia Estadística impartida en la carrera de Estadística en la Facultad de Ciencias Exactas y Naturales de la Universidad Nacional de Asunción en las modalidades presencial y a distancia (FACEN-UNA, s. f.). En él son incorporados varios ejemplos resueltos con el software estadístico R-project y relacionados a los conceptos estudiados en la materia.

En cada sección se incluyen los códigos necesarios para realizar los ensayos y las simulaciones que permiten verificar las propiedades y teoremas principales. Para que el estudiante pueda replicar las simulaciones basta con que tenga instalado el programa ya sea en la versión simple o la incorporada en la versión RStudio. Los estudiantes pueden copiar los códigos y ejecutarlos en su propio ordenador. Adicionalmente se incluyen una serie de estudios de casos para que los estudiantes puedan aplicar las teorías en la solución de problemas reales y así lograr comprender los contenidos. A continuación, se describen brevemente cada aspecto que conforma el desarrollo de este proyecto.

La Inferencia Estadística

En principio la estadística puede separarse en dos ramas, por un lado, la parte que se ocupa de las técnicas para describir los datos, mediante tablas de frecuencias, gráficos estadísticos y medidas de resumen como el promedio, la mediana y los percentiles, esta rama se denomina Estadística Descriptiva. La otra rama, la Estadística Inferencial, se especializa en el estudio de técnicas que permiten estimar parámetros desconocidos en una población de interés, a partir de una muestra representativa obtenida por muestreo aleatorio de dicha población. Lo más relevante de la técnica inferencial es que permite obtener conclusiones sobre una población a partir de una parte de ella, es decir, se trata de un proceso inductivo y provee una medida de la incertidumbre o error de estimación.

El programa de estudios

Como el proyecto fue inicialmente implementado en la FACEN-UNA, se utilizó el programa de estudio oficial de la carrera de estadísticas impartido en esta facultad.

El curso establece como objetivos los siguientes puntos:

  1. Adquirir los conocimientos sobre distribuciones muestrales, básicos para el desarrollo de la teoría de Inferencia Estadística.

  2. Utilizar adecuadamente las técnicas para las distintas distribuciones muestrales.

  3. Comprender las propiedades de las estadísticas muestrales y los métodos de estimación de parámetros.

  4. Comprender el concepto de estimaciones por intervalos de confianza de los parámetros de distribuciones de probabilidad, así como su aplicación e interpretación.

  5. Obtener tamaños muestrales a partir de intervalos de confianza bien definidos.

  6. Analizar los fundamentos de la teoría de pruebas de hipótesis sobre parámetros de distribuciones de probabilidad.

  7. Tomar decisiones con base en el análisis de información cuantificando los riesgos asumidos.

  8. Utilizar correctamente los valores “p” en las pruebas de hipótesis.

  9. Graficar correctamente las funciones de potencia y curvas características de operación.

  10. Obtener el tamaño de la muestra a partir de los errores del tipo I y tipo II.

  11. Ajustar distribuciones de frecuencias muestrales a distribuciones teóricas.

  12. Emplear la prueba Chi-Cuadrado para realizar aplicaciones tales como: Bondad de ajuste, Independencia y Homogeneidad.

La materia está organizada en cinco unidades, en la primera “Muestreo e Inferencia Estadística” se abarca una introducción al concepto de estadística inferencial y un breve repaso sobre las técnicas de muestreo y la distribución normal. En la segunda unidad “Distribuciones muestrales” se introducen las distribuciones para la media, la varianza y la proporción tanto para una como para dos muestras. En la tercera unidad “Distribuciones por puntos y por intervalos” se estudian las propiedades deseables de un buen estimador, el error cuadrático medio y el método de los momentos. Luego en la cuarta unidad “Pruebas de hipótesis” se introducen los conceptos de error de estimación tipo I y II, la potencia de una prueba, el P-valor, entre otros conceptos fundamentales en esta área de la estadística inferencial. Finalmente, en la unidad 5 se abordan las pruebas para estudiar la bondad de ajuste y las tablas de contingencia. Los detalles del contenido programático pueden consultarse en el anexo 1.

El programa R-Project

R es un programa de código abierto, que tuvo inicios aproximadamente en el año 2000, como continuación del programa S. De acuerdo con la página oficial de R-Project, este es un lenguaje y entorno para computación estadística y gráficos. Es un proyecto GNU que es similar al lenguaje y entorno S, pero la filosofía de R es un tanto diferente a la de S. El programa S fue desarrollado en Bell Laboratories por John Chambers y sus colegas. Hay algunas diferencias importantes entre estos dos programas, pero gran parte del código escrito para S se ejecuta sin cambios en R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad. (R Core Team, 2022).

Figura 1: Página oficial de descarga del programa R-Project

La plataforma RStudio Cloud

El presente proyecto fue desarrollado entre los investigadores involucrados en mayor parte mediante la edición en línea y en ocasiones simultánea en la plataforma RStudio Cloud. Este servicio es un espacio en internet creado en el año 2009, por la compañía RStudio, que permite a los investigadores editar juntos los trabajos en R, Python, entre otros programas de código abierto. Además, mediante la combinación con varios elementos para la edición de documentos como el lenguaje Markdown, LaTeX y Word, permite generar un documento que puede ser publicado y socializado en internet. De acuerdo a la página oficial de RStudio, el espacio fue pensado para crear software gratuito y de código abierto para la ciencia de datos, la investigación científica y la comunicación técnica, orientado a la mejora de la producción y el consumo de conocimiento por parte de todos, independientemente de los medios económicos, y para facilitar la colaboración y la investigación reproducible, los cuales son fundamentales para la integridad y eficacia del trabajo en la ciencia, la educación, el gobierno y la industria (RStudio Cloud - Do, Share, Teach, and Learn Data Science, s. f.). Par acceder a la página web elaborada es suficiente con utilizar el siguiente enlace RPubs - Inferencia Estadística con R

Figura 2: Edición en línea del proyecto mediante el uso de RStudio Cloud

Las simulaciones con R

Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos de tiempo. (Naylor, 1982)

Otra definición de simulación la realiza Robert E. Shannon como: Es el proceso de diseñar y desarrollar un modelo computarizado de un sistema o proceso y conducir experimentos con este modelo con el propósito de entender el comportamiento del sistema o evaluar varias estrategias con las cuales se puede operar el sistema. (Shannon, 1975)

Una simulación en el programa R consiste básicamente en escribir los códigos necesarios para reproducir las condiciones de un experimento aleatorio, donde se procura replicar el comportamiento de una variable aleatoria mediante un modelo matemático, con el fin de obtener una estimación al respecto de un resultado o un conjunto de resultados de interés y el valor de su probabilidad de ocurrencia.

En el Ejemplo 1 se desarrolla la simulación del experimento aleatorio que consiste en obtener una muestra de tamaño 5 con reposición a partir de una población P que consiste en los primeros 10 números naturales (sin el cero). En este caso, los posibles resultados del experimento son todas las muestras posibles de tamaño 5 que puedan resultar de la población P, si no se repone el número extraído en cada extracción sucesiva.

Figura 3: La página web con el proyecto desarrollado

Ejemplo 1: Muestra aleatoria

# Muestra aleatoria extraída CON REPOSICIÓN de la población P
# se define un vector de valores numéricos del 1 al 10 llamado P
P=c(1,2,3,4,5,6,7,8,9,10)

# con la función “sample” se obtiene una muestra aleatoria con reposición de la población P de tamaño 5
muestra=sample(P,5,rep=T)
muestra
[1] 1 3 3 5 7

Notas: 1) los textos precedidos por el signo # corresponden a comentarios que no son ejecutados como códigos en el programa. 2) Se pueden copiar y pegar los códigos en un nuevo “script” en R y ejecutar los comandos. La Figura 4 muestra cómo se obtiene en el programa RStudio la simulación dada en el Ejemplo 1

Figura 4: Ejemplo de simulación de una muestra aleatoria simple con reposición de tamaño 5

Ejemplo 2: El teorema central del límite

Uno de los teoremas de mayor relevancia en el estudio de la inferencia estadística, con certeza lo constituye “El teorema central del límite”, que en términos sencillos se puede simplificar como sigue:

Si $x_1,x_2,x_3,⋯,x_n $es una muestra aleatoria independiente e idénticamente distribuidos de tamaño n tomada de una población (finita o infinita) con media μ y varianza \(σ^2\), y si \(\xbar\) es la media muestral, entonces la forma límite de la distribución de \(Z=(x ̅-μ)/(σ/√n\)) cuano n d, es la distribución normal estándar. Aun cuando la distribución de la población no es normal, el Teorema del Límite Central permite afirmar que prácticamente x ̅ es normal para muestras grandes tomadas de cualquier población. En el ejemplo 2 se desarrolla el ejercicio de simulación con R que permite demostrar que este teorema se cumple efectivamente.

#En primer lugar, simula 300 muestra de tamaño 5 de una variable aleatoria con distribución uniforme de parámetros a=0 y b=1. 
u5<-sapply(1:300, function(x){mean(sample(runif(10000),5,rep=F))})
round(u5, 3)
  [1] 0.368 0.358 0.390 0.302 0.628 0.176 0.323 0.477 0.500 0.602 0.512 0.532
 [13] 0.326 0.440 0.571 0.428 0.414 0.409 0.502 0.483 0.274 0.696 0.476 0.396
 [25] 0.321 0.605 0.401 0.413 0.513 0.549 0.207 0.328 0.792 0.444 0.529 0.550
 [37] 0.364 0.343 0.607 0.356 0.528 0.323 0.563 0.177 0.533 0.374 0.759 0.714
 [49] 0.712 0.517 0.449 0.488 0.572 0.333 0.265 0.598 0.299 0.683 0.633 0.426
 [61] 0.529 0.228 0.775 0.392 0.551 0.565 0.719 0.452 0.482 0.466 0.254 0.457
 [73] 0.668 0.495 0.421 0.531 0.707 0.470 0.355 0.330 0.579 0.291 0.712 0.729
 [85] 0.447 0.425 0.369 0.312 0.562 0.457 0.510 0.606 0.157 0.607 0.392 0.481
 [97] 0.475 0.585 0.431 0.468 0.550 0.629 0.333 0.512 0.574 0.697 0.496 0.709
[109] 0.410 0.581 0.502 0.482 0.523 0.396 0.743 0.526 0.578 0.723 0.548 0.583
[121] 0.510 0.476 0.593 0.498 0.468 0.614 0.358 0.320 0.648 0.462 0.365 0.463
[133] 0.382 0.278 0.449 0.384 0.461 0.475 0.499 0.496 0.414 0.547 0.432 0.250
[145] 0.576 0.609 0.452 0.481 0.444 0.519 0.362 0.418 0.640 0.560 0.261 0.474
[157] 0.536 0.569 0.338 0.414 0.770 0.441 0.277 0.410 0.438 0.711 0.476 0.650
[169] 0.432 0.454 0.526 0.454 0.369 0.390 0.354 0.565 0.441 0.383 0.395 0.387
[181] 0.427 0.243 0.618 0.307 0.677 0.516 0.779 0.334 0.332 0.424 0.724 0.369
[193] 0.425 0.691 0.484 0.340 0.579 0.586 0.405 0.296 0.698 0.584 0.482 0.657
[205] 0.295 0.245 0.463 0.405 0.510 0.561 0.345 0.703 0.468 0.407 0.357 0.422
[217] 0.678 0.472 0.615 0.616 0.390 0.389 0.532 0.405 0.477 0.489 0.556 0.484
[229] 0.470 0.443 0.595 0.594 0.519 0.371 0.454 0.168 0.169 0.359 0.538 0.546
[241] 0.549 0.307 0.431 0.425 0.555 0.486 0.418 0.465 0.303 0.483 0.606 0.695
[253] 0.556 0.626 0.594 0.242 0.261 0.293 0.539 0.504 0.661 0.538 0.340 0.417
[265] 0.646 0.316 0.283 0.378 0.443 0.605 0.537 0.581 0.498 0.654 0.524 0.569
[277] 0.394 0.382 0.417 0.528 0.225 0.589 0.469 0.441 0.696 0.552 0.809 0.524
[289] 0.392 0.404 0.472 0.662 0.422 0.535 0.398 0.499 0.659 0.722 0.233 0.481
#En segundo lugar, realiza las modificaciones necesarias en los comandos para simular 300 muestra de tamaño 100 de la variable aleatoria con distribución uniforme de parámetros a=0 y b=1.
u100<-sapply(1:300, function(x){mean(sample(runif(10000),100,rep=F))})
round(u100, 3)
  [1] 0.468 0.492 0.507 0.461 0.451 0.482 0.526 0.552 0.478 0.509 0.475 0.549
 [13] 0.461 0.517 0.453 0.468 0.454 0.481 0.488 0.479 0.499 0.477 0.478 0.452
 [25] 0.483 0.506 0.492 0.509 0.482 0.517 0.501 0.461 0.497 0.444 0.484 0.449
 [37] 0.480 0.469 0.497 0.502 0.495 0.462 0.526 0.499 0.529 0.485 0.535 0.522
 [49] 0.573 0.532 0.523 0.512 0.493 0.453 0.570 0.537 0.475 0.580 0.510 0.512
 [61] 0.478 0.495 0.505 0.538 0.475 0.551 0.528 0.494 0.535 0.466 0.474 0.501
 [73] 0.547 0.538 0.547 0.473 0.490 0.473 0.500 0.540 0.477 0.510 0.480 0.501
 [85] 0.536 0.462 0.492 0.539 0.466 0.484 0.522 0.508 0.483 0.557 0.475 0.515
 [97] 0.495 0.496 0.527 0.506 0.510 0.534 0.499 0.493 0.521 0.491 0.488 0.516
[109] 0.515 0.495 0.517 0.506 0.435 0.427 0.501 0.545 0.514 0.466 0.480 0.490
[121] 0.475 0.519 0.503 0.524 0.537 0.481 0.473 0.440 0.497 0.517 0.464 0.510
[133] 0.517 0.496 0.542 0.516 0.542 0.496 0.466 0.442 0.476 0.510 0.541 0.448
[145] 0.486 0.495 0.468 0.491 0.535 0.474 0.453 0.514 0.544 0.498 0.486 0.440
[157] 0.504 0.513 0.475 0.468 0.428 0.520 0.524 0.482 0.505 0.490 0.460 0.551
[169] 0.517 0.523 0.492 0.516 0.494 0.441 0.423 0.534 0.496 0.482 0.466 0.478
[181] 0.473 0.502 0.485 0.447 0.565 0.456 0.495 0.494 0.528 0.447 0.511 0.534
[193] 0.576 0.468 0.505 0.501 0.511 0.521 0.527 0.447 0.455 0.488 0.567 0.482
[205] 0.489 0.442 0.483 0.513 0.504 0.486 0.455 0.470 0.483 0.510 0.526 0.521
[217] 0.495 0.498 0.528 0.526 0.464 0.577 0.502 0.462 0.537 0.456 0.495 0.517
[229] 0.491 0.481 0.561 0.505 0.518 0.476 0.494 0.508 0.520 0.497 0.505 0.496
[241] 0.482 0.486 0.468 0.500 0.488 0.509 0.485 0.535 0.527 0.500 0.509 0.487
[253] 0.502 0.452 0.540 0.440 0.534 0.471 0.525 0.572 0.460 0.472 0.527 0.512
[265] 0.495 0.466 0.467 0.471 0.474 0.513 0.519 0.477 0.507 0.480 0.513 0.496
[277] 0.491 0.510 0.493 0.467 0.497 0.504 0.513 0.522 0.492 0.527 0.453 0.486
[289] 0.504 0.536 0.495 0.501 0.515 0.541 0.476 0.500 0.536 0.558 0.485 0.496
#Grafica ambos resultados con dos histogramas para compararlos.
hist(u5, col = "green",main = "Histogram of U5 and U100") # Plot 1st histogram using a transparent color
hist(u100, col = "blue", add = TRUE) # Add 2nd histogram using different color

El documento disponible en la página web compila este tipo de ensayos de simulaciones para cada contenido incluido entre los temas del programa de estudios. Para acceder al mismo basta con usar el enlace RPubs - Inferencia Estadística con R.

El aula virtual

La primera implementación de este proyecto se dio en el curso en modalidad presencial de Inferencia Estadística II, dictado dentro de la malla curricular de la Licenciatura en Estadísticas de la FACEN-UNA. El aula está diseñada e implementada sobre la plataforma Moodle (Moodle - Open-source learning platform | Moodle.org, s. f.), y como principal recurso de enseñanza se encuentra alojado dentro del aula virtual el enlace a la página web del proyecto ( RPubs - Inferencia Estadística con R). Los estudiantes pueden acceder al enlace y disponer de todos los códigos preparados para realizar los ensayos y las simulaciones al respecto de cada contenido que se va desarrollando en las unidades del curso. En la Figura 9 se puede apreciar la presentación del aula virtual diseñada como apoyo pedagógico para el desarrollo del curso de Inferencia Estadística II (Curso Inferencia, s. f.).

Figura 9: Aula virtual con la implementación del recurso elaborado para el proyecto

Conclusiones

A partir de la experiencia de implementación del proyecto de elaboración de un manual de uso del programa R en la generación de simulaciones para el estudio de la Inferencia Estadística fue posible rescatar una serie de conclusiones al respecto del impacto sobre los procesos de enseñanza y aprendizaje observados.

En primer lugar, cabe destacar que fue seleccionado el programa R-Project por todas las ventajas que presenta en la actualidad, especialmente la disposición de una extensa cantidad de funciones y paquetes que permiten diseñar e implementar prácticamente cualquier tipo de simulación estadística, además de la potencia que presenta para la gestión de cantidades importantes de datos, y el respaldo que le otorga una extendida comunidad científica que trabaja y colabora continuamente en su mejoramiento.

Una realidad que persiste en las aulas de las universidades del país se trata de la forma de enseñanza de la estadística, que sigue siendo la resolución de problemas de aplicación mediante el uso de las propiedades y fórmulas estadísticas, normalmente resueltas en el pizarrón por el profesor y luego copiadas por los estudiantes en sus respectivos anotadores. Estas soluciones suelen apoyarse fuertemente en los ejemplos de los libros de texto y en la solución de problemas que los textos proveen, y que implican el uso de formularios y tablas normalizadas con las distribuciones de probabilidad más comunes. Este tipo de prácticas no resulta compatible con las necesidades de análisis de datos con que se enfrenta actualmente un egresado de la carrera que se incorpora al mercado de trabajo, relacionado al área de análisis estadístico. Sin la utilización de programas estadísticos no es posible que en las aulas se puedan realizar prácticas de simulaciones o ensayos estadísticos sobre bases de datos, por lo que resulta una necesidad imperiosa la incorporación de los programas estadísticos en los procesos de enseñanza.

Los años de experiencia en aula, permite también identificar que uno de los grandes desafíos que enfrenta el docente en aula es lograr y mantener la motivación y el interés de sus estudiantes en el estudio de la materia. El desarrollo de experiencias de simulación que acercan al estudiante a la asimilación de los conceptos y propiedades estudiadas constituye una buena justificación para incorporar los programas estadísticos en los procesos de enseñanza.

La implementación del proyecto en una situación real permitió vivenciar como los estudiantes reaccionan ante la incorporación de este recurso en sus procesos de aprendizaje. Se les invitó a estudiar y replicar los códigos que generan las simulaciones de variables aleatorias, además de ensayar modificaciones en los parámetros para entender el efecto sobre los resultados finales. También pudieron participar en foros donde discutieron los códigos necesarios para resolver problemas planteados sobre situaciones concretas en temas relacionados a intervalos de confianza y pruebas de hipótesis, por ejemplo. El resultado se observó en un aumento en el nivel de motivación e interés ante el cambio ocurrido en la metodología de aprendizaje que pasó de la solución de problemas en el papel a la escritura de comando para simular procedimientos aleatorios y dar respuesta a problemas o demostrar propiedades y teoremas.

El estudiante encuentra atractivo la posibilidad que le da el programa de generar sus propios comandos y experimentar sobre las teorías que estudia, además de la facilidad y accesibilidad que encuentra con R al momento de instalar y empezar a usar el programa.

Como principal conclusión se puede recalcar que esta experiencia permitió evidenciar que es totalmente posible aprovechar las herramientas tecnológicas como el programa R para mejorar sustancialmente la calidad, la eficiencia y eficacia en los procesos de enseñanza de la estadística.

Recomendaciones

Un primer paso en la incorporación efectiva del uso de programas estadísticos tanto en los procesos de enseñanza como de aprendizaje consiste en la realización de una encuesta para relevar los niveles de utilización de programas estadísticos en el desarrollo de las asignaturas relacionadas a la materia, logrando la participación de los docentes y estudiantes involucradas en las cátedras relacionadas a estadística. Con esto podría identificarse cuál es la situación actual del fenómeno de interés, además de entender las razones y circunstancias que pudieran explicar los niveles encontrados.

De hallarse muy escaso el nivel de uso, será necesario agregar a la agenda de trabajo el diseño e implementación de cursos de capacitación dirigido a los profesores que no estén aplicando ningún programa en sus procesos de enseñanza, así como la incorporación de materias obligatorias u opcionales que abarquen contenidos y prácticas mínimas para que los estudiantes logren un buen manejo de al menos uno de los programas de gestión y análisis de datos, idealmente aquellas de licencias gratuita y de uso generalizado entre la población académica relacionada a la estadística.

La encuesta también permitiría identificar a aquellos docentes que estén aplicando los programas en sus procesos y en especial a los que estén desarrollando innovaciones con su uso. Una manera de promover y motivar a los docentes se puede lograr con el reconocimiento y destaque de la innovación en la enseñanza de la estadística mediante acciones concretas y tangibles como la realización de actividades para socializar este tipo de experiencias en talleres, foros o congresos donde se pueda invitar a los profesores a compartir y socializar el proceso y resultado de su experiencia, además de conceder el reconocimiento y destaque a su aporte en la enseñanza de la estadística.

Es importante que toda carrera que otorga el título de estadístico incorpore necesariamente materias que permitan al estudiante egresar con un manejo avanzado o dominio de algún programa estadístico, entre ellos R es una opción interesante, considerando todo lo expuesto al respecto de su accesibilidad, su potencia y amplia comunidad científica que lo desarrolla, lo actualiza y respalda. Finalmente se recomienda aumentar los esfuerzos en identifica, reconocer, difundir y socializar este tipo de iniciativas y proyectos que crean los procesos en insumos para la implementación efectiva de los programas estadísticos en la enseñanza y que pueden ser de mucha utilidad tanto para los docentes como para los estudiantes de estadística.

Referencias

Knuth, D. E. (1986). The TeX Book. Nueva York: Addison-Wesley Professional.

R Core Team. (2022). R-project. R: A language and environment for statistical. Viena, Austria: R Foundation for Statistical Computing. Obtenido de R-project: http://www.r-project.org/

StataCorp. (2021). Stata 17 Base Reference Manual. Obtenido de https://www.stata.com/manuals/u.pdf

StataCorp. (2021). Stata Statistical Software: Release 17. Obtenido de Stata.org: https://www.stata.com/

Araya, J. A. Z., & Fernández, E. A. (2022). Elementos de inferencia estadística con R. Editorial Universidad Nacional de Costa Rica. https://www.euna.una.ac.cr/index.php/EUNA/catalog/view/328/144/106-1

Cheang, W. K. (s. f.). The Use of R Language in the Teaching of Statistical Inference. 10.

Curso Inferencia. (s. f.). Curso: 2022-1 PC - Inferencia Estadística II. Recuperado 27 de octubre de 2022, de http://www.virtual.facen.una.py/aulas FACEN-UNA. (s. f.). FACEN – UNA – Pagina oficial de la Facultad de Ciencias Exactas y Naturales de la Universidad Nacional de Asunción. FACEN - UNA. Recuperado 27 de octubre de 2022, de https://www.facen.una.py/es/

Free Software Foundation. (s. f.). El sistema operativo GNU. Recuperado 29 de octubre de 2022, de https://www.gnu.org/licenses/licenses.es.html Gambetta, F., Goitía, C., Román, V. S., & Zeppa, C. (2012). Utilización del software R para la enseñanza de la estadística: Experiencia en un curso de ingeniería. Revista de Educación Matemática. https://revistas.unc.edu.ar/index.php/REM/article/view/10200

Moodle—Open-source learning platform | Moodle.org. (s. f.). Recuperado 27 de octubre de 2022, de https://moodle.org/?lang=es Morel, M., Fuentesanta, M., & Díaz, M. (s. f.). Curso práctico de Inferencia Estadística con R. Recuperado 27 de octubre de 2022, de https://www.um.es/web/innovacion/educacion-abierta/cursos/curso-practico-de-inferencia-estadistica-con-r-2016/material-de-apoyo

Naylor, T. H. (1982). Técnicas de simulación en computadoras. Limusa. https://books.google.com.py/books?id=NUFvAAAACAAJ

RStudio Cloud—Do, share, teach, and learn data science. (s. f.). Recuperado 29 de octubre de 2022, de https://rstudio.cloud/

Shannon, R. E. (1975). Systems Simulation: The Art and Science. Prentice-Hall. https://books.google.com.py/books?id=cWpRAAAAMAAJ

Anexos

Desglose del contenido programático para la materia Inferencia Estadística II.

  1. Muestreo e Inferencia Estadística

1.1. Introducción: Estadística Descriptiva versus Inferencia Estadística. Población, muestra, parámetro, estadístico. 1.2. Repaso de Métodos de Muestreo. Conceptos fundamentales.

• Muestreo Aleatorio Simple, Estratificado, Sistemático y por Conglomerados.

• Razones para obtener una muestra

1.4. Repaso Distribución Normal

  1. Distribuciones muestrales

2.1. Muestreo de Poblaciones con Distribución Normal

• Normalidad y la Distribución muestral de la Media. Teorema del Límite Central.

• Distribución muestral de diferencias de Medias

• Distribución de Proporciones

• Distribución de Diferencias de Proporciones

• Distribución de Desviaciones Típicas

2.2. Muestreo a partir de poblaciones sin distribución normal

• Distribución Muestral para pequeñas muestras, distribución t de Student

• Distribución de la Varianza, distribución Chi-Cuadrado

• Distribución de Relaciones de Varianzas, distribución F

  1. Estimadores por Puntos y por Intervalos

3.1. Estimador y estimación puntual

• Propiedades de un buen estimador: Sesgo, eficiencia, consistencia, suficiencia, invariancia

• Error Cuadrático Medio

• Métodos para obtener buenos estimadores. Métodos de Máxima Verosimilitud

• Propiedades de los estimadores de Máxima Verosimilitud

• Método de los Momentos

• Método de Mínimos Cuadrados

3.2. Intervalo de confianza, Introducción y conceptualización, básica

• Estimación de Intervalos de confianza para la media (varianza conocida)

• Estimación de Intervalos de confianza para la media (varianza desconocida)

• Estimación del Intervalo de Confianza para la Proporción

• Estimación de Intervalos de confianza para la diferencia de medias (varianza conocida)

• Estimación del Intervalo de confianza para la diferencia de medias (varianza desconocida)

• Estimación de intervalos de confianza para la diferencia de proporciones

• Estimación del Intervalo de confianza para la Varianza

• Estimación del Intervalo de confianza para la Desviación Estándar

• Estimación del Intervalo de confianza para la Relación de Varianzas

• Determinación del tamaño de muestra para la media y para la proporción

  1. Pruebas de Hipótesis Estadísticas

4.1. Elementos básicos en una prueba de hipótesis. Hipótesis estadísticas. Hipótesis nula e hipótesis alternativa en pruebas de una y dos colas. Estadístico de Prueba y su valor crítico. Regla de decisión, regiones de rechazo y no rechazo

4.2. Riesgos en la toma de decisiones al usar la metodología de pruebas de hipótesis. Errores tipo I y II, Nivel de Significancia, Coeficiente de Confianza, Riesgo, Potencia de una prueba, Curvas Características

4.3. Pruebas de Hipótesis usando la distribución normal para la media (varianza conocida). Enfoque del valor crítico para las pruebas de hipótesis. Enfoque del valor p para las pruebas de hipótesis. Conexión entre la estimación de intervalos de confianza y la prueba de hipótesis

4.4. Pruebas de hipótesis para la media (varianza desconocida). Prueba t para la media

4.5. Pruebas de hipótesis para la proporción (distribución normal)

4.6. Pruebas de hipótesis con 2 muestras. Comparación de dos muestras independientes, prueba Z para las diferencias entre dos Medias, prueba t de varianza combinada para la diferencia entre dos Medias. Estadístico de prueba F para la igualdad de dos varianzas. Obtención de valores críticos de la cola inferior

4.7. Comparación de dos muestras relacionadas: prueba t y prueba Z para la diferencia en la media (datos apareados)

4.8. Prueba de Hipótesis para la varianza

  1. Pruebas de bondad de ajuste y tablas de contingencia

5.1. Pruebas de independencia

5.2. Pruebas de Homogeneidad

5.3. Pruebas para varias proporciones

5.4. Ajuste de distribuciones teóricas a distribuciones de frecuencias muestrales. Normal. Poisson, Binomial, Exponencial