Resumen
Los modelos lineales generalizados son una propuesta de modelación estadística avanzada, que permiten codificar situaciones de análisis dentro de un mismo esquema general, modelando la variabilidad aleatoria y la correlación de los errores, siendo muy útiles en el análisis de datos desbalanceados, datos con pseudoréplicas, o datos con algún tipo de estructura jerárquica o de agrupación. En esta investigación se realizó una aplicación de los modelos lineales generalizados de Poisson y Binomial Negativa, sobre la variable “Número de docentes acompañados”, del Programa Todos a Aprender del Ministerio de educación Nacional, con datos del año 2020. Se respondieron preguntas estadísticas sobre el comportamiento del Número de docentes acompañados, en función de las secretarías de educación focalizadas, el lugar de residencia de los tutores, el ciclo de formación y la modalidad en la que fueron formados. Al modelar las variables predichas, en relación con la variable respuesta, se determinó que la inclusión de un modelo Poisson presentaba una sobredispersión demasiado alta, por tanto, se optó, por una regresión Binomial Negativa, mejorando el problema planteado de diferencias considerables de media y varianza, así como los valores de AIC, BIC del modelo, la normalidad, homocedasticidad de los residuos y la calidad del análisis estadístico. El modelo Binomial Negativo, encontró diferencias significativas en el número de docentes acompañados por los factores: “Secretaría de educación” y “Residencia”.
Palabras clave:Modelo Lineal Generalizado, Docentes Acompañados, Formación Pedagógica (PTA), Binomial Negativa.
Abstract
Generalized linear models are an advanced statistical modeling proposal, which allow coding all analysis situations within the same general scheme, modeling random variability and correlation of errors, being very useful in the analysis of unbalanced data, data with pseudo-replicas, or data with some sort of hierarchical or grouping structure. In this research, an application of the generalized linear Poisson and Binomial Negative models was carried out on the variable “Number of accompanied teachers”, from the Todos a Aprender Program of the Ministry of National Education, with data from the year 2020. Statistical questions about the behavior of the Number of teachers accompanied, depending on the targeted education secretariats, the place of residence of the tutors, the training cycle and the method in which they were trained. When modeling the predicted variables, in relation to the response variable, it was determined that the inclusion of a Poisson model presented too high an over-dispersion, therefore, a Negative Binomial regression was chosen, improving the problem posed of considerable differences in mean and variance, as well as the values of AIC, BIC of the model, normality, homoscedasticity of the residuals and the quality of the statistical analysis. The Negative Binomial model found significant differences in the number of teachers accompanied by the factors: “Secretary of education” and “Residence”.
Keywords : Generalized Linear Model, Accompanied Teachers, Pedagogical Training (PTA), Negative Binomial.
1. Introducción
A raíz del Covid-19, en Colombia se mantiene vigente la declaratoria de emergencia sanitaria ordenada por la Presidencia de la República y el Ministerio de Salud. De igual forma sigue vigente la Resolución 385 del 12 de marzo de 2020 (Ministerio de Salud) para el sector educativo; en consecuencia, se continúa con la educación en casa mediada por diferentes herramientas, puesto que se espera el estudio de las condiciones y protocolos de acuerdo con las recomendaciones del Ministerio de Salud y la Organización Mundial de la Salud para la toma de decisiones y reglamentación del regreso a la presencialidad. Siguiendo este orden de ideas, resulta previsible la necesidad de sostener por tiempo adicional el apoyo a los procesos educativos en los hogares de los estudiantes y desde el Programa Todos a Aprender del ministerio de educación nacional (PTA), mantener el acompañamiento a los docentes en la planeación de estrategias integradoras y flexibles que motiven los procesos de aprendizaje autónomo, fortalezcan el sentido y el significado del conocimiento, sosteniendo el interés personal y familiar por el proceso formativo.
Programa Todos a Aprender (PTA)
El PTA es uno de los programas para la transformación de la calidad educativa del Ministerio de Educación Nacional que se implementa en los establecimientos educativos focalizados públicos del país. Para efectos del estudio se trabajará en algunas de las secretarías de educación adscritas a la costa caribe. La formación en cascada es la estrategia por medio del cual se realiza un trabajo de acompañamiento pedagógico in situ a los establecimientos educativos, realizando ejercicios de formación para fortalecer el conocimiento disciplinar y pedagógico de los maestros, realizando un apoyo y acompañamiento al proceso de diseño, planeación y ejecución de la práctica pedagógica con el fin de mejorar los procesos enseñanza y aprendizaje en las aulas acompañadas.
Para interpretar el sentido que tiene la cantidad de docentes acompañados en un ciclo de, se debe considerar que este es un fenómeno multicausal, que involucra múltiples factores, espacios y tiempos, que intervienen en el proceso de enseñanza aprendizaje, posibilidades de conectividad, lugares de residencia de los diferentes actores participantes. Entre estas causas coexisten determinantes personales, determinantes sociales y determinantes institucionales (Garbanzo Vargas, 2007). Pocos son los estudios que reposan sobre este asunto debido a que precisamente es una realidad nueva en el mundo, el afrontamiento de la pandemia, el aislamiento social y la necesidad de continuar con los sistemas educativos desde otros lugares y cosmovisiones de la realidad.
Si bien la cantidad de docentes acompañados y formados o el número de productos realizados en un acompañamiento debería ser explicado a partir de sus procesos de evaluación de la calidad o del seguimiento categorial de esas prácticas pedagógicas; la simple medición y/o evaluación de los números alcanzados por los tutores que acompañan esos establecimientos en relación con los factores que inciden en el proceso, nos provee de algunas pautas fundamentales para la acción destinada al mejoramiento de la calidad educativa. En este sentido, el objetivo de este estudio particular se centra en determinar mediante un modelo de regresión Binomial Negativa la influencia que tiene el uso de modalidades sincrónicas o asincrónicas de formación y la ubicación geográfica de los tutores que acompañan los establecimientos educativos con respecto al número de docentes acompañados, teniendo en cuenta los dos ciclos de formación trabajados a lo largo del presente año.
2. Modelos lineales generalizados
Los modelos lineales generalizados son aquellos en los que su interes se basa en modelar una función no lineal de la media a través de una combianción lineal de covariables. Una de las razones para hacer esto es que la media de una variable respuesta en general podría tener restricciones tales como estar en el intervalo (0,1) (Bernoulli) o positiva (Poisson).
Los Modelos Lineales Generalizados estan definidos de la siguiente manera:
Sean \(Y_{1}....Y_{n}\) variables aleatorias independientes con una distribucion en la familia exponencial, es decir: \[f(y_{i};\theta_{i})=exp\left [y _{i} b(\theta _{i})+ c(\theta _{i}) + d(y_{i})\right ]\] donde su forma canónica depende de un solo parámetro \(\theta _{i}\) y \(Y _{i}\)es la componente aleatoria del modelo. Ahora suponga que \(E(Y_{i})= \mu_{i}\) donde \(\mu_i\) es alguna funcion de \(\theta_i\), entonces podemos encontrar una funcion de \(\mu_i\) tal que: \[g(\mu _{i})= g\left \{ E(Y_{i}) \right \} =X_{i}^{t}\beta \] La expresión \(X_{i}^{t}\beta\) se conoce como el componente sistemático del modelo, y g es una función monótona y diferenciable llamada funcion de enlace. \[\mu _{i}= g^{-1}(X_{i}^{t}\beta)\]
Inferencia en MLG
Una de las inferencias en un MLG es especificar una componente aleatoria (distribución) que pertenece a la familia exponencial, luego, se encuentra la función de verosimilitud L para las n observaciones independientes la cual está dada por: \[L(\theta )=\prod_{i=0}^{n}f(y_{i};\theta _{i},\phi)\] En donde \(\theta _{i}\) son los parámetros y estos dependen del vector de coeficientes \(\beta\) del modelo, y el logaritmo de la función de verosimilitud se debe maximizar y posteriormente se deben solucionar las ecuaciones de estimación usando métodos numéricos para la mayoría de MLG.
Regresión por conteo
Una forma razonable de modelar datos de conteos es asumir que \(Y_{i}\sim Poisson(\mu _{i})\). El sentido sería explicar la media \(\mu _{i}\) en función de las covariables \(x_{i}\) decir: \[log(\mu _{i})=X_{i}^{t}\beta\] O en terminos matriciales
\[log(\mu )=X^{t}\beta \] Sin olvidar que \(Y_{i}\sim Poisson(\mu _{i})\) entonces la función de densidad de \(Y_i\) esta dada por: \[f(y_{i};\mu _{i})=\frac{e^{-\mu _{i}}\mu _{i}^{y^{i}}}{y_{i}!}, y_{i}=0,1,2,3... \] En este caso se tiene que: \[E(Y_{i})=Var(Y_{i})=\mu _{i}\] Devianza en la regresión Poisson
En la regresión de Poisson se asume que \(Y_{1}....Y_{n}\) son independientes con \(Y_{i}\sim Poisson(\lambda _{i})\), el logaritmo de la función de verosimilitud para estos datos usando el modelo está definido por: \[log(\beta ;y)=\sum_{i}^{n}y_{i}log\lambda _{i} - \sum_{i}^{n}\lambda _{i} - \sum_{i}^{n}log y_{i}!\cdots \] Recuerde que en un MLG asumimos que: \(\lambda _{i}=exp(X_{i}^{t}\beta)\) Es decir los n parámetros iniciales \(\lambda _{i}\) se reducen a p coeficientes \(\beta\). Una vez se obtiene el MLE de \(\beta\) se tiene: \[\hat{\lambda _{i}}=\hat{y_{i}}=\hat{E}(Y_{i})=exp(X_{i}^{t}\hat{\beta})\] En donde el logaritmo de la verosililitud evaluado en el MLE quedaría de la siguiente forma: \[log(\hat{\beta};y)=\sum_{i}^{n}y_{i}log\hat{\lambda}_{i} -\sum_{i}^{n}\hat{\lambda}_{i} - \sum_{i}^{n}logy_{i}!\cdots \] Luego lo que se conoce como modelo saturado. Todos los \(\lambda_{i}\) son diferentes y se deben estimar. Después de su proceso algebraico, se llega a que el MLE de \(\lambda_{i}\) es igual a \(\hat{\lambda}_{i}=y_{i}\) Por lo tanto, el logaritmo de la verosimilitud se reduce a: \[log(\hat{\lambda}; y)=\sum_{i}^{n}y_{i}logy_{i} - \sum_{i}^{n}y_{i}-\sum_{i}^{n}logy _{i}!\cdots\] En este modelo, la devianza es igual a: \[D=2\sum_{i}^{n}O_{i}log (O_{i}/e_{i}),\] Donde \(O_{i}\) es el valor observado \(y_{i}\) y \(e_{i}\) es el valor esperado (ajustado) \(\hat{y}_{i}\)
Esta cantidad se usa para determinar bondad de ajuste y también se relaciona con la definición de los residuales. Una forma alternativa de pensar el modelo saturado es en el caso de ANOVA a una vía. Si tiene un factor numérico entonces usted puede ajustar un modelo de ANOVA saturado, es decir, una media para cada nivel del factor, o ajustar un polinomio de menor grado para modelar las medias, para este caso, el grado del polinomio debe ser menor que el número de niveles del factor. En el caso del ANOVA usted deberá estimar todas las medias de los niveles, pero en el modelo con el polinomio debe estimar solamente los coeficientes.
Sobredispersión en conteos
En algunas situaciones, los conteos exhiben alta variabilidad tal que \(Var(y_{i})> E(Y_{i})\), lo cual no satisface los supuestos de la distribución Poisson. Este fenómeno, bastante común en datos de conteos, se conoce como sobredispersión. Usualmente valores de \(X^{2}/(N-P)\) o \(G^{2}/(n-p)\) mucho mayores que 1 son señal de sobredispersión (algunos autores consideran valores de 1.5 en adelante).
La Sobredispersión puede suceder por varias razones:
La estructura de la media omite variables explicativas o predictores relevantes.
Los datos contienen valores atípicos
El modelo omite términos de interacción.
Un predictor necesita transformación (e.g., log).
La función de enlace no se especifica correctamente. Es decir, la relación entre la media transformada y los predictores no es lineal (poco frecuente en conteos).
Una consecuencia de ajustar una regresión con datos sobredispersos es que los errores estándar de los coeficientes se pueden subestimar. Esto trae como consecuencia que se declaren predictores significativos cuando en realidad no lo son (falsos positivos).
Regresión Cuasi-Poisson
Modelar la sobredispersión consiste en ajustar un modelo en el cual se asume que \(Var(Y_{i})=\phi\vartheta(\mu _{i})\) para una constante \(\phi\) . Cuando \(\phi> 1\), entonces se dice que hay sobredispersión. Para la regresión con Poisson, \(Var(Y_{i})=\phi\mu _{i}> E(Y_{i})=\mu _{i}\) cuando \(\phi> 1\). La estimación de los parámetros \(\beta\) en la regresión se llevan a cabo usando el método de cuasi-verosimilitud. Los coeficientes en el modelo se estiman de igual manera que un GLM (verosimilitud) pero los errores estándar asintóticos de los coeficientes se multiplican por la cantidad:
\[\sqrt{\phi}=\sqrt{X^{2}/(n-p)}\]
Binomial negativa (BN)
En el modelo anterior se asume que \(Y_{i}\sim Poisson(\mu _{i})\). Como consecuencia de este supuesto distribucional tenemos que \(Var(Y_{i})=\mu _{i}\). La función de densidad de esta distribución está dada por: \[f(y_{i};\mu _{i},k)=\frac{\Gamma (y+k)}{\Gamma (k)\Gamma (y+1)}\] \[\rightarrow \left ( \frac{\mu _{i}}{\mu _{i}+k} \right )^{y} \left ( \frac{k}{\mu _{i}+k} \right )^{k}, y=0,1,2\cdots\] Esta distribución resulta de la distribución marginal de \(Y_{i}\), si se asume que \(Y_{i}\mid \lambda _{i}\sim Poisson(\lambda _{i})\) y \(\lambda _{i}\sim Gamma (k,k/\mu _{i})\), como parametrización tradicional con \(E(\lambda _{i})=\mu _{i}\) y \(Var(\lambda _{i})=\mu _{i}^{2}/k\).
En la distribución BN se tiene entonces que: \[E(Y _{i})=\mu _{i}, Var(Y _{i})= \mu _{i} + \gamma \mu _{i}^{2}\] donde \(\gamma=1/k\gamma\) se conoce como el parámetro de dispersión. Sin embargo, este parámetro no tiene la misma connotación del parámetro \(\phi\). Note que para \(\gamma>0\) se tiene que \(Var(Y_{i})>\mu _{i}\), lo cual justifica el uso de la distribución BN para sobredispersión, Además, cuando \(\gamma\) tiende a 0 entonces la BN tiende a una Poisson. Es decir, si \(\phi\) no es significativamente diferente de 0 entonces este resultado sugiere que el modelo Poisson es mejor para el conjunto de datos.
En el caso de la regresión BN seguimos usando a la misma función de enlace: \[log (\mu _{i})=X_{i}^{t}\beta \] Por consecuencia para este modelo la Devianza está dada por: \[D(y,\hat{\mu })=2\sum_{i}^{n}\left [y_{i}log\left ( \frac{y_{i}}{\hat{\mu}_{i}} \right )-\left (y_{i}+ \frac{1}{\hat{\gamma}} \right ) \right]\] \[\rightarrow 2\sum_{i}^{n}log\left ( \frac{1+\hat{\gamma}y_{i}}{1+\hat{\gamma}\hat{\mu}_{i}} \right )\]
3. Marco metodológico
Para analizar el conteo de profesores acompañados en el marco del PTA se realizó la aplicación de un formulario a los docentes tutores de las secretarias de Bolívar, Atlántico, Cesar, Valledupar, Barranquilla, Malambo, Soledad, San Andrés y Providencia, Riohacha y Maicao, los cuales son docentes que acompañan diversos Establecimientos Educativos focalizados por el programa. El modelo que se especifique debe explicar el aumento de docentes acompañados en los establecimientos educativos en el desarrollo de los ciclos de formación, teniendo en cuenta las variables de ubicación geográfica y modalidad de formación recibida.
De acuerdo a las características particulares de esta investigación, los sujetos de estudio, los docentes, fueron asignados al azar a los grupos de manera predefinida a cada secretaría de educación donde laboran, sus grupos y sus repeticiones ya estaban prefijados antes del experimento, estos ya están formados de forma independiente, los datos se organizarán de acuerdo con la lógica de un Diseño de datos desbalanceados (Hernández et al., 2014), Después de la aplicación del formulario se obtuvo una base de datos con 714 observaciones y 7 variables de interés: La Secretaría, Residencia (0: urbano, 1: rural), Modalidad (0: Asincrónica; 1: Sincrónica), Ciclo (1y 2), Docentes Acompañados.
Se realizó una exploración gráfica de la variable respuesta y sus posibles predictoras. Esto se hizo partiendo de la composición de la variable docentes acompañados y docentes formados, generando una nueva variable: “docentes acompañados”. La variable “Modalidad” dio información sobre el tipo de formación que recibieron los docentes tutores que acompañan a los establecimientos educativos. La variable “Residencia” explicó el tipo de ubicación del lugar donde viven los docentes tutores. La variable “secretaría” explicó la secretaría de educación a la cual pertenecen los docentes tutores que hicieron parte del estudio. La variable “ciclo” nos indicó a que ciclo de la formación pertenece la información recogida.
Para la estimación de los modelos lineales generales a través de los procedimientos gls y lme de la librería nlme escritos en R, se utilizó como interfase el software Rstudio. Se evaluó el efecto de los Factores Fijos: “secretaria” y “Modalidad”, “Residencia” y “ciclo” con la variable “Docentes Acompañados”.
Después de superar el problema de sobredispersión. Se consideró como mejor modelo, a aquel que tuviera los valores de AIC y BIC más bajos, la normalidad, homocedasticidad de los residuos y la calidad del análisis estadístico.
Las hipótesis del estudió son las siguientes:
• \(H_{0}\): igualdad de docentes acompañados entre las secretarías de educación.
• \(H_{0}\) igualdad de docentes acompañados entre los ciclos de formación.
• \(H_{0}\): igualdad de docentes acompañados en la modalidad de formación.
• \(H_{0}\): igualdad de docentes acompañados de acuerdo con el tipo de residencia.
4. Resultados
Análisis exploratorio
A continuación, se muestra la distribución de la variable de número de docentes acompañados a través de un Histograma y su respectiva distribución para realizar el proceso exploratorio de los datos, etiquetando cada uno de los ejes.Distribución del Número de Docentes acompañados
La figura 1 muestra en la parte superior una gran variabilidad en el número de docentes acompañados; las respuestas van de 0 hasta 80 y muchos de los encuestados informan entre 1 hasta 5 docentes en los establecimientos educativos. Como muchas distribuciones de Poisson, esta gráfica es asimétrica a la derecha, es decir,está sesgada a la derecha. Claramente, no sugiere que el número de docentes acompañados en una secretaría de educación sea una respuesta distribuida normalmente.
Distribución del número de docentes acompañados por secretaria.
La figura 2 muestra que las respuestas pueden modelarse razonablemente con una distribución de Poisson cuando se agrupan por una variable explicativa clave: “secretaría”. Estos dos últimos gráficos juntos sugieren que el Supuesto 1 (Respuesta de Poisson) es satisfactorio en este estudio de caso.
Diagrama de caja del número de docentes acompañados por secretaria
Con respecto al supuesto de igualdad entre media y varianza, la figura 3, muestra que hay un problema con esta suposición, la mayoría de las veces vemos variaciones mucho mayores que las medias. Aquí, como era de esperar, se observa más variabilidad a medida que cambia la secretaría de educación. Sin embargo, parece que la varianza en ningún caso es menor que la media para cada secretaría. Por lo tanto, existe evidencia de una violación del supuesto de media = varianza, los cual también se puede verificar con la siguiente tabla que nos indica las medias y varianzas por secretaría:
| Secretaria | Media | Varianza | Número |
|---|---|---|---|
| ATL | 36.76 | 240.08 | 74 |
| BQ | 33.37 | 119.10 | 100 |
| BOL | 30.02 | 192.62 | 278 |
| CES | 29.60 | 304.28 | 52 |
| MAI | 48.73 | 167.88 | 26 |
| MAL | 30.60 | 73.31 | 20 |
| RIO | 44.80 | 203.81 | 46 |
| SAN A Y P | 19.46 | 120.95 | 24 |
| SOL | 31.95 | 104.33 | 22 |
| VALL | 41.06 | 173.26 | 72 |
Desafortunadamente \(\lambda _{i}\) es desconocido. Nuestra mejor suposición de \(\lambda _{i}\) es el número medio observado en cada secretaría. Debido a que estas medias se calculan para datos observados, se denominan medias empíricas. Tomar los registros de las medias empíricas proporciona una forma de evaluar el supuesto de linealidad. Este hallazgo es consistente con la hipótesis de que existen cantidades distintas de docentes acompañados dependiendo de las secretarías en las que se encuentran.
Finalmente, el supuesto de independencia se puede evaluar utilizando el conocimiento del diseño del estudio y el proceso de recopilación de datos. En este caso, teniendo en cuenta que las secretarías se seleccionaron de manera aleatoria en la zona 1 del programa todos a aprender, así como los tutores acompañantes del proceso que diligenciaron los formularios para cada establecimiento educativo no se violaría el supuesto de independencia.
Primero se considera un modelo para el cual \(log(\lambda)\) es lineal en la secretaría, la modalidad, el ciclo y el lugar de residencia. La intención es determinar si un modelo Poisson con estas variables predictoras proporciona una mejora significativa en función de las tendencias que observamos en el análisis de datos exploratorio.
El enlace log para esta función se encuentra dentro del MLG, así que podemos especificar el siguiente modelo: \[log(\mu _{i})=\beta _{0} + \beta _{2}X_{i} +\beta _{3}X_{i}+ \beta _{4}X_{i}\] Al revisar el modelo se encontró que todas las variables predictoras resultan ser significativas a excepción de la variable “ciclo”, con p-valores menores que un nivel de significancia de 0.05. Sin embargo, a partir de lo realizado en la exploración de datos donde se comprobó la violación de los supuestos del modelo, se realizó inmediatamente un análisis de varianza donde se obtuvo un p-valor muy alto de 0.49 superior a un Alpha de 0.05, y se evaluó la sobredispersión obteniendo un valor de 5.65 mucho mayor que 1.
El modelo de Poisson tiene un solo parámetro \(\lambda\), para cada combinación de los niveles de los predictores que deben describir tanto la media como la varianza. Esta limitación puede manifestarse cuando la varianza es mayor que la media correspondiente.
La sobredispersión de 5.65 sugiere que hay más variación en la respuesta de lo que implica el modelo. Bajo un modelo de Poisson, esperaríamos que las medias y las variaciones de la respuesta fueran aproximadamente iguales en varios grupos.
Binomial Negativa
Se ha determinado que el número de docentes acompañados sigue una distribución Binomial negativa tal que: \(y_{i}=\beta _{n}(\mu _{i})\), donde \(y_{i}\) es el número observado de docentes acompañados y formados en las distintas secretarías de educación observadas y con dos niveles de lugar de residencia. Una vez obtenidos los coeficientes se pueden construir los modelos propios de la Binomial negativa: \[log(\hat{y}_{i})=\hat{\beta} _{0}+\hat{\beta} _{1}Secretaria +\hat{\beta} _{2}Residencia\] Donde \(Y_{i}=\) Total docentes acompañados, \(\beta=\left ( \beta _{0},\beta _{1}.\beta _{2} \right )\) son los coeficientes estimados. Con este modelo fue posible rechazar las hipótesis nulas de igualdad de formación de docentes según las secretarías y los tipos de residencia (urbana y rural). Por su parte, las medias mostraron no depender del ciclo de formación, ni de la modalidad utilizada para este propósito.
En este sentido, algunas de las estimaciones del modelo estarían dadas de la siguiente manera:
\(Log \left ( Y_{Atlantico,rural} \right )=3,55\)
\(Log \left ( Y_{Atlantico,urb.} \right )=3,55 + 0,06=3,61\)
\(Log \left ( Y_{Vall,rural} \right )=3,55 + 0,11=3,66\)
\(Log \left (Y_{Vall,urb.}\right )=3,55+0,11+0,06=3,72\)
\(Log \left ( Y_{Maicao,rural} \right )=3,55 + 0,29=3,84\)
\(Log \left ( Y_{Maicao,urb.} \right )=3,55 + 0,29+0,06=3,9\)
Para hallar la media estimada, se realiza la transformación con la inversa de la función enlace \((exp(logY_{i}))\), de manera que se obtienen las mayores estimaciones para las secretarías de educación de los municipios de Maicao y Riohacha y la más baja para la secretaría de San Andrés y providencia; en la gráfica Predicción del número medio de docentes acompañados (figura 4) se ilustran esos resultados.
Predicción del número medio de docentes acompañados.
Al evaluar el modelo final, se aprecian cambios importantes, los residuos manifiestan ahora una tendencia a la media,tal como se ilustra en ajustados frente a residuos (figura5), luego la condición de independencia de los errores parece cumplirse. Igualmente, la dispersión vertical de los residuos es razonablemente pequeña. Es importante resaltar que, al utilizar como predictores variables los gráficos mantienen esa forma tipo columna, ya que resulta al predecir 20 valores posibles que corresponden a las combinaciones entre secretarías y residencias.
Gráfico de ajustados vs residuos.
En la representación de los valores ajustados por ambos modelos es fácil distinguir que el modelo final se ajusta mejor al número de docentes acompañados y formados que el modelo de interés.
Esta conclusión puede reforzarse empleando el test de la razón de verosimilitud generalizado (Faraway, 2006, 120) que compara las discrepancias que se producen en ambos modelos, tal que: \(\Delta D= Dm0 -Dm1.\Delta D\) sigue una distribución asintótica Chi cuadrado y evalúa si la inclusión de los términos del modelo m1 reduce significativamente el valor de discrepancia con respecto al modelo m0. Como se obtiene un valor de p mínimo de 0,11, no se encuentran diferencias significativas entre los modelos. Por lo tanto, el modelo final anteriormente descrito fue seleccionado a partir del resultado del criterio de selección el AIC.
5. Conclusiones y recomendaciones
El Modelo Lineal Generalizado es un referente imprescindible actualmente en el análisis de datos de investigaciones que pretenden la explicación de fenómenos probabilísticos. Las peculiaridades matemáticas del MLG que aquí se han descrito le confieren una muy interesante adaptabilidad a las características métricas de las variables con las que se trabaja, lo cual viene a solventar el tratamiento estadístico inadecuado en el análisis de datos de investigaciones educativas, donde sucede con frecuencia que las variables que se registran no cumplen los presupuestos matemáticos de los modelos estadísticos más tradicionales. Ahora bien, las ventajas señaladas no pasarían de ser soluciones teóricas si no existiera una herramienta que permitiera desarrollar plenamente estas propiedades. El software R reúne las características necesarias. El modo de trabajar en R se adapta fácilmente a la filosofía del modelado estadístico, así como a las propiedades de los modelos de dependencia estadísticos adaptados a variables no métricas: los Modelos Lineales Generalizados. Además, desde el ámbito de las Ciencias Sociales es especialmente interesante contribuir al cambio de filosofía que implica el modelado estadístico, así como propiciar el empleo de análisis gráficos por las numerosas ventajas que aportan.
Fue necesario hacer uso de un modelo apto para la distribución y el comportamiento de los datos que se recolectaron en el presente estudio. La variable dependiente “docentes acompañados y formados”, se pudo estudiar mejor al componerla en una variable que las adicione y las entienda como una única suma de docentes que fueron beneficiados en el proceso de formación. Esta composición permitió crear una variable del tipo recuento que resultó más significativa al momento del estudio: la cual puede ser tratada para pruebas de hipótesis como una variable continúa, bajo un Modelo Lineal Generalizado Binomial negativo, de manera que se relacionó la cantidad media de docentes acompañados y formados con la secretaría, la modalidad de estudio y el ciclo de formación, siendo al final significativos los efectos de cada secretaría de educación y por criterio AIC de selección del mejor modelo, el tipo de residencia también fue utilizado como variable predictora.
Es importante resaltar en los hallazgos del estudio el sentido que tiene para un política de calidad educativa analizar los factores predictores que intervienen y tienen influencia en variables como la formación de docentes y los docentes acompañados en un proceso de intervención pedagógica, a grandes luces surgen las siguiente recomendaciones para la coordinación regional del programa y la gerencia del mismo en términos de cuál sería el modelo que mejor predice en este caso el número de docentes acompañados, partiendo del hecho de las inversiones necesarias que se requieren en infraestructura y garantías de acceso al uso e implementación de nuevas tecnologías. Es decir, si es claro que la variable residencia rural o urbana inciden en el número de docentes acompañados en un proceso, resulta factible indagar a profundidad los factores determinantes de esas diferencias marcadas, proyectar soluciones, inversiones y estrategias de acción que permitan cerrar brechas en términos de formación y acceso a la información. Por otro lado, resulta también importante que secretarías certificadas terminen con resultados más altos que las secretarias municipales, lo cual muestra sin dudas que siguen haciendo falta ejercicios de seguimiento y mejoramiento continuo en las secretarías departamentales de tal forma que las diferencias en las cifras entre secretarías certificadas y no certificadas disminuyan. Resulta evidente que este tipo de programas educativos con herramientas pedagógicas, y recursos materiales no tienen componentes que avancen en la revisión de estas diferencias substanciales debido a que son elementos que hacen parte del resorte de otras dependencias del ministerio, sin embargo estudios como este permiten enfocar de manera más eficaz los encuentros de formación, al hacer más énfasis en las variables que realmente tienen incidencia, tratando de cubrir las necesidades y limitaciones particulares, como en este caso de las ubicaciones geográficas y de las infraestructuras y organizaciones internas de cada secretaría de educación.
6. Referencias
• Agresti, Alan. (2015). Foundations of Linear and Generalized Linear Models. 1st ed. Wiley series in probability; statistics.
• Cameron, A.C., and P.K. Trivedi (1998), Regression Analysis of Count Data, New York: Cambridge University Press.
• Dobson, A. J., and A. G. Barnett. (2008). An Introduction to Generalized Linear Models. 3rd ed. Chapman; Hall/CRC Press.
• G.M. Garbanzo Vargas. (2007). Factores asociados al rendimiento académico en estudiantes universitarios, una reflexión desde la calidad de la educación superior pública. Educación.; 31:43p.
• Faraway, J. J. (2006) Extending the Linear Model with R. Generalized Linear, Mixed Effects and Nonparametric Regression Models (Boca Raton, FL., Chapman & Hall/CRC).
• Hilbe, J. M. (2007). Negative binomial regression. Cambridge, UK: Cambridge University Press.
• Hernández AC, et al. (2014) Métodos unidireccionales, pero diversos para la transformación de hongos y levaduras: Comentario sobre Métodos físicos para la transformación genética de hongos y levaduras por Rivera et al. Phys Life Rev 11 (2): 204-5
• López-Gonzáles, E. y Ruiz-Soler, M. (2011). Análisis de datos con el modelo lineal generalizado: una aplicación con R, Revista Española de Pedagogía, 248, 59-80.
• Long, J. S. (1997) Regression Models for Categorical and Limited Dependent Variables (Thousand Oaks, CA, Sage).
• MEN (2004). Estándares Básicos de Competencias Ciudadanas. Bogotá: Ministerio de Educación Nacional.
• MEN (2016). Currículos para la Paz (Secuencias didáctica, orientaciones y desempeños de Cátedra de la Paz) Ministerio de Educación Nacional. http://aprende.colombiaaprende.edu.co/es/activatuciudadania/91793.
• MEN (2017). DC -Prea-A-134-PTA-Ambientes de Aprendizaje-15012017. Material no publicado.
• MEN (2016) Programa Todos a Aprender para la transformación de la calidad educativa. Guía Uno: Sustentos del Programa. Bogotá, Colombia.
Lic. en Matemáticas, Universidad del Atlántico, Barranquilla - Colombia, akeyla@uninorte.edu.co↩︎