Introducción
ICFES son las siglas de Instituto Colombiano para el Fomento de la Educación Superior. Este organismo es el encargado de promover la educación superior en Colombia. En sus inicios, fue creada para evaluar a los alumnos cursando su último año de bachillerato y por lo tanto, muchas universidades desde entonces lo han tenido en cuenta para sus procesos de admisión.
Con el decreto 1324 de 2009, se cambio el nombre de ICFES a Pruebas Saber pro. Está estipulado que los alumnos que obtengan los diez primeros puntajes del departamento o capital, reciben una distinción, además, de recibir descuentos para estudiar en varias universidades de hasta el 75% o incluso becas completas.
El examen consta de preguntas realizadas sobre distintas áreas de formación tales como matemáticas, ciencias sociales, lenguaje, biología, filosofía, química, física e inglés.
Sabiendo ya la importancia de las pruebas saber, se planea realizar modelos para estudiar el rendimiento académico de los estudiantes de Antioquia.
Con los modelos resultantes se espera encontrar que variables afectan el rendimiento academico y cuantificar esa información.
Retos
Contextualizar la base de datos
Crear la variable resultado, nivel de riqueza del estudiante y nivel de riqueza del colegio
Realizar modelos para estudiar el rendimiento académico
Obtener conclusiones con respecto al análisis
Contextualización del conjunto de datos
El resultado de las pruebas saber indican de alguna manera no solo el nivel académico del estudiante, sino también el nivel académico del colegio o establecimiento, pero el ICFES, además, de realizar las pruebas saber, también recolecta a la par información del estudiante que la presenta, como del establecimiento educativo al que pertenece.
Con la aplicación del examen Saber 11, los estudiantes deben diligenciar encuestas que indagan sobre información personal, información socioeconómica, entre otros. En el conjunto de datos de las pruebas saber podemos encontrar la siguiente información
- Información personal: Este módulo indaga por aspectos como el género del estudiante, pertenencia a una etnia, discapacidades, lugar de residencia, entre otros.
- Información Académica y de citación: Este módulo indaga por aspectos cómo el colegio al que pertenece el estudiante, valor de la pensión que paga en su colegio (en caso de que lo haga), entre otros.
- Información socioeconómica: Este módulo indaga por aspectos familiares como el nivel educativo de los padres, su ocupación, servicios con los que cuenta el hogar, entre otros.
El conjunto de datos con el que se trabajara corresponde a las pruebas saber 11 del segundo semestre del año 2013, este conjunto de datos contiene información de los tres módulos(Información personal, Información académica, Información socioeconómica)
En el siguiente link pueden encontrar un diccionario con algo de información y descripción de algunas de las variables.
Creación la variable resultado, nivel de riqueza del estudiante y nivel de riqueza del colegio
Estas variables fueron creadas previamente en un trabajo anterior, para mirar con mas detalle como fueron creadas visitar el siguiente link
Planteamiento de modelos
Inicialmente se puede pensar que el rendimiento académico de un estudiante se puede ver afectado por varios factores, suele suceder que cuando una persona presenta un examen, su resultado puede depender del clima, si recibió alguna noticia impactante, un tiempo antes de entrar al examen ó incluso el nivel educativo de la madre; por eso, si buscamos estudiar que afecta el rendimiento de un estudiante en las pruebas ICFES, se puede pensar mas bien en factores generales, es decir, que no cambian de manera drástica en un dia para otro, siguiendo la idea anterior se plantean las siguientes variables, con la intención de mirar que tanto afectan el rendimiento académico de un estudiante en las pruebas saber, recordar que se esta trabajando con un cojunto de datos del 2013.
Las variables propuestas son las siguientes:
Riqueza del estudiante(pobreza): Esta variable fue creada teniendo en cuenta algunos factores socioeconómicos del estudiante; por lo tanto, se espera que esta variable tenga información de la riqueza del estudiante; lo cual se tiene la idea de que un estudiante con mayor recursos, puede obtener ventajas en el resultado de los ICFES.
Jornada del colegio(COLE_INST_JORNADA): Esta variable contiene información si el estudiante estudiaba en jornada de la tarde, mañana, noche, completa, o sabatina-dominical. Se proponen esta variable pensando que los estudiante que tienen cierta jornada les puede ir mejor, en especial las jornadas mas comunes como lo es la mañána o la tarde.
Naturaleza del colegio(COLE_NATURALEZA): Esta variable contienen información de si el colegio del estudiante era publico(ofical), o si era privado(no oficial), como suele suceder, se espera que los estudiantes de colegios privados tengan mejores resultados.
Edad del estudiante(ESTU_EDAD): Esta variable contiene la edad el estudiante, se puede pensar que la edad afecta el rendimiento académico.
Genero del estudiante(ESTU_GENERO): Esta variable contiene el genero del estudiante, se incluye para observar si el genero puede afectar o no el rendimiento en las pruebas saber.
Educación del padre(FAMI_COD_EDUCA_PADRE): Esta variable indica el nivel educativo del padre, se puede pensar que si los padres tienen alto nivel educativo, entonces, los hijos pueden tener buen rendimiento académico.
Educación de la madre(FAMI_COD_EDUCA_MADRE): Esta variable indica el nivel educativo de la madre, se puede pensar que si los padres tienen alto nivel educativo, entonces, los hijos pueden tener buen rendimiento académico.
La variable que se busca explicar es el rendimiento académico del estudiante en las pruebas saber, es decir, el resultado, esta variable contiene 10 categorias, indicando como (100, 200] a los de peor resultado y (900, 1000] a los de mejor resultado.
Modelo de regresión logistica multiple
Se propone un modelo inicial que estudiara el rendimiento académico del estudiante, a través de las variables mencionadas anteriormente, los modelos a utilizar seran modelos logisticos multiples, el caso de exito sera sacar quedar en algunas de las siguientes categorias: (700, 800], (800, 900], (900, 1000] y como fracaso el resto de categorias.
La Regresión Logística, desarrollada por David Cox en 1958, es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una o varias variables. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome las variables empleadas como predictores.
La estimación del modelo se realiza con base en las 44060 observaciones, correspondiente a los estudiantes de los colegios del Valle del Aburra, con el objetivo de explicar el resultado de las pruebas saber en función de la riqueza del estudiante, el género, naturaleza del colegio, jornada del colegio, nivel educativo del padre y nivel educativo de la madre.
| Variable | Estimate | Std. Error | z value | Pr(>|z|) |
|---|---|---|---|---|
| (Intercept) | -0.7699012 | 0.1205752 | -6.385 | 1.71e-10 |
| ESTU_EDAD | 0.0005148 | 0.0001331 | 3.868 | 0.000110 |
| ESTU_GENEROM | -0.2404683 | 0.0239389 | -10.045 | < 2e-16 |
| COLE_NATURALEZAO | -0.2625458 | 0.0302369 | -8.683 | < 2e-16 |
| COLE_INST_JORNADAMAÑANA | 0.6007060 | 0.0552611 | 10.870 | < 2e-16 |
| COLE_INST_JORNADANOCHE | 1.8351930 | 0.0637761 | 28.776 | < 2e-16 |
| COLE_INST_JORNADASABATINA - DOMINICAL | 1.6855250 | 0.0642161 | 26.248 | < 2e-16 |
| COLE_INST_JORNADATARDE | 0.7645476 | 0.0579820 | 13.186 | < 2e-16 |
| FAMI_COD_EDUCA_PADRE | -0.0385065 | 0.0052669 | -7.311 | 2.65e-13 |
| FAMI_COD_EDUCA_MADRE | -0.0909198 | 0.0070292 | -12.935 | < 2e-16 |
| pobreza2 | 0.1445138 | 0.1204572 | 1.200 | 0.230252 |
| pobreza3 | 0.1341948 | 0.1143793 | 1.173 | 0.240698 |
| pobreza4 | 0.0922366 | 0.1127943 | 0.818 | 0.413504 |
| pobreza5 | -0.0001592 | 0.1115997 | -0.001 | 0.998862 |
| pobreza6 | -0.0679430 | 0.1109863 | -0.612 | 0.540422 |
| pobreza7 | -0.2243807 | 0.1104369 | -2.032 | 0.042179 |
| pobreza8 | -0.3968451 | 0.1113359 | -3.564 | 0.000365 |
| pobreza9 | -0.6597494 | 0.1154003 | -5.717 | 1.08e-08 |
| pobreza10 | -1.2641921 | 0.1302470 | -9.706 | < 2e-16 |
Algunas interpretaciones son:
Al pasar de la jornada de la noche a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en los mejores grupos vs los peores aumento en 1.835.
Al pasar de la jornada de la sabatina-dominial a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en los mejores grupos vs los peores aumento en 1.685.
Al pasar del nivel de pobreza 10 a un nivel 1, el logaritmo de la razon de odds de estar en en los mejores grupos vs los peores disminuye en 1.264.
De la tabla anterior se observa que todas las variables planteadas para el modelo son significativas, aunque algunos niveles de la variable pobreza no son significativos, con que lo sea al menos uno es suficiente para que la variable sea estadísticamente significativa, por lo tanto, se observa que sacar un buen resultado en los ICFES esta relacionado con las variables propuestas.
FALSE [1] "p-value: 0"
El modelo en conjunto sí es significativo y, acorde a los p-values mostrados en la tabla anterior, también es significativa la contribución al modelo de todos los predictores.
Comparación de las predicciones con las observaciones
|
Predicciones
|
Reales
|
|
|---|---|---|
| 0 | 1 | |
| 0 | 31005 | 1884 |
| 1 | 8493 | 2678 |
El modelo es capaz de clasificar correctamente \(\frac{31005+2678}{31005+2678+1884+8493}=0.764(76.4\%)\) de las observaciones de ajuste. Si se analiza en detalle cómo se distribuye el error, se aprecia que el modelo solo ha sido capaz de identificar correctamente a 2678 de los 11171 alumnos que realmente obtuvieron un buen resultado. El porcentaje de falsos negativos es muy alto. Seleccionar otro tipo de modelos puede mejorar la exactitud del modelo.
Modelo de regresión logistica multinomial
Pensando en mejorar la exactitud del modelo, pero siguiendo la misma linea de los modelos logisticos, se puede pensar en proponer un modelo logistico multinomial, con el cual se busca que la asignación a cada grupo sea mas precisa.
La regresión logística multinomial generaliza el método de regresión logística para problemas multiclase, es decir, con más de dos posibles resultados discretos. Es decir, se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables independientes (que pueden ser de valor real, valor binario, categórico-valorado, etc.)
La estimación del modelo se realiza con base en las 44060 observaciones, correspondiente a los estudiantes de los colegios del Valle del Aburra, con el objetivo de explicar el resultado de las pruebas saber en función de la riqueza del estudiante, el género, naturaleza del colegio, jornada del colegio, nivel educativo del padre y nivel educativo de la madre.
Tabla con los coeficientes del modelo| (Intercept) | ESTU_EDAD | ESTU_GENEROM | COLE_NATURALEZAO | COLE_INST_JORNADAMAÑANA | COLE_INST_JORNADANOCHE | COLE_INST_JORNADASABATINA - DOMINICAL | COLE_INST_JORNADATARDE | FAMI_COD_EDUCA_PADRE | FAMI_COD_EDUCA_MADRE | pobreza2 | pobreza3 | pobreza4 | pobreza5 | pobreza6 | pobreza7 | pobreza8 | pobreza9 | pobreza10 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (100,200] | 0.3596263 | 0.0001086 | -0.0797895 | 0.4016319 | 0.1256655 | 0.6941515 | 0.8413127 | 0.3077826 | -0.0509264 | -0.0879701 | 0.2979569 | 0.7655578 | 0.2038373 | 0.4732401 | 0.2103351 | 0.1388420 | 0.0554615 | 0.1435619 | -0.2136717 |
| (200,300] | 0.3615640 | 0.0006182 | -0.2131067 | 0.4094792 | 0.3879559 | 1.4546174 | 1.6399041 | 0.6572210 | -0.0797342 | -0.1337488 | 0.5576719 | 1.0714915 | 0.4962303 | 0.5636631 | 0.3438366 | 0.2558222 | 0.1841529 | 0.0212391 | -0.2591798 |
| (300,400] | 0.9442192 | 0.0009917 | -0.3979750 | 0.3307876 | 0.4779368 | 1.9067586 | 2.0868870 | 0.7714615 | -0.0817495 | -0.1548771 | 0.2023334 | 0.6713939 | 0.1331835 | 0.2583379 | -0.1120293 | -0.2052285 | -0.3936293 | -0.5051504 | -0.9813295 |
| (400,500] | 0.5292524 | 0.0009921 | -0.4392838 | 0.2866853 | 0.6829736 | 2.4778453 | 2.6088807 | 1.0324279 | -0.0786055 | -0.1707141 | 0.5279764 | 1.0242669 | 0.4134569 | 0.5809372 | 0.1915809 | 0.0737137 | -0.1984027 | -0.4006369 | -1.0325931 |
| (500,600] | 1.5955517 | 0.0005538 | -0.5146004 | 0.2255434 | 0.9411717 | 2.8992786 | 3.1894942 | 1.2977701 | -0.1015228 | -0.1855748 | -0.5290737 | 0.0025129 | -0.5427001 | -0.4790347 | -0.8861638 | -1.0563116 | -1.2618731 | -1.6826272 | -2.0659231 |
| (600,700] | 1.1409764 | 0.0011160 | -0.5080827 | 0.0489279 | 0.9809090 | 3.3320317 | 3.4141842 | 1.3579241 | -0.0936028 | -0.2225595 | 0.0748108 | 0.5744050 | -0.0451001 | 0.1187971 | -0.2316108 | -0.4560406 | -0.8210162 | -1.0570268 | -1.8118735 |
| (700,800] | 0.7670116 | 0.0012022 | -0.5771635 | 0.0881567 | 0.7545504 | 3.2979463 | 3.3507142 | 1.2017659 | -0.1058950 | -0.2231471 | 0.7804053 | 1.2337568 | 0.7121459 | 0.6956484 | 0.3090615 | 0.0306146 | -0.2964289 | -0.5697410 | -1.4106755 |
| (800,900] | 1.5282540 | 0.0012752 | -0.6120086 | -0.0265203 | 0.8342980 | 3.5471337 | 3.6422431 | 1.2125694 | -0.1160607 | -0.2445540 | -0.0271684 | 0.5930484 | -0.0734735 | -0.0028435 | -0.3961067 | -0.7700411 | -0.9691161 | -1.4007211 | -2.2804818 |
| (900,1e+03] | 1.2954871 | 0.0012632 | -0.5658598 | -0.1862587 | 1.2165192 | 4.3727768 | 4.3572416 | 1.7268202 | -0.0929041 | -0.2511175 | -0.2447057 | 0.2601544 | -0.3349577 | -0.3722939 | -0.6773608 | -1.0073868 | -1.4813024 | -1.8648795 | -2.3703852 |
Algunas intepretaciones son:
Al pasar de la jornada de la mañana a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 1.216.
Al pasar de la jornada de la noche a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 4.373.
Al pasar de la jornada de la sabatina-dominial a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 4.357.
Al pasar de la jornada de la tarde a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 1.727.
Al pasar del nivel de pobreza 3 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (700, 800] vs los otros grupos aumentan en 1.234.
Al pasar del nivel de pobreza 7 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (500, 600] vs los otros grupos disminuye en 1.056.
Al pasar del nivel de pobreza 8 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 1.481.
Al pasar del nivel de pobreza 9 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 1.864.
Al pasar del nivel de pobreza 8 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 2.370.
Se mirara la tabla de la significancia de los parámetros del modelo
| (Intercept) | ESTU_EDAD | ESTU_GENEROM | COLE_NATURALEZAO | COLE_INST_JORNADAMAÑANA | COLE_INST_JORNADANOCHE | COLE_INST_JORNADASABATINA - DOMINICAL | COLE_INST_JORNADATARDE | FAMI_COD_EDUCA_PADRE | FAMI_COD_EDUCA_MADRE | pobreza2 | pobreza3 | pobreza4 | pobreza5 | pobreza6 | pobreza7 | pobreza8 | pobreza9 | pobreza10 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (100,200] | 0.1214793 | 0.7841259 | 0.0412875 | 0.0000000 | 0.0247214 | 0.0004702 | 0.0001649 | 8.7e-06 | 0 | 0 | 0.2894467 | 0.0035249 | 0.4016109 | 0.0447786 | 0.3608035 | 0.5402665 | 0.8058196 | 0.5262808 | 0.3511740 |
| (200,300] | 0.1185521 | 0.0921226 | 0.0000002 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.0420555 | 0.0000318 | 0.0378110 | 0.0158358 | 0.1313704 | 0.2547375 | 0.4103065 | 0.9250059 | 0.2588980 |
| (300,400] | 0.0000006 | 0.0047617 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.3923141 | 0.0021748 | 0.4983503 | 0.1745590 | 0.5429925 | 0.2545671 | 0.0281646 | 0.0054887 | 0.0000002 |
| (400,500] | 0.0107553 | 0.0052200 | 0.0000000 | 0.0000006 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.0328497 | 0.0000096 | 0.0503663 | 0.0046540 | 0.3377366 | 0.7072722 | 0.3111553 | 0.0441111 | 0.0000008 |
| (500,600] | 0.0000000 | 0.1424798 | 0.0000000 | 0.0000871 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.0072473 | 0.9886828 | 0.0002814 | 0.0007420 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 |
| (600,700] | 0.0000000 | 0.0015765 | 0.0000000 | 0.3935470 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.7223654 | 0.0029482 | 0.7894838 | 0.4628801 | 0.1348995 | 0.0025148 | 0.0000001 | 0.0000000 | 0.0000000 |
| (700,800] | 0.0001196 | 0.0006169 | 0.0000000 | 0.1295103 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.0008245 | 0.0000000 | 0.0003155 | 0.0003078 | 0.0987921 | 0.8679380 | 0.1076223 | 0.0026007 | 0.0000000 |
| (800,900] | 0.0000000 | 0.0002912 | 0.0000000 | 0.6530337 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.8936806 | 0.0013378 | 0.6461271 | 0.9852009 | 0.0067933 | 0.0000001 | 0.0000000 | 0.0000000 | 0.0000000 |
| (900,1e+03] | 0.0000000 | 0.0003699 | 0.0000000 | 0.0016629 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0e+00 | 0 | 0 | 0.2084752 | 0.1408352 | 0.0253727 | 0.0094070 | 0.0000006 | 0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 |
De la tabla anterior, en general todas las covariables son significativas, ya que al menos en alguna de las subpoblaciones se rechaza la hipotesis nula, por lo tanto el rendimiento académico se ve afectado por las variables propuestas.
Comparación de las predicciones con las observaciones
| (0,100] | (100,200] | (200,300] | (300,400] | (400,500] | (500,600] | (600,700] | (700,800] | (800,900] | (900,1e+03] | |
|---|---|---|---|---|---|---|---|---|---|---|
| (0,100] | 3893 | 1045 | 406 | 129 | 85 | 212 | 70 | 59 | 6 | 37 |
| (100,200] | 2071 | 1263 | 555 | 216 | 174 | 473 | 107 | 165 | 16 | 139 |
| (200,300] | 1334 | 1132 | 649 | 233 | 178 | 547 | 152 | 212 | 32 | 248 |
| (300,400] | 1054 | 988 | 535 | 260 | 217 | 611 | 156 | 276 | 47 | 376 |
| (400,500] | 787 | 855 | 510 | 255 | 197 | 634 | 174 | 268 | 45 | 478 |
| (500,600] | 647 | 753 | 521 | 230 | 201 | 686 | 215 | 317 | 70 | 619 |
| (600,700] | 517 | 663 | 461 | 198 | 180 | 622 | 201 | 314 | 72 | 841 |
| (700,800] | 450 | 563 | 383 | 196 | 158 | 633 | 193 | 361 | 98 | 930 |
| (800,900] | 354 | 476 | 324 | 147 | 134 | 552 | 187 | 307 | 94 | 1112 |
| (900,1e+03] | 313 | 336 | 294 | 113 | 95 | 447 | 202 | 289 | 84 | 1346 |
El modelo es capaz de clasificar correctamente 0.2031321` de las observaciones de ajuste. Si se analiza en detalle cómo se distribuye el error, se aprecia que el modelo no ha sido capaz de identificar correctamente a los alumnos. Se propone utilizar otra clase de modelos que permita penalizar el error.
Conclusiones
Aunque los modelos no son adecuados para realizar predicciones, los resultados obtenidos sugieren que las variables propuestas, en el contexto de los resultados de las pruebas saber son relevantes, sin embargo, se recomienda estudiar otro tipo de modelos o mejorar los que se tienen.
En los dos modelos se observo que las variables que mas afectaban la probabilidad de pertener a un grupo o otro fueron la jornada del colegio y el nivel de pobreza; por lo tanto estas dos variables son importantes estudiarlas a fondo con modelos que puedan optimizar el error de falsos positivos, ya que se observan que afectan el resultado de las pruebas saber.
Mediante el modelo de Regresión Logística Multinomial, se determinó que la probabilidad de pertenecer al grupo (900, 1000] aumenta a medida que aumenta nivel de pobreza.
Se recomienda aplicar modelos optimizando el error de falsos positivos.
Referencias
de Respuesta, C. D. D. E. L. C. O. (n.d.). DICCIONARIO DE VARIABLES SABER 11° PERIODO 2013-20141. Gov.Co. Retrieved August 7, 2021, from https://www.icfes.gov.co/documents/20143/517898/Diccionario%20saber%2011%202013%201%20a%202014%201.pdf
PreICFES. (2012, May 6). ICFES, que es y para que sirve el examen de estado. Icfesinteractivo.info. https://icfesinteractivo.info/que-es/
Pruebas Saber - ..::Ministerio de Educaci�n Nacional de Colombia:: (n.d.). Gov.Co. Retrieved August 7, 2021, from https://www.mineducacion.gov.co/1621/w3-article-244735.html
Rodríguez Dueñas, F. J., Benavides Gutiérrez2, H. L., & Riascos Villegas, A. J. (2018, 2 octubre). Predicción del desempeño académico usando técnicas de aprendizaje de máquinas. ICFES. https://www.icfes.gov.co/documents/20143/234129/Prediccion+desempeno+academico+usando+un+enfoque+de+mineria+de+datos.pdf/0e5d0f1d-20ac-dffc-f3f1-88ccfde6b0bc