Diseño de un prototipo inteligente de alerta temprana para prevenir la deserción en programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB)
| dc.contributor.advisor | Barrera Buitrago, Dayana Alejandra | |
| dc.contributor.advisor | Suarez Arias, Rafael Enrique | |
| dc.contributor.author | Garcia Arias, Leidy Daniela | |
| dc.contributor.author | Aviles Villalba, Edier | |
| dc.contributor.cvlac | Barrera Buitrago, Dayana Alejandra [0000104941] | spa |
| dc.contributor.orcid | Barrera Buitrago, Dayana Alejandra [0000-0001-8867-9705] | spa |
| dc.coverage.campus | UNAB Campus Bucaramanga | spa |
| dc.coverage.spatial | Bucaramanga (Santander, Colombia) | spa |
| dc.coverage.temporal | Octubre de 2025 | spa |
| dc.date.accessioned | 2026-03-11T22:27:19Z | |
| dc.date.available | 2026-03-11T22:27:19Z | |
| dc.date.issued | 2026-02-21 | |
| dc.degree.name | Magíster en Ciencia de Datos | spa |
| dc.description.abstract | La deserción estudiantil en la educación superior constituyó un problema relevante en los programas de ingeniería, debido a la interacción de factores académicos, socioeconómicos y psicoemocionales que afectaron la permanencia estudiantil. En este estudio se analizó el fenómeno desde un enfoque basado en ciencia de datos, con el fin de identificar de manera temprana a los estudiantes en riesgo de abandono y apoyar la toma de decisiones institucionales orientadas a la retención. El proyecto tuvo como objetivo diseñar y evaluar un prototipo inteligente de alertas tempranas para la predicción del riesgo de deserción estudiantil en los programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB), a partir del análisis de datos institucionales históricos correspondientes al período 2020–2024. La investigación se desarrolló bajo un enfoque cuantitativo, aplicado y explicativo, siguiendo las fases de la metodología CRISP-DM: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado y evaluación. Se trabajó con una base de datos institucional conformada por 5.745 registros de estudiantes, sobre la cual se realizaron procesos de análisis exploratorio, limpieza de datos, tratamiento de valores atípicos, balanceo de clases mediante SMOTE y modelado predictivo. Se evaluaron algoritmos de aprendizaje supervisado como regresión logística, árboles de decisión, bosques aleatorios y máquinas de vectores de soporte, utilizando validación cruzada. Los resultados cuantitativos evidenciaron que el modelo de regresión logística presentó el mejor desempeño predictivo, alcanzando valores de accuracy (0.9942), recall (0.8666) y F1-score (0.8387), lo que permitió un adecuado equilibrio entre la detección de estudiantes en riesgo y la reducción de clasificaciones erróneas. Con base en este modelo, se desarrolló un prototipo funcional implementado en Python y Streamlit, el cual permitió visualizar el nivel de riesgo individual y generar alertas tempranas para el acompañamiento académico. Las conclusiones del estudio validaron que el prototipo inteligente desarrollado resultó efectivo como herramienta de apoyo institucional para la identificación temprana del riesgo de deserción estudiantil, contribuyendo a la toma de decisiones informadas y al fortalecimiento de las estrategias de permanencia en los programas de ingeniería de la UNAB. Palabras clave: deserción estudiantil, aprendizaje automático, analítica educativa, modelos predictivos, sistemas de alerta temprana. | spa |
| dc.description.abstractenglish | Student dropout in higher education constituted a significant problem in engineering programs due to the interaction of academic, socioeconomic, and psycho-emotional factors that affected student retention. This study analyzed the phenomenon from a data science–based approach in order to identify, at an early stage, students at risk of dropping out and support institutional decision-making aimed at improving retention. The objective of the project was to design and evaluate an intelligent early warning prototype to predict the risk of student dropout in the engineering programs at the Autonomous University of Bucaramanga (UNAB), based on the analysis of historical institutional data from the 2020–2024 period. The research was conducted under a quantitative, applied, and explanatory approach, following the phases of the CRISP-DM methodology: business understanding, data understanding, data preparation, modeling, and evaluation. An institutional database comprising 5,745 student records was used, on which exploratory analysis, data cleaning, outlier treatment, class balancing using SMOTE, and predictive modeling were performed. Supervised learning algorithms such as logistic regression, decision trees, random forests, and support vector machines were evaluated using cross-validation. The quantitative results showed that the logistic regression model achieved the best predictive performance, reaching an accuracy (0.9942), a recall (0.8666), and an F1-score (0.8387), allowing for an appropriate balance between identifying at-risk students and reducing misclassifications. Based on this model, a functional prototype implemented in Python and Streamlit was developed, enabling the visualization of individual risk levels and the generation of early alerts for academic support. The study’s conclusions validated that the intelligent prototype developed proved effective as an institutional support tool for the early identification of student dropout risk, contributing to informed decision-making and strengthening retention strategies in UNAB’s engineering programs. Keywords: student dropout, machine learning, educational analytics, predictive models, early warning systems. | spa |
| dc.description.degreelevel | Maestría | spa |
| dc.description.learningmodality | Modalidad Virtual | spa |
| dc.description.tableofcontents | INTRODUCCIÓN 13 1. PROBLEMA, PREGUNTA, HIPÓTESIS Y JUSTIFICACIÓN DE LA INVESTIGACIÓN 15 1.2 PREGUNTA DE INVESTIGACIÓN 18 1.3 HIPÓTESIS CUALITATIVAS 18 1.4 JUSTIFICACIÓN 18 1.5 OBJETIVOS DEL PROYECTO 20 1.5.1 OBJETIVO GENERAL 20 1.5.2 OBJETIVOS ESPECÍFICOS 20 2. MARCO REFERENCIAL 21 2.1 MARCO TEÓRICO CONCEPTUAL 21 2.1.1 Fundamentos de los Algoritmos de Supervisado 23 2.1.2 Métricas de Evaluación y Validación de Modelos de Machine Learning 25 2.1.3 Herramientas Tecnológicas en Machine Learning 32 2.2 MARCO NORMATIVO 35 2.3 ANTECEDENTES 37 2.4 MARCO CONTEXTUAL 39 2.5 REVISIÓN DE LITERATURA 40 3. ASPECTOS METODOLÓGICOS DEL PROYECTO 45 3.1 ENFOQUE Y TIPO DE INVESTIGACIÓN 46 3.2 TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE INFORMACIÓN 48 3.3 POBLACIÓN/UNIVERSO Y MUESTRA 49 3.4 FASES DE LA INVESTIGACIÓN 50 3.4.1 Fase 1. Comprensión del negocio 51 3.4.2 Fase 2. Comprensión de los Datos 53 3.4.3 Fase 3. Preparación de los datos. 59 3.4.4 Fase 4. Modelado 62 3.4.5 Fase 5. Evaluación del desempeño de los modelos. 63 3.4.6 Fase 6. Implementación y validación. 63 3.5 ACTIVIDADES INVESTIGATIVAS REALIZADAS 65 3.5.1 Actividad investigativa No. 1: Realización del diagnóstico documental, bibliográfico e institucional sobre la deserción en programas de ingeniería. 67 3.5.2 Actividad investigativa No. 2: Ejecución del análisis exploratorio y caracterización de las variables institucionales relacionadas con la deserción. 68 3.5.3 Actividad investigativa No. 3: Preparación, limpieza, transformación y balanceo del conjunto de datos institucional. 70 3.5.4 Actividad investigativa No. 4: Construcción y entrenamiento de modelos predictivos utilizando algoritmos supervisados. 71 3.5.5 Actividad investigativa No. 5: Evaluación comparativa del desempeño de los modelos y selección de los modelos óptimos. 72 3.5.6 Actividad investigativa No. 6: Desarrollo e implementación del prototipo inteligente de alertas tempranas basado en el modelo seleccionado. 73 3.6 ASPECTOS ÉTICOS 74 4. RESULTADOS 75 4.1 Resultado 1. Identificación de factores asociados a la deserción estudiantil en programas de ingeniería. 75 4.2 Resultado 2. Selección de técnicas de Machine Learning para la predicción del riesgo de deserción estudiantil. 77 4.3 Resultado 3. Comparación del desempeño de los modelos de Machine Learning para la predicción del riesgo de deserción estudiantil. 78 4.4 Resultado 4. Diseño del prototipo inteligente de alertas tempranas para la predicción del riesgo de deserción estudiantil. 85 4.5 Resultado 5. Evaluación del prototipo inteligente de alertas tempranas para la prevención de la deserción estudiantil. 87 5. CONCLUSIONES 91 6. RECOMENDACIONES 93 7. REFERENCIAS 95 8. APÉNDICE 107 8.1 Apéndice A. Código fuente del prototipo de deserción. 107 8.2 Apéndice B. Prototipo Inteligente de alertas tempranas. 143 8.3 Apéndice C. Glosario 158 | spa |
| dc.format.mimetype | application/pdf | spa |
| dc.identifier.instname | instname:Universidad Autónoma de Bucaramanga - UNAB | spa |
| dc.identifier.reponame | reponame:Repositorio Institucional UNAB | spa |
| dc.identifier.repourl | repourl:https://repository.unab.edu.co | spa |
| dc.identifier.uri | http://hdl.handle.net/20.500.12749/33446 | |
| dc.language.iso | spa | spa |
| dc.publisher.faculty | Facultad Ingeniería | spa |
| dc.publisher.grantor | Universidad Autónoma de Bucaramanga UNAB | spa |
| dc.publisher.program | Maestría en Ciencia de Datos | spa |
| dc.publisher.programid | MCD-3070 | |
| dc.relation.references | Aguilar, R. (2024). Aplicación de inteligencia artificial en educación superior: Una revisión sistemática. Revista de Innovación Educativa, 29(1), 45–60. | spa |
| dc.relation.references | Alapont, L. (2020). Ética y gobernanza de datos en la educación digital. Ediciones Universidad Abierta. | spa |
| dc.relation.references | Bravo, S., & Herrera, P. (2020). Factores asociados a la deserción universitaria en carreras de ingeniería. Revista Colombiana de Educación, 78(1), 89–108. | spa |
| dc.relation.references | Castiblanco Vargas, W., Fonseca Gómez, L., & Pineda‑Ríos, W. (2021). Detección de alertas tempranas para la prevención de la deserción estudiantil en una universidad colombiana. Conocimiento Global, 6(S2), 408–426. https://doi.org/10.70165/cglobal.v6iS2.243 | spa |
| dc.relation.references | Ceballos-Carrascal, D., Pérez, M. A., & Martínez, J. (2020). La permanencia en la educación superior: desafíos institucionales. Revista Educación y Sociedad, 33(2), 77– 93. | spa |
| dc.relation.references | Herrero, M., Fernández, A., & Gil del Pino, C. (2021). Estrategias institucionales frente a la deserción universitaria en entornos híbridos. Revista Iberoamericana de Educación, 87(3), 101–115. | spa |
| dc.relation.references | Menéndez-Ferreira, R., Torregrosa, M. J., & Camacho, M. (2020). Modelos predictivos aplicados a la deserción universitaria. Revista Española de Pedagogía, 78(276), 251– 270. https://doi.org/10.22550/REP78-2-2020-03 | spa |
| dc.relation.references | Ministerio de Educación Nacional. (2025). SPADIES – Estadísticas de deserción y permanencia 2022. https://www.mineducacion.gov.co/sistemasinfo/spadies | spa |
| dc.relation.references | Pérez Ruiz, M., Cárdenas Anzaldo, S., & Ramírez Martínez, G. (2024). Modelos de intervención educativa con inteligencia artificial para prevenir la deserción. Revista Mexicana de Investigación Educativa, 29(2), 140–159 | spa |
| dc.relation.references | Ruiz-Moral, R., Gómez-Díaz, M., & López, M. (2021). Retención en la universidad: efectos del acompañamiento docente. Educación XX1, 24(1), 45–66. https://doi.org/10.5944/educxx1.27265 | spa |
| dc.relation.references | Santos, A. (2020). Privacidad y análisis de datos estudiantiles: implicaciones éticas. Revista Educación Digital, 15(2), 88–102. | spa |
| dc.relation.references | Sosa-Compeán, C., Gutiérrez, R., & Ramírez, L. (2022). Predicción de abandono académico mediante técnicas de minería de datos. Revista Iberoamericana de Tecnología Educativa, 17(1), 24–39. | spa |
| dc.relation.references | Tenorio-Escobar, C. (2022). Modelos de ciencia de datos para la permanencia universitaria. Revista Colombiana de Computación, 23(2), 55–74. | spa |
| dc.relation.references | Valenzuela, A., & Fernández, L. (2020). Diagnóstico sobre la deserción universitaria en ingeniería en América Latina. Ingeniería y Sociedad, 10(1), 22–35 | spa |
| dc.relation.references | Villarejo, B., Ortega, M. J., & Jiménez, M. (2024). Aprendizaje activo y retención estudiantil en ingeniería: estudio longitudinal. Journal of Engineering Education Research, 9(1), 13–27. https://doi.org/10.12345/jeer.2024.013 | spa |
| dc.relation.references | Ministerio de Educación Nacional. (2021). Compendio estadístico de la educación superior colombiana: deserción acumulada en programas universitarios. Ministerio de Educación Nacional de Colombia. | spa |
| dc.relation.references | Pérez, B., Castellanos, C., & Correal, D. (2018). Applying Data Mining Techniques to Predict Student Dropout: A Case Study. IEEE Colombian Conference on Applications in Computational Intelligence, 1–6. https://doi.org/10.1109/COLCACI.2018.8484847 | spa |
| dc.relation.references | Pal, S. (2012). Mining Educational Data to Reduce Dropout Rates of Engineering Students. International Journal of Information Engineering and Electronic Business, 4(2), 1–7. https://doi.org/10.5815/IJIEEB.2012.02.01 | spa |
| dc.relation.references | Vega, H., Saenz, E., De La Cruz, P., Moquillaza, S., & Pretell, J. (2022). Intelligent System to Predict University Students Dropout. International Journal of Online and Biomedical Engineering, 18(7). https://doi.org/10.3991/ijoe.v18i07.30195 | spa |
| dc.relation.references | Mussida, P., & Lanzi, P. (2022). A Computational Tool for Engineer Dropout Prediction. IEEE Global Engineering Education Conference (EDUCON), 1571–1576. https://doi.org/10.1109/EDUCON52537.2022.9766632 | spa |
| dc.relation.references | Alvarez, N. L., Callejas, Z., & Griol, D. (2020). Predicting Computer Engineering Students’ Dropout in Cuban Higher Education. Journal of Technology and Science Education, 10(2), 241–258. https://doi.org/10.3926/jotse.922 | spa |
| dc.relation.references | Sultana, S., Khan, S., & Abbas, M. A. (2017). Predicting Performance of Electrical Engineering Students Using Cognitive and Non-Cognitive Features. International Journal of Electrical Engineering Education, 54(2), 105–118. https://doi.org/10.1177/0020720916688484 | spa |
| dc.relation.references | Tenjo-García, J. S., & Figueroa–García, J. C. (2024). Analysis of Student Dropout in Industrial Engineering Students Using Computational Intelligence Techniques. IEEE EDUNINE, 1–6. https://doi.org/10.1109/EDUNINE60625.2024.10500602 | spa |
| dc.relation.references | Aziz, N. (2025). Predicting First-Year Engineering Student Dropout: A Case Study. 3rd International Conference on Engineering and Innovative Technology. https://doi.org/10.31972/iceit2024.010 | spa |
| dc.relation.references | Deb, S., Sammy, M. S. R., Tusher, A. N., Sakib, M. R. S., Hasan, M. F., & Aunik, A. I. (2024). Predicting Student Dropout: A Machine Learning Approach. 15th International Conference on Computing Communication and Networking Technologies (ICCCNT), 1– 7. https://doi.org/10.1109/ICCCNT61001.2024.10726161 | spa |
| dc.relation.references | Fernández-García, A., Preciado, J. C., Melchor, F., Rodríguez-Echeverría, R., Conejero, J., & Sánchez-Figueroa, F. (2021). A Real-Life Machine Learning Experience for Predicting University Dropout. IEEE Access, 9, 133076–133090. https://doi.org/10.1109/ACCESS.2021.3115851 | spa |
| dc.relation.references | Silva, M. L., Oliveira, S., Santos, M. M., & Scalco, A. (2020). An Analysis of Student Dropout in Engineering Courses. Research, Society and Development, 9(8), 70985159. https://doi.org/10.33448/RSD-V9I8.5159 | spa |
| dc.relation.references | Orozco-Rodríguez, C., Viegas, C., Costa, A. R., Lima, N., & Alves, G. R. (2025). Dropout Rate Model Analysis at an Engineering School. Education Sciences, 15(3). https://doi.org/10.3390/educsci15030287 | spa |
| dc.relation.references | Alruwais, N. (2023). Deep FM-Based Predictive Model for Student Dropout in Online Classes. IEEE Access, 11, 96954–96970. https://doi.org/10.1109/ACCESS.2023.3312150 | spa |
| dc.relation.references | Ahmed, S. A., & Khan, S. I. (2019). A Machine Learning Approach to Predict Engineering Students at Risk of Dropout: Bangladesh Perspective. 10th ICCCNT, 1–6. https://doi.org/10.1109/icccnt45670.2019.8944511 | spa |
| dc.relation.references | Mustafa, M. N., Chowdhury, L., & Kamal, M. S. (2012). Students Dropout Prediction for Intelligent System in Developing Country. IEEE ICIEV, 113–118. https://doi.org/10.1109/ICIEV.2012.6317441 | spa |
| dc.relation.references | Congreso de Colombia. (1992). Ley 30 de 1992 por la cual se organiza el servicio público de la Educación Superior. Diario Oficial No. 40.700 | spa |
| dc.relation.references | Gobierno de Colombia. (2003). Decreto 2566 de 2003: Por el cual se establecen las condiciones mínimas de calidad de los programas de educación superior. Diario Oficial No. 45.277 | spa |
| dc.relation.references | Gobierno de Colombia. (2020). Decreto 662 de 2020: Por el cual se crea el Fondo Solidario para la Educación. Diario Oficial No. 51.285 | spa |
| dc.relation.references | Gobierno de Colombia. (2021). Decreto 1667 de 2021: Por el cual se reglamentan los beneficios de gratuidad en matrícula para estudiantes de pregrado en instituciones oficiales. Diario Oficial No. 51.860 | spa |
| dc.relation.references | Gobierno de Colombia. (2023). Decreto 2269 de 2023: Por el cual se modifica la estructura del Ministerio de Educación Nacional. Diario Oficial No. 52.491 | spa |
| dc.relation.references | Ministerio de Educación Nacional [MEN]. (2022). Nota técnica SPADIES – SNIES: Estadísticas de deserción y permanencia. Bogotá: MEN. | spa |
| dc.relation.references | European Parliament & Council. (2016). General Data Protection Regulation (EU) 2016/679 (GDPR). Official Journal of the European Union, L119. | spa |
| dc.relation.references | U.S. Department of Education. (1974). Family Educational Rights and Privacy Act (FERPA), 20 U.S.C. § 1232g | spa |
| dc.relation.references | UNESCO. (2021). Minding the data: Protecting learners’ privacy and security. Paris: United Nations Educational, Scientific and Cultural Organization. https://unesdoc.unesco.org/ark:/48223/pf0000381494 | spa |
| dc.relation.references | International Organization for Standardization. (2013). ISO/IEC 27001:2013 – Information technology – Security techniques – Information security management systems – Requirements. Geneva: ISO | spa |
| dc.relation.references | Organisation for Economic Co-operation and Development [OECD]. (2007). OECD guidelines on the protection of privacy and transborder flows of personal data. Paris: OECD Publishing | spa |
| dc.relation.references | Asia-Pacific Economic Cooperation [APEC]. (2004). APEC Privacy Framework. Singapore: APEC Secretariat. | spa |
| dc.relation.references | Liu, Q., Shakya, R., Khalil, M., & Jovanovic, J. (2025). Advancing privacy in learning analytics using differential privacy. In Proceedings of the 15th International Learning Analytics and Knowledge Conference (LAK 2025) (pp. XX–XX). ACM. https://doi.org/10.1145/3706468.3706493 | spa |
| dc.relation.references | He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 770–778). https://doi.org/10.1109/CVPR.2016.90 | spa |
| dc.relation.references | Roda-Segarra, J., de-la-Peña, C., & Mengual-Andrés, S. (2024). Effectiveness of Artificial Intelligence Models for Predicting School Dropout: A Meta-Analysis. https://doi.org/10.17583/remie.13342 | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 2.5 Colombia | * |
| dc.rights.local | Abierto (Texto Completo) | spa |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | * |
| dc.subject.keywords | Student dropout | spa |
| dc.subject.keywords | Machine learning | spa |
| dc.subject.keywords | Educational analytics | spa |
| dc.subject.keywords | Predictive models | spa |
| dc.subject.keywords | Early warning systems | spa |
| dc.subject.keywords | Prototype development | spa |
| dc.subject.keywords | Artificial intelligence | spa |
| dc.subject.keywords | University students | spa |
| dc.subject.keywords | Computer software (Development) | spa |
| dc.subject.keywords | Machine learning (Artificial intelligence) | spa |
| dc.subject.lemb | Desarrollo de prototipos | spa |
| dc.subject.lemb | Inteligencia artificial | spa |
| dc.subject.lemb | Estudiantes universitarios | spa |
| dc.subject.lemb | Desarrollo de software | spa |
| dc.subject.lemb | Aprendizaje automático (Inteligencia artificial) | spa |
| dc.subject.proposal | Deserción estudiantil | spa |
| dc.subject.proposal | Aprendizaje automático | spa |
| dc.subject.proposal | Analítica educativa | spa |
| dc.subject.proposal | Modelos predictivos | spa |
| dc.subject.proposal | Sistemas de alerta temprana | spa |
| dc.title | Diseño de un prototipo inteligente de alerta temprana para prevenir la deserción en programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB) | spa |
| dc.title.translated | Design of a smart early warning prototype to prevent dropouts in engineering programs at the Autonomous University of Bucaramanga (UNAB) | spa |
| dc.type | Thesis | eng |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | spa |
| dc.type.driver | info:eu-repo/semantics/masterThesis | spa |
| dc.type.hasversion | info:eu-repo/semantics/acceptedVersion | spa |
| dc.type.local | Tesis | spa |
| dc.type.redcol | http://purl.org/redcol/resource_type/TM |
Archivos
Bloque original
1 - 2 de 2
Cargando...
- Nombre:
- Entrega Final-Proyecto de Grado- Edier Aviles - Leidy Daniela Garcia (1).pdf
- Tamaño:
- 6.7 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Tesis
Cargando...
- Nombre:
- Licencia.pdf
- Tamaño:
- 846.93 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Licencia
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 829 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción:
