Diseño de un prototipo inteligente de alerta temprana para prevenir la deserción en programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB)

dc.contributor.advisorBarrera Buitrago, Dayana Alejandra
dc.contributor.advisorSuarez Arias, Rafael Enrique
dc.contributor.authorGarcia Arias, Leidy Daniela
dc.contributor.authorAviles Villalba, Edier
dc.contributor.cvlacBarrera Buitrago, Dayana Alejandra [0000104941]spa
dc.contributor.orcidBarrera Buitrago, Dayana Alejandra [0000-0001-8867-9705]spa
dc.coverage.campusUNAB Campus Bucaramangaspa
dc.coverage.spatialBucaramanga (Santander, Colombia)spa
dc.coverage.temporalOctubre de 2025spa
dc.date.accessioned2026-03-11T22:27:19Z
dc.date.available2026-03-11T22:27:19Z
dc.date.issued2026-02-21
dc.degree.nameMagíster en Ciencia de Datosspa
dc.description.abstractLa deserción estudiantil en la educación superior constituyó un problema relevante en los programas de ingeniería, debido a la interacción de factores académicos, socioeconómicos y psicoemocionales que afectaron la permanencia estudiantil. En este estudio se analizó el fenómeno desde un enfoque basado en ciencia de datos, con el fin de identificar de manera temprana a los estudiantes en riesgo de abandono y apoyar la toma de decisiones institucionales orientadas a la retención. El proyecto tuvo como objetivo diseñar y evaluar un prototipo inteligente de alertas tempranas para la predicción del riesgo de deserción estudiantil en los programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB), a partir del análisis de datos institucionales históricos correspondientes al período 2020–2024. La investigación se desarrolló bajo un enfoque cuantitativo, aplicado y explicativo, siguiendo las fases de la metodología CRISP-DM: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado y evaluación. Se trabajó con una base de datos institucional conformada por 5.745 registros de estudiantes, sobre la cual se realizaron procesos de análisis exploratorio, limpieza de datos, tratamiento de valores atípicos, balanceo de clases mediante SMOTE y modelado predictivo. Se evaluaron algoritmos de aprendizaje supervisado como regresión logística, árboles de decisión, bosques aleatorios y máquinas de vectores de soporte, utilizando validación cruzada. Los resultados cuantitativos evidenciaron que el modelo de regresión logística presentó el mejor desempeño predictivo, alcanzando valores de accuracy (0.9942), recall (0.8666) y F1-score (0.8387), lo que permitió un adecuado equilibrio entre la detección de estudiantes en riesgo y la reducción de clasificaciones erróneas. Con base en este modelo, se desarrolló un prototipo funcional implementado en Python y Streamlit, el cual permitió visualizar el nivel de riesgo individual y generar alertas tempranas para el acompañamiento académico. Las conclusiones del estudio validaron que el prototipo inteligente desarrollado resultó efectivo como herramienta de apoyo institucional para la identificación temprana del riesgo de deserción estudiantil, contribuyendo a la toma de decisiones informadas y al fortalecimiento de las estrategias de permanencia en los programas de ingeniería de la UNAB. Palabras clave: deserción estudiantil, aprendizaje automático, analítica educativa, modelos predictivos, sistemas de alerta temprana.spa
dc.description.abstractenglishStudent dropout in higher education constituted a significant problem in engineering programs due to the interaction of academic, socioeconomic, and psycho-emotional factors that affected student retention. This study analyzed the phenomenon from a data science–based approach in order to identify, at an early stage, students at risk of dropping out and support institutional decision-making aimed at improving retention. The objective of the project was to design and evaluate an intelligent early warning prototype to predict the risk of student dropout in the engineering programs at the Autonomous University of Bucaramanga (UNAB), based on the analysis of historical institutional data from the 2020–2024 period. The research was conducted under a quantitative, applied, and explanatory approach, following the phases of the CRISP-DM methodology: business understanding, data understanding, data preparation, modeling, and evaluation. An institutional database comprising 5,745 student records was used, on which exploratory analysis, data cleaning, outlier treatment, class balancing using SMOTE, and predictive modeling were performed. Supervised learning algorithms such as logistic regression, decision trees, random forests, and support vector machines were evaluated using cross-validation. The quantitative results showed that the logistic regression model achieved the best predictive performance, reaching an accuracy (0.9942), a recall (0.8666), and an F1-score (0.8387), allowing for an appropriate balance between identifying at-risk students and reducing misclassifications. Based on this model, a functional prototype implemented in Python and Streamlit was developed, enabling the visualization of individual risk levels and the generation of early alerts for academic support. The study’s conclusions validated that the intelligent prototype developed proved effective as an institutional support tool for the early identification of student dropout risk, contributing to informed decision-making and strengthening retention strategies in UNAB’s engineering programs. Keywords: student dropout, machine learning, educational analytics, predictive models, early warning systems.spa
dc.description.degreelevelMaestríaspa
dc.description.learningmodalityModalidad Virtualspa
dc.description.tableofcontentsINTRODUCCIÓN 13 1. PROBLEMA, PREGUNTA, HIPÓTESIS Y JUSTIFICACIÓN DE LA INVESTIGACIÓN 15 1.2 PREGUNTA DE INVESTIGACIÓN 18 1.3 HIPÓTESIS CUALITATIVAS 18 1.4 JUSTIFICACIÓN 18 1.5 OBJETIVOS DEL PROYECTO 20 1.5.1 OBJETIVO GENERAL 20 1.5.2 OBJETIVOS ESPECÍFICOS 20 2. MARCO REFERENCIAL 21 2.1 MARCO TEÓRICO CONCEPTUAL 21 2.1.1 Fundamentos de los Algoritmos de Supervisado 23 2.1.2 Métricas de Evaluación y Validación de Modelos de Machine Learning 25 2.1.3 Herramientas Tecnológicas en Machine Learning 32 2.2 MARCO NORMATIVO 35 2.3 ANTECEDENTES 37 2.4 MARCO CONTEXTUAL 39 2.5 REVISIÓN DE LITERATURA 40 3. ASPECTOS METODOLÓGICOS DEL PROYECTO 45 3.1 ENFOQUE Y TIPO DE INVESTIGACIÓN 46 3.2 TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE INFORMACIÓN 48 3.3 POBLACIÓN/UNIVERSO Y MUESTRA 49 3.4 FASES DE LA INVESTIGACIÓN 50 3.4.1 Fase 1. Comprensión del negocio 51 3.4.2 Fase 2. Comprensión de los Datos 53 3.4.3 Fase 3. Preparación de los datos. 59 3.4.4 Fase 4. Modelado 62 3.4.5 Fase 5. Evaluación del desempeño de los modelos. 63 3.4.6 Fase 6. Implementación y validación. 63 3.5 ACTIVIDADES INVESTIGATIVAS REALIZADAS 65 3.5.1 Actividad investigativa No. 1: Realización del diagnóstico documental, bibliográfico e institucional sobre la deserción en programas de ingeniería. 67 3.5.2 Actividad investigativa No. 2: Ejecución del análisis exploratorio y caracterización de las variables institucionales relacionadas con la deserción. 68 3.5.3 Actividad investigativa No. 3: Preparación, limpieza, transformación y balanceo del conjunto de datos institucional. 70 3.5.4 Actividad investigativa No. 4: Construcción y entrenamiento de modelos predictivos utilizando algoritmos supervisados. 71 3.5.5 Actividad investigativa No. 5: Evaluación comparativa del desempeño de los modelos y selección de los modelos óptimos. 72 3.5.6 Actividad investigativa No. 6: Desarrollo e implementación del prototipo inteligente de alertas tempranas basado en el modelo seleccionado. 73 3.6 ASPECTOS ÉTICOS 74 4. RESULTADOS 75 4.1 Resultado 1. Identificación de factores asociados a la deserción estudiantil en programas de ingeniería. 75 4.2 Resultado 2. Selección de técnicas de Machine Learning para la predicción del riesgo de deserción estudiantil. 77 4.3 Resultado 3. Comparación del desempeño de los modelos de Machine Learning para la predicción del riesgo de deserción estudiantil. 78 4.4 Resultado 4. Diseño del prototipo inteligente de alertas tempranas para la predicción del riesgo de deserción estudiantil. 85 4.5 Resultado 5. Evaluación del prototipo inteligente de alertas tempranas para la prevención de la deserción estudiantil. 87 5. CONCLUSIONES 91 6. RECOMENDACIONES 93 7. REFERENCIAS 95 8. APÉNDICE 107 8.1 Apéndice A. Código fuente del prototipo de deserción. 107 8.2 Apéndice B. Prototipo Inteligente de alertas tempranas. 143 8.3 Apéndice C. Glosario 158spa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameinstname:Universidad Autónoma de Bucaramanga - UNABspa
dc.identifier.reponamereponame:Repositorio Institucional UNABspa
dc.identifier.repourlrepourl:https://repository.unab.edu.cospa
dc.identifier.urihttp://hdl.handle.net/20.500.12749/33446
dc.language.isospaspa
dc.publisher.facultyFacultad Ingenieríaspa
dc.publisher.grantorUniversidad Autónoma de Bucaramanga UNABspa
dc.publisher.programMaestría en Ciencia de Datosspa
dc.publisher.programidMCD-3070
dc.relation.referencesAguilar, R. (2024). Aplicación de inteligencia artificial en educación superior: Una revisión sistemática. Revista de Innovación Educativa, 29(1), 45–60.spa
dc.relation.referencesAlapont, L. (2020). Ética y gobernanza de datos en la educación digital. Ediciones Universidad Abierta.spa
dc.relation.referencesBravo, S., & Herrera, P. (2020). Factores asociados a la deserción universitaria en carreras de ingeniería. Revista Colombiana de Educación, 78(1), 89–108.spa
dc.relation.referencesCastiblanco Vargas, W., Fonseca Gómez, L., & Pineda‑Ríos, W. (2021). Detección de alertas tempranas para la prevención de la deserción estudiantil en una universidad colombiana. Conocimiento Global, 6(S2), 408–426. https://doi.org/10.70165/cglobal.v6iS2.243spa
dc.relation.referencesCeballos-Carrascal, D., Pérez, M. A., & Martínez, J. (2020). La permanencia en la educación superior: desafíos institucionales. Revista Educación y Sociedad, 33(2), 77– 93.spa
dc.relation.referencesHerrero, M., Fernández, A., & Gil del Pino, C. (2021). Estrategias institucionales frente a la deserción universitaria en entornos híbridos. Revista Iberoamericana de Educación, 87(3), 101–115.spa
dc.relation.referencesMenéndez-Ferreira, R., Torregrosa, M. J., & Camacho, M. (2020). Modelos predictivos aplicados a la deserción universitaria. Revista Española de Pedagogía, 78(276), 251– 270. https://doi.org/10.22550/REP78-2-2020-03spa
dc.relation.referencesMinisterio de Educación Nacional. (2025). SPADIES – Estadísticas de deserción y permanencia 2022. https://www.mineducacion.gov.co/sistemasinfo/spadiesspa
dc.relation.referencesPérez Ruiz, M., Cárdenas Anzaldo, S., & Ramírez Martínez, G. (2024). Modelos de intervención educativa con inteligencia artificial para prevenir la deserción. Revista Mexicana de Investigación Educativa, 29(2), 140–159spa
dc.relation.referencesRuiz-Moral, R., Gómez-Díaz, M., & López, M. (2021). Retención en la universidad: efectos del acompañamiento docente. Educación XX1, 24(1), 45–66. https://doi.org/10.5944/educxx1.27265spa
dc.relation.referencesSantos, A. (2020). Privacidad y análisis de datos estudiantiles: implicaciones éticas. Revista Educación Digital, 15(2), 88–102.spa
dc.relation.referencesSosa-Compeán, C., Gutiérrez, R., & Ramírez, L. (2022). Predicción de abandono académico mediante técnicas de minería de datos. Revista Iberoamericana de Tecnología Educativa, 17(1), 24–39.spa
dc.relation.referencesTenorio-Escobar, C. (2022). Modelos de ciencia de datos para la permanencia universitaria. Revista Colombiana de Computación, 23(2), 55–74.spa
dc.relation.referencesValenzuela, A., & Fernández, L. (2020). Diagnóstico sobre la deserción universitaria en ingeniería en América Latina. Ingeniería y Sociedad, 10(1), 22–35spa
dc.relation.referencesVillarejo, B., Ortega, M. J., & Jiménez, M. (2024). Aprendizaje activo y retención estudiantil en ingeniería: estudio longitudinal. Journal of Engineering Education Research, 9(1), 13–27. https://doi.org/10.12345/jeer.2024.013spa
dc.relation.referencesMinisterio de Educación Nacional. (2021). Compendio estadístico de la educación superior colombiana: deserción acumulada en programas universitarios. Ministerio de Educación Nacional de Colombia.spa
dc.relation.referencesPérez, B., Castellanos, C., & Correal, D. (2018). Applying Data Mining Techniques to Predict Student Dropout: A Case Study. IEEE Colombian Conference on Applications in Computational Intelligence, 1–6. https://doi.org/10.1109/COLCACI.2018.8484847spa
dc.relation.referencesPal, S. (2012). Mining Educational Data to Reduce Dropout Rates of Engineering Students. International Journal of Information Engineering and Electronic Business, 4(2), 1–7. https://doi.org/10.5815/IJIEEB.2012.02.01spa
dc.relation.referencesVega, H., Saenz, E., De La Cruz, P., Moquillaza, S., & Pretell, J. (2022). Intelligent System to Predict University Students Dropout. International Journal of Online and Biomedical Engineering, 18(7). https://doi.org/10.3991/ijoe.v18i07.30195spa
dc.relation.referencesMussida, P., & Lanzi, P. (2022). A Computational Tool for Engineer Dropout Prediction. IEEE Global Engineering Education Conference (EDUCON), 1571–1576. https://doi.org/10.1109/EDUCON52537.2022.9766632spa
dc.relation.referencesAlvarez, N. L., Callejas, Z., & Griol, D. (2020). Predicting Computer Engineering Students’ Dropout in Cuban Higher Education. Journal of Technology and Science Education, 10(2), 241–258. https://doi.org/10.3926/jotse.922spa
dc.relation.referencesSultana, S., Khan, S., & Abbas, M. A. (2017). Predicting Performance of Electrical Engineering Students Using Cognitive and Non-Cognitive Features. International Journal of Electrical Engineering Education, 54(2), 105–118. https://doi.org/10.1177/0020720916688484spa
dc.relation.referencesTenjo-García, J. S., & Figueroa–García, J. C. (2024). Analysis of Student Dropout in Industrial Engineering Students Using Computational Intelligence Techniques. IEEE EDUNINE, 1–6. https://doi.org/10.1109/EDUNINE60625.2024.10500602spa
dc.relation.referencesAziz, N. (2025). Predicting First-Year Engineering Student Dropout: A Case Study. 3rd International Conference on Engineering and Innovative Technology. https://doi.org/10.31972/iceit2024.010spa
dc.relation.referencesDeb, S., Sammy, M. S. R., Tusher, A. N., Sakib, M. R. S., Hasan, M. F., & Aunik, A. I. (2024). Predicting Student Dropout: A Machine Learning Approach. 15th International Conference on Computing Communication and Networking Technologies (ICCCNT), 1– 7. https://doi.org/10.1109/ICCCNT61001.2024.10726161spa
dc.relation.referencesFernández-García, A., Preciado, J. C., Melchor, F., Rodríguez-Echeverría, R., Conejero, J., & Sánchez-Figueroa, F. (2021). A Real-Life Machine Learning Experience for Predicting University Dropout. IEEE Access, 9, 133076–133090. https://doi.org/10.1109/ACCESS.2021.3115851spa
dc.relation.referencesSilva, M. L., Oliveira, S., Santos, M. M., & Scalco, A. (2020). An Analysis of Student Dropout in Engineering Courses. Research, Society and Development, 9(8), 70985159. https://doi.org/10.33448/RSD-V9I8.5159spa
dc.relation.referencesOrozco-Rodríguez, C., Viegas, C., Costa, A. R., Lima, N., & Alves, G. R. (2025). Dropout Rate Model Analysis at an Engineering School. Education Sciences, 15(3). https://doi.org/10.3390/educsci15030287spa
dc.relation.referencesAlruwais, N. (2023). Deep FM-Based Predictive Model for Student Dropout in Online Classes. IEEE Access, 11, 96954–96970. https://doi.org/10.1109/ACCESS.2023.3312150spa
dc.relation.referencesAhmed, S. A., & Khan, S. I. (2019). A Machine Learning Approach to Predict Engineering Students at Risk of Dropout: Bangladesh Perspective. 10th ICCCNT, 1–6. https://doi.org/10.1109/icccnt45670.2019.8944511spa
dc.relation.referencesMustafa, M. N., Chowdhury, L., & Kamal, M. S. (2012). Students Dropout Prediction for Intelligent System in Developing Country. IEEE ICIEV, 113–118. https://doi.org/10.1109/ICIEV.2012.6317441spa
dc.relation.referencesCongreso de Colombia. (1992). Ley 30 de 1992 por la cual se organiza el servicio público de la Educación Superior. Diario Oficial No. 40.700spa
dc.relation.referencesGobierno de Colombia. (2003). Decreto 2566 de 2003: Por el cual se establecen las condiciones mínimas de calidad de los programas de educación superior. Diario Oficial No. 45.277spa
dc.relation.referencesGobierno de Colombia. (2020). Decreto 662 de 2020: Por el cual se crea el Fondo Solidario para la Educación. Diario Oficial No. 51.285spa
dc.relation.referencesGobierno de Colombia. (2021). Decreto 1667 de 2021: Por el cual se reglamentan los beneficios de gratuidad en matrícula para estudiantes de pregrado en instituciones oficiales. Diario Oficial No. 51.860spa
dc.relation.referencesGobierno de Colombia. (2023). Decreto 2269 de 2023: Por el cual se modifica la estructura del Ministerio de Educación Nacional. Diario Oficial No. 52.491spa
dc.relation.referencesMinisterio de Educación Nacional [MEN]. (2022). Nota técnica SPADIES – SNIES: Estadísticas de deserción y permanencia. Bogotá: MEN.spa
dc.relation.referencesEuropean Parliament & Council. (2016). General Data Protection Regulation (EU) 2016/679 (GDPR). Official Journal of the European Union, L119.spa
dc.relation.referencesU.S. Department of Education. (1974). Family Educational Rights and Privacy Act (FERPA), 20 U.S.C. § 1232gspa
dc.relation.referencesUNESCO. (2021). Minding the data: Protecting learners’ privacy and security. Paris: United Nations Educational, Scientific and Cultural Organization. https://unesdoc.unesco.org/ark:/48223/pf0000381494spa
dc.relation.referencesInternational Organization for Standardization. (2013). ISO/IEC 27001:2013 – Information technology – Security techniques – Information security management systems – Requirements. Geneva: ISOspa
dc.relation.referencesOrganisation for Economic Co-operation and Development [OECD]. (2007). OECD guidelines on the protection of privacy and transborder flows of personal data. Paris: OECD Publishingspa
dc.relation.referencesAsia-Pacific Economic Cooperation [APEC]. (2004). APEC Privacy Framework. Singapore: APEC Secretariat.spa
dc.relation.referencesLiu, Q., Shakya, R., Khalil, M., & Jovanovic, J. (2025). Advancing privacy in learning analytics using differential privacy. In Proceedings of the 15th International Learning Analytics and Knowledge Conference (LAK 2025) (pp. XX–XX). ACM. https://doi.org/10.1145/3706468.3706493spa
dc.relation.referencesHe, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 770–778). https://doi.org/10.1109/CVPR.2016.90spa
dc.relation.referencesRoda-Segarra, J., de-la-Peña, C., & Mengual-Andrés, S. (2024). Effectiveness of Artificial Intelligence Models for Predicting School Dropout: A Meta-Analysis. https://doi.org/10.17583/remie.13342spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.subject.keywordsStudent dropoutspa
dc.subject.keywordsMachine learningspa
dc.subject.keywordsEducational analyticsspa
dc.subject.keywordsPredictive modelsspa
dc.subject.keywordsEarly warning systemsspa
dc.subject.keywordsPrototype developmentspa
dc.subject.keywordsArtificial intelligencespa
dc.subject.keywordsUniversity studentsspa
dc.subject.keywordsComputer software (Development)spa
dc.subject.keywordsMachine learning (Artificial intelligence)spa
dc.subject.lembDesarrollo de prototiposspa
dc.subject.lembInteligencia artificialspa
dc.subject.lembEstudiantes universitariosspa
dc.subject.lembDesarrollo de softwarespa
dc.subject.lembAprendizaje automático (Inteligencia artificial)spa
dc.subject.proposalDeserción estudiantilspa
dc.subject.proposalAprendizaje automáticospa
dc.subject.proposalAnalítica educativaspa
dc.subject.proposalModelos predictivosspa
dc.subject.proposalSistemas de alerta tempranaspa
dc.titleDiseño de un prototipo inteligente de alerta temprana para prevenir la deserción en programas de ingeniería de la Universidad Autónoma de Bucaramanga (UNAB)spa
dc.title.translatedDesign of a smart early warning prototype to prevent dropouts in engineering programs at the Autonomous University of Bucaramanga (UNAB)spa
dc.typeThesiseng
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersionspa
dc.type.localTesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TM

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
Entrega Final-Proyecto de Grado- Edier Aviles - Leidy Daniela Garcia (1).pdf
Tamaño:
6.7 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis
Cargando...
Miniatura
Nombre:
Licencia.pdf
Tamaño:
846.93 KB
Formato:
Adobe Portable Document Format
Descripción:
Licencia

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
829 B
Formato:
Item-specific license agreed upon to submission
Descripción: