Predicción de Autolesiones No Suicidas en Estudiantado Univer ...
Abstract
En este estudio se desarrolló un modelo predictivo basado en aprendizaje automático supervisado para identificar al estudiantado universitario en riesgo de conductas autolesivas no suicidas (ANS). Utilizando una muestra de 1230 estudiantes y aplicando técnicas como la regresión logística, bosques aleatorios, máquinas de vectores de soporte, k vecinos más cercanos, Naive Bayes y un modelo ensamblado, se entrenaron y evaluaron diferentes algoritmos para determinar cuál ofrecía mejor desempeño. Tras seleccionar las dieciséis variables más importantes, se dividió el dataset en datos para entrenamiento (80 %) y para prueba (20 %). A fin de corregir el desequilibrio entre las clases con y sin experiencias de autolesiones no suicidas, en los datos de entrenamiento se utilizó la técnica de sobremuestreo de minorías sintéticas, que genera ejemplos sintéticos para balancear los datos. El modelo ensamblado, que combinó varias técnicas de clasificación, fue el más efectivo, alcanzando un recall de 0.85, lo que significa que identificó correctamente al 85 % del estudiantado con ANS. También mostró buen equilibrio con una precisión del 0.72, una puntuación F1 de 0.78 y un AUC-ROC (área bajo la curva de característica operativa del receptor) del 0.81. Estos resultados destacan la utilidad del modelo para apoyar procesos de detección temprana, el cual constituye una herramienta que, si bien no sustituye la evaluación clínica, puede guiar intervenciones preventivas en entornos universitarios. Se recomienda su implementación con supervisión profesional y su validación en contextos diversos para asegurar su eficacia generalizable. [This study developed a supervised machine learning–based predictive model to identify university students at risk of non-suicidal self-injury (NSSI). Using a sample of 1,230 students and applying techniques such as logistic regression, random forests, support vector machines, k-nearest neighbors, Naive Bayes, and an ensemble model, various algorithms were trained and evaluated to determine which performed best. After selecting the sixteen most important variables, the dataset was split into 80% for training and 20% for testing. To address the class imbalance in the training data (many more students without NSSI than with NSSI), the Synthetic Minority Over-sampling Technique (SMOTE) was applied to generate synthetic examples and balance the data. The ensemble model, which combined multiple classification techniques, was the most effective, achieving a recall of 0.85, meaning it correctly identified 85% of students with NSSI. It also showed good balance, with a precision of 0.72, an F1 score of 0.78, and an AUC-ROC (Area Under the Receiver Operating Characteristic Curve) of 0.81. These results highlight the model’s usefulness in supporting early detection processes, offering a tool that, while not a substitute for clinical evaluation, can help guide preventive interventions in university settings. Its implementation is recommended under professional supervision and with validation in diverse contexts to ensure generalizable effectiveness].

