Actividades y publicacionesARPHAIDestacadosNoticias

Modelos de bajo costo para facilitar la vigilancia epidemiológica automatizada con IA

Este paper, liderado por Viviana Cotik, surge de los resultados  de una de las líneas de trabajo del proyecto ARPHAI enfocada en el fenotipado de historias clínicas electrónicas (HCE), de la tesis de Licenciatura en Ciencias de la Computación de Javier Petri ( dirigido por ella con la co-dirección de Pilar Barcena Barbeira), y de la colaboración puntual para este estudio de Rodrigo Laje. El trabajo, publicado en coautoría con Verónica Xhardez y Martina Pesce, aborda la clasificación automática de historias clínicas electrónicas escritas en español con el objetivo de clasificar historias clínicas de la provincia de La Rioja, Argentina, según la presencia, sospecha o ausencia de COVID-19 en los registros clínicos de los pacientes.

Utilizamos técnicas de procesamiento de lenguaje natural (NLP) para entrenar distintos modelos, desde regresión logística hasta transformers como BETO Clínico y RoBERTa Clínico, preentrenados por nosotros con un dataset de un millón de historias clínicas sin anotar. Si bien los modelos basados en transformers adaptados al español fueron los de mejor desempeño, descubrimos que un modelo simple de regresión logística obtuvo resultados muy cercanos, incluso superando a otros modelos complejos como XGBoost y BiLSTM.

Estos resultados son relevantes porque los modelos simples no solo requieren menos recursos computacionales, sino que además presentaron una mejor correlación con los datos oficiales de vigilancia nacional (SNVS 2.0) que las codificaciones tradicionales basadas en el Código Internacional de Enfermedades (ICD-10). Esto sugiere que, en contextos de emergencia sanitaria y recursos limitados, anotar un pequeño conjunto de historias clínicas y entrenar un modelo sencillo puede ser más rápido y eficaz que realizar una codificación manual.

Estos enfoques resultan especialmente útiles para implementar vigilancia epidemiológica automatizada en sistemas de salud pública, sobre todo cuando los datos no están estandarizados y se cuenta con capacidades técnicas acotadas.
La aplicación de estos modelos puede facilitar la vigilancia epidemiológica automatizada, especialmente en contextos donde los datos no están estandarizados y los recursos técnicos son limitados./ La evidencia obtenida refuerza el valor de implementar modelos simples y eficientes en tareas de vigilancia epidemiológica automatizada, particularmente en escenarios con infraestructura limitada o datos heterogéneos.

Agradecemos a Milagro Teruel, Laura Alonso Alemany, Marina Rojo, Victoria Gisel Dumas, Ignacio Flores, Sibila de Gaudio, Aylén Gonzalez y al resto del equipo de ARPHAI-CIECTI. En particular, agradecemos especialmente el servicio de cómputo del CCAD (FAMAF-UNC) que acompaña al proyecto ARPHAI desde el inicio. 

Ingrese aquí para acceder al paper libremente hasta el 5 de junio.
Para contactar con los/as autores/as: info@ciecti.org.ar

Este trabajo utilizó recursos computacionales de UNC Supercómputo (CCAD) de la Universidad Nacional de Córdoba (https://supercomputo.unc.edu.ar), que forman parte del Sistema Nacional de Computación de Alto Desempeño (SNCAD) de la República Argentina.