Aplicaciones de la ciencia de datos para las políticas de CTI
El pasado 7 de noviembre tuvo lugar el taller interno en el que se discutieron los avances en la investigación “Análisis de redes sociales, minería de textos y clustering: métodos y aplicaciones de la ciencia de datos para las políticas de CTI”. La presentación estuvo a cargo de Octavio Lerena y estuvieron presentes la directora general del CIECTI, Ruth Ladenheim, los directores Fernando Porta y Miguel Lengyel, y el equipo de investigadores de la institución con quienes se produjo un rico intercambio y debate.
La motivación del estudio es proponer técnicas y aplicaciones para utilizar la ciencia de análisis de grandes masas de datos al servicio del diseño de políticas públicas para la CTI, favoreciendo la toma de decisiones basadas en evidencia.
En su exposición, Octavio Lerena mencionó, entre otros aspectos, que “la investigación de redes sociales provee herramientas para analizar las relaciones entre entidades interdependientes, identificando los nodos y conexiones o aristas; en tanto la minería de textos nos permite extraer hechos o relaciones significativas en grandes extensiones de texto”. Además, manifestó que “la construcción de grandes bases de datos nos da acceso a procesar inmensos volúmenes de información sobre atributos y relaciones de entidades”.
Se refirió también a las técnicas de aprendizaje automático y de clustering, “que contribuyen a detectar comunidades o grupos que emergen de los datos a partir de algoritmos de similaridad”.
Lerena caracterizó a las fuentes de datos útiles para las aplicaciones de inteligencia artificial en tres categorías: datos online generados por humanos, microdatos generados en la gestión y datos generados por fuentes no-humanas. Mencionó como fuentes humanas a las bases de datos bibliográficas, las social-media, los datos de telecomunicaciones, los mercados online y los datos móviles asociados a las apps. En tanto los microdatos generados en la gestión provienen de los programas, de scanners del comercio minorista, del mercado bursátil y bancario, del gobierno abierto y otros. Los datos generados por no-humanos los suministran máquinas, artefactos y sensores de medición y control.
Por otra parte, Lerena explicó el método desarrollado. Describió la etapa de búsqueda mediante la cual se generó el corpus pertinente de datos, al que luego de aplicarle diversas técnicas de ciencia de datos permiten detectar comunidades, sus términos distintivos, los clusters de términos y los temas de debate al interior de esas comunidades.
Finalmente, Octavio Lerena informó que “la agenda para el futuro próximo es la publicación de un documento de trabajo que dé cuenta del potencial de estas técnicas para las políticas de CTI y exponga los resultados de las aplicaciones realizadas así como el análisis de otro tipo de producción científica escrita”.