Etiquetado de contenidos

EtiquetadoEn un mundo cada vez más conectado, con acceso a una cantidad de información imposible de leer durante una vida, resulta crítico disponer de herramientas que permitan identificar cuál es más relevante para nuestros propósitos de aprendizaje. Los LCMS (plataformas de gestión de contenidos y aprendizaje online),  y numerosos cursos masivos abiertos online (MOOC) utilizan numerosos recursos digitales como complemento al aprendizaje. Este interesante short paper del 9º Congreso de EDM  nos cuenta cómo un equipo de investigadores de IBM (Divyanshu Bhartiya, Danish Contractor , Sovan Biswas, Bikram Sengupta y Mukesh Mohania ) realizan un algoritmo para trocear textos, y realizar su etiquetado en relación a objetivos de aprendizaje. ¿El sueño de toda biblioteca digital?

Los investigadores aplican un algoritmo de programación dinámica, y lo ponen a prueba aplicándolo sobre  110 documentos científicos etiquetados con 68 objetivos de aprendizaje procedentes de la investigación de D. Contractor, K. Popat, S. Ikbal, S. Negi, B. Sengupta, and M. K. Mohani, sobre Conocimiento Académico y Habilidades (AKS en el paper). El método utilizado se puede describir someramente así: cada frase es transformada en un vector , y los documentos se van segmentando (y convirtiendo en vectores normalizados) en función del grado de similitud que presentan con el vector objetivo, a partir del llamado “coseno de similitud” .

Así, los autores logran etiquetar por semejanzas como la que nos muestran en  la figura:

Ejemplo de etiquetado

Ejemplo de etiquetado de contenidos

Además, para validar el algoritmo, también utlizaron el conjunto de datos disponible en WikiQA, formado por 3047 preguntas procedentes de consultas (querys) en Bing asociadas a párrafos resumidos aparecidos en respuestas procedentes de Wikipedia.

El algoritmo resultante es calificado por los autores como no-supervisado, requiriendo únicamente un pequeño ajuste de parámetros inicial.

Esta aplicación proporciona una primera solución a la compleja tarea de identificar información relevante en lla biblioteca que forma el mar de datos de internet,  y poder transformarla en conocimiento aplicándola adecuadamente a objetivos pedagógicos, gracias a ese “etiquetado” de segmentos de textos.