Traducción al Español del “abstract” o resumen de algunas ponencias  del 9º Congreso de Minería de Datos Educativos, reflexiones y exposición de algunas claves para facilitar su comprensión.

Etiquetado de contenidos

EtiquetadoEn un mundo cada vez más conectado, con acceso a una cantidad de información imposible de leer durante una vida, resulta crítico disponer de herramientas que permitan identificar cuál es más relevante para nuestros propósitos de aprendizaje. Los LCMS (plataformas de gestión de contenidos y aprendizaje online),  y numerosos cursos masivos abiertos online (MOOC) utilizan numerosos recursos digitales como complemento al aprendizaje. Este interesante short paper del 9º Congreso de EDM  nos cuenta cómo un equipo de investigadores de IBM (Divyanshu Bhartiya, Danish Contractor , Sovan Biswas, Bikram Sengupta y Mukesh Mohania ) realizan un algoritmo para trocear textos, y realizar su etiquetado en relación a objetivos de aprendizaje. ¿El sueño de toda biblioteca digital?

Los investigadores aplican un algoritmo de programación dinámica, y lo ponen a prueba aplicándolo sobre  110 documentos científicos etiquetados con 68 objetivos de aprendizaje procedentes de la investigación de D. Contractor, K. Popat, S. Ikbal, S. Negi, B. Sengupta, and M. K. Mohani, sobre Conocimiento Académico y Habilidades (AKS en el paper). El método utilizado se puede describir someramente así: cada frase es transformada en un vector , y los documentos se van segmentando (y convirtiendo en vectores normalizados) en función del grado de similitud que presentan con el vector objetivo, a partir del llamado “coseno de similitud” .

Así, los autores logran etiquetar por semejanzas como la que nos muestran en  la figura:

Ejemplo de etiquetado

Ejemplo de etiquetado de contenidos

Además, para validar el algoritmo, también utlizaron el conjunto de datos disponible en WikiQA, formado por 3047 preguntas procedentes de consultas (querys) en Bing asociadas a párrafos resumidos aparecidos en respuestas procedentes de Wikipedia.

El algoritmo resultante es calificado por los autores como no-supervisado, requiriendo únicamente un pequeño ajuste de parámetros inicial.

Esta aplicación proporciona una primera solución a la compleja tarea de identificar información relevante en lla biblioteca que forma el mar de datos de internet,  y poder transformarla en conocimiento aplicándola adecuadamente a objetivos pedagógicos, gracias a ese “etiquetado” de segmentos de textos.

Tutor automático para aprender a redactar

Wordcloud del post realizado en "R". CC BY de Carlos Delgado

Wordcloud del post realizado en “R”. CC BY de Carlos Delgado

¿Podemos formar a futuros Cervantes o Shakespeare mediante un tutor automático? El equipo de la universidad de Arizona sigue investigando las posibilidades de procesar el Lenguaje Natural, y nos sorprende aplicando a los indicadores de la minería de textos un tutor automático capaz de proporcionar consejos para tu mejora en la redacción de ensayos.

Parten de la base de que la comunicación escrita es una habilidad socio-cognitiva compleja de gran importancia para el éxito académico y profesional. El proceso de escritura requiere conocimiento del lenguaje y dominio de las estrategias de comunicación para adaptarlo a las diferentes necesidades de comunicación social.

Pero igualmente complejo es el reto de mejorar estas habilidades teniendo en cuenta que el déficit en comunicación escrita es diferente para cada persona, y requiere atención personalizada difícil de proporcionar en clases presenciales con numerosos estudiantes.

Para remediar este problema se han ido desarrollando las herramientas de “evaluación automática de la escritura” (AWE en su sigla inglesa), capaces de analizar el lenguaje natural de las personas y extraer conclusiones que se puedan procesar para dar recomendaciones.

Los autores (Laura Allen, Matthew Jacovina, Mihai Dascalu, Rod Roscoe, Kevin Kent, Aaron Likens and Danielle McNamara)  indican que en el desarrollo de estas herramientas a menudo se han descuidado los elementos pedagógicos y retóricos, y  citan la falta de sensibilidad con las diferentes audiencias, giros retóricos y procesos de escritura, que han llevado a unos sistemas tutoriales impersonales y poco efectivos.

En esta ponencia examinan la eficacia de medidas del comportamiento, que como indican, son datos accesibles pero raramente archivados y procesados en los sistemas de enseñanza de la habilidad de escritura.

Uno de sus objetivos a  largo plazo es mejorar el sistema tutorial inteligente denominado Writing Pal (W-Pal), que consideran único en su estrategia de formación y en sus variadas oportunidades de práctica (por ejemplo, práctica basada en juegos y práctica en redacción de ensayos). La estrategia de formación se realiza via presentaciones de video en los procesos de escritura básicos: pre-esritura, borrador y revisión.

Estategias de tutoría automática en escrituura

Estategias de tutoría automática en escrituura

El estudio lo han realizado con los datos de tecleo recogidos de 126 licenciados recogidos por su programa “Tutor automático” (W-Pal). Como otros sistemas AWE, W-Pal utiliza herramientas de análisis de lenguaje natural para extraer información lingüística de los ensayos, e implementa diversos algoritmos para evaluar la calidad y guiar la generación de feedback.

Lo más espectacular de este estudio es el grado de tutorización personalizada que proporciona: Ese feedback formativo está diseñado para ser específico (es capaz de referirse a un párrafo determinado), accionable, y alineado con las estrategias de enseñanza de las lecciones. Por ejemplo, estudiantes que envíen ensayos con unas conclusiones pobres, reciben un feedback sobre cómo resumir los puntos claves de la argumentación en el párrafo de conclusiones.

El análisis de texto lo realizan con dos herramientas conocidas  de análisis de lenguaje natural: WAT y Coh-Metrix (Véase referencia a las mismas en el apartado de HERRAMIENTAS ), y seleccionaron cuatro indicadores de dichas herramientas que habían demostrado un buen ajuste teórico a la calidad de la escritura:

  • Frecuencia de Palabras.
  • Complejidad Sintáctica.
  • Diversidad Semántica.
  • Cohesión Semántica Global.

Por otro lado miden indicadores del comportamiento al teclear, donde combinan intervalos de tiempos de “espera” o latencia, (a las que llaman “ventanas temporales”),  con pulsaciones al teclear, y buscan asociarlos con momentos de creatividad, planificación o revisión del texto que están escribiendo. Indicadores de pulsaciones utilizados van desde la “recurrencia media” de eventos dentro de una ventana temporal, hasta una medida de la entropía.

Los investigadores concluyen que a estos indicadores les queda aún mucho margen de mejora, pero son ciertamente un paso importante para aprovechar este tipo de datos para contribuir a un aprendizaje más efectivo mediante el tutor automático.

Si estas aplicaciones identifican patrones, ¿podremos en un futuro cercano realizar informes o comentarios de textos con el estilo de una determinada personalidad literaria o periodística, simplemente seleccionándolo de un menú desplegable? ¿pueden aprender las máquinas la retórica? ¿nos evaluará un programa para acceder a un trabajo midiendo nuestra capacidad de síntesis, velocidad de escritura y riqueza semántica al redactar un memorandum en un idioma?

Montaña rusa emocional

“¿Qué convierte en ‘una experiencia única’ para un niño resolver un problema de matemáticas ?”. Este es el punto de partida del estudio que  nos proponen estos investigadores del Carnegie Mellon . Se trata de buscar la “montaña rusa emocional” que permita automatizar las tutorías onLine para optimizar la “experiencia de usuario” del estudiante, y lograr así que se “enganche” con el curso, y no solo termine, sino que se divierta.  Pone el foco en cómo optimizar la experiencia a través de un apoyo personalizado al estudiante, y sienta unas bases interesantes con su estudio:

Graban 21 sesiones de tutoría durante 3 semanas de una madre con su hijo de 9 años, mientras este resuelve problemas de matemáticas de una conocida competición de Canadá y Estados Unidos (Math Kangaroo). Desde medir cuándo se divierte, cuándo se sorprende, si está confuso o frustrado, … hasta medir el “sharing” o ratio del tiempo que el tutor está hablando(su madre en esta experiencia) vs tiempo que habla el estudiante  durante las conversaciones tomadas en video. (Véase fig.1)

MomSharing

Fig 1: Tiempo compartido

Así, va observando mediante correlación qué porcentaje de “participación tutorial” permite mantener el interés del estudiante (engagement). Véase fig.2. Y construye un modelo predictivo a partir de ello, mediante un análisis pormenorizado de los videos, y cómo pasa de una emoción a otra (mediante grafos).

Fig2: Engagement

Fig2: Grado de compromiso

El reconocimiento de las emociones no es tan fiable como otros parámetros más sencillos de medir, sin embargo a partir de la experiencia han desarrollado un método para caracterizar las dinámicas de comunicación interpersonal y cuantificar la sincronización entre el sistema tutorial TIC y la actividad de la voz.

Asimismo exploran las interacciones y los estados emocionales en el momento de resolver un problema. (ver fig.3). Es aquí donde se “puede planificar” la “montaña rusa emocional” para que el estudiante se enganche con el curso.

Fig.3-GrafoMultimodal

Fig.3-GrafoMultimodal

El estudio (Lujie (Karen) Chen, Xin Li, Zhuyun Xia, Zhanmei Song (Shangdong Yincai) Louis-Philippe Morency and Artur Dubrawski, del Carnegie Mellon)  concluye que han encontrado indicadores fiables para ITC y el reconocimiento de la actividad de la voz, especialmente los relacionados con la detección de la sorpresa y la diversión, siendo menos fiables para un modelo predictivo, por ahora, los detectores de confusión y frustración.

WordCloud del post realizada por el autor con"R"

WordCloud del post realizada por el autor con”R”

Dejan el camino abierto para extender el estudio con otros estudiantes, incorporar otros indicadores como la perseverancia, y explorar otras modalidades diferenciando mensajes verbales y no-verbales.