Etiquetado de contenidos

EtiquetadoEn un mundo cada vez más conectado, con acceso a una cantidad de información imposible de leer durante una vida, resulta crítico disponer de herramientas que permitan identificar cuál es más relevante para nuestros propósitos de aprendizaje. Los LCMS (plataformas de gestión de contenidos y aprendizaje online),  y numerosos cursos masivos abiertos online (MOOC) utilizan numerosos recursos digitales como complemento al aprendizaje. Este interesante short paper del 9º Congreso de EDM  nos cuenta cómo un equipo de investigadores de IBM (Divyanshu Bhartiya, Danish Contractor , Sovan Biswas, Bikram Sengupta y Mukesh Mohania ) realizan un algoritmo para trocear textos, y realizar su etiquetado en relación a objetivos de aprendizaje. ¿El sueño de toda biblioteca digital?

Los investigadores aplican un algoritmo de programación dinámica, y lo ponen a prueba aplicándolo sobre  110 documentos científicos etiquetados con 68 objetivos de aprendizaje procedentes de la investigación de D. Contractor, K. Popat, S. Ikbal, S. Negi, B. Sengupta, and M. K. Mohani, sobre Conocimiento Académico y Habilidades (AKS en el paper). El método utilizado se puede describir someramente así: cada frase es transformada en un vector , y los documentos se van segmentando (y convirtiendo en vectores normalizados) en función del grado de similitud que presentan con el vector objetivo, a partir del llamado «coseno de similitud» .

Así, los autores logran etiquetar por semejanzas como la que nos muestran en  la figura:

Ejemplo de etiquetado

Ejemplo de etiquetado de contenidos

Además, para validar el algoritmo, también utlizaron el conjunto de datos disponible en WikiQA, formado por 3047 preguntas procedentes de consultas (querys) en Bing asociadas a párrafos resumidos aparecidos en respuestas procedentes de Wikipedia.

El algoritmo resultante es calificado por los autores como no-supervisado, requiriendo únicamente un pequeño ajuste de parámetros inicial.

Esta aplicación proporciona una primera solución a la compleja tarea de identificar información relevante en lla biblioteca que forma el mar de datos de internet,  y poder transformarla en conocimiento aplicándola adecuadamente a objetivos pedagógicos, gracias a ese «etiquetado» de segmentos de textos.

Tutor automático para aprender a redactar

Wordcloud del post realizado en "R". CC BY de Carlos Delgado

Wordcloud del post realizado en «R». CC BY de Carlos Delgado

¿Podemos formar a futuros Cervantes o Shakespeare mediante un tutor automático? El equipo de la universidad de Arizona sigue investigando las posibilidades de procesar el Lenguaje Natural, y nos sorprende aplicando a los indicadores de la minería de textos un tutor automático capaz de proporcionar consejos para tu mejora en la redacción de ensayos.

Parten de la base de que la comunicación escrita es una habilidad socio-cognitiva compleja de gran importancia para el éxito académico y profesional. El proceso de escritura requiere conocimiento del lenguaje y dominio de las estrategias de comunicación para adaptarlo a las diferentes necesidades de comunicación social.

Pero igualmente complejo es el reto de mejorar estas habilidades teniendo en cuenta que el déficit en comunicación escrita es diferente para cada persona, y requiere atención personalizada difícil de proporcionar en clases presenciales con numerosos estudiantes.

Para remediar este problema se han ido desarrollando las herramientas de “evaluación automática de la escritura” (AWE en su sigla inglesa), capaces de analizar el lenguaje natural de las personas y extraer conclusiones que se puedan procesar para dar recomendaciones.

Los autores (Laura Allen, Matthew Jacovina, Mihai Dascalu, Rod Roscoe, Kevin Kent, Aaron Likens and Danielle McNamara)  indican que en el desarrollo de estas herramientas a menudo se han descuidado los elementos pedagógicos y retóricos, y  citan la falta de sensibilidad con las diferentes audiencias, giros retóricos y procesos de escritura, que han llevado a unos sistemas tutoriales impersonales y poco efectivos.

En esta ponencia examinan la eficacia de medidas del comportamiento, que como indican, son datos accesibles pero raramente archivados y procesados en los sistemas de enseñanza de la habilidad de escritura.

Uno de sus objetivos a  largo plazo es mejorar el sistema tutorial inteligente denominado Writing Pal (W-Pal), que consideran único en su estrategia de formación y en sus variadas oportunidades de práctica (por ejemplo, práctica basada en juegos y práctica en redacción de ensayos). La estrategia de formación se realiza via presentaciones de video en los procesos de escritura básicos: pre-esritura, borrador y revisión.

Estategias de tutoría automática en escrituura

Estategias de tutoría automática en escrituura

El estudio lo han realizado con los datos de tecleo recogidos de 126 licenciados recogidos por su programa «Tutor automático» (W-Pal). Como otros sistemas AWE, W-Pal utiliza herramientas de análisis de lenguaje natural para extraer información lingüística de los ensayos, e implementa diversos algoritmos para evaluar la calidad y guiar la generación de feedback.

Lo más espectacular de este estudio es el grado de tutorización personalizada que proporciona: Ese feedback formativo está diseñado para ser específico (es capaz de referirse a un párrafo determinado), accionable, y alineado con las estrategias de enseñanza de las lecciones. Por ejemplo, estudiantes que envíen ensayos con unas conclusiones pobres, reciben un feedback sobre cómo resumir los puntos claves de la argumentación en el párrafo de conclusiones.

El análisis de texto lo realizan con dos herramientas conocidas  de análisis de lenguaje natural: WAT y Coh-Metrix (Véase referencia a las mismas en el apartado de HERRAMIENTAS ), y seleccionaron cuatro indicadores de dichas herramientas que habían demostrado un buen ajuste teórico a la calidad de la escritura:

  • Frecuencia de Palabras.
  • Complejidad Sintáctica.
  • Diversidad Semántica.
  • Cohesión Semántica Global.

Por otro lado miden indicadores del comportamiento al teclear, donde combinan intervalos de tiempos de «espera» o latencia, (a las que llaman «ventanas temporales»),  con pulsaciones al teclear, y buscan asociarlos con momentos de creatividad, planificación o revisión del texto que están escribiendo. Indicadores de pulsaciones utilizados van desde la «recurrencia media» de eventos dentro de una ventana temporal, hasta una medida de la entropía.

Los investigadores concluyen que a estos indicadores les queda aún mucho margen de mejora, pero son ciertamente un paso importante para aprovechar este tipo de datos para contribuir a un aprendizaje más efectivo mediante el tutor automático.

Si estas aplicaciones identifican patrones, ¿podremos en un futuro cercano realizar informes o comentarios de textos con el estilo de una determinada personalidad literaria o periodística, simplemente seleccionándolo de un menú desplegable? ¿pueden aprender las máquinas la retórica? ¿nos evaluará un programa para acceder a un trabajo midiendo nuestra capacidad de síntesis, velocidad de escritura y riqueza semántica al redactar un memorandum en un idioma?

Montaña rusa emocional

“¿Qué convierte en ‘una experiencia única’ para un niño resolver un problema de matemáticas ?”. Este es el punto de partida del estudio que  nos proponen estos investigadores del Carnegie Mellon . Se trata de buscar la “montaña rusa emocional» que permita automatizar las tutorías onLine para optimizar la «experiencia de usuario» del estudiante, y lograr así que se «enganche» con el curso, y no solo termine, sino que se divierta.  Pone el foco en cómo optimizar la experiencia a través de un apoyo personalizado al estudiante, y sienta unas bases interesantes con su estudio:

Graban 21 sesiones de tutoría durante 3 semanas de una madre con su hijo de 9 años, mientras este resuelve problemas de matemáticas de una conocida competición de Canadá y Estados Unidos (Math Kangaroo). Desde medir cuándo se divierte, cuándo se sorprende, si está confuso o frustrado, … hasta medir el “sharing” o ratio del tiempo que el tutor está hablando(su madre en esta experiencia) vs tiempo que habla el estudiante  durante las conversaciones tomadas en video. (Véase fig.1)

MomSharing

Fig 1: Tiempo compartido

Así, va observando mediante correlación qué porcentaje de «participación tutorial» permite mantener el interés del estudiante (engagement). Véase fig.2. Y construye un modelo predictivo a partir de ello, mediante un análisis pormenorizado de los videos, y cómo pasa de una emoción a otra (mediante grafos).

Fig2: Engagement

Fig2: Grado de compromiso

El reconocimiento de las emociones no es tan fiable como otros parámetros más sencillos de medir, sin embargo a partir de la experiencia han desarrollado un método para caracterizar las dinámicas de comunicación interpersonal y cuantificar la sincronización entre el sistema tutorial TIC y la actividad de la voz.

Asimismo exploran las interacciones y los estados emocionales en el momento de resolver un problema. (ver fig.3). Es aquí donde se «puede planificar» la «montaña rusa emocional» para que el estudiante se enganche con el curso.

Fig.3-GrafoMultimodal

Fig.3-GrafoMultimodal

El estudio (Lujie (Karen) Chen, Xin Li, Zhuyun Xia, Zhanmei Song (Shangdong Yincai) Louis-Philippe Morency and Artur Dubrawski, del Carnegie Mellon)  concluye que han encontrado indicadores fiables para ITC y el reconocimiento de la actividad de la voz, especialmente los relacionados con la detección de la sorpresa y la diversión, siendo menos fiables para un modelo predictivo, por ahora, los detectores de confusión y frustración.

WordCloud del post realizada por el autor con"R"

WordCloud del post realizada por el autor con»R»

Dejan el camino abierto para extender el estudio con otros estudiantes, incorporar otros indicadores como la perseverancia, y explorar otras modalidades diferenciando mensajes verbales y no-verbales.

La computación afectiva en el aprendizaje

inteligencia artificial

CC BY : https://laklave.files.wordpress.com/2015/08/

No te pierdas este post de A un clic de las TIC en el que entrevisto a los investigadores Jesús G. Boticario y Olga C. Santos, profundizando en el tema de la computación afectiva aplicada al aprendizaje.

Ellos son miembros del grupo aDeNu (Adaptación dinámica de sistemas de educación on line basada en el modelado del usuario), del departamento de Inteligencia Artificial de la UNED, y organizadores del 8º Congreso de Minería de Datos Educativos, celebrado en Madrid, al que tuve la suerte de poder asistir.

Nos explican cómo está evolucionando esta tecnología, qué aplicaciones tiene la computación afectiva tanto en el aprendizaje como en otros campos, y en qué líneas de investigación están trabajando.

Este grupo dispone de un interesante catálogo de servicios tecnológicos que ofrece la UNED a las empresas. ¿No se ha planteado aplicar las últimas tecnologías del ámbito del aprendizaje en su colegio, instituto, universidad o departamento de formación?

Evaluación dinámica de emociones

Imagen: CC BY (http://www.flickr.com/photos/sybrenstuvel/2468506922/)

CC BY: www.flickr.com/photos/ sybrenstuvel/2468506922

Cada vez hay más evidencias de que determinados aspectos del rendimiento e interacción de un estudiante con el software educativo son predictores del aprendizaje a largo plazo. Se han utilizado modelos de aprendizaje máquina para proporcionar mediciones de la emoción, el comportamiento derivado y el conocimiento basado en el análisis de los datos de estudio en el software de aprendizaje, estimando la probabilidad del estado anímico, conductual o cognitivo de un estudiante. Estas mediciones han predicho con éxito los resultados de exámenes estándar, si bien solían estar limitados a determinados periodos de tiempo.

Valores de Entropía

 

En este estudio presentado en el 8º congreso EDM, los investigadores han empleado un enfoque diferente para relacionar los modelos de conducta y las emociones que las producen con los resultados de aprendizaje, usando métodos dinámicos en el tiempo que evalúan patrones de medida más sensibles (de «grano fino») del estado de ánimo, del comportamiento o del conocimiento conforme aparecen en el tiempo. Para ello han utilizado dos técnicas dinámicas a nivel temporal: exponentes de Hurst (método utilizado por el hidrólogo Edwin Hurst que permite determinar si existe «memoria» a largo plazo en los datos de series temporales,) y puntos de Entropía, indicador estadístico para determinar si la situación afectiva del estudiante es «ordenada» (y predecible) o «desordenada» y completamente impredecible (Véase tabla del modelo final de Hurst y de puntuaciones de entropía).

TablaEntropias_Hurst

Aplicado sobre 1.376 estudiantes durante dos años, los datos se han obtenido de un sistema de tutoría para matemáticas (ASSISTments), y los resultados son bastante significativos estadísticamente, si bien los autores comprueban que a nivel de predicción no son muy diferentes de los que se suelen obtener de una evaluación basándonos en medias de los exámenes estándar.

Nos dejan pues un método que no solo predice el resultado final del aprendizaje en función del estado de ánimo del estudiante durante todo el curso, sino que nos proporciona una lupa que a lo largo del tiempo nos indica los factores que inciden en ello (tedio, frustración, concentración, exactitud, conocimiento, predisposición al juego, confusión)  de manera que se puedan encontrar factores motivacionales y tomar medidas correctoras. Y ojo, no hay aleatoriedad en la medida.

(Ponencia de:  SAN PEDRO,Maria Ofelia, SNOW, Erica , BAKER, Ryan , MCNAMARA, Danielle and HEFFERNAN, Neil : Exploring Dynamical Assessments of Affect, Behavior, and Cognition and Math State Test Achievement).

Assessment “Plantas vs Zombies”

Para medir la competencia de resolución de problemas de los estudiantes, los autores de este estudio han utilizado un «diseño basado en la evidencia» con el famoso juego “Plantas contra Zombies 2”.

El proyecto del «assessmentt» comenzó desarrollando un modelo de una de las competencias  más importantes en el entorno profesional: la de Resolución de Problemas, uno de cuyos modelos responde a las siglas de IDEAL: Idenficar problemas y oportunidades, Definir  metas alternativas, Explorar posibles estrategias, Anticipar resultados y dificultades, y finalmente  “mirar atrás” y aprender (“Look back and learn”).

Los buenos juegos “enganchan”; y  esa capacidad de “enganchar” es vital en el aprendizaje. El proceso seguido en la aplicación del juego a este estudio es el siguiente:

Esquema_PlantasVsZombies

1) Los jugadores proporcionan un flujo continuo de datos en el fichero de registros. 2) estos son procesados con el modelo de evidencias de la competencia, 3) el resultado de este análisis son datos que se pasan al modelo de competencias que 4) finalmente proporcionan la estimación del nivel competencial de la persona.

 

(Ejemplos de evaluación basada en evidencias se han realizado también con juegos como Taiga Park , Oblivion, and World of Goo).

Dividieron la competencia en cuatro componentes:

  • análisis de hipótesis y restricciones
  • planificación de un camino hacia la solución
  • uso de herramientas y recursos con eficiencia
  • seguimiento y evaluación de resultados

Después seleccionaron indicadores en el juego que evidenciaran las cuatro componentes en base a su relevancia y viabilidad (32 indicadores), implementados junto al modelo de competencias mediante redes Bayesianas. El  juego “Plantas contra Zombies ”,  se aplicó en una versión 2 modificada: así pudieron contar con la colaboración de Glasslab, que tienen acceso al código fuente, y definir los indicadores a partir del fichero de registros de los jugadores  (Plants vs. Zombies 2 : Popcap Games and Electronic Arts). El resultado final fue comparado con una herramienta del mercado para medir la competencia de Resolución de Problemas (MicroDYN), y se validó el resultado con 10 estudiantes de licenciatura que jugaron durante 90 minutos en la aplicación. La correlación con MicroDYN obtenida fue significativa (r = .74, p = .03). El experimento se está realizando ahora con 200 sujetos para mejorar la significación, pero parece que la línea de investigación muestra la utilidad del modelo.

(Ponencia de SHUTE,V.,  MOORE, G,.  and WANG, L.: Measuring Problem Solving Skills in Plants vs. Zombies 2).

Este enfoque de evaluación  de competencias a través de un juego lo hemos visto en la literatura ( por ejemplo «el Juego de Ender», de Orson Scott Card), donde a través de juegos van colocando a los estudiantes en situaciones de dificultad creciente, buscando desarrollar -y detectar- habilidades de resolución de problemas y liderazgo, entre otras (assessment). El problema es complejo en sí mismo,  ya que no se trata de entrenar en un entorno libre de riesgo mediante simuladores de una realidad  conocida y simplificada ( muy aplicado, por ejemplo, en formación de postgrado con los «simuladores de negocios», conocidos como «tycoon» o «business game»), sino que hablamos de utilizar entornos ajenos a la realidad que contribuyan al desarrollo de la competencia.

Detrás de este enfoque, tenemos por otro lado, el problema de la confidencialidad: ¿Están evaluando mis competencias cuando estoy en un videojuego onLine? ¿y si publican o venden los resultados? Leamos la  letra pequeña de los videojuegos…

 

Buscando al «equipo A» de tutores

Un estudiante  retuerce el cable del ratón mientras observa con frustración la pantalla de su ordenador: está en un callejón sin salida en este ejercicio del curso online que realiza, y no está tutorizado!. Se va a la comunidad del curso y busca quien le ayude… Pero no conoce a nadie en esta edición.  En otros cursos ya le pasó: a veces contactas con gente que sabe menos que tú, pero con deseos de chatear. Otras, detectas un estudiante muy solicitado, pero tiene SU grupo, y fuera de él no ayuda. «¿Por qué iba a hacerlo?»-piensa . El hecho es que de todas las personas inscritas, suele haber un cierto número de ellas que están dispuestas a colaborar, bien porque reconocen que es una vía de aprendizaje más, porque creen que si das ejemplo siempre habrá un «quid pro quo»  y te devolverán el favor, por prestigio -karma digital-, o porque sencillamente se lo pasan bien respondiendo preguntas. ¿Pero cómo identificarlos? Le gustaría tener una lista… esa lista de personas dispuestas a ayudarte a salir del atasco, ese «equipo A» de tutores dispuesto a todo. De eso va esta ponencia.

Este equipo de la universidad de Craiova (MIHÂESCU, M.C. , POPESCU, P.S. , IONASCU,C.: «Intelligent Tutor Recommender System for On-Line Educational Environments») presenta un método de clasificación basado en datos históricos que permitirá a los estudiantes encontrar a los colegas más adecuados que le pueden ayudar en caso de dudas de estudio, proponiéndoles una lista con las personas que están deseosas y disponibles para ayudar. El estudiante que busca la ayuda será consciente de su punto débil, sabrá su posición entre sus compañeros y tendrá una cierta idea de qué aspectos pueden provocarle más problemas de comprensión. Se trata pues de un mecanismo de recomendación.

Fig.1-Popescu_usecase

La figura 1 nos muestra el workflow de datos del mecanismo de recomendación: inicia con una fase de modelización de los estudiantes -que podrán ser también Tutores-, para después proceder a la clasificación por afinidad, basándose en una base de datos históricos de participación en otros cursos.

En cuanto a la tecnología, los autores han utilizado el conocido programa en java WEKA, con el algoritmo J45 de clasificación que genera un árbol de decisión (implementación del algoritmo 4.5 de Weka).

Tenemos pues una aplicación que permite proponer tutores personalizados a cada estudiante, teniendo en cuenta su edad y su conocimiento en las actividades donde necesita mejorar su nivel de aprendizaje, para así tener el feedback más adecuado posible. ¿Eres tú una de esas personas de la «Brigada A» de tutores?

«Dreamcatcher»

El «Atrapa sueños» es un detector de distracciones durante el estudio online:  aplicación de técnicas de aprendizaje máquina supervisado, para detectar la pérdida de concentración en la lectura de contenidos online sin el uso de sensores, es decir, basándose solo en los datos recogidos de la plataforma de elearning (log files). Había antecedentes de estudios similares, basados en sensores de la mirada y en otros fisiológicos, pero poco utilizables todavía a gran escala debido sobre todo al coste.

Los textos utilizados en el experimento proceden del «serius game» llamado Operation ARA! (es un juego con un argumento de «salvar el mundo» orientado a desarrollar habilidades de pensamiento crítico), y emplearon dos versiones de cada texto con diferente grado de dificultad en su lectura, para valorar la influencia de este parámetro.

Aunque los resultados de la matriz de confusión son aún mejorables (véase la tabla), la combinación de técnicas para mejorar la detección y los parámetros utilizados para clasificar los textos crean unas bases muy interesantes de investigación, que sin duda irán depurando.dreamcatcher_tabla

Las aplicaciones de esta ponencia con título tan sugestivo («dreamcatcher» o «atrapa sueños», con origen en los indios Ojibwa) son innumerables para la mejora de la tutorización automática, el diseño instruccional para aprendizaje adaptativo y la predicción de abandonos para tomar medidas antes de perder al estudiante.

(MILLS, Caitlin y D’MELLO, Sidney. Toward a Real-time (Day) Dreamcatcher: Sensor-Free
Detection of Mind Wandering During Online Reading. University of Notre Dame)

Minería basada en grafos

Sports Alpine Skiing seasons by @pac_19: http://neo4j.com

Sports Alpine Skiing seasons by @pac_19: http://neo4j.com

Taller de minería de datos educativos basada en Grafos celebrado en el pasado congreso EDM Madrid 2015 : El profesor Collin Lynch nos enseñó la aplicación de herramientas como NEO4J, una base de datos orientada a grafos, para buscar respuestas a cuestiones como:

 

– ¿qué caminos siguen a través de los contenidos online los estudiantes de mejor rendimiento?

– ¿qué redes sociales pueden impulsar o disminuir el aprendizaje online?

– ¿se comportan los usuarios de formación online como los profesores esperan que lo hagan?

-¿podemos usar datos de los mejores estudiantes para proporcionar consejos significativos para los demás?

-¿podemos identificar estudiantes especialmente serviciales en un curso?

La centralidad, la dependencia, la exclusión, los componentes gigantes….dentro de las redes de aprendizaje son parámetros que cada vez utilizaremos más para analizar el estado de nuestra red, ver cómo puede evolucionar, y cómo pueden influir la posición de los nodos  o  la fuerza de las relaciones en efectos de propagación de la información y el conocimiento.

En el taller se discutieron las tendencias de investigación con estas herramientas, se compartieron «lecciones aprendidas» y se identificaron nuevos desafíos, moderados por Collin F. Lynch, Tiffany Barnes, Jennifer Albert y Michael Eagle, de la North Carolina State University.

Minería basada en grafos: haz una prueba con las herramientas. (En la biblioteca tienes bibliografía para adentrarte en el mundo de los grafos).

 

Minería de Lenguaje Natural

Scott Crossley exponiendo. CC BY SA

Tutorial de herramientas de Procesado de Lenguaje Natural (NLP) impartido en el pasado congreso de Minería de Datos Educativos celebrado en Madrid por  Scott Crossley, Laura Allen y Danielle McNamara. Pudimos instalarnos, probar herramientas como Coh-metrix, WAT, SiNLP, TAALES , TAACO, y preguntarle dudas a los profesores. Avanzados procesadores de textos en lenguaje natural (inglés, por ahora) capaces de proporcionar analíticas sobre cohesión del texto, sofisticación léxica, complejidad sintáctica o dificultad del texto.

Las aplicaciones son infinitas en minería de datos educativos, pues es a partir de aquí cuando podremos evaluar las opiniones en las redes sociales sobre una publicación, analizar las emociones en el foro asociado a un curso, y predecir así el % de abandonos, realizar resúmenes de páginas y textos web, comprobar citas de nuestros trabajos, garantizar la originalidad de publicaciones o noticias, o programar tutorías automáticas en base a las dudas que aparezcan en los foros y su frecuencia .

¿quieres bajar a la mina de datos? Pruébalo introduciendo un texto en inglés y comprueba los espectaculares datos de salida (http://www.kristopherkyle.com/).

(Citado de:  Crossley, S. A., Allen, L. K., Kyle, K., & McNamara, D.S. (2014). Analyzing discourse processing using a simple natural language processing tool (SiNLP).  Discourse Processes, 51(5-6), pp. 511-534, DOI: 10.1080/0163853X.2014.910723)