Curso Aprendizaje máquina

MOOC de Aprendizaje Máquina en la Universidad de Stanford (MOOC).

Stanford: Machine learning

Stanford: Machine learning

Logré terminar mi primera práctica con bastante éxito sobre Octave (versión abierta de Matlab).  Para ir más rápido, instálate  un buen entorno de programación (el Octave de la UPM  va muy bien para resolver el ejercicio, pero no sirve para enviarlo, lo cual se resuelve usando el Octave GNU estándar ). Para las personas que no estén «en forma» con el cálculo matricial recomiendo revisar los 4 primeros capítulos del manual del prof. Peña de Análisis Multivariante (ver biblioteca), que cubre todo lo que piden, y os permitirá validar los algoritmos con sus ejemplos de datos (están en su web) .

El curso no limitaba mucho los requisitos de acceso (suele suceder en los MOOC’s). Particularmente,  creo que les va a resultar de extrema dificultad a todas aquellas personas que no tengan un nivel de álgebra matricial y análisis matemático superado de primero de  carrera universitaria, y con ello, conocimientos básicos de programación (al menos en matlab u octave). Y mucho tiempo para las prácticas…

Redes de contenidos?

Similitudes entre todos los módulos de un itinerario en Moodle.

Similitudes entre todos los módulos de un itinerario en Moodle.

¿Cómo puede afrontar una universidad o escuela de negocios la reutilización de trozos de itinerarios formativos on-line ya empaquetados en SCORM? ¿Se puede “de-construir” un itinerario para reutilizar solo algunos módulos o capítulos? En esta ponencia (Kyle Goslin and Markus Hofmann)   han desarrollado un generador automático de estructuras en árbol (con Moodle), incluyendo los metadatos: esto permite visualizar similitudes entre contenidos de los distintos itinerarios, y así tomar decisiones de qué itinerarios vale la pena deconstruir (hoy día es una tarea bastante costosa), para elaborar otros nuevos con esos micro-módulos.

Aprendizaje y Redes Sociales

Map_egonet1El Análisis de Redes Sociales aplicado al aprendizaje 2.0 se está convirtiendo en un requisito básico si se desea aumentar la eficiencia de este enfoque en la educación.

El tradicional enfoque de Analítica de Aprendizaje donde los datos se estructuraban solo en <individuos> y <atributos> se amplía en este caso, añadiéndole datos de <relaciones>. Los individuos pueden ser profesores, alumnos, científicos, jefes de estudio, … La identificación de relaciones puede ayudar a clasificar por intereses comunes, similitudes, relaciones sociales, interacciones y flujos de intercambio de información que permitirán a los profesionales del aprendizaje encontrar respuestas a la pregunta: “¿Cómo afectan al aprendizaje los patrones de relaciones?”.

Si quieres iniciarte en ello: http://adaptive-training.com/analizar-redes/

EDM: Aplicaciones

VENTURA SOTO, Sebastián

Minería aplicada a un Foro de discusión.

Buena panorámica de VENTURA SOTO, Sebastián. » Minería de Datos en sistemas educativos«,  hablando de las técnicas, el estado del arte y las tendencias en su aplicación al entorno educativo en estos ámbitos, entre los que destaco el enfoque de las instituciones educativas:

Mejora de la eficiencia del sitio web y adaptación de este a los hábitos de sus usuarios:

  • – Tamaño de servidor óptimo
  • – Distribución de tráfico en la red

Organización de los recursos institucionales:

  • – Diseño de horarios
  • – Adquisición de material

Mejora de la oferta educativa:

  • – Programas orientados a demanda
  • – Orientación de alumnos en base a Objetivos y  Capacidades

Interesante el compendio de herramientas que nos invita a probar.

Minería en Redes Sociales

Comunidades_CSIC

Descubriendo comunidades dentro de una Red.

A finales de abril 2013 terminé un interesante curso abierto de la Universidad de Michigan sobre Análisis de Redes Sociales que me ha enseñando las grandes posibilidades que proporciona la teoría de redes (grafos) y su analítica a una serie de problemas de minería de datos, muchos aplicables a educación. Al respecto recomiendo Introducción al Análisis de Redes Sociales,  (Instituto de ingeniería del conocimiento):   http://www.iic.uam.es/pdf/Intro_to_SNA_ES.pdf . En ella se describen los indicadores más habituales, y  aplicaciones como la detección de comunidades dentro de una red, la predicción de conexiones, el comportamiento en cascada o la identificación de líderes de opinión y expertos. Merece la pena ir a su web, y ver sus trabajos relacionados con la «Evaluación de Competencias» y el «Desarrollo de Competencias» profesionales.

 

Si quieres introducirte en este apasionante tema, puedes empezar en Analiza Redes.

Comprensión lectora

ReadingLevels_Bloom

Ratio de tiempo invertido para cada nivel de comprensión lectora.

 

Este trabajo de comprensión lectora realizado por PECKHAM,T. y  MCCALLA, G.  tiene para mí una aportación muy interesante en la línea de los Sistemas Inteligentes de Tutorización (ITS), así como por el uso de las técnicas.

El experimento fue realizado sobre 28 estudiantes,  y proporcionó 8.500 eventos (almacenaban dónde hacían click, el uso de la rueda del ratón o el scrolling de pantalla) divididos en los dos bloques del experimento: uno en el que tenían que leer un texto proporcionado y responder a una serie de preguntas de nivel básico, (cuya dificultad se mide utilizando los niveles bajos de la taxonomía de Bloom. Para saber más sobre la taxonomía de Bloom consulta:  http://www.slideshare.net/jesusreynaldoflores/taxonomia-bloom-cuadro1), y otro bloque en el que se proporcionaba a los estudiantes dos o más documentos adicionales al primero, y se realizaban preguntas de los niveles superiores de la citada taxonomía ( los niveles altos de la taxonomía de Bloom requieren síntesis y evaluación, y por tanto más tiempo).  Después se aplicó el algoritmo de clasificación de las k-medias (k-medias clustering: véase libro de HASSTIE, T., TIBSHIRANI, R. , FRIEDMAN, J), creando grupos de estrategias asociadas a los niveles de dificultad. Una «buena estrategia» sería aquella que conduce a un buen resultado de comprensión lectora. Los resultados obtenidos a nivel de estrategias identificadas fueron de bastante » sentido común» (buena señal en relación a un experimento): la mejor estrategia de comprensión no fue la de hacer «lectura pesada» siempre, sino una de lectura acorde al nivel de dificultad (en textos ligeros, la mejor resultó una «lectura media-ligera», en los niveles de dificultad altos sí fue la mejor la de «lectura pesada»).

El estudio demuestra que un Sistema Inteligente de Tutorización es capaz de detectar automáticamente las diferentes estrategias de aprendizaje que los estudiantes están utilizando durante el estudio de una materia de diferentes grados de dificultad , y se le asocia el tiempo medido para responder a las preguntas que se les formularon usando los verbos propuestos según Bloom . Esto permitiría al ITS sugerirle a los estudiantes unas estrategias de estudio más eficientes, en el caso de que estén usando alguna de la que se pueda predecir su mal resultado. Aunque para esto, reconocen los autores, habrá que investigar más…

 

(Mining Student Behavior Patterns in Reading Comprehension Tasks: educationaldatamining.org/EDM2012/uploads/procs/Full_Papers/edm2012_full_13.pdf )

Encontrar habilidades latentes

Esta ponencia del 5 encuentro de EDM de BEHESHTI,B.,  DESMARAIS,M.C.,  NACEUR,R.  compara dos métodos para determinar cuántas habilidades latentes determinan el aprobado o el suspenso en una materia ( http://educationaldatamining.org/EDM2012/).

Comienza utilizando la clásica descomposición en el valor singular de una matriz (SVD) y luego la compara con los resultados de aplicar modelos lineales construidos a partir de un diferente número de habilidades a priori, y evalúa después el de mejor capacidad predictiva usando validación cruzada.

BEHESHTI,B., DESMARAIS,M.C., NACEUR,R.

BEHESHTI,B., DESMARAIS,M.C., NACEUR,R.

Cuando aplica ambos métodos a datos reales se comprueba que la clásica descomposición SVD es de inferior capacidad predictiva que los métodos «envueltos» (wrapper), menos restrictivos en las hipótesis de aplicación (no requiere independencia entre los factores latentes, como exige el SVD).

Uso de «ayudas»

Este estudio nos presenta un análisis de las diferencias de los estudiantes en función del uso que hacen de las ayudas (hints),( GOLDIN, I.M. , KOEDINGER, K.R., ALEVEN, V. . Learner Differences in Hint Processing:  http://educationaldatamining.org/EDM2012/)  estableciendo una comparación entre la suficiencia adquirida y los niveles de ayuda consumidos por el alumno (establecen cuatro niveles de respuesta del estudiante con la siguiente decisión: acierto o fallo al primer intento, o petición de ayuda –hasta tres niveles-). Esto permite realimentar a los Sistemas Tutoriales Inteligentes ( ITS) y correlacionar el uso de las ayudas con el nivel de suficiencia y aprovechamiento demostrado finalmente por los estudiantes. Las preguntas que buscan responder son: ¿Cómo afecta al aprendizaje del alumno el uso de las ayudas? ¿Difiere el rendimiento de los alumnos dependiendo del nivel de ayuda que ha utilizado?

grafico-Goldin_Koedinger

En las conclusiones de la ponencia reconocen que abren más preguntas de las que cierran en una materia tan poco investigada. La principal dificultad que se puede plantear en este trabajo es cómo garantizar la homogeneidad del diseño instruccional de los niveles de ayuda, nunca mencionada a lo largo del estudio, y que sin embargo servirá de base para intentar extraer conclusiones sobre el rendimiento de los alumnos en función de su uso. Por otro lado, el desempeño de los alumnos que no hacen uso de las ayudas -es decir, los que saben la respuesta sin ayuda- les aparece, como cabría esperar, muy alto, yendo en disminución conforme más ayudas utilizan.

El enfoque del uso del ITS  y de un diseño instruccional basado en niveles de feedback al estudiante al realizar problemas, sí me parece a tener muy en cuenta, así como los algoritmos de procesado desarrollados, aplicándolos con otras hipótesis. Es en dicho diseño instruccional donde habrá que investigar e invertir para tratar de automatizarlo, y así poder aplicar en la realidad estas metodologías, y además garantizar homogeneidad en los niveles de feedback .

Sistemas Inteligentes de Tutorización

A partir de un estudio sobre 51 estudiantes de secundaria aprendiendo una materia de ciencias compleja, se analizan los datos de seguimiento de los alumnos,  para identificar patrones de comportamiento que ayuden a programar los Sistemas Inteligentes de Tutorización (ITS) que fomentan el aprendizaje autorregulado (SRL).

En esta ponencia del 5 encuentro de EDM de BOUCHET, F. ,AZEVEDO, R. , KINNEBREW, J.S. , BISWAS, G. .  Identifying Students’ Characteristic Learning Behaviors in an Intelligent Tutoring System Fostering Self-Regulated Learning  (http://educationaldatamining.org/EDM2012/uploads/procs/Full_Papers/edm2012_full_5.pdf), 

Bouchet_Azevedo_ITSutilizan el modelo de Winne & Hadwin que propone que el aprendizaje ocurre en cuatro fases : 1) Definición de tareas, 2) establecimiento de objetivos y planificación, 3) tácticas de estudio, y 4) adaptaciones a la metacognición.

(Para saber más sobre Estrategias Metacognitivas recomiendo: PÉREZ-ROSAS CÁCERES, A.  http://www.desarrollointelectual.com/).

Muy interesante ver la codificación de estrategias metacognitivas de los estudiantes para la autoregulación de su aprendizaje.

Como indican las conclusiones de esta interesante ponencia, se abren muchos frentes de investigación, además de incidir en el debate del constructivismo, la distinción entre estrategias cognitivas y metacognitivas,  y una de las competencias marcadas como «clave» por la Unión Europea en el aprendizaje permanente: «Aprender a aprender» .

Comportamiento en eLearning

Este trabajo me ha llamado la atención porque hace el esfuerzo en utilizar Minería de Datos Educativos sin parámetros, acercándola  al usuario profesional de la formación eLearning que no necesariamente sea un experto en análisis multivariante.

GARCIA SAIZ, Diego dirigido por Zorrilla Pantaleón, Marta E., de la Univ. de Cantabria es del congreso EDM de 2011 (http://eprints.pascal-network.org/archive/00009098/01/Trabajo_Master_Matematicas_y_Computacion_-_Diego_Garcia_Saiz.pdf)  compara en el estudio diferentes técnicas generadoras de reglas (utilizando algoritmos para generar reglas de asociación) que facilitan al profesor la identificación del comportamiento del estudiante durante el aprendizaje eLearning, concluyendo que el algoritmo más eficiente es el creado  por José Luis Balcázar (Balcázar, 2011. Tenemos una obra suya en la biblioteca de este site) en su herramienta Yacaree para generar reglas de asociación sin necesidad de introducir parámetros iniciales.

En la segunda parte del trabajo (ya de nivel avanzado) hace un estudio de clasificadores y de construcción de algoritmos de meta-predicción :

Tabla-GARCIA-SAIZ

La conclusión sobre los clasificadores es interesante pues si bien no detecta especiales ventajas de un algoritmo sobre otro en cuanto a la clasificación obtenida, sí resalta uno por su sencillez de interpretación y manejo para usuarios no expertos: el J48.

Termina el estudio con el estudio de meta-predictores y sus combinaciones.

Creo que merece la pena la reflexión sobre la facilidad de interpretación y uso. Mejorando el conocimiento del comportamiento del estudiante mejoraremos las técnicas de Formación Adaptativa.