Si deseas introducirte en el Análisis de Datos para su aplicación en Aprendizaje y en Desarrollo de Personas, puedes empezar con las siguientes herramientas de minería de datos:

Red_EgoC

1) ANÁLISIS DE REDES con Gephi: Herramienta gratuita para minería de datos gráfica:  permite analizar grafos (orientados o no), o analizar tu red de contactos a partir de un análisis de los mails de tu correo electrónico (de gmail, por ejemplo). (http://gephi.org, tanto en windows como en linux). Su aplicación a la red de una empresa para descubrir Comunidades y posibles mejoras organizativas es solo una de las innumerables posibilidades. Revisa los indicadores principales de redes para poder interpretar los datos y sacarle más partido (mira en la biblioteca:  WASSERMAN,y FAUST ).

Nota de seguridad: El análisis de tu red personal conlleva el acceso a tu servidor de correo electrónico y hacer un rastreo del mismo con todos sus datos: pues el mail es un dato personal, se precisa pedir permiso a tus contactos. Si no lo haces y lo comunicas, esta maniobra es detectada por todos los servidores de correo que dan buen servicio: está atento a sus peticiones de confirmación o tu experimento será tratado como un ataque hostil, y te pueden clausurar tu cuenta.

2) Minería de TEXTOS en Lenguaje Natural (NLP): Avanzados procesadores de textos en lenguaje natural (inglés, por ahora) capaces de proporcionar analíticas sobre cohesión del texto, sofisticación léxica, complejidad sintáctica o dificultad del texto:  Coh-metrix, WAT, SiNLP, TAALES , TAACO (Se puede comprar un utilísimo manual e-book que explica todos los indicadores y su uso) .

Herramientas de Minería de Datos (Textos)

Herramientas de Minería de Datos (Textos)

Las aplicaciones son infinitas en minería de datos educativos, pues podremos:

– evaluar las opiniones en las redes sociales sobre una publicación,

-analizar las emociones en el foro asociado a un curso,

– realizar resúmenes de páginas y textos web,

-comprobar citas de nuestros trabajos,

-garantizar la originalidad de publicaciones o noticias,

– programar tutorías automáticas en base a las dudas que aparezcan en los foros y su frecuencia .

Pruébalas introduciendo un texto en inglés y comprueba los espectaculares datos de salida . (Basado en los trabajos de los profesores  Crossley, S. A., Allen, L. K., Kyle, K., & McNamara, D.S. (2014). Analyzing discourse processing using a simple natural language processing tool (SiNLP).  Discourse Processes, 51(5-6), pp. 511-534, DOI: 10.1080/0163853X.2014.910723).

3) Minería de datos usando GRAFOS: la herramienta NEO4J es una base de datos gráfica que dispone de un lenguaje «query» basado en SQL: el Cypher, que permite de una forma fácil encajar patrones de nodos y relaciones en el grafo.

Dispone de la Neo4j GraphGist, una herramienta online para crear documentos interactivos ejecutables con órdenes de Cypher.

 

4) Minería de textos: El uso del poderoso lenguaje «R» (recomiendo instalar también el Rstudio como entorno de desarrollo) , y de sus más de 2.400 librerías continuamente actualizadas en CRAN, te permite hacer cualquier cosa que se te ocurra. El templo de esta materia está en http://www.rdatamining.com, donde encontrarás todas las herramientas:  puedes probar y jugar con todo tipo de algoritmos, aplicarlos a tus textos… o lanzarlos hacia la web.

Es posible realizar tu propia «wordcloud» del texto que te propongas, o de la web correspondiente si le indicas el puntero (las librerías tm, wordcloud, RCurl o XML no tienen desperdicio, y para análisis de redes sociales prueba sna o igraph).

WordCloud de esta biblioteca realizada en "R" por el autor

WordCloud de esta pág. realizada en «R» por el autor

No es inmediato, «R» es laborioso, pero potente, especialmente manejando estructuras de datos complejas, y tiene librerías prácticamente para todos los campos de la ciencia:  combina con XML, con Weka, con QGIS, … .

(Ya tiene librerías también para usar recursos de procesado paralelo de Hadoop.) Y tiene su versión en linux (yo la tengo sobre un Xubuntu para un pequeño notebook) si te va más este entorno.