Cómo aprender sobre la minería de datos de una manera que le permita realizar su propio

Elija una idea y luego comience a hacer una lista de cómo implementarla.

Ejemplo:
Quiero clasificar a una persona como turista o residencia en un país analizando su línea de tiempo de Twitter.

¿Qué necesitas para que eso suceda?

  • Datos de Twitter con etiquetas (turista o residencia). Calcule usted mismo cómo obtener estos datos.
  • Entrenar a un clasificador. (Por ejemplo: usando Naive Bayes de scikit-learn)
  • Evaluar la precisión de los modelos con Confusion Matrix. O tal vez pueda usar otras métricas de evaluación.
  • Haz una buena presentación. Podría ser una visualización en su sitio web.

Al mirar la lista anterior, comienza a aprender cómo obtener datos de Twitter. Tal vez usando la API de Twitter. Y luego comienzas a aprender sobre Naive Bayes y cómo usarlo con scikit-learn. Finalmente, aprenderá cómo crear una buena visualización usando d3.js o cualquier otra cosa.

Desde mi experiencia, el procedimiento habitual para realizar la tarea de minería de datos es:

  • Especificando qué tipo de tarea es esa. ¿Es una tarea de clasificación? ¿Recomendación? Clasificación de etiquetas múltiples?
  • Adquirir los datos requeridos.
  • Entrenar algunos modelos (clasificador).
  • Evaluar la precisión de los modelos.
  • Publica tus resultados. O quizás integre eso en su producto (por ejemplo: módulo de recomendación, detección de fraude).

Averigua qué quieres hacer. Y luego comienza a aprender cómo hacerlo realidad. Aprenderá muchas cosas haciendo algunas prácticas, no solo leyendo cómo hacerlo.