Elija una idea y luego comience a hacer una lista de cómo implementarla.
Ejemplo:
Quiero clasificar a una persona como turista o residencia en un país analizando su línea de tiempo de Twitter.
¿Qué necesitas para que eso suceda?
- ¿Cuál es la diferencia entre la cultura de programación en IIITH e IIT Bomabay / Delhi?
- ¿Qué pasa con las computadoras que te fascina?
- ¿Cómo funciona el código de visualización en Windows Media Player?
- ¿Cuáles son las diferencias entre las computadoras de servidor, las computadoras domésticas y los teléfonos inteligentes?
- ¿Cuáles son las principales diferencias entre las líneas de comando de Linux y Mac OS X?
- Datos de Twitter con etiquetas (turista o residencia). Calcule usted mismo cómo obtener estos datos.
- Entrenar a un clasificador. (Por ejemplo: usando Naive Bayes de scikit-learn)
- Evaluar la precisión de los modelos con Confusion Matrix. O tal vez pueda usar otras métricas de evaluación.
- Haz una buena presentación. Podría ser una visualización en su sitio web.
Al mirar la lista anterior, comienza a aprender cómo obtener datos de Twitter. Tal vez usando la API de Twitter. Y luego comienzas a aprender sobre Naive Bayes y cómo usarlo con scikit-learn. Finalmente, aprenderá cómo crear una buena visualización usando d3.js o cualquier otra cosa.
Desde mi experiencia, el procedimiento habitual para realizar la tarea de minería de datos es:
- Especificando qué tipo de tarea es esa. ¿Es una tarea de clasificación? ¿Recomendación? Clasificación de etiquetas múltiples?
- Adquirir los datos requeridos.
- Entrenar algunos modelos (clasificador).
- Evaluar la precisión de los modelos.
- Publica tus resultados. O quizás integre eso en su producto (por ejemplo: módulo de recomendación, detección de fraude).
Averigua qué quieres hacer. Y luego comienza a aprender cómo hacerlo realidad. Aprenderá muchas cosas haciendo algunas prácticas, no solo leyendo cómo hacerlo.