Cómo aprender sobre la minería de datos de una manera que le permita realizar su propio

Elija una idea y luego comience a hacer una lista de cómo implementarla.

Ejemplo:
Quiero clasificar a una persona como turista o residencia en un país analizando su línea de tiempo de Twitter.

¿Qué necesitas para que eso suceda?

¿Cuál es la diferencia entre la cultura de programación en IIITH e IIT Bomabay / Delhi?
¿Qué pasa con las computadoras que te fascina?
¿Cómo funciona el código de visualización en Windows Media Player?
¿Cuáles son las diferencias entre las computadoras de servidor, las computadoras domésticas y los teléfonos inteligentes?
¿Cuáles son las principales diferencias entre las líneas de comando de Linux y Mac OS X?

Datos de Twitter con etiquetas (turista o residencia). Calcule usted mismo cómo obtener estos datos.
Entrenar a un clasificador. (Por ejemplo: usando Naive Bayes de scikit-learn)
Evaluar la precisión de los modelos con Confusion Matrix. O tal vez pueda usar otras métricas de evaluación.
Haz una buena presentación. Podría ser una visualización en su sitio web.

Al mirar la lista anterior, comienza a aprender cómo obtener datos de Twitter. Tal vez usando la API de Twitter. Y luego comienzas a aprender sobre Naive Bayes y cómo usarlo con scikit-learn. Finalmente, aprenderá cómo crear una buena visualización usando d3.js o cualquier otra cosa.

Desde mi experiencia, el procedimiento habitual para realizar la tarea de minería de datos es:

Especificando qué tipo de tarea es esa. ¿Es una tarea de clasificación? ¿Recomendación? Clasificación de etiquetas múltiples?

Adquirir los datos requeridos.
Entrenar algunos modelos (clasificador).
Evaluar la precisión de los modelos.
Publica tus resultados. O quizás integre eso en su producto (por ejemplo: módulo de recomendación, detección de fraude).

Averigua qué quieres hacer. Y luego comienza a aprender cómo hacerlo realidad. Aprenderá muchas cosas haciendo algunas prácticas, no solo leyendo cómo hacerlo.

Análisis deBig DataBig Data AnalysisCiencia de datosCiencias de la computacióndatosMinería dePreguntas prácticas