No es posible “aprender minería de datos” en un mes.
De hecho, tratar de hacerlo sería un peligro para usted, su empleador y el balance de alguien. Claro, hay libros de cocina y fragmentos de código para darle los conceptos básicos, pero esto no lo entiende.
La minería de datos, como concepto, es bastante simple. Pero, como con casi cualquier cosa de valor en la vida, todo el campo gira en distinciones muy finas … es decir, el truco está en los detalles, y entender esas distinciones significa la diferencia entre un estudio inútil y uno útil (o incluso poder reconocer la diferencia!
- ¿Existen aplicaciones para el aprendizaje automático / ciencia de datos en el campo de los vuelos espaciales?
- ¿Dónde podemos encontrar conjuntos de datos para procesar? Quiero usar estos datos para mi proyecto Hadoop.
- ¿Cuál es la diferencia entre Hadoop y big data?
- Matemáticamente hablando, ¿cuándo los números de lotería ganadores del pasado afectan los sorteos futuros?
- ¿Cuáles son algunas formas en que usa los datos para respaldar su aplicación?
En otras palabras, la minería de datos no es un conjunto de herramientas estáticas en las que simplemente carga algunos datos y deja que algunos guiones que ha improvisado hagan el trabajo. En el mejor de los casos, la minería de datos es inteligencia aumentada: la potencia computacional facilita el aprovechamiento de las herramientas analíticas / intelectuales preexistentes que posee el minero; nunca los reemplaza.
Esto significa que necesita conocer los límites de los modelos y herramientas que utilizará. Debe familiarizarse con los supuestos que hacen dichos modelos: cuándo es seguro permitir esos supuestos y cuándo sería perjudicial. Su carrera en el análisis de datos se hará o se romperá en tales cosas … y, desafortunadamente para usted, la única forma en que aprenderá esas distinciones es cometiendo muchos errores. Esto significa una importante inversión de tiempo para simplemente dejar que los errores de sus primeros esfuerzos se manifiesten. Entonces tienes que aprender sobre ellos. Este es un proceso divertido y muy gratificante, pero requiere tiempo y esfuerzo.
Dicho esto, puede comenzar el largo viaje (y muy intelectualmente gratificante) a la competencia básica; Ya hay toneladas de recursos en Quora (incluidas excelentes respuestas de los gustos de las armas de datos de peso pesado, incluidos los gustos del usuario de Quora, Peter Skomoroch, et al).
En términos de mi propia contribución práctica a su esfuerzo, aprenda Excel al menos a un nivel experto (conozca casi todas las funciones, cómo interactúan [especialmente con respecto a la manipulación de datos] y cómo hacer cosas básicas como modelos de regresión lineal, todo sin usar el ratón). Simultáneamente, descargue una copia de “R” (cran.r-project.org) y comience a leer religiosamente r-bloggers, organización de datos, datos que fluyen, etc. Lo que es más importante, dedique tiempo a comprender los métodos de manera intuitiva aplicándolos a cualquier conjunto de datos que le interese : se sorprenderá de la cantidad de sus propios detritos que se encuentran en varias API de Internet del consumidor, pero hay muchos conjuntos de datos incluidos en la base R e incluso más flotantes en la web … muchos accesibles a través de API. Además, trate de obtener comentarios prácticos sobre sus incursiones en el campo … una buena crítica positiva de su trabajo debe ser su prioridad abrumadora.
En este punto, deberías estar listo para el 2014. Hablemos más entonces … desafortunadamente, nada como en un mes.