¿Cómo aprendo minería de datos en un mes?

No es posible “aprender minería de datos” en un mes.

De hecho, tratar de hacerlo sería un peligro para usted, su empleador y el balance de alguien. Claro, hay libros de cocina y fragmentos de código para darle los conceptos básicos, pero esto no lo entiende.

La minería de datos, como concepto, es bastante simple. Pero, como con casi cualquier cosa de valor en la vida, todo el campo gira en distinciones muy finas … es decir, el truco está en los detalles, y entender esas distinciones significa la diferencia entre un estudio inútil y uno útil (o incluso poder reconocer la diferencia!

En otras palabras, la minería de datos no es un conjunto de herramientas estáticas en las que simplemente carga algunos datos y deja que algunos guiones que ha improvisado hagan el trabajo. En el mejor de los casos, la minería de datos es inteligencia aumentada: la potencia computacional facilita el aprovechamiento de las herramientas analíticas / intelectuales preexistentes que posee el minero; nunca los reemplaza.

Esto significa que necesita conocer los límites de los modelos y herramientas que utilizará. Debe familiarizarse con los supuestos que hacen dichos modelos: cuándo es seguro permitir esos supuestos y cuándo sería perjudicial. Su carrera en el análisis de datos se hará o se romperá en tales cosas … y, desafortunadamente para usted, la única forma en que aprenderá esas distinciones es cometiendo muchos errores. Esto significa una importante inversión de tiempo para simplemente dejar que los errores de sus primeros esfuerzos se manifiesten. Entonces tienes que aprender sobre ellos. Este es un proceso divertido y muy gratificante, pero requiere tiempo y esfuerzo.

Dicho esto, puede comenzar el largo viaje (y muy intelectualmente gratificante) a la competencia básica; Ya hay toneladas de recursos en Quora (incluidas excelentes respuestas de los gustos de las armas de datos de peso pesado, incluidos los gustos del usuario de Quora, Peter Skomoroch, et al).

En términos de mi propia contribución práctica a su esfuerzo, aprenda Excel al menos a un nivel experto (conozca casi todas las funciones, cómo interactúan [especialmente con respecto a la manipulación de datos] y cómo hacer cosas básicas como modelos de regresión lineal, todo sin usar el ratón). Simultáneamente, descargue una copia de “R” (cran.r-project.org) y comience a leer religiosamente r-bloggers, organización de datos, datos que fluyen, etc. Lo que es más importante, dedique tiempo a comprender los métodos de manera intuitiva aplicándolos a cualquier conjunto de datos que le interese : se sorprenderá de la cantidad de sus propios detritos que se encuentran en varias API de Internet del consumidor, pero hay muchos conjuntos de datos incluidos en la base R e incluso más flotantes en la web … muchos accesibles a través de API. Además, trate de obtener comentarios prácticos sobre sus incursiones en el campo … una buena crítica positiva de su trabajo debe ser su prioridad abrumadora.

En este punto, deberías estar listo para el 2014. Hablemos más entonces … desafortunadamente, nada como en un mes.

¡Comience a analizar los datos lo antes posible! Sin embargo, no olvide aprender la teoría, ya que necesita una buena base estadística y de aprendizaje automático para comprender lo que está haciendo.

¡Aquí están mis 7 pasos para aprender minería de datos y ciencia de datos!

  1. Lenguajes: Aprenda R, Python y SQL
  2. Herramientas: aprenda a utilizar las herramientas de visualización y minería de datos

    Puede comenzar con herramientas de código abierto (gratuitas) como KNIME, RapidMiner y Weka.

    Sin embargo, para muchos trabajos de análisis debe conocer SAS, que es la herramienta comercial líder y ampliamente utilizada.
    Otros softwares de análisis y minería de datos populares incluyen MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler y Rattle.

    La visualización es una parte esencial de cualquier análisis de datos: aprenda a usar Microsoft Excel (bueno para muchas tareas más simples), gráficos R (especialmente ggplot2) y también Tableau, un excelente paquete para la visualización. Otras buenas herramientas de visualización incluyen TIBCO Spotfire y Miner3D.

  3. Libros de texto: lea libros de texto introductorios para comprender los fundamentos
  4. Educación: vea seminarios web, tome cursos y considere un certificado o un título en ciencias de datos

    También hay muchos cursos en línea, cortos y largos, muchos de ellos gratuitos. considere obtener Certificados en Minería de Datos y Ciencia de Datos o títulos avanzados, como MS en Ciencia de Datos

  5. Datos: verifique los recursos de datos disponibles y encuentre algo que le interese.

    Aquí hay algunos conjuntos de datos públicos gratuitos:

    Datos: gobierno, estado, ciudad, local y público
    Datos: API, Hubs, Marketplaces y Plataformas
    Conjuntos de datos públicos gratuitos

  6. Concursos: participe en concursos de minería de datos
  7. Interactuar con otros científicos de datos a través de redes sociales, grupos y reuniones.

¡Aquí hay algunos recursos excelentes para comenzar!

  • Libro electrónico gratuito sobre ciencia de datos con R
  • Comenzando con Python para Data Science
  • Python para análisis de datos
  • Un Python indispensable: el abastecimiento de datos para la ciencia de datos.
  • Tutorial SQL

More Interesting

¿Cómo se puede determinar si un conjunto de datos es grande o pequeño?

¿Cuáles son las responsabilidades de un científico de datos en diferentes empresas?

¿Existe una definición de "Big" en el contexto de "Big Data"? ¿Cuál es exactamente el significado de "Big" desde el punto de vista de la ciencia de datos?

¿Existe alguna metodología como OOP que guíe cómo diseñar un software de procesamiento de datos?

Cómo instalar el paquete rcmdr en el software R

¿Qué ventajas ofrece un doctorado en bioestadística / bioinformática al aplicar un trabajo de científico de datos?

¿Cuál es la diferencia entre análisis de datos y análisis de datos? ¿Cómo se refleja esta diferencia en los procedimientos de gestión de datos de una empresa?

¿La 'arquitectura lambda' sigue siendo la mejor manera de construir canalizaciones de datos a gran escala (en 2017) o ha sido reemplazada por otras arquitecturas?

¿Cuáles son las diferentes técnicas de minería de datos?

¿Cuáles son algunos ejemplos del mundo real de análisis predictivo?

¿Tener experiencia en ciencia de datos es útil para los negocios?

¿Es significativo un MSc en ciencia de datos después de un BSc en matemáticas?

¿La ciencia de datos es popular en el riesgo de crédito? ¿Es posible involucrarse en ciencia de datos en riesgo de crédito especializado en programación?

Si elimino un archivo, lo sobrescribo con otro archivo en la misma carpeta y destruyo el nuevo archivo, ¿puedo recuperar el archivo original que estaba inicialmente en la carpeta?

¿Qué habilidades necesito para construir un sitio web basado en big data?