¿Qué recomienda como material para un principiante en minería de datos?

El material recomendado depende de su definición de minería de datos. La minería de datos, el análisis de datos y la ciencia de datos a menudo son términos confusos. La minería de datos en sí tiene dos definiciones.

Primero, muchas personas interpretan que la minería de datos se centra exclusivamente en la recuperación, limpieza, formateo y preparación de datos para el modelado. Esto implicaría que el minero de datos pasaría su tiempo en la base de datos relacional o en un entorno sin SQL extrayendo toneladas de datos. Esta definición es incompleta de lo que se supone que es la minería de datos.

En segundo lugar, la minería de datos realmente tiene como objetivo centrarse en descubrir patrones en los datos mediante el uso de una combinación de aprendizaje automático, estadísticas e inteligencia artificial (minería de datos – Wikipedia). Esta definición es muy similar a la de un científico de datos con menos énfasis en el desarrollo y programación de productos. Cuando se trata de esto, la minería de datos y la ciencia de datos están estrechamente relacionados, si no son sinónimos.

Suponiendo que está buscando recursos para la segunda definición aquí (estrechamente relacionada con la ciencia de datos), puedo recomendarle recursos de O’Reilly Media: libros de tecnología, conferencias tecnológicas, cursos de TI, noticias. Estas son mis referencias a referencias. Estos son los temas en los que recomendaría encontrar escritos:

  1. Ciencia de datos / minería de datos en general: los ejemplos incluyen “Dominar la minería de datos en Python” de Megan Squire, “Aprender la minería de datos con R” de Bater Makhabel, “Dominar la pitón para la ciencia de datos” de Samir Madhavan. Hay muchas opciones. Tiendo a preferir escritos que explican conceptos en mi lenguaje de programación de elección. Estos escritos tienen muchos ejemplos con los que puede trabajar.
  2. Aprendizaje automático: los ejemplos incluyen “Aprendizaje automático de Python” de Sebastian Raschka y “Aprendizaje automático de R” de Brent Lantz, “Elementos de aprendizaje estadístico” de Hastie, Tibshirani y Friedman (siempre hago referencia a este texto). Desea algunos libros específicos de aprendizaje automático para ayudar con este tema.
  3. Texto de estadísticas: un buen ejemplo es “Modelos lineales con R” de Julian Faraway.

¡Estos temas le darán un buen punto de partida para expandir su conocimiento de minería de datos y ciencia de datos! ¡Este debe ser un punto de partida y de ninguna manera completo!

¡También ofrecemos contenido sobre ciencia de datos y estamos trabajando para expandir nuestro contenido rápidamente a través de publicaciones de blog, seminarios web, libros electrónicos y seminarios! ¡Visite nuestro sitio web en Bienvenido e inscríbase en nuestra lista de correo para mantenerse actualizado sobre lo que estamos haciendo y cuándo agregamos contenido nuevo!

Creo que la mejor manera de comenzar con los datos es entender cómo funcionan las tecnologías analíticas y cómo las empresas utilizan los datos para resolver diferentes problemas. Saltar directamente a la minería de datos o la ciencia de datos antes de comprender qué y cómo se abordan los problemas de datos hará que su viaje, en mi opinión, sea más complejo de lo que debería.

En Bytecourse, vemos una gran brecha en la forma en que se enseña la analítica y la ciencia de datos. Es por eso que estamos creando una plataforma para que las personas recojan el análisis y la ciencia de datos rápidamente sin mucha teoría. Bytecourse es una colección de cursos rápidos de solo lectura, donde para cada curso puede optar por hacer un proyecto que será revisado por uno de nuestros miembros.

Tenemos cursos de análisis y ciencias de datos. Acabamos de lanzar nuestro primer curso de Python, donde puedes aprender los conceptos básicos de Python para Data Science y familiarizarte con los cuadernos jupyter (una plataforma de código abierto para ejecutar, compartir e interactuar con datos usando Python). Lanzaremos más y más python para contenido de ciencia de datos en las próximas semanas y también cursos sobre python y machine learning.

Pruebe la introducción al libro de aprendizaje estadístico de Gareth James et al.

* Introducción al aprendizaje estadístico

Es un gran texto introductorio y muy fácil de leer.

La introducción al aprendizaje estadístico. No vaya directamente a ningún libro de minería de datos, algunos de ellos no le dicen nada sobre las estadísticas detrás, por lo que siempre es una comprensión extremadamente superficial de lo que sucede.

Además del libro “Introducción al aprendizaje estadístico”. También me gustaría recomendar el curso de aprendizaje automático de Andrew Ng en Coursera. Grandes materiales para comenzar en la minería de datos.

More Interesting

¿Qué tipo de pruebas ejecuta para validar la calidad de sus datos?

Cómo comenzar a construir un proyecto sobre minería de datos desde cero

Cómo usar Kaggle (empresa) si soy un principiante en el campo de la ciencia de datos y quiero publicar un trabajo de investigación lo antes posible y no tengo experiencia previa

¿Cuál es la satisfacción laboral de los científicos de datos? ¿Para qué tipo de empresas ha trabajado o trabaja para ahora de alguna manera, y ahora es un científico de datos? ¿Qué responsabilidades e impacto ha influido en la empresa?

¿Cuál es el límite de tamaño de archivo en una carga a Slack?

¿Cuáles son las categorías de big data?

¿Qué está impulsando la prisa de la industria financiera para adoptar Big Data?

¿Qué libro recomienda para aprender sobre todas las habilidades matemáticas que se necesitan para la ciencia de datos para alguien que esté familiarizado con las estadísticas básicas y las matemáticas?

¿Cuál es la diferencia entre roaming de datos y datos móviles?

¿Cómo las empresas que realizan aprendizaje automático obtienen datos etiquetados de manera confiable?

Cómo demostrar que los grandes datos son valiosos para las empresas

¿Cuáles son algunos modelos precisos o exitosos de calificación de crédito entre pares y qué técnicas y métodos utilizan?

¿Existe alguna certificación de científico de datos en Oracle?

¿Cómo se conecta Internet? ¿Cómo se transfieren los datos? ¿Cómo se accede a los datos desde diferentes países?

¿Cuál es la diferencia entre un científico de datos y un profesional de inteligencia de negocios?