¿Cuáles son las lecturas obligatorias para la ciencia de datos, estadísticas y aprendizaje automático?

Los libros de la publicación Strata son realmente buenos para los principiantes de Data-Science.

Pero déjame enumerar algunos que he seguido.

Estadística:

  • Estadísticas en pocas palabras
  • Álgebra Lineal (Esto es para Álgebra Lineal)
  • http://en.wikipedia.org/wiki/How… – Mira este artículo de Wikipedia. Esto sería muy útil

Hay muchos blogs sobre estadísticas que se pueden seguir: Blogs de ciencia de datos

Algoritmos
Para los algoritmos, puede seguir los buenos libros antiguos, que ya ha estado siguiendo.

Minería de datos:

  • Minería de la web social
  • Introducción a la recuperación de información
  • Minería de grandes conjuntos de datos por A.Rajaaman (Este libro es muy recomendable y está disponible de forma gratuita)
  • Una introducción a Data Ming por Dr.Sayed

Aprendizaje automático:

  • minería de datos, inferencia y predicción. (Altamente recomendado)
  • Programando Inteligencia Colectiva
  • Aplicaciones de minería de datos en ingeniería
  • Aprender el aprendizaje automático
  • Te sugiero que prefieras los recursos en línea para aprender ML, porque hay mucho contenido de calidad disponible en la web, que no querrás perderte.

Procesamiento natural del lenguaje:

  • Procesamiento de lenguaje natural con Python
  • Procesamiento de texto intensivo de datos usando Map Reduce. (Te sugiero que aprendas MapReduce)

Análisis:

  • Información de previsión: Edward R. Tufte: 9780961392116: Amazon.com: Libros
  • Python para análisis de datos (suponiendo que se sienta bastante cómodo con Python)
  • Una introducción a R
  • R Cookbook
  • Hay muchísimos libros sobre R de O’Reilly, y todos son bastante buenos.

Para aprender Visualización, le sugiero que lea la documentación de varios paquetes de visualización en R. (Los libros no pueden enseñarle buenas visualizaciones).

Gelman, Bayesian Data Analysis, 3rd Edition. Probablemente el mejor libro de modelos estadísticos, considerando que puede aplicar todo lo que aprende usando STAN.

Jaynes, Teoría de la probabilidad: la lógica de la ciencia. Este es el libro que me metió en la ‘ciencia de datos’ como carrera. Jaynes expone la probabilidad, luego las estadísticas no son más que la consecuencia del pensamiento lógico puro. El primer puñado de capítulos está muy bien hecho.

Jalem Raj Rohit escribió una respuesta integral. También otro buen libro editado por Toby Segaran y Quora User titulado Beautiful Data, The Stories Behind Elegant Data Solutions.
No se trata de detalles técnicos sino de aplicaciones.

Estos 3 libros me fueron sugeridos por un científico de datos:

– “Todas las estadísticas” por Wasserman

– “Elementos de aprendizaje estadístico” por Hastie, Tibshirani y Friedman

– “Introducción a los modelos de probabilidad” de Sheldon

He leído partes de “Elementos del aprendizaje estadístico”. Los conceptos se explican de una manera que los novatos como yo pueden comprender con bastante facilidad. Por lo tanto, estoy seguro de que lo ayudará independientemente de su nivel de experiencia.

Agrupación: Agrupación de datos – Algoritmos y aplicaciones: Introducción profunda en todos los aspectos del análisis de agrupación.

Amazon.com: Clustering de datos: algoritmos y aplicaciones (Chapman & Hall / CRC Data Mining and Knowledge Discovery Series) (9781466558212): Charu C. Aggarwal, Chandan K. Reddy: Libros

Agrupación de correlaciones – Arthur Zimek, 2008. München. La clave para describir clústeres y espacio de datos de manera elegante y concisa.

Regresión – Modelos mixtos de E. Demidenko. Una excelente extensión de los enfoques clásicos a los datos no homogéneos.

Modelos mixtos: teoría y aplicaciones con R: Eugene Demidenko: 9781118091579: Amazon.com: Libros

Creo que debe estudiar / comprender el aprendizaje automático desde 3 perspectivas.

1) Enfoque algorítmico: para comprender cómo funcionan los algoritmos paso a paso.

2) Enfoque estadístico: las matemáticas detrás de los algoritmos

3) Enfoque de programación / implementación: cómo implementar el aprendizaje automático de manera correcta y rápida

Para el primero, recomendaría los libros de informática de Stephen Marsland en Amazon.com

Para el segundo, recomendaría Amazon.com: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) (9780387848570): Trevor Hastie, Robert Tibshirani, Jerome Friedman: Books

Y para el tercero, recomendaría Python Machine Learning de Sebastian Raschka Sebastian Raschka: 9781783555130: Amazon.com: Libros

Particularmente puedo responder por el último libro, ya que me ayudó a implementar cosas rápidamente. Hay muchas cosas sobre sklearn y otros sitios web, pero este lugar es como una fuente condensada de información.

Hemos eliminado varias señales (por ejemplo, reseñas en línea, popularidad del autor en el campo, contenido, menciones en redes sociales, etc.) de la web para más de 50 libros de ciencia de datos. Después de alimentar todos esos puntos de datos a una función de clasificación, hemos creado una lista de los principales libros de ciencia de datos. Puede consultar el siguiente enlace para la lista:

Los 30 mejores libros de ciencia de datos

Creo que la Academia Zipfian Una introducción práctica a la ciencia de datos, que he compartido en mi blog, te será de gran ayuda.

Para tener una idea de las tecnologías, puede escanear esta lista: onurakpolat / awesome-bigdata