¿Cuáles son los mejores libros sobre ciencia de datos?

A continuación se enumeran los libros de más alta calidad sobre análisis predictivo / minería de datos / ciencia de datos que he encontrado hasta ahora, con un enfoque en libros más allá del nivel de introducción. La lista no está ordenada.

  • Cuando nuevas personas sin mucha exposición previa al modelado predictivo entran en el mundo de la ciencia de datos, “Una introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani debería ser su primera lectura (y obligatoria para la OMI), es tan bueno (y es gratis: http://www-bcf.usc.edu/~gareth/ISL/.
  • Minería de datos: el libro de texto” de Charu C. Aggarwal http://www.amazon.com/Data-Mining-Textbook-Charu-Aggarwal/dp/3319141414 es sin duda el mejor libro avanzado sobre minería de datos / ciencia de datos / análisis predictivo que he leído Divertido de leer, profundo, que incluye importantes consideraciones teóricas y prácticas, que abarcan esencialmente todos los subcampos cruciales de la minería de datos y bastantes áreas clave de aplicaciones. Estoy 100% seguro de que se convertirá en un clásico, al que volveré a menudo durante la próxima década.
  • El “Modelo predictivo aplicado” de Kuhn & Johnson también es muy bueno, con explicaciones y ejemplos completos. Más ejemplos de modelado en R: http://www.amazon.com/Applied-Pr….
  • “Minería de datos: herramientas y técnicas prácticas de aprendizaje automático” por Ian H. Witten, Eibe Frank y Mark A. Hall también es genial. Comienza a partir de ejemplos y técnicas de juguetes súper simples, y progresa constantemente con la complejidad. Muy bien pensado a través de la disposición de capítulos y explicaciones claras de los métodos, discusiones de pros y contras de ciertas opciones, y mucha sabiduría práctica. Además, una parte práctica en WEKA. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, tercera edición (serie Morgan Kaufmann en sistemas de gestión de datos): Ian H. Witten, Eibe Frank, Mark A. Hall: 9780123748560: Amazon.com: Libros
  • “Análisis de valores atípicos” por Aggarwal: http://www.amazon.com/Outlier-An…. Tenga en cuenta que esta no es una introducción fácil, y si necesita una, mejor aprenda y digiera, por ejemplo, “Introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani primero.
  • “Minería de datos temporales” de Mitsa, exclusivamente sobre la minería de datos de series de tiempo, tiene toneladas de indicadores y comparaciones de rendimiento de algoritmos, de documentos de investigación originales y algos, muy breves e informativos: http: //www.amazon.com/Temporal -METRO….
  • “Clasificación de datos: algoritmos y aplicaciones” editado por Aggarwal: debido a la cantidad de contribuyentes y la variedad de temas, la calidad varía, pero tiene algunos capítulos excelentes: http://www.crcpress.com/product/…. Es bastante avanzado, pero extremadamente informativo y práctico.
  • “Gestión de mantenimiento orientado al pronóstico y al pronóstico de maquinaria” por Yan, para aquellos de nosotros que predicemos el comportamiento de la maquinaria.
  • Para aquellos de nosotros que anidamos más en el mundo bayesiano, “Hacer análisis de datos bayesianos: un tutorial con R y BUGS” es un recurso excelente, sobre análisis bayesiano, inferencia y construcción de modelos: http://www.amazon.com/Doing- Baye …
  • Corto, fácil e interesante, con muchos casos de uso para invitados: “Doing Data Science: Straight Talk from the Frontline” por Schutt & O’Neil: http://www.amazon.com/Doing-Data…, más el excelente popular libro de Nate Silver: “La señal y el ruido: por qué fallan tantas predicciones, pero algunas no”.

Preferiría si pudiera aclarar su pregunta. No estoy seguro de si le está preguntando a alguien que se está preparando para su doctorado en Ciencia de Datos, o alguien que desea ingresar a la carrera de Científico de Datos como analfabeto informático, o como alguien que ha hecho algo de HTML con PHP hace 5 años, o como desarrollador Senior.

Personalmente, más o menos obtuve el conocimiento necesario para hacer la transición a un rol de Científico de Datos desde un puesto de Desarrollador Principal / Desarrollador Principal de Sistemas leyendo libros. De esos libros, hay algunos que creo que tienen mucho conocimiento práctico para la transición a un rol de DS de un rol de desarrollador. Otros libros que he leído o estoy leyendo mientras desempeñaba el papel de DS a menudo son menos amplios y más profundos en el conocimiento que intentan enseñar.

Si la transición no tiene sentido leer un libro de 500 páginas que cuesta 200 dólares, por ejemplo, sobre los conceptos matemáticos en diferentes teorías de convolución (ver la última sección), lo importante es en parte teoría abstracta, en parte ejemplos prácticos. Los siguientes libros son los que he leído y que puedo recomendar para las diferentes situaciones (tiendo a olvidar los libros que leí que no me dieron ningún valor):

El desarrollador Joe comienza la transición hacia la ciencia de datos:

  1. Machine Learning en acción,
  2. Creación de sistemas de aprendizaje automático con Python,
  3. Dominar el aprendizaje automático con scikit-learn,
  4. Visualización de datos con Python y JavaScript.

Tratando de dejar atrás la junioridad:

  1. Aprendizaje automático reflexivo,
  2. Machine Learning con Spark,
  3. Dominar el aprendizaje automático con Spark 2.x (solo leí la primera edición),
  4. Dando sentido al procesamiento de flujo,
  5. Agile Data Science 2.0,
  6. Código limpio
  7. Desarrollo de software ágil, principios, patrones y prácticas,
  8. Patrones de diseño: elementos de software orientado a objetos reutilizables.

Para ganar en los problemas de la pizarra de la entrevista “Ment-to-see-how-think-think-to-to-resolve”:

  1. Reconocimiento de patrones y aprendizaje automático,
  2. Fundamentos del aprendizaje automático para el análisis predictivo de datos,
  3. Aprendizaje profundo,
  4. Análisis de datos bayesianos.

Los cuatro anteriores que leí a medias, descremaron por interés, y lo exponen a algunas de las opciones menos conocidas que probablemente tendrá que usar para recordar de vez en cuando cuando esté en una posición de alto nivel.

¿Esperar lo? De lo que se supone que un Data Scientist realmente tiene conocimiento:

  1. Todo lo anterior, excepto al menos tener el anterior en su escritorio y haber hojeado algunas páginas,
  2. Inteligencia emocional,
  3. El arte del desarrollo ágil,
  4. Guía del administrador del sistema (primero lea, luego use como referencia),
  5. Redes informáticas: un enfoque de arriba hacia abajo, 7ª edición (primero desnate, luego use como referencia),
  6. El mes mítico del hombre,
  7. The Hacker Playbook 2: Guía práctica para pruebas de penetración,
  8. The Lean Startup,
  9. El Tao del Coaching.

Un científico de datos real es (comprensiblemente) conocido como unicornio, porque la diversidad de conocimiento profundo que se necesita es poco común para las personas. La industria solo comenzó a separarse notablemente de los JD para un “científico de datos” el año pasado, 2017 (personalmente no vi un cambio obvio en la industria antes de 2017). Hoy en día generalmente se divide en posiciones con requisitos menos poco realistas como:

  • Ingeniero de Aprendizaje Automático,
  • Ingeniero de datos,
  • Ingeniero de algoritmos de aprendizaje profundo,
  • et al.

Estoy compilando un montón de libros gratuitos de ciencia de datos como un recurso público. Aquí están todos los libros que tengo en este momento:

Todos estos libros tienen versiones digitales gratuitas (autorizadas), o pagan lo que quieran (PWYW) con un mínimo de $ 0.

Programación para ciencia de datos

  • Programación R para ciencia de datos (PWYW)
  • Think Python de Allen Downey (gratis)

Más recursos: ¿Cómo aprendo Python ?, R (lenguaje de programación): ¿Cómo aprendo R?

Estadísticas y análisis de datos bayesianos

  • Inferencia estadística para la ciencia de datos (PWYW)
  • Think Stats de Allen Downey (gratis)
  • Think Bayes de Allen Downey (gratis)
  • Programación probabilística y métodos bayesianos para hackers (gratis)

Más recursos: ¿Cómo aprendo la inferencia bayesiana como principiante?

Diseño y análisis experimental (también conocido como prueba A / B)

  • Un primer curso en diseño y análisis de experimentos (gratis)

Más recursos: ¿Cómo aprendo diseño experimental?

Aprendizaje automático estadístico

  • Introducción al aprendizaje estadístico (gratis)
  • Los elementos del aprendizaje estadístico (gratis)

Más recursos: ¿Cómo aprendo el aprendizaje automático?

El proceso de ciencia de datos

  • Los elementos del estilo analítico de datos (PWYW)

Visualización de datos

  • Visualización interactiva de datos para la web (gratis en línea)
  • d3 Tutoriales (muchos gratis)

Entrevistas con científicos de datos

A pesar del nombre similar, estos dos libros no están afiliados oficialmente, ¡aunque algunos de los autores se conocen bien! ¡Estos libros contienen entrevistas de científicos de datos y dan una buena idea de sus carreras, sus historias y lo que hacen!

  • The Data Science Handbook (PWYW) (divulgación: ¡este es mi libro!)
  • El manual de análisis de datos (gratis)

Más recursos: ¿qué hace un científico de datos?

Construir un equipo de ciencia de datos

Todos estos son mini libros de O’Reilly que se lanzan oficialmente de forma gratuita en línea.

  • Data Driven: Creando una cultura de datos por el usuario de Quora y DJ Patil (gratis)
  • Comprensión del director de datos (gratis)
  • Creación de equipos de ciencia de datos por DJ Patil (gratis)

Más recursos: ¿Cómo construyo un equipo de ciencia de datos?

¡Las sugerencias para obtener más libros gratuitos de ciencia de datos son siempre bienvenidas! Regrese a esta respuesta para saber cuándo abro la página web o para verme expandir la lista.

Muchas más cosas sobre el aprendizaje de la ciencia de datos en ¿Cómo me convierto en un científico de datos?

Data Science es un término y campo muy amplio. Hay varios subtemas en la ciencia de datos. Si eres un principiante y buscas una visión general de los subtemas, te recomiendo Data Science desde cero . Es un gran libro de iniciación para alguien nuevo en el campo. Comienza explicando los conceptos básicos que necesita para Data Science y luego pasa al modelado y la predicción.

Aquí hay algunos otros recursos:

Relacionado con la programación:

  • Python: aprende Python de la manera difícil
  • R: Aprenda R, Python y Data Science en línea | DataCamp
    Editar: R para Data Science Gran recurso por Hadley Wickham Científico jefe de RStudio .
  • Visualización : ggplot2, D3.js – Documentos basados ​​en datos, trazado de Python – Documentación Matplotlib 2.1.2

Relacionado con Estadística: Libros clásicos de aprendizaje estadístico:

  • Introducción al aprendizaje estadístico
  • Los elementos del aprendizaje estadístico

Relacionado con la recuperación de información :

  • Introducción a la recuperación de información: libro muy importante para comprender el rastreo web, la recopilación de datos, el almacenamiento de datos, la ingeniería de características y el análisis de texto.
  • Minería de conjuntos de datos masivos: si desea ser un científico de datos, se encontrará con un problema de cálculo. Este es un recurso muy importante para comprender cómo procesar conjuntos de datos masivos.

Para aprender técnicas de minería de datos y aprendizaje automático:

  • Minería de datos: conceptos y técnicas
  • Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con clientes
  • Minería de datos: herramientas y técnicas prácticas de aprendizaje automático

Pasando a Machine Learning (ML) y Deep Learning (DL):

ML y DL:

  • Redes neuronales y aprendizaje profundo.
  • Aprendizaje profundo: Ian Goodfellow
  • DL basado en Java: documentación de Deeplearning4j
  • TensorFlow: Tutoriales | TensorFlow:
  • Aprendizaje automático práctico con Scikit-Learn y TensorFlow: conceptos, herramientas y técnicas para construir sistemas inteligentes: Aurélien Géron

Espero que esto ayude.
Namaste _ / \ _

Algunos libros de estadísticas de ciencia de datos a los que me refiero:
1: Estadística matemática y análisis de datos por Rice
2: Análisis de regresión por ejemplo Chatterjee, Hadi
3: Regresión logística aplicada, Hosmer y Lemeshow
4: Modelos lineales generalizados y extensiones, Hardin e Hilbe (principalmente para modelos de datos de conteo)
5: Introducción a las estadísticas modernas no paramétricas, Higgins
6: Análisis de datos utilizando regresión y modelos multinivel / jerárquicos, Gelman
Como profesional, prefiero los libros que me ayudan a hacer un análisis de datos empírico riguroso. He leído la mayoría de las partes de los primeros tres libros que considero “básicos” pero solo he hojeado / leído partes seleccionadas de los últimos 3 libros.
Libros de ML:
1: Reconocimiento de patrones y aprendizaje automático, Bishop
2: (ESL) Elementos de aprendizaje estadístico, Hastie, Tibshirani y Friedman
Una vez más, considero que el Libro 1 es esencial y uso ESL principalmente como referencia.

Agregaré más mientras pienso en ellos.

Existen diferentes tipos de libros de ciencia de datos.

  • Ciencia de los datos
  1. El manual de ciencia de datos: consejos e ideas de 25 científicos de datos asombrosos: 25 expertos en la industria dieron algunos consejos en este manual, muy útil para empezar.
  2. Data Science for Business: lo que necesita saber sobre la minería de datos y el pensamiento analítico de datos: escrito por los reconocidos expertos en ciencia de datos Foster Provost y Tom Fawcett, Data Science for Business presenta los principios fundamentales de la ciencia de datos y lo guía a través de los “datos -análisis analítico “necesario para extraer conocimiento útil y valor comercial de los datos que recopila. Esta guía también lo ayuda a comprender las muchas técnicas de minería de datos que se utilizan actualmente.
  3. Doing Data Science: Straight Talk from the Frontline : en muchas de estas conferencias de un capítulo, los científicos de datos de compañías como Google, Microsoft y eBay comparten nuevos algoritmos, métodos y modelos presentando estudios de casos y el código que utilizan. Si está familiarizado con álgebra lineal, probabilidad y estadísticas, y tiene experiencia en programación, este libro es una introducción ideal a la ciencia de datos.
  • Probabilidades y estadísticas
  1. Introducción a la probabilidad, la estadística y los procesos aleatorios: este libro presenta a los estudiantes la probabilidad, la estadística y los procesos estocásticos. Puede ser utilizado tanto por estudiantes como por profesionales en ingeniería, diversas ciencias, finanzas y otros campos relacionados. Proporciona un enfoque claro e intuitivo a estos temas mientras mantiene la precisión matemática. También puede encontrar cursos y videos en línea.
    https://www.probabilitycourse.com
  2. OpenIntro Statistics: el proyecto OpenIntro se fundó en 2009 para mejorar la calidad y la disponibilidad de la educación mediante la producción de libros excepcionales y herramientas de enseñanza que son de uso gratuito y fáciles de modificar. Y cuyo esfuerzo inaugural es OpenIntro Statistics. Los cursos y videos correspondientes se pueden encontrar en:
    https://www.openintro.org .
  3. Inferencia estadística : es un libro de texto para recién graduados en muchas universidades.
    Discute tanto la estadística teórica como las aplicaciones prácticas de los desarrollos teóricos. Incluye una gran cantidad de ejercicios que cubren tanto la teoría como las aplicaciones.
  4. Inferencia estadística de la era de la computadora: algoritmos, evidencia y ciencia de datos: Efron y Hastie nos dieron una introducción completa a las estadísticas en la era de los grandes datos a través de este libro.
  • Aprendizaje automático
  1. Modelado predictivo aplicado : el modelado predictivo aplicado cubre el proceso general de modelado predictivo. Una lectura obligada antes de la entrevista o el trabajo.
  2. Python Machine Learning : Python Machine Learning Second Edition ahora incluye la popular biblioteca de aprendizaje profundo TensorFlow. El código scikit-learn también se ha actualizado completamente para incluir mejoras y adiciones recientes a esta biblioteca versátil de aprendizaje automático.
  3. Aprendizaje automático en el mundo real : este libro le dice cómo usar el aprendizaje automático para resolver problemas del mundo real. Recomiendo encarecidamente a todos los científicos de datos que lo lean antes de realizar prácticas o trabajar.
  • Minería de datos
  1. Principios de minería de datos : una introducción básica a la minería de datos, habla mucho sobre las reglas de asociación.
  2. Introducción a la minería de datos: la Introducción a la minería de datos presenta conceptos y algoritmos fundamentales para quienes aprenden la minería de datos por primera vez.

También hay muchos otros libros de ciencia de datos sobre SQL, matemáticas, algoritmos,

Red neuronal y aprendizaje profundo, muestreo, etc. Eche un vistazo a los 80 mejores libros de ciencia de datos que vale la pena leer para más detalles.

Aquí está mi lista:

  • Estadísticas de Think (Think Stats 2e – Green Tea Press)
  • Think bayes (Think Bayes – Prensa de té verde)
  • Introducción al aprendizaje estadístico (Introducción al aprendizaje estadístico)
  • Elementos de aprendizaje estadístico (minería de datos, inferencia y predicción. 2ª edición).
  • Reconocimiento de patrones y aprendizaje automático de Bishop ( http://users.isr.ist.utl.pt/~wur …)
  • Programación de inteligencia colectiva ( http://forum.myquant.cn/uploads/ …)

Estos libros son gratuitos y están disponibles en línea.

La ciencia de datos no solo analiza datos, sino que es mucho más que esto. Existen personas que disfrutan analizando los datos. Podrían pasar todo el día mirando histogramas y promedios. Ofrece una variedad de roles y requiere una variedad de habilidades.

En el mundo de hoy, es muy popular. Además, hay una gran cantidad de datos presentes que se generan cada día en diferentes campos. Por lo tanto, los usuarios necesitan realizar algunas operaciones analizando el conjunto de datos. Luego encuentre algo útil de esos datos.

Así que aquí está nuestra recomendación para los mejores libros sobre ciencia de datos y convertirse en un maestro de la tecnología.

2.1 R para ciencia de datos

a. R Cookbook por Paul Teetor

Este libro ofrece una técnica. Utilizamos esta técnica para analizar datos. Su enfoque principal es solo en aspectos prácticos. Cubre una amplia gama de temas, como estadísticas, probabilidad, análisis de series de tiempo, etc. Le sugeriré más libros sobre ciencia de datos.

si. Advanced R por Hadley Wickham

Este libro es básicamente para personas interesadas en la ciencia de datos. También describe cómo funciona que crea una gran diferencia en 3 herramientas analíticas llamadas R, SAS, SPSS.

Da una explicación paso a paso, con fragmentos de código que puede probar usted mismo mientras lee. No es para principiantes ni para lectores nuevos en programación.
Es para los lectores que desean avanzar en sus habilidades. Y uno que ya tiene el comando de subconfiguración, vectorización y estructuras de datos R.

C. El arte de la programación por Norman Matloff

En este libro, aprenderemos cómo hacer desarrollo de software. Junto con esto, desde tipos de datos básicos y estructura de datos hasta temas avanzados. No necesitamos ningún tipo de conocimiento estadístico. Y sus habilidades de programación pueden variar desde aficionados hasta genios.

re. Aprendiendo RStudio para computación estadística R por Mark PJvan der Loo

El libro es para desarrolladores y analistas. Básicamente para aquellos que desean hacer desarrollo estadístico R usando la funcionalidad RStudio. Puede crear y gestionar proyectos de análisis estadísticos, generar informes y gráficos. Este libro también le enseña cómo usar R en el popular IDE RStudio en lugar de en el software R estándar. Como tenemos más libros sobre ciencia de datos. Revisaremos todos y cada uno de los libros.

mi. Ciencia práctica de datos con R por Nina Zumel y John Mount

Tenemos demasiados libros sobre ciencia de datos. Pero, este libro es el mejor para estudiantes de primer año. Aquellos que aún deben ingresar a la industria de Analytics. A medida que el autor se centra en establecer una conexión entre ML. También sobre su impacto en las actividades del mundo real.

El enfoque principal de este libro está en los métodos de ciencia de datos y sus aplicaciones en el mundo real.
Es diferente en sí mismo. Ninguno de los libros habla sobre desafíos del mundo real, pero lo hace.

F. Un manual de programación con R por Garrett Grolemund

Aquellas personas que son nuevas en R, este libro es lo mejor para ellas. Aquí aprenderá a escribir funciones y bucles en R. en lugar de hacer malabarismos con los paquetes. Este libro también le enseña a aprender cómo ensamblar y desensamblar objetos de datos. Además, cómo escribir tus propias funciones. El lenguaje del libro es fácil de entender y se pueden reproducir ejemplos.

Comprar equipos de laboratorio India

Data Science for Business: lo que necesita saber sobre la minería de datos y el pensamiento analítico de datos


Primeros principios con Python: Joel Grus: 9781491901427: Amazon.com: Libros

Escrito por los renombrados expertos en ciencia de datos Foster Provost y Tom Fawcett, Data Science for Business presenta los principios fundamentales de la ciencia de datos y lo guía a través del “pensamiento analítico de datos” necesario para extraer conocimiento útil y valor comercial de los datos que recopila. Esta guía también lo ayuda a comprender las muchas técnicas de minería de datos que se utilizan actualmente.
Basado en un curso de MBA que Provost ha enseñado en la Universidad de Nueva York en los últimos diez años, Data Science for Business proporciona ejemplos de problemas comerciales del mundo real para ilustrar estos principios. No solo aprenderá cómo mejorar la comunicación entre las partes interesadas del negocio y los científicos de datos, sino también cómo participar de manera inteligente en los proyectos de ciencia de datos de su empresa. También descubrirá cómo pensar analíticamente los datos y apreciará plenamente cómo los métodos de ciencia de datos pueden apoyar la toma de decisiones empresariales.

  • Comprenda cómo la ciencia de datos se adapta a su organización y cómo puede usarla para obtener una ventaja competitiva
  • Trate los datos como un activo comercial que requiere una cuidadosa inversión si desea obtener un valor real
  • Aborde los problemas comerciales de manera analítica de datos, utilizando el proceso de minería de datos para recopilar buenos datos de la manera más adecuada
  • Aprenda conceptos generales para extraer conocimiento de los datos.
  • Aplicar los principios de la ciencia de datos al entrevistar a candidatos para trabajos de ciencia de datos

Ciencia de datos desde cero: primeros principios con Python


Primeros principios con Python: Joel Grus: 9781491901427: Amazon.com: Libros

Las bibliotecas, los marcos, los módulos y los kits de herramientas de ciencia de datos son excelentes para hacer ciencia de datos, pero también son una buena manera de sumergirse en la disciplina sin comprender realmente la ciencia de datos. En este libro, aprenderá cuántas de las herramientas y algoritmos de ciencia de datos más fundamentales funcionan al implementarlos desde cero .
Si tiene aptitudes para las matemáticas y algunas habilidades de programación, el autor Joel Grus lo ayudará a sentirse cómodo con las matemáticas y las estadísticas en el núcleo de la ciencia de datos, y con las habilidades de pirateo que necesita para comenzar como científico de datos. El desorden de datos desordenado de hoy contiene respuestas a preguntas que nadie pensó hacer. Este libro le proporciona los conocimientos para extraer esas respuestas.

  • Obtén un curso intensivo en Python
  • Aprenda los conceptos básicos de álgebra lineal, estadística y probabilidad, y comprenda cómo y cuándo se usan en ciencia de datos
  • Recopile, explore, limpie, manipule y manipule datos
  • Sumérgete en los fundamentos del aprendizaje automático
  • Implemente modelos tales como k vecinos más cercanos, naive bayes, regresión lineal y logística, árboles de decisión, redes neuronales y agrupamiento
  • Explore sistemas de recomendación, procesamiento de lenguaje natural, análisis de red, MapReduce y bases de datos.

Aquí hay un resultado de búsqueda rápida de Amazon. Cubre una amplia gama de temas de ciencia de datos (POV académico / matemático, simple y práctico, visualizaciones, etc.). Para los enfoques cortos y prácticos del tema, los dos libros de O’Reilly, Data Science From Scratch y Doing Data Science son buenas introducciones. Lea las reseñas, mire las secciones “dentro de este libro” en Anazón y elija un par que atraiga sus intereses, antecedentes y objetivos.

Si desea un enfoque más matemático, basado en la teoría, algorítmico, o uno que enfatice un subtema particular (procesamiento y análisis del lenguaje natural, uso de lenguajes específicos o API / marcos, redes neuronales y aprendizaje, herramientas de consulta / respuesta, etc.), hazlo: hay una enorme variedad de buenas opciones hoy. Para los libros populares, todavía comenzaría con Anazón y perfeccionaría desde allí.

Amazon.com: haciendo ciencia de datos

(sí, busqué un libro en particular y recuperé una lista de similares en lugar de comenzar desde cero; puede que no sea el mejor enfoque, pero tenía una idea de dónde quería terminar)

(editar 27/01/2018)

No estoy afiliado a Amazon u O’Reilly y no obtengo ningún beneficio de la información proporcionada o el enlace de la lista. En este caso particular, Amazon utilizó una herramienta de búsqueda rápida y conveniente para libros sobre un tema dado; si el usuario compra los libros de Amazon no tiene ninguna consecuencia. Agregué una breve introducción a la lista, recomendé dos libros introductorios específicos sobre el tema y sugerí otros subtemas para refinar la lista si lo desea. Todo esto proporciona, en mi opinión, información útil para los usuarios de Quora que buscan libros sobre el tema según lo solicitado por la pregunta original. Si la moderación de Quora no está de acuerdo, eliminaré el enlace específico de la lista de Amazon, pero eso reduce el alcance de la información útil proporcionada a los usuarios de Quora y agrega un paso externo para los usuarios que buscan respuestas. Identifiqué específicamente la fuente de la lista; El usuario tiene la opción de abrir el enlace.

A continuación se enumeran los libros de más alta calidad sobre análisis predictivo / minería de datos / ciencia de datos que he encontrado hasta ahora, con un enfoque en libros más allá del nivel de introducción. La lista no está ordenada.

  • Cuando nuevas personas sin mucha exposición previa al modelado predictivo entran en el mundo de la ciencia de datos, “Una introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani debería ser su primera lectura (y obligatoria para la OMI), es tan bueno (y gratis: http://www-bcf.usc.edu/~gareth/ISL/ .
  • “Minería de datos: el libro de texto” de Charu C. Aggarwal http://www.amazon.com/Data-Mining-Textbook-Charu-Aggarwal/dp/3319141414 es sin duda el mejor libro avanzado sobre minería de datos / ciencia de datos / análisis predictivo que he leído alguna vez Divertido de leer, profundo, que incluye importantes consideraciones teóricas y prácticas, que abarcan esencialmente todos los subcampos cruciales de la minería de datos y bastantes áreas clave de aplicaciones. Estoy 100% seguro de que se convertirá en un clásico, al que volveré a menudo durante la próxima década.
  • El “Modelo predictivo aplicado” de Kuhn & Johnson también es muy bueno, con explicaciones y ejemplos completos. Más ejemplos de modelado en R: http://www.amazon.com/Applied-Pr… .
  • “Minería de datos: herramientas y técnicas prácticas de aprendizaje automático” por Ian H. Witten, Eibe Frank y Mark A. Hall también es genial. Comienza a partir de ejemplos y técnicas de juguetes súper simples, y progresa constantemente con la complejidad. Muy bien pensado a través de la disposición de capítulos y explicaciones claras de los métodos, discusiones de pros y contras de ciertas opciones, y mucha sabiduría práctica. Además, una parte práctica en WEKA. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, tercera edición (serie Morgan Kaufmann en sistemas de gestión de datos): Ian H. Witten, Eibe Frank, Mark A. Hall: 9780123748560: Amazon.com: Libros
  • “Análisis de valores atípicos” por Aggarwal: http://www.amazon.com/Outlier-An… . Tenga en cuenta que esta no es una introducción fácil, y si necesita una, mejor aprenda y digiera, por ejemplo, “Una introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani primero.
  • La “Minería de datos temporales” de Mitsa, dedicada exclusivamente a la extracción de datos de series de tiempo, tiene toneladas de indicadores y comparaciones de rendimiento de algoritmos, de documentos de investigación originales y algos, muy breves e informativos: http://www.amazon.com/Temporal -M …
  • “Clasificación de datos: algoritmos y aplicaciones” editado por Aggarwal: debido a la cantidad de contribuyentes y la variedad de temas, la calidad varía, pero tiene algunos capítulos excelentes: http://www.crcpress.com/product/… . Es bastante avanzado, pero extremadamente informativo y práctico.
  • “Gestión de mantenimiento orientado al pronóstico y al pronóstico de maquinaria” por Yan, para aquellos de nosotros que predicemos el comportamiento de la maquinaria.
  • Para aquellos de nosotros que anidamos más en el mundo bayesiano, “Hacer análisis de datos bayesianos: un tutorial con R y BUGS” es un recurso excelente, sobre análisis bayesiano, inferencia y construcción de modelos: http://www.amazon.com/Doing- Baye …
  • Corto, fácil e interesante, con muchos casos de uso para invitados: “Doing Data Science: Straight Talk from the Frontline” por Schutt & O’Neil: http://www.amazon.com/Doing-Data …, además del excelente popular libro de Nate Silver: “La señal y el ruido: por qué fallan tantas predicciones, pero algunas no”.

Buenas respuestas hasta ahora. Pero a muchos les falta un libro bastante reciente y excelente.

R para Data Science por Garrett Grolemund Hadley Wickham (también disponible de forma gratuita en línea)

Otros libros de Hadley también les gusta:

R avanzado

ggplot2: Gráficos elegantes para el análisis de datos (Use R!) 2ª ed. Edición 2016

Estos puntos están un poco centrados en R, pero R es un excelente lenguaje de ciencia de datos, especialmente si no está analizando conjuntos de datos del tamaño de Google, sino más normales que se ajustan a la memoria (aún puede tener 32-64 Gb de memoria con bastante facilidad).

Y la visualización puede ser una parte aún más importante de la ciencia de datos que la analítica, ya que en realidad no existe un resultado que no se comunique de manera efectiva.

Si es un científico de datos en ciernes, comenzar en este campo emocionante pero intimidante puede ser bastante abrumador. El campo es tan vasto que quizás no sepas por dónde empezar.

Obteniendo la respuesta de un blog de Manipal ProLearn. Estos libros deberían ayudarlo a comprender el tema:

1. Big Data en el trabajo – Thomas H. Davenport

Un gran libro para iniciar su viaje hacia la ciencia de datos, Big Data at Work de Thomas H. Davenport se mete en el panorama general. El ‘cómo’ y el ‘por qué’ de la ciencia de datos es muy importante para las organizaciones. Lo recomendamos como una buena primera lectura porque le da una idea de la industria y lo familiariza con todas las terminologías de la ciencia de datos.

2. Una introducción al aprendizaje estadístico: James, Witten, Hastie y Tibshirani

Mucho más parecido a un libro de texto que nuestra recomendación anterior, este es un gran libro para principiantes que no tienen mucha exposición al modelado predictivo y desean ingresar al mundo de la ciencia de datos. Si planea hacer su Diploma de PG en Data Science, le brinda una base sólida en los detalles esenciales de las estadísticas. ¡Lo mejor de todo, es gratis!

3. La señal y el ruido: por qué fallan tantas predicciones, pero algunas no – Nate Silver

Un libro fascinante, Nate Silver analiza de manera amplia y profunda las formas en que estamos conectados para hacer predicciones (y las razones por las que a menudo son incorrectas). Excelente para leer por placer, está lleno de ideas sobre patrones y sus probabilidades. Nuestra parte favorita de este libro es la amplia gama de entornos predictivos que cubre: desde el ajedrez hasta la política y los ataques terroristas, ¡para que nunca se aburra!

4. R Cookbook – Paul Teetor

Este libro es simplemente el mejor recurso para comenzar a trabajar con la programación R. Desde la entrada / salida de archivos, la manipulación de datos, la fusión y la clasificación hasta la construcción de un modelo de regresión, este libro lo tiene todo y es un recurso fantástico para tener a su lado, incluso a medida que avanza su carrera.

5. Web Analytics 2.0 – Avinash Kaushik

Internet: ¡el gran depósito de datos sobre usted, su amigo, el gato de su primo y mucho más! Aprender los conceptos básicos de la analítica web lo convierte en un recurso invaluable para las empresas y las empresas que luchan por ser escuchadas en las redes sociales y las plataformas de Internet, y este libro lo ayuda a hacer exactamente eso.

6. Reconocimiento de patrones y aprendizaje automático – Christopher Bishop

Volviendo a las recomendaciones de los libros de texto, este libro no asume ningún conocimiento previo de minería de datos, aunque admitimos que es mucho más fácil de digerir después de que te tomas un día para repasar tu álgebra y cálculo de la escuela secundaria.

Bishop habla sobre cómo los científicos de datos aprovechan la gran cantidad de datos y aprendizaje automático cada vez mayores para crear computadoras que tomen mejores y más rápidas decisiones que cualquier humano. ¡Quieres ser ese científico de datos!

7. Lean Analytics – Alistair Croll y Benjamin Yoskovitz

¡Este es para todos nuestros lectores emprendedores! Repleto de consejos y ejemplos específicos y procesables, Lean Analytics está lleno de orientación sobre cómo crear productos basados ​​en datos y comercializarlos. Saluda a tus sueños de inicio aprendiendo los conceptos básicos del desarrollo de productos y el análisis de datos.

¡Espero que esto ayude!

Puedo sugerirle un libro grande con mil páginas escrito por un profesor académico de doctorado. Pero quiero sugerirle una mejor alternativa. Intellipaat es la alternativa de la que quiero hablar que proporciona material de capacitación integral sobre ciencia de datos junto con videos. Al seguir con este material de capacitación, puede convertirse en un científico de datos con seguridad. El material de capacitación consta de Exploración de datos, Disposición de datos y Estructura de datos R, que es útil en el análisis exploratorio de datos, y proporciona información sobre la importación y exportación de datos de fuentes externas. También aprenderá el gráfico Pi, el gráfico de líneas junto con gráficos como barras, histogramas y diagramas como dispersión, recuadro del material de capacitación. También consta de conceptos estadísticos como Medidas de centros y dispersión junto con conceptos como Probabilidad, Distribución normal, Distribución binaria, Prueba de hipótesis, Prueba de Chi cuadrado, ANOVA. El material también contiene regresión lineal y regresión logística junto con árboles de decisión. Aquí se proporciona el uso de clasificación con algoritmo para la Inducción del árbol de decisión y la matriz de confusión. Bosque aleatorio, análisis de sentimientos y series de tiempo también se proporcionan. Si desea obtener ese material, debe visitar el sitio web de lntellipaat:

Curso de formación en certificación de ciencia de datos – Intellipaat

Visualización de datos

Consejos y trucos D3 – https://lnkd.in/gjfANeR

Visualización interactiva de datos para la web: https://lnkd.in/gnWStrh

Machine Learning Un curso de Machine Learning (CIML) https://lnkd.in/gcg4xVb

Aprendizaje activo del mundo real https://lnkd.in/g8MxZ3e

Aprendizaje automático: la guía completa https://lnkd.in/gv_5hJZ

Un primer encuentro con el aprendizaje automático https://lnkd.in/gYvjGrZ

Ciencia de datos desde cero https://lnkd.in/gf5KU24

Ciencia de datos para tontos https://lnkd.in/g8gmBvN

Aprendizaje práctico y Big Data https://lnkd.in/g_eQpP5

Arte de la ciencia de datos https://lnkd.in/g9fiXqS

Aprenda Python, Break Python – https://lnkd.in/g3TPF_w

Python Cookbook https://lnkd.in/gtvHYii

Advanced R http://adv-r.had.co.nz/

El Infierno R https://lnkd.in/gBTUF5r

Minería de conjuntos de datos masivos http://www.mmds.org/

Una guía del programador para la minería de datos https://lnkd.in/gED7MFy

Minería de datos y análisis https://lnkd.in/gqi8JUu

La otra lista de libros está en ClaoudML – http://www.ClaoudML.co

Directo, con contenido gratuito: http://www-users.cs.umn.edu/~kum

Estos son algunos libros muy buenos (y son gratuitos para descargar y leer). Los encontré realmente útiles e informativos. A muchas personas que he recomendado lo mismo también les han gustado (he hecho una lista más informativa aquí):

Fundamentos de la ciencia de datos

Tutorial de UFLDL

Manual de Python Data Science

Aprendizaje automático práctico y Big Data

Piensa estadísticas

Piensa Bayes

EE263: Introducción a los sistemas dinámicos lineales

Optimización convexa – Boyd y Vandenberghe

Fundamentos de la metaheurística

CIML

Estos son algunos libros buenos (y gratuitos) que un científico de datos debe leer.

Si no tienes experiencia en estadísticas, creo que un buen comienzo sería: “OpenIntro Statistics” de Diez, Barr y Çetinkaya-Rundel. Va desde los conceptos básicos y tiene una introducción a la regresión. Puede descargarlo https://www.openintro.org/stat/ . Hay un https://www.coursera.org/course/ … curso en Coursera que se basa en este libro.
Después de obtener los conceptos básicos, sugeriría ir a “Introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani. Allí, la regresión se trata con más profundidad. También puede descargar los códigos fuente en R, así como todos los conjuntos de datos que utilizan. Todo el material se puede descargar http://www-bcf.usc.edu/~gareth/ISL/ . Hay un https://class.stanford.edu/cours … MOOC que cubre este libro.

Otras buenas referencias ya citadas son Pattern Recognition and Machine Learning de Bishop, que tiene un sabor bayesiano y elementos de aprendizaje estadístico de Hastie, Tibshirani y Friedman.

Aquí está mi lista parcial:

  • Obviamente soy un gran admirador de The Data Science Handbook, dado que lo escribí. Creo que ofrece una visión general excepcionalmente buena del campo, especialmente en términos de consejos prácticos “desde las trincheras” y el lado del trabajo orientado a los negocios
  • El reconocimiento de patrones y el aprendizaje automático es el mejor lugar para profundizar en el aprendizaje automático, al menos con el que estoy familiarizado
  • En el pasado aprendí mucho del análisis de datos con herramientas de código abierto

No dude en consultar la introducción a la ciencia de datos sin matemática , escrita por mí y un amigo (estudiantes de Cambridge y Stanford):

Numsense! Ciencia de datos para el profano

More Interesting

¿Hay algún lugar en Gurgaon donde pueda enseñar Data Science gratis?

¿Qué papel juegan las estadísticas en la ciencia de datos en comparación con habilidades como programación o visualización y comunicación?

Cómo usar datos de encuestas para modelar dinámicas de sistemas

¿Qué teorías y avances en ciencias sociales (econometría, etc.), biológicas y de otro tipo son útiles para conocer y solicitar un científico de datos?

¿Cuál es la forma de explorar mis datos más fácilmente?

¿Cómo es la ciencia de datos fintech única? ¿Es único?

Tengo una prueba técnica de 20 minutos para el puesto de pasante de análisis de datos. Esta es mi primera entrevista de este tipo. ¿Qué puedo esperar en la prueba técnica?

Por lo general, ¿cuánto tiempo le toma a un científico de datos crear un modelo de análisis predictivo?

¿Qué ideas aprendiste al pasar de ser un científico de datos a un gerente de ciencia de datos?

¿Cómo se puede usar la ciencia de datos en la aviación?

¿El almacenamiento de datos y la inteligencia empresarial están relacionados con la ciencia de datos y, en caso afirmativo, cuánto?

¿Con qué frecuencia se usa el paralelismo en la ciencia de datos?

¡Necesitamos sus comentarios sobre nuestra startup FlyElephant! ¿Puedes ayudarnos?

¿Qué te hizo interesado en la ciencia de datos?

¿Cómo pueden los científicos de datos y diseñadores de productos trabajar juntos de manera más efectiva? ¿Cómo deberían los desarrolladores ayudar a los diseñadores a comprender las posibilidades y limitaciones del análisis de datos y el aprendizaje automático?