¿Qué estadísticas debo saber para hacer ciencia de datos?

Comience con lo básico .

Con suerte, tienes una formación matemática.

De lo contrario, no es gran cosa: no comprenderá todos los conceptos a un nivel profundo, pero al menos podrá obtener una comprensión práctica de ellos.

Intenta encontrar un curso introductorio en línea.

Este podría hacer el truco: https://www.coursera.org/course/…

Luego, pase a temas más desafiantes. Puede verificar los conceptos básicos que ha aprendido y leer más descripciones en profundidad.

Algunos artículos de Wikipedia son geniales y contienen muchos enlaces útiles a material externo.

También puede leer algunos libros prácticos e implementar algunos de los algoritmos sugeridos.

Por ejemplo, The Elements of Statistical Learning es un gran libro y puede encontrar una copia gratuita en PDF aquí: http://web.stanford.edu/~hastie/….

Espero que esto ayude, ¡buena suerte en tu viaje!

Si te ha gustado leer esta respuesta, asegúrate de seguirme para obtener más información: http://quora.com/profile/Yassine…

Aquí hay 5 de Good Books para comenzar la estadística de ciencia de datos:

  1. Pensamiento estadístico para ciencia de datos y análisis Pensamiento estadístico para ciencia de datos y análisis (curso Edx)
  2. Think Stats 2nd Edition Think Stats: Allen B. Downey: 9781449307110: Amazon.com: Libros
  3. Introducción a las estadísticas bayesianas Introducción a las estadísticas bayesianas, 2ª edición: 9780470141151: Medicine & Health Science Books @ Amazon.com
  4. Introducción a Math of Neural Networks Amazon.com: Introducción a Math of Neural Networks eBook: Jeff Heaton: Kindle Store
  5. Estadística introductoria con R (estadísticas y computación ) 2da edición Amazon.com: Estadísticas introductorias con R (Estadísticas y Computación) (9780387790534): Peter Dalgaard: Tienda Kindle

Buen artículo para leer:

  • ¿Qué temas de estadísticas son necesarios para sobresalir en Data Science?
  • Resumen de ciencia de datos # 3: estadísticas de piratería, AutoML y por qué su médico no “estará bien con usted” – El punto de datos

Espero que ayude. 🙂

Aquellos que son nuevos en el campo de la ciencia de datos, primero lean las siguientes publicaciones,

La respuesta de Akash Dugam a ¿Hay algún sitio web donde podamos aprender ciencia de datos de forma gratuita?

La respuesta de Akash Dugam a ¿Dónde debería comenzar para aprender el desarrollo de big data?

Ahora esta pregunta solo está relacionada con “Estadísticas”, entonces responderé la pregunta.

No hay requisito previo para aprender estadísticas. Sin embargo, el conocimiento de “Matemáticas” será bueno.

A partir de hoy, hay muchos recursos disponibles en Internet que lo ayudarán a comenzar con estadísticas.

Me gustaría recomendar algunos de los siguientes,

  1. Estadística y probabilidad
  2. Probabilidades y estadísticas
  3. Centro de aprendizaje de estadísticas

Por favor, revise todas las publicaciones y enlaces. Si necesita ayuda, no dude en ponerse en contacto conmigo.

Feliz aprendizaje 🙂

Voy a resumir algunos de mis puntos en ¿Cómo usan las estadísticas los científicos de datos?

  1. Diseñe e interprete experimentos para informar las decisiones del producto: diseño experimental y estadísticas frecuentes
  2. Cree modelos que predicen señal, no ruido: regresión, clasificación, análisis de series temporales, análisis causal
  3. Convierta los datos grandes en una imagen general: agrupamiento, reducción de la dimensionalidad, análisis de variables latentes
  4. Comprender el compromiso del usuario, la retención, la conversión y los clientes potenciales: regresión, análisis de efectos causales, análisis de variables latentes, diseño de encuestas
  5. Ofrezca a sus usuarios lo que desean: modelado predictivo, análisis de variables latentes, reducción de dimensionalidad, filtrado colaborativo, agrupamiento
  6. Estimación inteligente: análisis de datos bayesianos
  7. Cuente la historia con los datos: presentación y comunicación de datos, visualización de datos

Fuente: ¿Cómo usan los científicos de datos las estadísticas?

La idea general es que la mayoría de los cursos de estadística aplicada serán directamente útiles para su carrera de ciencias de datos, y la mayoría de los cursos de estadística teórica pueden no usarse directamente, pero serán muy útiles para la intuición estadística y para aprender más fácilmente nuevos conceptos.

1) Comenzaría con un libro de texto básico de pregrado. ESL es genial, pero bastante breve para alguien nuevo en el tema. Recomendaría la “Introducción a las estadísticas matemáticas” de Hogg. Si le resulta demasiado difícil (es un material estándar introductorio de nivel de posgrado) intente “Estadística matemática con aplicaciones” de Wackerly e incluso esto aquí (que es realmente genial para comprender algunas aplicaciones reales básicas) http://faculty.atu.edu/ mfinan / ac … Aún mejor, use todo esto y cualquier otra cosa que encuentre que pueda entender (la “Inferencia estadística” de Cassella & Berger es otro buen texto, pero no es nada fácil en muchos puntos). Necesitará un poco de álgebra lineal y cálculo de pregrado como requisito previo para cualquiera de estos que he enumerado. La falta de lo básico hará que carezca de seguridad laboral básica.

2) Evite adoptar la actitud de “cuán poco puedo aprender a tener éxito”. No estoy tratando de dar a entender que estás diciendo esto aquí, ya que no puedo juzgar tu intención, pero ten cuidado, las estadísticas no son divertidas si realmente no disfrutas haciéndolo y ninguna cantidad de compensación puede compensar por odiar tu trabajo (o costarle a alguien un montón de dinero y posiblemente a otras personas sus trabajos).

3) Después de aprender algunos conceptos básicos, aprenda a aplicar algunos de esos conceptos desde cero (es decir, no usar una función preescrita) en un lenguaje como R o Python. Después de aprender a codificar la regresión lineal básica (necesitará álgebra lineal básica y cálculo de matriz para esto), aprenda a codificar algunos algoritmos de optimización básicos como Gauss-Newton. Luego, aprenda a codificar cosas como la regresión logística. Si llega tan lejos, tendrá una mejor idea de qué hacer a continuación.

4) Tomará algo de tiempo y mucho dolor (¡no lo llaman sádicas por nada!), Pero finalmente estarás en una posición mucho mejor y tendrás confianza en ti mismo que solo se puede obtener de En realidad sabiendo cosas.

Por experiencia, diría que uno de los libros más útiles que he usado durante mi doctorado es “Elementos de la teoría de la información” de Cover y Thomas. Sé que dirás que esto es Teoría de la información y tal vez no tenga nada que ver con la ciencia de datos y las estadísticas, te sorprenderá descubrir una gran conexión entre esos dos.

Además, diría que en realidad es una lectura fundamental, ya que contiene los conceptos básicos y la mayoría de los problemas bien conocidos en estadística y teoría de la probabilidad, como el juego, el mercado de valores desde el punto de vista de la información.

Recomiendo Larry Wasserman “Todas las estadísticas: un curso conciso en inferencia estadística” como punto de partida para el conocimiento general (más como una “lista de verificación” que un libro para aprender). A partir de ahí, puede elegir las diversas familias de modelos que menciona William Chen.

El conocimiento básico de estadística y probabilidad es con lo que debe comenzar. Tal vez tome un curso en Coursera para actualizar esos conceptos básicos. Luego aprenda sobre la varianza y su análisis, prueba de hipótesis, análisis de correlación, pruebas de regresión, etc. ¡Buena suerte!

Idealmente, debe aprender aprendizaje estadístico y cualquier curso de estadísticas de soporte. Estos incluyen inferencia, análisis y diseño de experimentos. Debe leer y practicar al nivel de Los elementos del aprendizaje estadístico.

Debe tener una sólida comprensión de las estadísticas de nivel universitario.

El libro de Allen Downey Think Stats es un gran comienzo para las estadísticas aplicadas en Python. Puede comprarlo en Amazon o verlo en línea de forma gratuita.

El mayor número posible.

Cada algoritmo que conozca y pueda aplicar correctamente aumenta su conjunto de posibles soluciones.

Es posible que desee echar un vistazo a los cursos de edX relacionados con la ciencia de datos. Pueden darte una pista sobre lo que buscas. Acabo de participar en un par de esos y los encontré bastante útiles.