¿Qué temas de estadística y probabilidad se deben conocer antes de comenzar el aprendizaje automático?

* A2A *

He enumerado algunos libros aquí [1] que supuestamente son sugerencias de Michael Jordan. Como puede observar, muchos tienen que hacer probabilidad y estadísticas. La cantidad que puede leer y comprender y cuánto está dispuesto a pasar tiempo depende de su propia discreción. Le daría una lista de jergas comunes que necesita saber y espero que sea una guía lo suficientemente buena:

Muestra de espacio y eventos
Espacio de probabilidad y variable aleatoria
PDF / CDF
La probabilidad condicional
IID e independencia condicional
Regla de Bayes
Probabilidad
Estimación de máxima verosimilitud
Previo, Evidencia, Posterior
Estimación máxima a posteriori
Modelos generativos, modelos discriminativos
Expectativa de población / varianza / covarianza
Muestra de expectativa / varianza / covarianza
Ley de grandes números
Sesgo de estimación
Momentos limitados
Estimación de densidad
Muestreo
Sesgo de muestreo: muestreo de importancia, muestreo estratificado
Cadenas de Markov y métodos de Monte Carlo
Metrópolis Hasting
Modelos paramétricos y no paramétricos

Esta lista no está completa, pero debe cubrir la mayoría de las jergas comunes que encontrará en los documentos de ML.

[1] La respuesta de Arun Iyer a ¿Cuáles son mis próximos pasos en Machine Learning después de aprender Estadística y Álgebra Lineal?

Aprendizaje automáticoEstadísticainformáticaProbabilidad

¿Cuál es el mejor algoritmo de compresión de texto?

¿Dónde exactamente en el sótano de Maxwell Dworkin está la impresora que imprime gratis?

¿Podría considerarse que el ARM actual tiene arquitectura CISC debido a todas las instrucciones agregadas en tiempo extra?

¿Cuáles son las similitudes y diferencias entre las definiciones de información en diferentes disciplinas?

¿Cuál es la relación entre los compiladores y las máquinas de Turing universal?

¿Cuáles son todos los componentes de una computadora (solo hardware)?

A2A.

No creo que haya temas específicos en estadística y probabilidad que uno deba estudiar antes de comenzar el aprendizaje automático. Como he sugerido en otra respuesta, debe repasar los conceptos básicos de probabilidad y estadística, y luego comenzar con el aprendizaje automático. Cuando encuentre conceptos matemáticos que no haya encontrado antes, regrese y estudie las matemáticas relevantes.

Sugiero hacerlo de esta manera porque el aprendizaje automático es muy amplio. Entonces, si bien un tema como PGM requerirá una comprensión de las probabilidades condicionales y la teoría del aprendizaje estadístico requerirá que conozca las desigualdades de concentración, los temas como SVM y aprendizaje profundo requieren que no sepa ninguno de estos. Por lo tanto, no tiene sentido pasar mucho tiempo estudiando las matemáticas que no serán útiles para su subárea en el aprendizaje automático.

Sudarshan Konge

Ninguna. Aprender el aprendizaje automático también es una excelente manera de recoger estadísticas básicas.

Si lo piensa, el aprendizaje automático es solo una forma sofisticada de estadísticas que se automatiza mediante el uso de algoritmos. Con las computadoras modernas, puede iterar sobre millones de modelos diferentes en conjuntos de datos gigantes. Esa es la única diferencia fundamental de las estadísticas tradicionales.

Si está aprendiendo sobre aprendizaje automático, eso también significa que está aprendiendo sobre estadísticas computacionales, lo que a su vez significa que está aprendiendo sobre estadísticas tradicionales.

Si aún desea comenzar leyendo algunos conceptos en estadística, le sugiero estos:

Correlación (y cómo no implica causalidad)
La distribución normal (gaussiana) y las desviaciones estándar
Sesgo y varianza
Pruebas de hipótesis como las pruebas t de Student y las pruebas z
Validación cruzada (holdout y k-fold)
La diferencia entre las estadísticas frecuentistas y bayesianas

Brando Miranda

El libro de reconocimiento de patrones Bishop tiene un capítulo sobre eso antes del libro. Además, el libro de aprendizaje profundo tiene una sección bastante buena sobre las matemáticas necesarias para el aprendizaje automático. Pruebe cualquiera de los libros de ML o uno de esos, estoy seguro de que cualquiera de ellos está bien.

Particularmente encuentro el libro de Bishop difícil de leer, incluso después de terminar una maestría en ML y bastante experiencia y pasión por las matemáticas, pero creo que solo soy yo. Estoy seguro de que está bien.

Sudarshan Konge

More Interesting

¿Debo instalar Ubuntu 14.04 o 16.04 en mi servidor?

¿Qué rama de la física es la más cercana a la informática?

¿En qué se diferencia la IA del aprendizaje automático?

¿Cuáles son las ventajas de la tecnología heredada y clásica?

¿Cuál es más confiable? ¿HFS de Apple o EXT4 de Linux? ¿Cuáles son las fortalezas y debilidades de cada sistema de archivos?

¿Necesitas ser bueno en matemáticas para crear el próximo Spotify, Facebook o Dropbox?

¿Qué tan bueno es Apple en informática distribuida?

¿Dónde empiezo a aprender sobre el aprendizaje automático si no tengo ningún conocimiento al respecto?

¿Tiene sentido combinar NoSQL y SQL? ¿Por qué?

¿Qué significa RESTful y por qué es significativo?