Dado que esta pregunta parece estar precedida por “Big Data”, hay un par de algoritmos importantes que vienen a la mente.
Una clase importante de algoritmos para conocer son aquellos que son adecuados para datos que son demasiado grandes para ser leídos en la memoria / RAM. Estos incluyen métodos de clasificación y muestreo. Dos de los algoritmos más comunes, que vale la pena conocer, en este espacio son:
- Muestreo de yacimientos
- Ordenar fusión
También vale la pena conocer los métodos de optimización numérica que pueden encajar perfectamente en un entorno de división / conquista (por ejemplo, método de bisección). Menciono Bisection principalmente porque es un método poderoso que a menudo se saca de la mira por métodos más populares como Newton-Raphson y, en menor medida, el método de Brent. Algunos otros métodos importantes incluyen: BFGS de memoria limitada, descenso de gradiente estocástico, método de Brent, solo por nombrar algunos.
- Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering
- ¿Cómo puedo usar Gensim LDA para la clasificación binaria?
- ¿Qué áreas específicas de las matemáticas son útiles en neurociencia?
- ¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?
- ¿Cuál crees que es la razón detrás de la asociación de Microsoft y Amazon en la tecnología de red neuronal llamada 'Gluon'?
En lo que respecta a las técnicas estadísticas y de aprendizaje automático, se beneficiará enormemente al conocer las técnicas que pueden manejar / abordar todas las peculiaridades extrañas que vienen con los datos del “mundo real”. Por ejemplo, ser capaz de manejar problemas de multicolinealidad (a través de técnicas como la regresión de Ridge / Lasso, selección de características), valores atípicos (regresión cuantil, entre otros), errores en las variables, censura, etc., son muy importantes. Por experiencia personal, a menudo me sorprende la frecuencia con que una métrica simple, como la distancia de Hamming, se puede aplicar fácilmente a muchos problemas del mundo real.
Los algoritmos de álgebra lineal numérica también pueden ser extremadamente útiles. Algunos de los más importantes son la descomposición de Cholesky, la descomposición de QR y el proceso de Gram-Schmidt. Esta lista de ninguna manera es exhaustiva, pero estos son varios métodos que a menudo se emplean en la evaluación de muchas técnicas de ML y estadísticas. Otra área que es importante de entender, especialmente si está implementando técnicas en un marco de MapReduce, son las técnicas de multiplicación de matrices paralelas.