¿Qué matemática encuentra más aplicable cuando trabaja en problemas de aprendizaje automático?

Mi recomendación sería comenzar leyendo sobre el descenso del gradiente estocástico, seguido por el descenso del gradiente proximal estocástico. Si planea investigar modelos probabilísticos de ML, el muestreo de Metropolis-Hastings y Gibbs también son buenas opciones.

Tal vez se pregunte por qué sugerí algoritmos particulares en lugar de campos matemáticos más amplios, como álgebra lineal u optimización convexa. Mi razón es que me gusta pensar que los problemas de ML abarcan 5 capas:

  • datos de entrada
  • Modelo ML: por ejemplo, regresión logística, factorización matricial, redes neuronales convolucionales
  • solucionador de modelos o técnica algorítmica, por ejemplo, descenso de gradiente estocástico
  • Implementación de software
  • sistema de hardware, por ejemplo, CPU, GPU, clústeres distribuidos

Se necesitan conocimientos matemáticos para comprender y manejar el modelo ML y las capas de técnica algorítmica, por lo que me centraré en ellas. Para descubrir una buena estrategia para aprender este conocimiento matemático, consideremos las siguientes observaciones:

  1. Los modelos ML y las técnicas algorítmicas forman un gráfico bipartito. Dado un modelo de ML, existen múltiples técnicas algorítmicas que pueden resolverlo, por ejemplo, la regresión lineal puede resolverse utilizando el descenso de gradiente estocástico, métodos cuasi-newton o solucionadores lineales. Lo mismo ocurre al revés: dada una técnica algorítmica, se puede aplicar a muchos modelos de ML, por ejemplo, el descenso de gradiente estocástico se puede usar para resolver la regresión logística, la factorización matricial y la mayoría de los modelos de aprendizaje profundo.
  2. Hay muchos más modelos de ML que técnicas algorítmicas. La mayor parte de la actividad de investigación de ML se trata de cambiar gradualmente los modelos de ML, con el fin de mejorar el rendimiento y la precisión en las tareas del mundo real (como recomendar libros o clasificar imágenes, etc.). A menudo, el modelo ML modificado se puede resolver con la misma técnica algorítmica que el modelo ML original.

Teniendo en cuenta esta imagen, tiene sentido concentrar su aprendizaje de matemáticas en técnicas algorítmicas de uso común y, por lo tanto, crear una base de conocimiento compartida para explorar el espacio de los modelos ML . Comprender un nuevo modelo de ML se vuelve mucho más fácil si ya está familiarizado con al menos una técnica algorítmica que puede resolverlo.

Estadística, teoría de la probabilidad, álgebra lineal y cálculo.

Estadística y teoría de la probabilidad, porque una de las primeras tareas suele ser decidir entre un modelo discriminatorio o generativo, definir una métrica de rendimiento y evaluar los resultados. El álgebra lineal también es uno de los pilares principales de las implementaciones de aprendizaje automático, ya que nos permite mantener la notación y la implementación bastante eficientes. Diría que el cálculo no es necesariamente tan importante en las aplicaciones de aprendizaje automático puro, pero si estamos interesados ​​en comprender los algoritmos que implementamos y / o usamos, el cálculo multivariado y la teoría de optimización son realmente esenciales, y si estamos interesados ​​en investigar en ML por supuesto.

More Interesting

¿Por qué elegir la estructura de datos incorrecta hace que un programa sea ineficiente?

¿Cómo se usan los modelos gráficos probabilísticos en la comprensión de imágenes?

¿Es mejor registrar primero sus datos de resonancia magnética funcional en el estructural y luego normalizar, o normalizar primero los datos estructurales y luego registrar de nuevo los datos de la resonancia magnética funcional en el estructural?

En India; ¿Cuál es la mejor GPU portátil Nvidia o AMD?

¿Para qué se usaban las primeras computadoras?

Cuando se aplica una red neuronal de avance en 10 puntos de datos (20 características), la pérdida no llega a cero. ¿Cómo es esto posible? ¿Cómo lo depuro?

¿Resolver una versión restringida de un problema NP-completo en tiempo polinómico implica que todos los problemas NP-completos, cuando se restringen a esa versión, pueden resolverse en tiempo polinomial?

¿Cómo se puede conectar una bomba a la CPU de una computadora y / o computadora portátil?

¿Queremos que la máquina o el software de IA sean perfectos? La prueba de Turing no requiere que sea perfecta, sino que exhiba una inteligencia equivalente o indistinguible de la de un humano. Si no estamos buscando algo perfecto o superior, ¿por qué desarrollar una máquina o software de IA?

Cómo representar una característica incierta en Machine Learning

¿Cuáles son algunos ejemplos de redes neuronales en Python?

¿Cuáles son algunos problemas permanentes que no se resolvieron antes?

¿Cómo es estudiar EECS en el MIT?

¿Cuántas longitudes de onda de luz posibles puede identificar una computadora?

¿Hay alguna diferencia entre https en la URL y algo escrito en un cuadro verde?