¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

Aunque el aprendizaje automático hoy en día es una palabra de moda, tiene sus raíces en múltiples dominios, más fuertemente en estadística, álgebra, teoría de probabilidad y sistemas de software. Muy brevemente, la esencia clave del aprendizaje automático es el hecho de que puede asumir ciertas cosas acerca de sus datos, y luego modelar los datos en consecuencia para construir una buena representación, y luego usar la representación para hacer predicciones .

Suponga que tiene algunos datos, que en general son una colección de mediciones o cantidades derivadas obtenidas de una fuente. Los profesionales del aprendizaje automático, primero, definieron un problema

  • Asumir algunas propiedades
  • Escriba un modelo que respete estas propiedades y resuelva aproximadamente el problema.
  • Optimiza el modelo de modo que explique mejor los datos vistos.
  • Predice y espera que le vaya bien

Muchos de los modelos y métodos populares de aprendizaje automático tuvieron su origen en otros campos, como las matemáticas y las estadísticas. Por ejemplo, los métodos de regresión han sido conocidos por los estadísticos y economistas. Las redes de Bayes derivan su nombre de Bayes , el reconocido estadístico. El modelo de red neuronal tiene su origen en el modelo de McCulloch & Pitts en biofísica matemática (red neuronal artificial). Lo que el aprendizaje automático ha visto en los últimos años, en mi opinión, es una segunda venida, donde muchos de estos modelos y métodos se están formalizando matemáticamente para comprender mejor su funcionamiento, así como para probar ciertas declaraciones lógicas sobre ellos.

Con estos aspectos en mente, creo que las matemáticas necesarias no son muy elaboradas y se resumen bastante bien en la respuesta de Stephen Lee a ¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

Mi respuesta se centra principalmente en el aprendizaje supervisado.

Los datos de entrenamiento que tenemos pueden tener múltiples características (X0, X1, …… Xm). Las características son diversas condiciones o factores de los que depende nuestro resultado. Por ejemplo, para decidir el costo de una casa, varias características pueden ser el tamaño, la ubicación, el interior, etc.
Lo primero que hacemos es trazar los datos para que podamos comprenderlos mejor.
El objetivo principal es derivar una función lineal o no lineal (dependiendo de los datos dados) que nos dará una respuesta de armario cuando se ingresa cierta entrada.

Entonces, ¿cómo derivamos la función?
Ya tenemos los datos de capacitación que contienen características (X) y salidas (y, considérelo el precio de las casas en el ejemplo que di arriba). Ahora necesitamos encontrar ciertos parámetros que minimizarán la diferencia entre el valor real y el valor que hemos encontrado (función de costo). La función de costo se puede derivar mediante regresión logística, regresión lineal, etc.

Ahora el álgebra lineal es útil aquí porque podemos considerar los datos como matrices y vectores (matriz de columnas). Existen varios algoritmos, como el descenso de gradiente, que nos ayudan a encontrar los parámetros más adecuados y verificamos si son perfectos al poner sus valores en la función Costo. Queremos obtener el valor de la función Costo lo más mínimo posible.

La función que queremos derivar se llama hipótesis.

H (x) = Q0X0 + Q1X1 ……. + QmXm (Xo = 1) donde Q es un vector de parámetros y el número de filas en Q es igual al número de características. Esta es una hipótesis lineal.

Desde el punto de vista probabilístico y estadístico, los datos tienen algo en común, o decimos que hay algún patrón especial en los datos, los algoritmos de aprendizaje automático son los algoritmos que pueden aprender, o en general para adaptarse a la distribución de probabilidad de dicho patrón datos.

En general, suponemos que se conoce la forma de la distribución, la llamamos ‘modelo’, el resto es encontrar un buen parámetro que haga que el modelo se ajuste mejor a los datos de entrenamiento.

Desde mi punto de vista, la mayoría de los algoritmos de Machine Learning aprenden ajustando algunos parámetros para que se ajusten a los datos históricos, la gente piensa que si un modelo (funciona) se adapta bien a los datos históricos, ciertamente se adaptará bien a los datos futuros.

More Interesting

¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano?

¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿DevOps mejora las operaciones de ciencia de datos y aprendizaje automático?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?

¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

Investigadores de aprendizaje automático, ¿algún día los robots nos matarán a todos?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Cuáles fueron las principales conclusiones del tutorial de Richard Sutton sobre el aprendizaje por refuerzo en NIPS 2015?

¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito, mencionado muchas veces en las conferencias de aprendizaje automático?

¿Qué es más robusto para datos ruidosos, un árbol de decisión o Naive Bayes?

¿Por qué podría ser preferible incluir menos predictores sobre muchos?