¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

Aunque el aprendizaje automático hoy en día es una palabra de moda, tiene sus raíces en múltiples dominios, más fuertemente en estadística, álgebra, teoría de probabilidad y sistemas de software. Muy brevemente, la esencia clave del aprendizaje automático es el hecho de que puede asumir ciertas cosas acerca de sus datos, y luego modelar los datos en consecuencia para construir una buena representación, y luego usar la representación para hacer predicciones .

Suponga que tiene algunos datos, que en general son una colección de mediciones o cantidades derivadas obtenidas de una fuente. Los profesionales del aprendizaje automático, primero, definieron un problema

Asumir algunas propiedades
Escriba un modelo que respete estas propiedades y resuelva aproximadamente el problema.
Optimiza el modelo de modo que explique mejor los datos vistos.
Predice y espera que le vaya bien

Muchos de los modelos y métodos populares de aprendizaje automático tuvieron su origen en otros campos, como las matemáticas y las estadísticas. Por ejemplo, los métodos de regresión han sido conocidos por los estadísticos y economistas. Las redes de Bayes derivan su nombre de Bayes , el reconocido estadístico. El modelo de red neuronal tiene su origen en el modelo de McCulloch & Pitts en biofísica matemática (red neuronal artificial). Lo que el aprendizaje automático ha visto en los últimos años, en mi opinión, es una segunda venida, donde muchos de estos modelos y métodos se están formalizando matemáticamente para comprender mejor su funcionamiento, así como para probar ciertas declaraciones lógicas sobre ellos.

Con estos aspectos en mente, creo que las matemáticas necesarias no son muy elaboradas y se resumen bastante bien en la respuesta de Stephen Lee a ¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

¿Qué lenguajes de programación son mejores para procesar el sonido y darlo como entrada a una red neuronal artificial?

¿Pueden los algoritmos de aprendizaje profundo predecir los resultados de los partidos deportivos?

Cómo construir un automóvil autónomo a partir de un automóvil normal

¿Cómo aprendo la teoría profunda sobre Bitcoin como su programación o hash?

¿Cuál es la diferencia entre la función de pérdida y la función de activación?

¿Qué significa el impulso en las redes neuronales?

Mi respuesta se centra principalmente en el aprendizaje supervisado.

Los datos de entrenamiento que tenemos pueden tener múltiples características (X0, X1, …… Xm). Las características son diversas condiciones o factores de los que depende nuestro resultado. Por ejemplo, para decidir el costo de una casa, varias características pueden ser el tamaño, la ubicación, el interior, etc.
Lo primero que hacemos es trazar los datos para que podamos comprenderlos mejor.
El objetivo principal es derivar una función lineal o no lineal (dependiendo de los datos dados) que nos dará una respuesta de armario cuando se ingresa cierta entrada.

Entonces, ¿cómo derivamos la función?
Ya tenemos los datos de capacitación que contienen características (X) y salidas (y, considérelo el precio de las casas en el ejemplo que di arriba). Ahora necesitamos encontrar ciertos parámetros que minimizarán la diferencia entre el valor real y el valor que hemos encontrado (función de costo). La función de costo se puede derivar mediante regresión logística, regresión lineal, etc.

Ahora el álgebra lineal es útil aquí porque podemos considerar los datos como matrices y vectores (matriz de columnas). Existen varios algoritmos, como el descenso de gradiente, que nos ayudan a encontrar los parámetros más adecuados y verificamos si son perfectos al poner sus valores en la función Costo. Queremos obtener el valor de la función Costo lo más mínimo posible.

La función que queremos derivar se llama hipótesis.

H (x) = Q0X0 + Q1X1 ……. + QmXm (Xo = 1) donde Q es un vector de parámetros y el número de filas en Q es igual al número de características. Esta es una hipótesis lineal.

Aaditya Sharma

Desde el punto de vista probabilístico y estadístico, los datos tienen algo en común, o decimos que hay algún patrón especial en los datos, los algoritmos de aprendizaje automático son los algoritmos que pueden aprender, o en general para adaptarse a la distribución de probabilidad de dicho patrón datos.

En general, suponemos que se conoce la forma de la distribución, la llamamos ‘modelo’, el resto es encontrar un buen parámetro que haga que el modelo se ajuste mejor a los datos de entrenamiento.

Soumyadeep Chatterjee

Desde mi punto de vista, la mayoría de los algoritmos de Machine Learning aprenden ajustando algunos parámetros para que se ajusten a los datos históricos, la gente piensa que si un modelo （funciona） se adapta bien a los datos históricos, ciertamente se adaptará bien a los datos futuros.

Soumyadeep Chatterjee

More Interesting

¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano?

¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿DevOps mejora las operaciones de ciencia de datos y aprendizaje automático?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

¿Qué áreas debo conocer bien para ser un buen ingeniero de visión por computadora?

¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

Investigadores de aprendizaje automático, ¿algún día los robots nos matarán a todos?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?