Dado que el aprendizaje automático se trata de encontrar un modelo que se ajuste a sus datos “mejor”, debe definir “bueno” en primer lugar. Esto se hace mediante la elección de una llamada ‘pérdida’ o ‘función objetivo’ que debería minimizarse para los modelos de elección (existe nuestro ‘mejor’) y que debería ser grande para los modelos que no nos gustan. Ahora necesitamos encontrar un modelo tan optimizador. Una forma clásica de encontrar óptimos es tomar la derivada de la función objetivo, ponerla a cero y resolverla para el parámetro de su modelo. Si no tiene más de un parámetro, tendrá un gradiente en lugar de una derivada y su ecuación se convertirá en una ecuación vectorial. El gradiente puede considerarse como el vector en cada punto que apunta al próximo mínimo local de su función. Como no podemos hacer eso simplemente para los modelos más complicados, necesitamos encontrar una solución aproximada. Esto se puede hacer calculando el gradiente de nuestra función puntual y moviendo nuestros parámetros a lo largo de esta dirección para alcanzar un mínimo (con suerte global). Este enfoque se denomina “descenso de gradiente” y es una de las técnicas de optimización más básicas.
¿Qué significa gradiente en Machine Learning?
Related Content
Cómo prepararse para un trabajo de ingeniería de software
¿Cuál es el equipo de detección de sonar más pequeño posible?
¿Cómo podemos usar la distribución de probabilidad en informática?
En pocas palabras, un gradiente es un vector . Sus componentes consisten en las derivadas parciales de una función y apunta en la dirección de la mayor tasa de aumento de la función.
Entonces, por ejemplo, si tiene la función [matemáticas] f (x_1,… x_n) [/ matemáticas], su gradiente consistiría en n derivadas parciales y representaría el campo vectorial.
Visualice un tazón y suponga que desea llegar al fondo del tazón. Una forma lógica de hacer esto es caminar por la dirección más empinada y esperar que llegue al fondo. El gradiente proporciona esa dirección más pronunciada.
En Machine Learning, básicamente estamos tratando de alcanzar una solución óptima (fondo del recipiente). El gradiente es simplemente un vector que da la dirección de la tasa máxima de cambio. Al tomar medidas en esa dirección, esperamos alcanzar nuestra solución óptima.
More Interesting
¿Cuál debería ser el rango mínimo en el JEE Advanced para obtener un asiento CS en el IIT superior?
¿Qué opinas sobre un mundo donde todos puedan codificar y conocer decentemente la informática?
¿Todavía se usa el Método de Desarrollo de Viena, o ha sido reemplazado por métodos más modernos?
¿Cuáles son algunos ejemplos de computación distribuida?
¿Cuál podría ser un buen tema para una tesis de licenciatura en el campo de la ciencia cuantitativa?
Si pudieras pasar un día con Edsger W. Dijkstra, Dennis Ritchie o Steve Jobs, ¿a quién elegirías?
¿Cuál es el tema candente en las computadoras?
¿Cuál es el significado de "intercalar" las transacciones?
Estoy buscando comprar una nueva computadora portátil. ¿Dónde encontraría el mejor precio en línea?
¿Los hackers de crecimiento y los ingenieros de crecimiento están aquí para quedarse?