¿Puedes explicar el descenso coordinado en términos simples?

Claro, intentaré si por lego queremos decir “persona que recuerda un poco de cálculo de la escuela pero que no sabe mucho sobre optimización o aprendizaje automático”. Creo que es un punto de partida razonable, porque su hipotético laico tiene los antecedentes para haber escuchado sobre el descenso coordinado y tiene curiosidad por lo que significa.

En el descenso de gradiente ordinario, utiliza el cálculo para encontrar la mejor dirección para dar un pequeño paso que reduce el error. La dirección del gradiente será diferente en cada punto, por lo que es un campo vectorial. En el descenso coordinado, las direcciones que considere se fijan con anticipación. En lugar de determinar la mejor dirección para dar un paso, recorre las instrucciones dando pequeños pasos siempre que reduzca el error. Se ha ahorrado el esfuerzo de calcular el gradiente, pero tomar pasos no óptimos requerirá que tome más pasos. Esto puede ser un problema si evaluar su función es costoso o si tiene muchas dimensiones, como suele ser el caso en la práctica. Si algunas de las variables influyen en la función más que otras, este problema con el descenso de coordenadas puede abordarse haciendo un seguimiento de qué dimensiones son más importantes y gastando menos muestras en variables menos importantes.

Nunca he usado el descenso coordinado, y no estoy convencido de que sea robusto.

More Interesting

¿Cuál es la diferencia entre una cadena de Markov recurrente y una cadena de Markov absorbente?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Se consideran obsoletos los métodos de preentrenamiento sin supervisión y pre-entrenamiento codiciosos en capas para el aprendizaje profundo moderno? ¿Por qué o por qué no?

¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?

¿Qué es un campo aleatorio?

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

Cómo mejorar mi escritura para pasante de aprendizaje automático

¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?

¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Cómo se actualizan los pesos en la red neuronal probabilística?

¿Qué es el filtrado colaborativo en términos simples?

¿Aprender Python en lugar de C ++ es una buena introducción a los lenguajes de programación en medio de la teoría CS / AI?