¿Se utilizan algoritmos evolutivos como PSO en el aprendizaje profundo para encontrar pesos óptimos?

Los algoritmos evolutivos tienen dos ideas clave: (i) búsqueda aleatoria (es decir, mutación), (ii) “sexo” entre hipótesis múltiples.

La búsqueda aleatoria ya se explota en la optimización de NN profundos, en forma de descenso de gradiente “estocástico” (SGD): combinando las fuerzas de la aleatorización (capacidad de saltar fuera de los mínimos locales), con información sobre la mejor dirección (negativo del gradiente) para dar el siguiente paso, para alcanzar un buen mínimo local.

La parte “sexual” de los algoritmos evolutivos demostró ser inútil hace bastante tiempo [1] en 1995, después de lo cual los evolucionistas se divorciaron de la comunidad de aprendizaje automático y formaron su propia conferencia GECCO. Por lo tanto, no parece tener mucho sentido tratar de usar técnicas de programación genética pura para optimizar las NN profundas.

[1] Kevin J. Lang, “Búsqueda genética de Hill Climbing Beats en un problema de síntesis de circuito booleano de Koza”, ICML 1995

More Interesting

¿Cuál es el mejor método de aprendizaje automático para predecir los datos de prueba una vez que conozco los datos de entrenamiento y la etiqueta de entrenamiento?

¿Cuáles son algunos casos de uso para el anonimato de datos?

¿El error de clasificación de las redes neuronales se denomina "tasa de error"?

¿Cómo puede la regularización simplificar las hipótesis?

En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

Cómo etiquetar objetivamente objetos con etiquetas que son subjetivas, en sistemas expertos

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

¿Cuáles son algunas implementaciones de SGD distribuidas?

¿Cuáles son las diferencias entre los métodos de análisis de componentes principales?

Cómo diseñar una red neuronal para predecir la rutina diaria de un usuario

¿Cuáles son las mejores universidades para estudiar visión artificial con un enfoque en aprendizaje profundo?

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

El reciclaje de residuos de construcción urbana necesita usar qué máquina.

¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?