Su pregunta es realmente buena porque responde realmente por qué las redes neuronales son difíciles de entrenar. En la mayor parte de nuestra tarea de ML, nuestro objetivo es minimizar la función de pérdida. Para hacer eso, entrenamos nuestro modelo usando algún algoritmo de optimización iterativo, por ejemplo: Descenso de gradiente estocástico.
La función convexa estricta garantiza un mínimo global y, por lo tanto, mientras se entrena, nuestro algoritmo de optimización llega allí y le dice que su modelo ahora está optimizado. En el caso de la red neuronal, la función de pérdida / función de costo es siempre no convexa. Pero esta es otra cosa desconcertante. Permítanme explicar: cada función de pérdida se puede denotar como: L = 1/2 * (y – y _) ^ 2 donde, y es salida real e y_ es salida pronosticada. Esto es matemáticamente siempre convexo. Pero, esto nuevamente depende de qué hiperparámetros controlen la función L ya que se trata de esos hiperparámetros sobre los que nuestra función debe optimizarse . Ahora, para la regresión logística: L (w, b) = 1/2 * (y – sigmoide (wx + b)). Sabemos que esto no es convexo para la regresión logística. Es por eso que utilizamos la función de pérdida logística, conocida popularmente como entropía cruzada. En esa función, los términos log (y_) y log (1-y_) son convexos por definición. Entonces, esto resuelve el problema de la regresión logística. Básicamente, el sistema logístico es una red neuronal muy simple.
Sin embargo, cuando las redes neuronales se profundizan, las cosas se vuelven locas. En cada capa, hay tantos hiperparámetros y la función de costo siempre se vuelve no convexa, lo que significa que la Matriz de Hesse de la función de pérdida no se vuelve convexa ni cóncava. Este fenómeno se explica bien aquí: redes neuronales y aprendizaje profundo. En muchos recursos, las cosas simplemente se expresan así: “dado que la función de activación no es lineal, el costo no es convexo”. Pero, las cosas no son tan simples en la práctica.
- ¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?
- ¿Por qué es tan lento TensorFlow?
- ¿Hay algún sitio web donde pueda encontrar ideas para mi tesis de licenciatura en Informática? (Estoy interesado en algoritmos y aprendizaje automático).
- ¿Cuál es mejor LMS o descenso más empinado?
- ¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?
Además, la convexidad también tiene cierta correlación con la tasa de convergencia. Big data ayuda a que las funciones convexas converjan más rápido si su función de costo es estrictamente convexa (estrictamente convexa significa que la segunda derivada del costo siempre es mayor que cero). Todavía se está investigando bastante sobre la optimización convexa y la optimización no lineal.