¿Cuál es la ventaja de una red neuronal entrenable de extremo a extremo?

Gran pregunta! Muchos de los beneficios son de naturaleza práctica más que cualquier otra cosa.

  1. Más fácil de escribir código de optimización. Le ahorra tiempo al tener que escribir múltiples conjuntos de código de optimización para cada componente en la tubería de ML. De hecho, tratar de determinar exactamente cómo debe optimizarse cada componente en la tubería es un problema no trivial en sí mismo. Escribir código para la optimización en una red de extremo a extremo es significativamente más simple: ¡solo desciende por gradiente todo! También reduce la probabilidad de introducir errores accidentalmente en su programa, lo cual es una gran ventaja.
  2. Codebase es más fácil de mantener. La base de código para redes de extremo a extremo suele ser mucho más fácil de mantener y, por lo general, está contenida en un solo marco (por ejemplo, Tensorflow). Esto hace la vida mucho más fácil, ya que no necesita mantener una base de código para múltiples modelos diferentes y tratar de descubrir cómo se conecta todo.
  3. Más fácil de razonar con. Las redes de extremo a extremo suelen ser más fáciles de razonar, ya que solo hay un conjunto de entradas y un conjunto de salidas. Más importante aún, todo sucede bajo un único marco de red neuronal. Tratar de razonar sobre una tubería que contiene múltiples modelos es significativamente más desafiante, ya que requiere que haga varios cambios de contexto en su cabeza mientras piensa en lo que está haciendo cada modelo. Este problema se amplifica aún más cuando los modelos con los que está trabajando varían mucho (por ejemplo, una tubería que va desde el núcleo PCA -> árboles de decisión -> k-means -> Proceso Gaussiano).

Como Oscar menciona una de las mayores ventajas de la red neuronal entrenable de extremo a extremo es que todos los parámetros del modelo pueden entrenarse simultáneamente para una función de pérdida.

  • Esto ha resultado ser muy efectivo en problemas como la traducción automática neuronal en la que tanto el codificador ( que convierte la entrada en un idioma particular en un vector ) como el decodificador ( que convierte la entrada del vector del codificador en un idioma de destino ) se entrenan simultáneamente.
  • Los enfoques anteriores de la traducción automática incluían diferentes componentes de caja negra encadenados, cada uno optimizado por separado. La noción de entrenamiento de extremo a extremo con datos estaba ausente. Las traducciones automáticas neuronales capacitadas de extremo a extremo han superado todos los modelos de traducción automática anteriores en rendimiento hasta la fecha.
  • Gran parte del éxito de los recientes modelos de redes neuronales ( p . Ej., Traducción automática, reconocimiento de voz ) se debe a que incluso los grandes gráficos de flujo computacional se pueden optimizar juntos mediante la propagación hacia atrás en un proceso de capacitación fácil de principio a fin.
  • Aunque este enfoque ha funcionado bastante bien para algunas tareas como la traducción y el reconocimiento de voz, queda por ver si un enfoque de extremo a extremo funcionaría para una tarea como la conducción autónoma, donde la entrada es un flujo de imágenes y la salida es direccional comandos

Es entrenable de extremo a extremo, en contraste con la mayoría de los algoritmos existentes cuyos componentes se entrenan y ajustan por separado, por lo tanto, naturalmente maneja secuencias en longitudes arbitrarias, que no implican segmentación de caracteres o normalización de escala horizontal.