¿Qué significa para una red neuronal ser entrenada de extremo a extremo?

Una red neuronal acepta entradas de un extremo y produce salidas en el otro extremo. El aprendizaje que optimiza los pesos de la red al considerar las entradas y salidas directamente se llama aprendizaje de extremo a extremo. Un ejemplo es la red neuronal convolucional para mapear píxeles en bruto de una cámara directamente a los comandos de dirección en [1]. La propagación hacia atrás a menudo sirve como una forma eficiente de aprender los pesos de la red, en lo que respecta a la asignación de entradas a las salidas correspondientes.

Pensé que parece natural entrenar una red neuronal de manera integral, tal entrenamiento podría no ser factible en algunas circunstancias. Por ejemplo, una red neuronal puede contener demasiadas capas de nodos para caber en la memoria. Una posible solución es dividir la red en una tubería de redes más pequeñas. Cada red pequeña puede entrenarse de forma independiente y luego conectarse para obtener la salida deseada. Tal enfoque de “dividir y entrenar” puede no ser óptimo ya que la optimización se realiza localmente en el sentido de que se basa en productos intermedios.

[1] Bojarski, Mariusz y col. “Aprendizaje de extremo a extremo para automóviles autónomos”. preimpresión arXiv arXiv: 1604.07316 (2016).

A veces, varios modelos se entrenan de forma independiente y luego se usan en una tubería para obtener el resultado final deseado. Por ejemplo, para entrenar a un robot para que se mueva en una dirección particular basada en la entrada visual, se aprendería un modelo que toma la entrada visual y la convierte en una forma / representación que otro modelo toma como entrada para instruir al robot a lograr el objetivo deseado. , como atrapar una pelota.

Un escenario donde se requiere una tubería de modelos surge cuando la entrada y la salida deseada provienen de dos o más dominios o modalidades diferentes . Ejemplos incluyen:

  1. Señales de voz / voz como entrada y texto como salida
  2. Valores de píxeles sin procesar de la imagen como entrada y una descripción textual de la imagen como salida
  3. Valores de píxeles sin procesar de la imagen como entrada y el movimiento de un robot como salida.

Cuando el aprendizaje / capacitación se realiza de manera tal que solo un modelo puede lograr el resultado deseado que de otro modo hubiera requerido una tubería de modelos capacitados de forma independiente, se llama aprendizaje de extremo a extremo.

Con el advenimiento del aprendizaje profundo, ahora es posible tener un modelo que se aprende de principio a fin, por ejemplo, un solo modelo que toma el discurso como entrada y lo convierte en texto.