¿Cuál es la ventaja de una red neuronal entrenable de extremo a extremo?

Gran pregunta! Muchos de los beneficios son de naturaleza práctica más que cualquier otra cosa.

Más fácil de escribir código de optimización. Le ahorra tiempo al tener que escribir múltiples conjuntos de código de optimización para cada componente en la tubería de ML. De hecho, tratar de determinar exactamente cómo debe optimizarse cada componente en la tubería es un problema no trivial en sí mismo. Escribir código para la optimización en una red de extremo a extremo es significativamente más simple: ¡solo desciende por gradiente todo! También reduce la probabilidad de introducir errores accidentalmente en su programa, lo cual es una gran ventaja.
Codebase es más fácil de mantener. La base de código para redes de extremo a extremo suele ser mucho más fácil de mantener y, por lo general, está contenida en un solo marco (por ejemplo, Tensorflow). Esto hace la vida mucho más fácil, ya que no necesita mantener una base de código para múltiples modelos diferentes y tratar de descubrir cómo se conecta todo.
Más fácil de razonar con. Las redes de extremo a extremo suelen ser más fáciles de razonar, ya que solo hay un conjunto de entradas y un conjunto de salidas. Más importante aún, todo sucede bajo un único marco de red neuronal. Tratar de razonar sobre una tubería que contiene múltiples modelos es significativamente más desafiante, ya que requiere que haga varios cambios de contexto en su cabeza mientras piensa en lo que está haciendo cada modelo. Este problema se amplifica aún más cuando los modelos con los que está trabajando varían mucho (por ejemplo, una tubería que va desde el núcleo PCA -> árboles de decisión -> k-means -> Proceso Gaussiano).

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

¿Puedo aprender el aprendizaje automático sin conocer álgebra lineal, estadísticas y probabilidad?

¿Qué debo hacer para aprender el aprendizaje profundo, especialmente usarlo para resolver problemas?

Quiero hacer aplicaciones de visión por computadora. ¿Dónde empiezo?

Cómo visualizar características de alto nivel en una red neuronal convolucional profunda

¿Cuáles son algunos temas de investigación en automatización de IoT e IA?

¿Cómo se convierten los físicos en ingenieros de aprendizaje automático?

Como Oscar menciona una de las mayores ventajas de la red neuronal entrenable de extremo a extremo es que todos los parámetros del modelo pueden entrenarse simultáneamente para una función de pérdida.

Esto ha resultado ser muy efectivo en problemas como la traducción automática neuronal en la que tanto el codificador ( que convierte la entrada en un idioma particular en un vector ) como el decodificador ( que convierte la entrada del vector del codificador en un idioma de destino ) se entrenan simultáneamente.
Los enfoques anteriores de la traducción automática incluían diferentes componentes de caja negra encadenados, cada uno optimizado por separado. La noción de entrenamiento de extremo a extremo con datos estaba ausente. Las traducciones automáticas neuronales capacitadas de extremo a extremo han superado todos los modelos de traducción automática anteriores en rendimiento hasta la fecha.
Gran parte del éxito de los recientes modelos de redes neuronales ( p . Ej., Traducción automática, reconocimiento de voz ) se debe a que incluso los grandes gráficos de flujo computacional se pueden optimizar juntos mediante la propagación hacia atrás en un proceso de capacitación fácil de principio a fin.
Aunque este enfoque ha funcionado bastante bien para algunas tareas como la traducción y el reconocimiento de voz, queda por ver si un enfoque de extremo a extremo funcionaría para una tarea como la conducción autónoma, donde la entrada es un flujo de imágenes y la salida es direccional comandos

Jim Walsh

Es entrenable de extremo a extremo, en contraste con la mayoría de los algoritmos existentes cuyos componentes se entrenan y ajustan por separado, por lo tanto, naturalmente maneja secuencias en longitudes arbitrarias, que no implican segmentación de caracteres o normalización de escala horizontal.

Jim Walsh

More Interesting

¿Cuáles son las ventajas y desventajas de usar R vs. C ++ para el aprendizaje automático?

¿Qué algoritmos de optimización son buenos candidatos para la paralelización con MapReduce?

Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

En la Bayes Net dada, ¿existe un caso de explicación del fenómeno?

¿Hay trabajos de investigación que utilicen el aprendizaje profundo para tomar decisiones clínicas?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

¿Cuál es una buena manera de entender la pérdida de Minkowski con una configuración diferente?

¿Por qué el aumento de gradiente funciona tan bien para tantos problemas de Kaggle?