¿Qué significa end to end en los métodos de aprendizaje profundo?

Suponga que desea crear un modelo de reconocimiento de voz; algo como Siri o el Asistente de Google.

El método tradicional que se ha usado durante mucho tiempo y que todavía se usa hoy en día es dividir el audio en fonemas (bloques de construcción fundamentales; unidades de sonido). Hay 44 fonemas en inglés. [1] Luego puede usar estos fonemas como características en su modelo para generar la transcripción.

Esto parece innecesariamente complicado; ¿Por qué tenemos que identificar los fonemas antes de poder generar la transcripción? ¿No hay una manera en que podamos pasar directamente de la forma de onda de audio a la transcripción escrita similar a lo que aparentemente están haciendo los humanos? Resulta que hay.

El método arquitectónicamente más simple de transcribir audio se llama enfoque de aprendizaje profundo de extremo a extremo (E2E).

Generalmente se puede decir que:

El aprendizaje profundo de principio a fin es la idea de que, en lugar de diseñar muchas presentaciones, puede generar cosas más complejas.

Usando el método tradicional, la salida de los modelos de aprendizaje automático sería bastante limitada, por ejemplo, un binario para el análisis de sentimientos o un número entero para el reconocimiento de objetos. Usando un clasificador continuo, también puede generar un número de coma flotante que representa la tasa de confianza de que algo sea verdadero o el precio de una casa, por ejemplo.

Por otro lado, con un enfoque E2E, estructuras de datos más elaboradas como texto e imágenes; Los ejemplos incluyen subtítulos de imágenes, traducción automática: texto de un idioma a otro e imágenes con ciertos parámetros para la síntesis de imágenes.

Intuitivamente, tiene sentido que E2E pueda ser mejor para rivalizar con el rendimiento humano, ya que las características pueden codificar más datos, dado que son una representación de ingeniería que puede o no codificar correctamente los datos correctamente. Sin embargo, el espacio de características ahora más rico también puede aumentar la probabilidad de que el modelo capte el ruido.

Como resultado, el uso del aprendizaje profundo de extremo a extremo (E2E) para el reconocimiento de audio (y muchos otros problemas) arroja mejores resultados. Tomemos, por ejemplo, el documento ” Red neuronal profunda de extremo a extremo para el reconocimiento automático de voz ” de William Song y Jim Cay, donde encontraron una disminución del 7,3% en la tasa de error utilizando un modelo E2E [2].

Ahora, ¿por qué no usamos el aprendizaje profundo E2E para cada problema? La respuesta, más bien aburrida, es que E2E requiere muchos datos etiquetados que no siempre es posible obtener; especialmente si es un problema más exótico.

Suponga que desea crear un modelo que prediga la edad de una persona basándose en imágenes de rayos X de sus manos. Podría usar un método tradicional en el que diseñe las características, por ejemplo, la longitud de los huesos a partir de los cuales intenta predecir la edad. Alternativamente, podría utilizar un E2E donde tome las imágenes de rayos X y emita directamente la edad.

Sin embargo, es poco probable que el enfoque E2E funcione, ya que no hay muchos ejemplos de imágenes de rayos X de manos acopladas a la edad de la persona.

Otro ejemplo son los autos sin conductor.

Una vez más, un enfoque tradicional probablemente implicaría obtener la imagen, identificar objetos en la imagen, usar estos objetos para calcular la trayectoria que puede controlar la dirección.

Este es un proceso muy engorroso que implica muchos pasos; especialmente en comparación con un enfoque E2E donde se pasa directamente de la imagen a la dirección.

Sin embargo, la aplicación de E2E a los modelos de automóviles autónomos aún no es viable para otras demostraciones interesantes, ya que todavía no tenemos suficientes datos.

Además, el debate aún está abierto sobre si alguna vez será práctico. Andrew NG expresó una vez sobre este tema que cree que necesitaremos “MUCHOS datos”.

Esto debería servir como un recordatorio de que el aprendizaje profundo de extremo a extremo no es la solución para todo; especialmente problemas donde no tenemos una tonelada de datos etiquetados. Sin embargo, dicho esto, E2E DL ya se usa con cierto éxito para muchos problemas diferentes hoy en día; algunos de los cuales son:

  • Subtítulos de imagen
  • Transcripción de audio
  • Máquina traductora
  • Síntesis de imagen
  • Muchas cosas sobre las que tenemos muchos datos

TLDR:

El aprendizaje profundo de extremo a extremo es una idea de generar tipos de datos complejos a partir de características en bruto, por ejemplo, transcripciones de audio, capturas de imágenes o dirección para automóviles autónomos.

El aprendizaje profundo de extremo a extremo a menudo tiene un mejor rendimiento que el aprendizaje profundo tradicional.

Sin embargo, no se puede usar para todos los problemas, ya que requiere una gran cantidad de datos etiquetados para funcionar de manera óptima.

Otras lecturas:

  • El futuro del aprendizaje profundo (escrito por mí)
  • Lo esencial de aplicar el aprendizaje profundo (video)
  • Aprendizaje profundo de extremo a extremo para automóviles autónomos

Notas al pie

[1] http: //www.dyslexia-reading-well…

[2] https://cs224d.stanford.edu/repo…

Si entiendo la pregunta correctamente, para el aprendizaje “no profundo”, el sistema incluirá muchas más cosas que solo redes neuronales: esto es exactamente lo que el aprendizaje profundo intenta evitar, la necesidad de una ingeniería de características extensa (etapas de preprocesamiento en las que intenta masajee los datos en una forma que proporcione buenos resultados cuando se envíen a la ANN) y postprocesamiento (seleccionando el probable resultado correcto de los propuestos por la red). Por ejemplo, para reconocer texto, tendría correctores ortográficos, correctores de sintaxis y demás, además de la red que está haciendo el reconocimiento de texto.

EDITAR: OP y Quora Content Review Team siguen modificando los detalles. Esta respuesta puede no tener ningún sentido.

No estoy completamente seguro si entiendo completamente su pregunta porque no me queda claro a qué se refiere como sistema. Estoy respondiendo esto haciendo algunas suposiciones de lo que es un sistema, detallado a continuación.

Los sistemas y modelos son cosas diferentes. Un sistema es un grupo de hardware y software creado para proporcionar alguna función. Una de las piezas de ese sistema puede ser un modelo que es una abstracción de datos, capacitado para proporcionar algún tipo de salida, por ejemplo, una predicción.

Los algoritmos de aprendizaje profundo, como cualquier otro algoritmo de aprendizaje automático, entrena un modelo. Puede tener un modelo sin ningún sistema a su alrededor, pero en realidad no hace nada, al menos no automáticamente.

Diferentes algoritmos necesitan diferentes cosas hechas por el resto del sistema. Algunos más, algunos menos, pero todos ellos algo que lo alimenta y que toma su salida. En este aspecto, el aprendizaje profundo no es diferente de ningún otro algoritmo. Personalmente, no puedo imaginar un producto de datos en vivo sin un sistema para, al menos, proporcionar entradas y recibir salidas.

Espero que esto ayude.

La frase “de extremo a extremo” no significa nada particular para el aprendizaje profundo. Al igual que el favorito de VC “de la sopa a las nueces”, es solo una frase adverbial enfática que se lanza para transmitir un vago aura de que lo que estás haciendo es de alguna manera más completo, total y más general que lo que otros están haciendo.

Repito, no hay un “modelo de extremo a extremo”. Tal término no existe. Si alguien le dice “es un modelo de aprendizaje profundo de extremo a extremo”, está tratando de comunicar la integridad sin ser específico. Si está leyendo un artículo o blog, simplemente ignore y busque los detalles (ya sea en matemáticas o en cifras). Si está hablando con alguien, simplemente ignore y haga preguntas hasta que surjan los detalles.

A veces, las personas quieren enfatizar que están haciendo menos preprocesamiento o posprocesamiento que otros, y luego pueden invocar un término como “extremo a extremo”, lo que significa que eliminaron algún paso de procesamiento adicional que era común en algún punto. Pero nunca es total. Siempre hay algún tipo de desempaque y reempaque en cada extremo de un sistema del mundo real.

More Interesting

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Los bosques aleatorios son solo un tipo de Monte Carlo?

¿Cuál es la diferencia entre almacenar datos en HDF5 frente al formato TFRecord de TensorFlow?

¿Cómo funciona el modelo de atención con LSTM?

¿Qué es la perplejidad en el análisis bayesiano?

¿Se pueden describir las redes adversas generativas como un método de entrenamiento en el que se aprende la función de pérdida en lugar de seleccionarse manualmente?

¿Es generalmente una buena idea entrenar en caso real, desarrollar y probar conjuntos de datos para la traducción automática?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

Cómo interpretar los resultados de R después del análisis en las organizaciones

¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?

¿Puedo usar la agrupación (k-means, etc.) en un gran conjunto de datos para automatizar el proceso de búsqueda de similitudes y hacer recomendaciones?

¿Tener un conocimiento profundo del aprendizaje por refuerzo cambia su perspectiva hacia la vida? ¿Cómo?

¿Cuáles son los mejores marcos de implementación (DL4J, Theano, TensorFlow, etc.) para máquinas de Boltzmann restringidas?

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

¿Se recomienda que un desarrollador Java experimentado aprenda y pase al aprendizaje automático? ¿Qué tan difícil / fácil es?