¿Qué significa end to end en los métodos de aprendizaje profundo?

Suponga que desea crear un modelo de reconocimiento de voz; algo como Siri o el Asistente de Google.

El método tradicional que se ha usado durante mucho tiempo y que todavía se usa hoy en día es dividir el audio en fonemas (bloques de construcción fundamentales; unidades de sonido). Hay 44 fonemas en inglés. [1] Luego puede usar estos fonemas como características en su modelo para generar la transcripción.

¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?
¿Se puede solicitar un doctorado en aprendizaje automático sin conocimientos y habilidades de CompSci? ¿Se puede aprender en el trabajo?
¿R es tan popular solo por las bibliotecas que pueden manejar varias funciones estadísticas?
¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?
¿Cuál es el mejor foro de red neuronal en Internet?

Esto parece innecesariamente complicado; ¿Por qué tenemos que identificar los fonemas antes de poder generar la transcripción? ¿No hay una manera en que podamos pasar directamente de la forma de onda de audio a la transcripción escrita similar a lo que aparentemente están haciendo los humanos? Resulta que hay.

El método arquitectónicamente más simple de transcribir audio se llama enfoque de aprendizaje profundo de extremo a extremo (E2E).

Generalmente se puede decir que:

El aprendizaje profundo de principio a fin es la idea de que, en lugar de diseñar muchas presentaciones, puede generar cosas más complejas.

Usando el método tradicional, la salida de los modelos de aprendizaje automático sería bastante limitada, por ejemplo, un binario para el análisis de sentimientos o un número entero para el reconocimiento de objetos. Usando un clasificador continuo, también puede generar un número de coma flotante que representa la tasa de confianza de que algo sea verdadero o el precio de una casa, por ejemplo.

Por otro lado, con un enfoque E2E, estructuras de datos más elaboradas como texto e imágenes; Los ejemplos incluyen subtítulos de imágenes, traducción automática: texto de un idioma a otro e imágenes con ciertos parámetros para la síntesis de imágenes.

Intuitivamente, tiene sentido que E2E pueda ser mejor para rivalizar con el rendimiento humano, ya que las características pueden codificar más datos, dado que son una representación de ingeniería que puede o no codificar correctamente los datos correctamente. Sin embargo, el espacio de características ahora más rico también puede aumentar la probabilidad de que el modelo capte el ruido.

Como resultado, el uso del aprendizaje profundo de extremo a extremo (E2E) para el reconocimiento de audio (y muchos otros problemas) arroja mejores resultados. Tomemos, por ejemplo, el documento ” Red neuronal profunda de extremo a extremo para el reconocimiento automático de voz ” de William Song y Jim Cay, donde encontraron una disminución del 7,3% en la tasa de error utilizando un modelo E2E [2].

Ahora, ¿por qué no usamos el aprendizaje profundo E2E para cada problema? La respuesta, más bien aburrida, es que E2E requiere muchos datos etiquetados que no siempre es posible obtener; especialmente si es un problema más exótico.

Suponga que desea crear un modelo que prediga la edad de una persona basándose en imágenes de rayos X de sus manos. Podría usar un método tradicional en el que diseñe las características, por ejemplo, la longitud de los huesos a partir de los cuales intenta predecir la edad. Alternativamente, podría utilizar un E2E donde tome las imágenes de rayos X y emita directamente la edad.

Sin embargo, es poco probable que el enfoque E2E funcione, ya que no hay muchos ejemplos de imágenes de rayos X de manos acopladas a la edad de la persona.

Otro ejemplo son los autos sin conductor.

Una vez más, un enfoque tradicional probablemente implicaría obtener la imagen, identificar objetos en la imagen, usar estos objetos para calcular la trayectoria que puede controlar la dirección.

Este es un proceso muy engorroso que implica muchos pasos; especialmente en comparación con un enfoque E2E donde se pasa directamente de la imagen a la dirección.

Sin embargo, la aplicación de E2E a los modelos de automóviles autónomos aún no es viable para otras demostraciones interesantes, ya que todavía no tenemos suficientes datos.

Además, el debate aún está abierto sobre si alguna vez será práctico. Andrew NG expresó una vez sobre este tema que cree que necesitaremos “MUCHOS datos”.

Esto debería servir como un recordatorio de que el aprendizaje profundo de extremo a extremo no es la solución para todo; especialmente problemas donde no tenemos una tonelada de datos etiquetados. Sin embargo, dicho esto, E2E DL ya se usa con cierto éxito para muchos problemas diferentes hoy en día; algunos de los cuales son:

Subtítulos de imagen
Transcripción de audio
Máquina traductora
Síntesis de imagen
Muchas cosas sobre las que tenemos muchos datos

TLDR:

El aprendizaje profundo de extremo a extremo es una idea de generar tipos de datos complejos a partir de características en bruto, por ejemplo, transcripciones de audio, capturas de imágenes o dirección para automóviles autónomos.

El aprendizaje profundo de extremo a extremo a menudo tiene un mejor rendimiento que el aprendizaje profundo tradicional.

Sin embargo, no se puede usar para todos los problemas, ya que requiere una gran cantidad de datos etiquetados para funcionar de manera óptima.

Otras lecturas:

El futuro del aprendizaje profundo (escrito por mí)
Lo esencial de aplicar el aprendizaje profundo (video)
Aprendizaje profundo de extremo a extremo para automóviles autónomos

Notas al pie

[1] http: //www.dyslexia-reading-well…

[2] https://cs224d.stanford.edu/repo…

Para un problema de clasificación (dos clases), ¿es mejor usar dos salidas con softmax o una salida con entropía cruzada binaria?

¿Qué componentes de hardware (CPU, RAM, GC, etc.) se necesitan para que una PC / computadora doméstica de aprendizaje automático / aprendizaje profundo funcione rápidamente?

¿Cuál es el mejor software de reconocimiento facial en el mercado?

¿Cómo trata Google Translate u otra traducción en línea con palabras que no existen en el otro idioma?

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

En un trabajo de seguridad cibernética, ¿te despiden si fallas? ¿Eso arruina tu carrera?

Si entiendo la pregunta correctamente, para el aprendizaje “no profundo”, el sistema incluirá muchas más cosas que solo redes neuronales: esto es exactamente lo que el aprendizaje profundo intenta evitar, la necesidad de una ingeniería de características extensa (etapas de preprocesamiento en las que intenta masajee los datos en una forma que proporcione buenos resultados cuando se envíen a la ANN) y postprocesamiento (seleccionando el probable resultado correcto de los propuestos por la red). Por ejemplo, para reconocer texto, tendría correctores ortográficos, correctores de sintaxis y demás, además de la red que está haciendo el reconocimiento de texto.

Vladislav Zorov

EDITAR: OP y Quora Content Review Team siguen modificando los detalles. Esta respuesta puede no tener ningún sentido.

No estoy completamente seguro si entiendo completamente su pregunta porque no me queda claro a qué se refiere como sistema. Estoy respondiendo esto haciendo algunas suposiciones de lo que es un sistema, detallado a continuación.

Los sistemas y modelos son cosas diferentes. Un sistema es un grupo de hardware y software creado para proporcionar alguna función. Una de las piezas de ese sistema puede ser un modelo que es una abstracción de datos, capacitado para proporcionar algún tipo de salida, por ejemplo, una predicción.

Los algoritmos de aprendizaje profundo, como cualquier otro algoritmo de aprendizaje automático, entrena un modelo. Puede tener un modelo sin ningún sistema a su alrededor, pero en realidad no hace nada, al menos no automáticamente.

Diferentes algoritmos necesitan diferentes cosas hechas por el resto del sistema. Algunos más, algunos menos, pero todos ellos algo que lo alimenta y que toma su salida. En este aspecto, el aprendizaje profundo no es diferente de ningún otro algoritmo. Personalmente, no puedo imaginar un producto de datos en vivo sin un sistema para, al menos, proporcionar entradas y recibir salidas.

Espero que esto ayude.

Ricardo Vladimiro

La frase “de extremo a extremo” no significa nada particular para el aprendizaje profundo. Al igual que el favorito de VC “de la sopa a las nueces”, es solo una frase adverbial enfática que se lanza para transmitir un vago aura de que lo que estás haciendo es de alguna manera más completo, total y más general que lo que otros están haciendo.

Repito, no hay un “modelo de extremo a extremo”. Tal término no existe. Si alguien le dice “es un modelo de aprendizaje profundo de extremo a extremo”, está tratando de comunicar la integridad sin ser específico. Si está leyendo un artículo o blog, simplemente ignore y busque los detalles (ya sea en matemáticas o en cifras). Si está hablando con alguien, simplemente ignore y haga preguntas hasta que surjan los detalles.

A veces, las personas quieren enfatizar que están haciendo menos preprocesamiento o posprocesamiento que otros, y luego pueden invocar un término como “extremo a extremo”, lo que significa que eliminaron algún paso de procesamiento adicional que era común en algún punto. Pero nunca es total. Siempre hay algún tipo de desempaque y reempaque en cada extremo de un sistema del mundo real.

Ricardo Vladimiro

More Interesting

¿Existe algún conjunto de datos disponible públicamente para la clasificación étnica / nacionalidad de los nombres humanos?

¿Cuál es el truco del núcleo?

¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

¿Cuál es el significado del lenguaje de máquina?

¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

¿Cuál es la forma de generar / Ver resultados intermedios o parciales para la recomendación basada en el usuario en mahout, mientras que el mismo está disponible cuando se hace una recomendación basada en elementos en un modelo distribuido (Hadoop)?

¿Cuál es la diferencia entre la retropropagación y la retropropagación a través del tiempo?