Suponga que desea crear un modelo de reconocimiento de voz; algo como Siri o el Asistente de Google.
El método tradicional que se ha usado durante mucho tiempo y que todavía se usa hoy en día es dividir el audio en fonemas (bloques de construcción fundamentales; unidades de sonido). Hay 44 fonemas en inglés. [1] Luego puede usar estos fonemas como características en su modelo para generar la transcripción.
- ¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?
- ¿Se puede solicitar un doctorado en aprendizaje automático sin conocimientos y habilidades de CompSci? ¿Se puede aprender en el trabajo?
- ¿R es tan popular solo por las bibliotecas que pueden manejar varias funciones estadísticas?
- ¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?
- ¿Cuál es el mejor foro de red neuronal en Internet?
Esto parece innecesariamente complicado; ¿Por qué tenemos que identificar los fonemas antes de poder generar la transcripción? ¿No hay una manera en que podamos pasar directamente de la forma de onda de audio a la transcripción escrita similar a lo que aparentemente están haciendo los humanos? Resulta que hay.
El método arquitectónicamente más simple de transcribir audio se llama enfoque de aprendizaje profundo de extremo a extremo (E2E).
Generalmente se puede decir que:
El aprendizaje profundo de principio a fin es la idea de que, en lugar de diseñar muchas presentaciones, puede generar cosas más complejas.
Usando el método tradicional, la salida de los modelos de aprendizaje automático sería bastante limitada, por ejemplo, un binario para el análisis de sentimientos o un número entero para el reconocimiento de objetos. Usando un clasificador continuo, también puede generar un número de coma flotante que representa la tasa de confianza de que algo sea verdadero o el precio de una casa, por ejemplo.
Por otro lado, con un enfoque E2E, estructuras de datos más elaboradas como texto e imágenes; Los ejemplos incluyen subtítulos de imágenes, traducción automática: texto de un idioma a otro e imágenes con ciertos parámetros para la síntesis de imágenes.
Intuitivamente, tiene sentido que E2E pueda ser mejor para rivalizar con el rendimiento humano, ya que las características pueden codificar más datos, dado que son una representación de ingeniería que puede o no codificar correctamente los datos correctamente. Sin embargo, el espacio de características ahora más rico también puede aumentar la probabilidad de que el modelo capte el ruido.
Como resultado, el uso del aprendizaje profundo de extremo a extremo (E2E) para el reconocimiento de audio (y muchos otros problemas) arroja mejores resultados. Tomemos, por ejemplo, el documento ” Red neuronal profunda de extremo a extremo para el reconocimiento automático de voz ” de William Song y Jim Cay, donde encontraron una disminución del 7,3% en la tasa de error utilizando un modelo E2E [2].
Ahora, ¿por qué no usamos el aprendizaje profundo E2E para cada problema? La respuesta, más bien aburrida, es que E2E requiere muchos datos etiquetados que no siempre es posible obtener; especialmente si es un problema más exótico.
Suponga que desea crear un modelo que prediga la edad de una persona basándose en imágenes de rayos X de sus manos. Podría usar un método tradicional en el que diseñe las características, por ejemplo, la longitud de los huesos a partir de los cuales intenta predecir la edad. Alternativamente, podría utilizar un E2E donde tome las imágenes de rayos X y emita directamente la edad.
Sin embargo, es poco probable que el enfoque E2E funcione, ya que no hay muchos ejemplos de imágenes de rayos X de manos acopladas a la edad de la persona.
Otro ejemplo son los autos sin conductor.
Una vez más, un enfoque tradicional probablemente implicaría obtener la imagen, identificar objetos en la imagen, usar estos objetos para calcular la trayectoria que puede controlar la dirección.
Este es un proceso muy engorroso que implica muchos pasos; especialmente en comparación con un enfoque E2E donde se pasa directamente de la imagen a la dirección.
Sin embargo, la aplicación de E2E a los modelos de automóviles autónomos aún no es viable para otras demostraciones interesantes, ya que todavía no tenemos suficientes datos.
Además, el debate aún está abierto sobre si alguna vez será práctico. Andrew NG expresó una vez sobre este tema que cree que necesitaremos “MUCHOS datos”.
Esto debería servir como un recordatorio de que el aprendizaje profundo de extremo a extremo no es la solución para todo; especialmente problemas donde no tenemos una tonelada de datos etiquetados. Sin embargo, dicho esto, E2E DL ya se usa con cierto éxito para muchos problemas diferentes hoy en día; algunos de los cuales son:
- Subtítulos de imagen
- Transcripción de audio
- Máquina traductora
- Síntesis de imagen
- Muchas cosas sobre las que tenemos muchos datos
TLDR:
El aprendizaje profundo de extremo a extremo es una idea de generar tipos de datos complejos a partir de características en bruto, por ejemplo, transcripciones de audio, capturas de imágenes o dirección para automóviles autónomos.
El aprendizaje profundo de extremo a extremo a menudo tiene un mejor rendimiento que el aprendizaje profundo tradicional.
Sin embargo, no se puede usar para todos los problemas, ya que requiere una gran cantidad de datos etiquetados para funcionar de manera óptima.
Otras lecturas:
- El futuro del aprendizaje profundo (escrito por mí)
- Lo esencial de aplicar el aprendizaje profundo (video)
- Aprendizaje profundo de extremo a extremo para automóviles autónomos
Notas al pie
[1] http: //www.dyslexia-reading-well…
[2] https://cs224d.stanford.edu/repo…