¿Cuál es la principal diferencia entre el aprendizaje profundo y los viejos enfoques de aprendizaje?

Los siguientes son los 5 paradigmas que se pueden usar para hacer Machine Learning. El enfoque conexionista se llama Aprendizaje profundo. Veamos algunas características únicas de Deep Learning. Lea este documento para más detalles.

Crédito de la foto: 5 tribus del aprendizaje automático: preguntas y respuestas

  1. Los modelos de aprendizaje profundo están hechos de redes neuronales profundas. Estas redes son composiciones complejas de funciones que agregan muchas no linealidades.
  2. El entrenamiento del modelo de Deep Learning se ocupa principalmente de encontrar mínimos de funciones no convexas. Durante mucho tiempo, la gente pensó que las redes neuronales no funcionan porque se atascan en los mínimos locales, pero los datos empíricos ahora sugieren que ese no es el caso.
  3. Deep Learning exhibe propiedades de aprendizaje de representación. Podemos alimentar estos modelos con datos brutos como vectores de palabras N-hot o valores de píxeles de imagen y los modelos aprenden características de los datos sin procesar automáticamente. La ingeniería de características ya no es el foco.
  4. Deep Learning utiliza el mismo tipo de modelos para todos los dominios. El procesamiento del lenguaje natural, el habla y la visión se modelan utilizando diferentes tipos de redes neuronales. Esto permite un lenguaje común y conduce a interesantes aplicaciones de dominio cruzado.
  5. Los resultados empíricos de Deep Learning están por delante de los resultados teóricos. Ni siquiera entendemos cómo funciona la generalización en estos modelos.
  6. En mi opinión, el aprendizaje profundo es una de las pocas formas de hacer aprendizaje automático donde la capacidad de manejar grandes conjuntos de datos es una de las características definitorias. También es una debilidad ya que DL para pequeños conjuntos de datos es un desafío.
  7. Ahora es responsable de MUCHOS resultados de última generación. Está generando mucha atención justificada y exageración injustificada.

Existen muchas diferencias, pero la principal es la suposición de que, dada la cantidad suficiente de capas, una red de caja negra puede aprender de grandes cantidades de datos. A diferencia de un paradigma de aprendizaje tradicional (digamos regresión logística) donde uno puede comprender conceptualmente el modelo aprendido final, cuando se utiliza una técnica de aprendizaje profundo es muy difícil interpretar el modelo final. Así, en cierto modo, el aprendizaje profundo es completamente “prueba humana”. En otras palabras, un humano no puede alterar el modelo generado por el aprendizaje profundo eligiendo sus propios pesos, etc.

Esto tiene problemas asociados:

  1. el aprendizaje profundo requiere grandes cantidades de datos
  2. combinar diferentes modelos y lógica experta no es posible fácilmente
  3. Si el modelo falla, será muy difícil precisar y corregir la falla.

Las ventajas por otro lado son:

  1. los modelos de aprendizaje profundo generalmente no requieren lógica experta
  2. son a prueba de manipulaciones
  3. podrían modelar relaciones ocultas que no son obvias para los humanos

En el aprendizaje automático, el objetivo es construir una función a partir de datos que funcione bien para alguna tarea.

El enfoque que la gente usa con mayor frecuencia es extraer algunas “características” (patrones) de los datos y luego entrenar una función genérica simple usando las características como entrada.

Tradicionalmente, las características se extraen utilizando una función que está diseñada a mano: piensa en las propiedades de las señales con las que está trabajando (“las imágenes naturales tienen bordes alrededor de los objetos”) y diseña una función que captura esas propiedades (“genera un mapa de calor de donde están los bordes “). Este enfoque se llama ingeniería de características.

A veces es muy difícil descubrir usando la intuición o las matemáticas cuáles son las buenas características para un problema dado. Ahí es donde entra en juego el aprendizaje profundo. En el aprendizaje profundo, reemplaza el extractor de características diseñado a mano con un extractor de características genérico y entrenable, y luego entrena el sistema completo (extractor de características entrenables + función de salida entrenable) de extremo a extremo utilizando gradiente descendencia.

Aquí hay una imagen que ilustra eso de una presentación de Yann LeCun:

El extractor de características entrenables puede ser una red recurrente que comprime una secuencia de longitud variable en un vector de características de longitud fija, o pueden ser capas de convoluciones que generan si un patrón apareció en algún lugar de la señal de entrada. Esas técnicas, y la bolsa de trucos no triviales que necesita para que realmente funcionen con el descenso de gradiente, son básicamente las novedades del aprendizaje profundo en comparación con las formas tradicionales de aprendizaje automático.

En palabras simples, creo que la diferencia es que los métodos de aprendizaje profundo están inspirados en cómo las neuronas biológicas interactúan entre sí en nuestro cerebro.

Por ejemplo, los métodos de aprendizaje profundo extraen características de las imágenes de manera jerárquica, de manera similar a cómo nuestro cerebro construye características de nivel superior que se abstraen de características de bajo nivel cuando miramos una imagen. Esto es solo mi entendimiento.

Echa un vistazo a mi blog. Explica cada pequeño detalle sobre las redes neuronales y el aprendizaje profundo, y puede ser un recurso decente para principiantes. Los comentarios son bienvenidos. (¡ Sin juego de palabras! )