Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?

El aprendizaje de transferencia (es decir, cortar la última capa de una red neuronal y luego entrenar a un clasificador más simple, por ejemplo, un SVM) es una forma muy común de aprender rápidamente un clasificador en algunos ejemplos. Hay otra idea relacionada llamada ajuste fino, en la que usa un modelo inicial (digamos entrenado en imagenet) y luego actualiza los pesos del modelo en sus nuevos datos. Estas ideas se han utilizado con éxito en la visión.

Después de haber intentado y jugado con ambos enfoques, esto es lo que he visto. El aprendizaje de transferencia es útil cuando tiene pequeñas cantidades de datos. Es rápido y fácil entrenar modelos. Además, obtienes un modelo decente. El ajuste fino requiere actualizar el modelo profundo y lleva tiempo (requiere volver a ejecutar el aprendizaje de la red neuronal). También requiere una cantidad decente de datos. Si puede permitirse el lujo de entrenar una red neuronal de extremo a extremo en sus datos, puede intentar un ajuste fino, pero si desea construir algo rápido y / o actualizarlo regularmente, el ajuste fino podría ser el camino a seguir.

Related Content

¿Las startups ofrecen trabajos orientados a la investigación?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cuáles son los problemas de investigación en la detección de objetos?

¿Qué excelente proyecto universitario podemos construir usando Machine Learning para obtener una gran exposición?

Para alguien que busca especializarse en ingeniería informática, ¿es Cal Poly Pomona, el estado de San Diego o la Universidad Gonzaga la mejor opción?

¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

El principio es simple. Aprendes muchas capas. La última capa es la capa de clasificación (softmax).

Entrena su gran red neuronal para las 1000 clases de ImageNet (el desafío de reconocimiento de objetos) o descarga una red ganadora disponible en línea (VGG, GoogLeNet, …).

Elimina la capa softmax al final, crea su propio conjunto de datos con sus propias clases. Agrega una nueva capa softmax con el número de salida de su propio conjunto de datos.

Tú haces el entrenamiento. Será realmente rápido ya que solo necesitas aprender la nueva capa softmax.

Puede hacer el entrenamiento actualizando todos los parámetros de la red (no lo actualizará mucho, pero podría ser un poco mejor) o solo aprenderá la nueva capa softmax.

Funciona muy bien, aprende en tiempo real, con solo uno o un puñado de ejemplos. Aquí hay una buena demostración de Yann Le Cun.

Todos los documentos sobre subtítulos de imágenes son un caso extremo de transferencia de aprendizaje. Tomas las activaciones de la capa justo antes de la capa softmax de tu red de reconocimiento de imágenes y la usas como entrada para un generador de oraciones. Aprende la oración RNN sin tocar en absoluto en la red de imágenes.

Marceau Cnudde

More Interesting

Cómo identificar entidades en una consulta de búsqueda en lenguaje natural

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

Utilizando la regresión logística y la regularización L1 / L2, ¿debo preocuparme por la selección de características?

¿Por qué la máquina de Bolzmann restringida se llama memoria asociativa?

¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?

¿Cuáles son las diferentes técnicas de minería de texto?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Qué métodos existen para combatir los problemas de gradiente de desaparición y explosión?

¿Hay alguna diferencia entre los codificadores automáticos y el codificador-decodificador en el aprendizaje profundo?

Cómo leer esta arquitectura de red neuronal convolucional

¿Es el aprendizaje automático y el aprendizaje profundo una carrera mejor que el desarrollo web ahora?

¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?

¿Se pueden usar las redes neuronales para resolver problemas de aprendizaje no supervisados?

¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?

Web Analytics