¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?

Puede incrustar parámetros como canales adicionales ( concatenar ) O puede agregar las incrustaciones a sus mapas de características.

La primera opción es común cuando diseña GAN y la segunda se usó para condicionar WaveNet en la identidad del orador.

Deberá tener un vector de incrustación de tamaño N (en realidad 1x1xN para datos 2D) que se compartiría en todos los puntos espaciales para el acondicionamiento global. Entonces solo tienes que repetirlo y agregar / concatenar.

Entonces tendrás que descubrir:

Donde deberías incrustarlo. Entre las primeras capas requeriría más memoria de GPU para almacenar tensores más grandes.
Donde exactamente debe insertarlo: antes o después de la activación / agrupación / convolución.
Incrustación de tamaño de vector. Debería ser comparable al número original de canales si construye GAN, o, obviamente, lo mismo si va con la adición.

Aprendizaje automáticoAprendizaje profundoconvolucionalesRedes neuronalesRedes neuronales artificiales

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?

¿Cuáles son algunas buenas técnicas para la clasificación / segmentación de datos de series temporales?

¿Dónde puedo aprender el aprendizaje automático desde cero en C ++?

Cómo automatizar la selección de características en un conjunto de datos que involucra muchos datos no numéricos

¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?

¿Cuáles son algunos ejemplos de informática, matemáticas o algoritmos donde se aplica el problema de detención?

El trabajo de vanguardia que he visto generalmente combina datos estructurados y no estructurados en las capas completamente conectadas. En Show Attend & Tell, los autores están haciendo la generación de subtítulos, por lo que generar la palabra t del subtítulo implica naturalmente la palabra (t-1) y la imagen que creo que aceptará son datos estructurados y no estructurados, respectivamente. Utilizan LSTM que generan la siguiente palabra de un subtítulo en función de una suma ponderada (según el modelo de atención espacial) de mapas de características de CNN espacialmente significativos y una codificación de 1 de k (k es el tamaño del vocabulario ) de la palabra actual en el título. Más específicamente, esta función es una función de activación aplicada a la suma de las incorporaciones de las características visuales, características textuales y estado oculto. Creo que estará de acuerdo cuenta como una capa totalmente conectada, a pesar de que no es parte de la CNN per se.

Según mi conocimiento y nivel de google-scholar-foo, no hay documentos cuya contribución principal sea presentar una forma más sofisticada de combinar datos estructurados y no estructurados. Otra idea semi obvia es usar un modelo de mezcla en el que si hay k valores distintos que el valor estructurado puede tomar, ya sea a través del significado intrínseco o de la agrupación, usted ajusta un modelo para cada uno y los combina de forma bayesiana. Esto no mejoraría el problema de recuento de parámetros que mencionó, porque ahora tiene k CNN, pero los modelos de mezcla tienen algunas buenas propiedades que podría obtener si tiene suficientes datos para cada modelo.

Te he estado siguiendo en quora últimamente, y tienes algunas respuestas interesantes sobre ml y matemáticas, por lo que tal vez seas la persona que popularice un buen enfoque para combinar datos estructurados y no estructurados.

Alex Seewald

More Interesting

¿Cómo funciona la propagación hacia atrás en la red neuronal convolucional?

¿Cuál es el tamaño de equipo típico para un proyecto de aprendizaje automático?

¿Qué es AdaBoost?

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?

¿Qué tan bueno es Irlanda para la visión por computadora?

¿Cuáles son los algoritmos / documentos de última generación sobre clasificación y recuperación de imágenes?

¿Es una idea loca aprender el aprendizaje automático y el aprendizaje profundo sin ningún conocimiento avanzado de matemáticas?

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

Cómo extraer contenido del sitio web con procesamiento de lenguaje natural

¿Cómo calcula Google los sinónimos de los términos en una consulta de búsqueda?