¿Cómo funcionan los vectores de párrafo frente a codificadores automáticos variacionales?

Los párrafos-vectores no parecen funcionar muy bien en general, o al menos no lo hacen cuando reinstalé el modelo del documento original y lo usé en diferentes datos (es bastante sencillo, dado que es un registro arquitectura neural de avance lineal que puede verificarse fácilmente en gradiente). Sin embargo, mantén los ojos bien abiertos, mi propia investigación está a punto de producir una idea que funcione mejor que tendrá aproximadamente la misma idea / objetivo =] (puedo actualizar esta publicación una vez que la haya hecho pública).

En general, los codificadores automáticos variacionales son muy buenos en lo que hacen, incluido el modelado de documentos. Lo bueno es que proporcionan un marco probabilístico agradable en el que uno puede especificar su anterior que sea adecuado para un determinado dominio / conjunto de datos objetivo. Además, para modelos menos probabilísticos, pero no menos poderosos, siempre existe la arquitectura Skip-Thought; -]

[Actualización: aunque aún no es la actualización que algunos podrían estar buscando, el año pasado hice mi trabajo conjunto con Iulian en nuestros modelos de codificador-decodificador variacional multimodal propuestos, y dado que obtuvimos buenos resultados en el modelado de documentos y resultados interesantes en el diálogo , Pensé que era relevante para esta publicación: [1612.00377] Codificador-decodificadores variacionales multimodales 🙂]

Related Content

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

¿Qué es el código de máquina?

¿Cuáles son las diferentes técnicas de minería de texto?

¿Cuánto importa el aprendizaje automático en ciencia de datos?

¿Dónde puedo encontrar algunas empresas que trabajen con técnicas de aprendizaje automático y minería de datos, en el campo biomédico?

¿Qué es la mente profunda de Google?

¿Qué juegos puedo jugar en mi computadora portátil con 4 gb de RAM y Intel Core 2 Duo 2.4 GHz?

More Interesting

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿Cómo trata Apache Spark con los datos de registro que se ejecutan en TeraBytes con memoria limitada (por ejemplo, 8 GB)?

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

¿Qué es el aprendizaje activo?

¿Qué es mejor para alguien que esté dispuesto a hacer un doctorado en visión artificial: conocer un método en profundidad y aplicaciones ampliamente, o lo contrario?

¿Hay alguna API (y documentación) disponible para crear arquitecturas de red neuronal personalizadas usando Deeplearning4j?

¿La normalización por lotes ayuda con las funciones de activación de ReLU?

¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

¿Cuáles son algunos estudios de caso excelentes en el aprendizaje automático?

Web Analytics