¿Qué técnicas de aumento de datos están disponibles para el aprendizaje profundo en texto?

Lamentablemente, este es un problema realmente difícil. La gente ha realizado experimentos con cosas como el intercambio de palabras (como se mencionó), las manipulaciones de árbol de sintaxis y las redes adversarias.

Mi comprensión es limitada, pero que yo sepa, no ha habido ningún intento exitoso. El intercambio de palabras y la manipulación del árbol de sintaxis funcionan, pero son extremadamente intensivos en cómputo y hay un fuerte límite para la cantidad de generalización que puede construir de esta manera. Sin embargo, en el caso de conjuntos de datos muy costosos en los que la precisión es muy importante, creo que es probable que tenga un aumento en el rendimiento.

En el lado generativo, las personas ciertamente han utilizado redes de confrontación en el ámbito del texto, pero no han visto casi el mismo nivel de éxito que en las imágenes. El problema principal en mi opinión es que la generación de texto sigue siendo bastante rudimentaria. He tenido la suerte de ver bastantes resultados de GAN para texto, pero los resultados no son extremadamente alentadores.

Sin embargo, esta es un área de investigación muy activa, así que, por supuesto, si tienes ideas, pruébalas. El aumento de datos en el texto es un problema realmente útil y no tenemos una solución excelente en este momento. Los RNN generativos son ciertamente prometedores, pero ni siquiera tenemos excelentes métricas de cuán realista es el texto de salida todavía.

A pesar de la facilidad del primer enfoque, parece que la comprensión del lenguaje es una tarea radicalmente más difícil que la comprensión de la imagen desde una perspectiva algorítmica. Dicho esto, solo significa que hay más campo verde para explorar. Google Deepmind es realmente líder en NLU en la actualidad, por lo que revisaría su investigación en busca de puntos de partida.

GAN Muchos investigadores están logrando generar oraciones usando GAN.