¿Cuáles son algunos buenos ejemplos de reducción de dimensionalidad no lineal en datos de texto?

LLE se utilizó para aprender la representación semántica de las palabras [1].
Editar: – Solo pensé en dejarme agregar más contenido en general para la reducción de dimensionalidad no lineal.
Honkela [2] propuso un mapa de autoorganización (SOM) para encontrar similitudes estadísticas entre palabras y relaciones [3]. Por ejemplo, en [3] analizaron los cuentos de hadas de Grimm (sin categorización sintáctica y semántica previa) de las palabras.

HAL (Una biblioteca de software escalable para espacios semánticos – Google Project Hosting)
es otra forma de reducción de dimensionalidad para datos de texto.

ICA (Análisis de componentes independientes) [4] se ha utilizado para encontrar similitudes semánticas entre palabras.
Los modelos basados ​​en indexación aleatoria motivados por el lema de Johnson-Lindenstrauss se han utilizado para inducir una representación dimensional baja de las palabras [5].

Recientemente ha habido un trabajo emocionante por parte de la gente de Deep Learning [6], [7] que ha mostrado resultados sorprendentes en tareas como WSD, predicción de relaciones, etc.

Modelos basados ​​en el aprendizaje matricial especialmente en [8], [9].
[1] Página en stanford.edu
[2] Página en ics.aalto.fi
[3] Página en researchgate.net
[4] COMPARACIÓN DEL ANÁLISIS DE COMPONENTES INDEPENDIENTES Y LA DESCOMPOSICIÓN DE VALOR SINGULAR EN EL ANÁLISIS DE CONTEXTO DE PALABRAS
[5] Reducción de la dimensionalidad por mapeo aleatorio: cálculo rápido de similitud para la agrupación
[6] Página en uchicago.edu
[7] Página en iro.umontreal.ca
[8] Página en aclweb.org
[9] Página en jmlr.org

Tengo algo de trabajo en modelos basados ​​en codificación dispersa y definitivamente puedo compartirlo si uno lo requiere.

La razón por la que hay pocos ejemplos basados ​​en texto de los algoritmos de reducción de dimensionalidad no lineal que sugiere es porque no es una buena idea.

¿Por qué no es una buena idea para el texto? Los métodos como ISOMAP se ocupan principalmente de reconstruir superficies lisas de dimensiones más bajas a partir de un conjunto de puntos de muestra de alta dimensión.

En el caso de múltiples imágenes de un objeto físico en diferentes configuraciones, las diferentes poses del objeto pueden considerarse muestras tomadas de la variedad correspondiente al espacio de fase del objeto. En otras palabras, hay un proceso continuo que genera las muestras en muchas bases de datos de imágenes.

Pero los documentos de texto no son realmente muestras de un proceso continuo. De hecho, la mayoría de las representaciones vectoriales de documentos de texto son de naturaleza discreta, basadas en recuentos de ocurrencias o coincidencias de palabras.

Dicho esto, la reducción de la dimensionalidad no lineal basada en distribuciones de probabilidad locales, como métodos como t-SNE y dredviz, es probablemente una opción mucho mejor para los datos de texto.

Como dijo Stephen Ingram, las técnicas de reducción de dimensionalidad no lineal de uso general no son adecuadas para el uso textual.

Consulte word2vec @ word2vec: herramienta para calcular representaciones distribuidas continuas de palabras. – Alojamiento de proyectos de Google
y las referencias de algunos ejemplos interesantes de cómo los investigadores han encontrado formas de incrustar palabras en espacios vectoriales continuos y utilizar estas incrustaciones para tareas de PNL.

More Interesting

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

¿Es Bayes jerárquico básicamente una introducción de hiperparámetros en el modelo?

¿Qué marco de trabajo en el aprendizaje automático puede manejar grandes conjuntos de datos?

Investigadores de aprendizaje automático, ¿algún día los robots nos matarán a todos?

¿Cuál es el algoritmo detrás de LinkedIn Pulse?

¿Cuáles son las opiniones de Yoshua Bengio sobre Kaggle y el aprendizaje automático competitivo en general?

¿Cuál es la diferencia entre el condicionamiento operante y el aprendizaje de refuerzo?

¿Cuál es el truco del núcleo?

¿Es posible verificar manualmente si los vectores de soporte siguen hiperplanos teóricos en SVM usando un núcleo de base radial?

¿Cuáles son algunos de los buenos libros sobre redes neuronales artificiales, minería de datos, aprendizaje automático, big data y análisis de datos?

¿Cuál es el artículo o recurso web más informativo sobre el modelado similar?

He completado el curso para el aprendizaje automático. Quiero hacer un proyecto corto sobre aprendizaje automático. Actualmente estoy haciendo BE en CS. ¿Qué materia debo elegir?

¿Cómo calcular la precisión y recuperación generales? ¿Obtengo la precisión y la recuperación de cada clase y obtengo el promedio

¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?

¿Tiene sentido entrenar clasificador para cada clase?