¿Cómo debo representar las características para la clasificación de texto?

No puedo abrir el enlace al documento de 2002 … aunque esto es tan antiguo que lo ignoraría

Primero , probablemente no tenga suficientes datos para usar la bolsa de palabras (BOW) y obtener buenos resultados. Por lo general, quiere decir 10 millones de preguntas, como se explica en

LibShortText: una biblioteca para clasificación y análisis de texto corto

¿Cuáles son los principales niveles de clasificación de reclusos?
¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?
¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?
¿Cuál es el atractivo de Python para ML y aplicaciones científicas en general?
¿Cómo debe planificar un estudiante de CS su primer verano?

que es un SVM que usa funciones bigram

(Aunque un enfoque más moderno, para conjuntos de datos muy grandes, podría ser FB FastText facebookresearch / fastText)

Para un conjunto de datos muy pequeño, necesita una representación semántica de las palabras. Es posible que pueda usar vectores de guantes ‘promediados’ como características, aunque no me he impresionado mucho con esto

Vectores globales para la representación de palabras

Podría usar una red neuronal recurrente, con vectores de guantes integrados

Uso de incrustaciones de palabras pre-entrenadas en un modelo Keras

Aprendizaje automáticoClasificaciónProcesamiento del lenguaje natural

Related Content

¿Qué componentes de hardware (CPU, RAM, GC, etc.) se necesitan para que una PC / computadora doméstica de aprendizaje automático / aprendizaje profundo funcione rápidamente?

¿Cuáles son las ventajas de ReLU sobre softmax en la red neuronal profunda?

¿Cuándo es preferible usar árboles de regresión en el aprendizaje automático?

¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?

¿Cuáles son algunos ejemplos de inteligencia artificial en sitios web?

¿Qué información del dispositivo ve un enrutador cuando se conecta a él?

¿Qué es un componente principal y por qué se llama así?

More Interesting

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?

¿Hay nueva información sobre el tema X o la gente sigue copiando y pegando?

Cómo crear algoritmos de reconocimiento facial

¿Debo usar un cursor o usar el paquete R directamente?

¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

¿Se pueden programar las computadoras para comprender el valor estético de algo?

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?

Cómo decidir si usar modelos de aprendizaje automático supervisados o de refuerzo

Ingeniero de Aprendizaje Automático de Udacity Nanodegree: ¿Dónde están los proyectos?

¿Existe un método común para detectar la convergencia de la muestra de Gibbs y el algoritmo de maximización de expectativas?

¿Cómo calcula el tema antes en el análisis latente probabilístico?

¿MATLAB es el software más conveniente para el aprendizaje automático?

¿Hay abandonos universitarios que trabajan como científicos de datos o especialistas en aprendizaje automático?

Web Analytics