¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

Cuando no tiene datos de entrenamiento, puede comenzar con un aprendizaje no supervisado, alguna técnica de agrupamiento.


Pero existen conjuntos de datos útiles libremente. Este es un conjunto de datos muy útil de revisión de películas de Stanford, con más de 25000 revisiones positivas y negativas seleccionadas manualmente:

Análisis de los sentimientos


Este es un conjunto de datos para la clasificación de sentimientos binarios que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Proporcionamos un conjunto de 25,000 críticas de películas altamente polares para capacitación y 25,000 para pruebas. También hay datos adicionales sin etiquetar para su uso. Se proporcionan formatos de texto sin procesar y bolsa de palabras ya procesada. Consulte el archivo README contenido en la versión para obtener más detalles.

Es posible que desee utilizar el conjunto de datos SAR14 de 234K críticas de películas imdb.

La construcción de este conjunto de datos se detalla en el documento:

Clasificación de los sentimientos en las revisiones de polaridad: un estudio empírico que utiliza características basadas en la calificación. En Actas del 5º Taller sobre Enfoques computacionales para la subjetividad, el sentimiento y el análisis de las redes sociales , [correo electrónico protegido] , páginas 128-135, 2014. ( http://www.aclweb.org/anthology/ …)

Algunos documentos informaron resultados de clasificación de sentimientos utilizando este conjunto de datos:

LCCT: un modelo semi-supervisado para la clasificación de sentimientos. En Actas de la Conferencia de 2015 del Capítulo de América del Norte de la Asociación de Lingüística Computacional – Tecnologías del lenguaje humano , páginas 546–555, 2015. ( http://www.aclweb.org/anthology/ …)

Extracción de términos de aspecto para el análisis de sentimientos en grandes críticas de películas utilizando el método de selección de características del índice Gini y el clasificador SVM World Wide Web , páginas 1-20, 2016.

More Interesting

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

A9: ¿Cuáles son los algoritmos utilizados para implementar sugerencias de búsqueda y recomendaciones de categoría en Amazon?

¿Existe alguna posibilidad de que la química del aprendizaje automático pueda correlacionarse con la nanotecnología?

¿Los principales profesionales de aprendizaje profundo a menudo tienen grandes lagunas de conocimiento debido a lo rápido que se mueve el campo?

¿Cómo funciona el algoritmo de fijación de precios de Uber?

¿Qué significan las hipótesis finita e infinita en el aprendizaje automático? Cuáles son las diferencias entre ellos?

¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?

¿Qué es diferenciar los bosques aleatorios de otros métodos de conjunto en Data Science y por qué?

¿Qué necesito, como principiante, para comprender y construir un modelo generativo como WaveNet?

¿Qué es la estimación de contraste de ruido (NCE)?

¿Cuándo debo usar un autoencoder frente a un RBM?

¿Qué tan bueno es el ADVI en STAN en la práctica?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?