¿Es incorrecto si realizo un análisis de opinión en revisiones individuales en lugar de en todas las revisiones a la vez?

La respuesta de Kevin es correcta, pero déjame probar un enfoque diferente.

Pregunta 1 : La primera pregunta que debe hacerse es cómo funcionará este clasificador. ¿Cómo sabrá ” clasificar los aspectos en algunas categorías predefinidas “?

Imagínese esto: una empresa con sede en el país Eslovenia lo contrata como un “clasificador de reseñas”. Su trabajo es mirar las revisiones entrantes y clasificarlas como ‘buenas’, ‘malas’, ‘favorables’ y ‘desfavorables’. Lamentablemente, no hablas esloveno. Ni siquiera tienes un diccionario. ¿Qué puedes hacer para mantener tu trabajo?

Antes de comenzar a clasificar las revisiones entrantes sobre la marcha, tal vez comience a mirar las revisiones archivadas y cómo fueron clasificadas por el tipo que ocupó este trabajo antes que usted. Empiezas a notar patrones .

Notará que las reseñas que tenían la palabra ‘ dobro ‘ en ellas, en la mayoría de los casos, se clasificaron como ‘buenas’. Por el contrario, las revisiones que tenían el mundo ‘slabo’ fueron clasificadas, la mayoría de las veces, como ‘malas’. No necesita saber qué significan esas palabras, pero después de ver suficientes datos, está convencido de que esos patrones se mantendrán para la mayoría de las revisiones entrantes .

Ahora regresa a su estación, y su trabajo se reduce a simplemente buscar las palabras ‘dobro’ o ‘slabo’ en las revisiones entrantes, y clasificar las revisiones como buenas o malas, respectivamente.

La analogía anterior es más o menos cómo funciona un clasificador de análisis de sentimientos ML. A menos que le dé a su clasificador algunos ‘datos resueltos’ para aprender patrones, no puede hacer las clasificaciones sobre la marcha.

Pregunta 2: ¿Cómo mejorar la clasificación? ( Desafío al lector )
Su jefe ahora se queja de que sus comentarios no están a la par con sus otros colegas. Aún no has aprendido esloveno, todavía no tienes un diccionario.

Reto: ¿Cómo puedes mejorar en tu trabajo? Sigue mi analogía eslovena, responde en los comentarios si quieres.

Un enfoque típico de LD sería tener un conjunto de entrenamiento, un conjunto de validación y luego un conjunto de revisiones de “fuego real”. Los dos primeros serían lotes de revisiones elegidas al azar, actualmente existentes, y el segundo sería un flujo de revisiones individuales que llegarían con el tiempo.

Entrenaría a su modelo utilizando todas las revisiones del conjunto de entrenamiento. Por ejemplo, si se trata de reseñas de restaurantes, puede determinar que el 80% de los usos de la palabra “olor” fueron negativos, el 70% de los usos de la palabra “aroma” fueron positivos, y el uso de la palabra “olor” fue neutral (50/50 positivo versus negativo).

Luego ejecutaría el modelo en el conjunto de validación y confirmaría que predice correctamente el sentimiento en esas revisiones. Si no es así, debe ajustar el modelo e iterar. Si funciona, está listo para comenzar a funcionar y procesar revisiones adicionales una a la vez.

More Interesting

¿Cuánto aprendizaje profundo puedes aprender en 20 días si trabajas todo el día?

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cuál es la diferencia entre machine learning y IOT?

¿Por qué la regresión logística se considera un modelo lineal?

¿Qué criterios deberían ser apropiados para terminar el entrenamiento codicioso no supervisado de autoencoder por capas?

¿Cuál es la definición de un 'prior bayesiano'?

¿Qué es la discretización de características?

¿Tengo que escuchar el curso de aprendizaje automático Coursera de Andrew Ng?

¿Cuáles son las diferencias (y similitudes) en el funcionamiento de una computadora cuántica y una red neuronal artificial?

¿De qué maneras alguien puede obtener ingresos del aprendizaje automático (trabajo por cuenta propia)?

¿Cuál es la mejor clase de Machine Learning en Penn?

¿Qué sucede si hacemos que cada unidad de filtro o núcleo en una capa CNN dentro de una red neuronal profunda tenga diferentes tamaños de ventana pero el mismo número de parámetros de peso (lo que resulta en granulado grueso)? ¿Podría conducir a un efecto contextual?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

Tengo una oferta de Qualcomm y una oferta postdoc de CMU. Trabajo en visión artificial / aprendizaje automático. ¿Qué tengo que hacer?