¿Cuál es el algoritmo detrás de la función de resumen de reseñas de clientes de Amazon? ¿Este resumen es generado por humanos o se genera automáticamente a partir de las reseñas de los clientes mediante el uso de algún procesamiento de lenguaje natural, por ejemplo, resumen automático?

No sé cómo funciona el algoritmo de Amazon. Un esquema simple que podría usar para seleccionar los fragmentos en el ejemplo que dio es el siguiente:

Cree un diccionario de adjetivos positivos y negativos que las personas usualmente usan para describir productos. P.ej. “bueno”, “malo”, “agradable”, “perfecto”, “bueno”, “simple”, “complicado”, “complicado”, “molesto”, “decepcionante”, etc.

Cuanto más larga sea la lista, mejor. Probablemente hay listas muy buenas en línea que puede obtener para arrancar esto.

Luego, construya una lista de calificadores. P.ej. “realmente”, “muy”, “levemente”, “algo”, “extremadamente”, etc. El anteponer estos a sus adjetivos enriquece su diccionario. P.ej. “bueno”, “realmente bueno”, “muy bueno”, …

(¿Puedes ver a dónde va esto?)

Ahora, implemente un algoritmo de puntuación simple. Lea cada oración de cada revisión. Si se produce un adjetivo positivo, +1 para puntuar. Si se encuentra uno negativo, -1. Quizás agregue / reste “length (adjetivo-frase)” en lugar de 1 para preferir frases adjetivas más largas. Necesita una lista de pares (oración, puntaje) para cada revisión. Ordenar la lista de oraciones por puntaje.

Sus oraciones superiores e inferiores en esa lista son candidatos para el fragmento de esa revisión (most + ve, most -ve). Podría decirse que los lectores se preocupan tanto por las evaluaciones negativas como por las positivas. Incluso podría tomar las 2 oraciones superiores y las 2 inferiores y combinarlas en un fragmento más grande:

“Funciona muy bien … fuente de alimentación impecable … imagen pobre … sonido decepcionante”

Adivinando únicamente por el único ejemplo publicado en la pregunta, hay dos posibles explicaciones:

1. Elija una oración como la más representativa o importante: para hacer esto, una vez que la revisión se haya dividido en oraciones, califique las oraciones y elija la oración mejor calificada. La calificación se puede hacer sobre la base de palabras de contenido, palabras que son características de los productos que se discuten, palabras con sentimientos u oraciones que contienen palabras con puntajes altos de tf-idf.

2. Elija una oración aleatoria 🙂 (o una oración aleatoria que contenga palabras de opinión; hay diccionarios de opinión como Sentiwordnet que podrían usarse fácilmente). En mi opinión, las oraciones en el ejemplo no parecían particularmente importantes sobre otra (ver el caso “Y se ve muy bien”, es discutible si esta es la mejor oración para elegir como resumen).

En general, creo que el efecto del resumen es mucho mayor que la ciencia que lo respalda.

Estas citas parecen ser extracciones directas de revisiones en lugar de resúmenes per se. Si comprueba la redacción de cada “resumen” en relación con las revisiones, todas aparecen en el ejemplo anterior al menos.

Si esto es así (y TBH no tengo el tiempo en este momento para verificar muchos productos), sugeriría que tengan dos enfoques:

  1. Use Mechanical Turk con los trabajadores que seleccionan la oración que es más probable que elogie un producto. Tenga en cuenta quién es el propietario de Mechanical Turk …
  2. Tokenise una revisión en oraciones y descubra cuál tiene el mejor contenido eliminando palabras vacías, luego verifique la proporción de palabras de baja frecuencia con el número total de palabras o algo similar.

Supongo que el primero. Las revisiones solo tienen tantas oraciones y es trivialmente fácil convertirlas en oraciones y pedirle a un Turker que seleccione la mejor (y repita con muchos trabajadores para llegar a un consenso).

Mi conjetura es que “tokenizan” toda la revisión en oraciones (o más pequeñas) y luego hacen alguna medida de similitud de cadenas (por ejemplo, Medición de similitud semántica dentro de oraciones o La evaluación de medidas de similitud de oraciones o Página en Drexel). Cuando la similitud de la oración está por encima de un umbral, la ponen en el resumen

Dudo que necesiten algunos de los principales problemas de aprendizaje automático: la similitud de texto está bastante bien definida / limitada como un problema y se presta a una solución específica.

No estoy seguro de cómo lo hace Amazon.

Pero estamos trabajando para aplicar nlp y machine learning para automatizar todas estas funciones y más.

algunos detalles en: Instrucciones para llegar a una plataforma de revisión del consumidor genial usando le máquina …