¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

Quora probablemente usa un conjunto que decae con el comportamiento del usuario.

En otras palabras, Quora determinará a priori la calidad de la pregunta in vitro , publicará la pregunta en la ubicación del alimento (quizás proporcional a la puntuación) y luego ajustará la posición de la pregunta in vivo según lo dicte el comportamiento del usuario.

Construye tu conjunto

A priori, Quora arrojaría un montón de anotadores a una pregunta y luego ejecuta una regresión lineal (o logística) sobre ellos para determinar los pesos.

Goleadores:

  • Discriminatorio clasificador entrenado en una bolsa de ngrams o representaciones latentes ( como etiquetas POS o incrustaciones de palabras )
  • Integridad gramatical y sintáctica ( perplejidad del modelo de lenguaje )
  • Coherencia ( relacionada con lo anterior, pero podría incluir el árbol de análisis )
  • Reputación de la persona que hace la pregunta ( “rango de autor” )
  • Entropía de temas etiquetados ( menos es mejor )
  • Engañar detección (p. ej., basado en kNN rápido)
  • Afinidad de texto a temas etiquetados
  • Recuperación: consulta las respuestas en función de la pregunta enviada, evalúa la calidad de las respuestas recuperadas

… y muchos otros.

Verdad fundamental

Determine una puntuación estándar de oro para las preguntas existentes en su corpus. Aquí hay una puntuación decente que se puede calcular automáticamente:

  • Votos de respuesta combinada por vista de pregunta.

Esto depende totalmente de lo que Quora quiera optimizar. Si Quora quiere preguntas que arrojen respuestas populares, esta sería una buena métrica.

Regresión:

Ejecute una regresión lineal sobre esto. Después de unos pocos miles de muestras, debe tener un clasificador de calidad de preguntas fuerte optimizado para su métrica.

Decadencia con el comportamiento del usuario

Algunas preguntas se filtran porque son engañadas, o casi engañadas, o el puntaje era demasiado bajo (estructura de oración pobre, por ejemplo).

Para las otras preguntas, con el tiempo lo que contará serán los clics, los seguimientos y las respuestas.

Lo más probable es que lo que sucede después es que Quora inserta la pregunta en una posición proporcional en algunos feeds y luego evalúa el comportamiento del usuario.

Si los usuarios hacen clic en la pregunta, la siguen y escriben respuestas, la calidad de la pregunta se considera más alta. Y viceversa.

Con el tiempo, el peso dado a la puntuación a priori decaerá y finalmente dará paso al comportamiento del usuario a posteriori . Esto permitirá que algunas preguntas aparentemente terribles lleguen a la cima si han atraído mucha atención o han obtenido una excelente respuesta.

Pregunta extra

Si Quora quisiera escribir nuevas preguntas de calidad automáticamente, ¿cómo lo harían?

Quora usa algo llamado ‘PeopleRank’, su juego fuera del infame ‘PageRank’ de Google (usado para ordenar los resultados de búsqueda).

El PeopleRank de la persona que hace la pregunta es importante, pero aún más importante son los PeopleRank de los usuarios que interactúan con la pregunta y cómo interactúan (seguir, responder, comentar, compartir, votar a favor, informar, etc.).

Lo mismo vale para las respuestas. De hecho, el recuento de votos positivos o posteriores de la respuesta, las preguntas o la respuesta / pregunta del usuario tiene poco impacto en relación con el PeopleRank de aquellos que interactúan con su contenido.

Una gran cantidad de seguidores ciertamente puede conducir a una interacción constante de los usuarios con un alto rango de personas.

Otras consideraciones importantes consisten principalmente en factores de SEO: ¿cómo clasifica la pregunta por volumen de búsqueda en Google, Bing, etc.? ¿Cuál es la autoridad de los enlaces de contenido de Quora del sitio? ¿Cuál es la autoridad de los sitios que enlazan con el contenido de Quora? ¿Cuál es el coeficiente de viralidad?

Quora solo puede proporcionar la respuesta correcta. Mis observaciones son

La pregunta hecha puede ser absurda, ilegocial y sin fundamento. Un bajo volumen de tales preguntas se elimina o se contrae. La atención principal se da en las respuestas. La respuesta no debe ser ofensiva, sin embargo, la pregunta podría ser la misma.

More Interesting

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

¿Qué significa el término difusión en bibliotecas numéricas con matrices como MATLAB, Numpy o TensorFlow?

¿Aprendizaje automático sin historia matemática?

¿Cómo se puede imitar la intuición humana en los algoritmos de aprendizaje automático? ¿Es importante el modelado de la intuición en el aprendizaje profundo?

¿Crees que los algoritmos de aprendizaje automático pueden cambiar la forma en que hacemos simulaciones numéricas?

¿Cuáles son las funcionalidades clave que debe tener una biblioteca NLP mínima?

¿Qué es el Tanimoto Score y cuándo se usa?

¿Necesito almacenar los pesos en los pasos de tiempo anteriores además de las activaciones cuando uso la propagación hacia atrás a través del tiempo en redes neuronales recurrentes?

¿Por qué la inteligencia artificial se vuelve agresiva?

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Cómo hace un auto Tesla el aprendizaje automático?

¿Por qué los entrenamientos CNN desequilibrados afectan tanto la clasificación?

¿Cuál es el papel de una capa totalmente conectada en una red neuronal profunda?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Puede un autoencoder sobreajustar cuando tiene una cantidad mucho menor de neuronas de capa oculta que la capa de entrada y también se usa la deserción?