Quora probablemente usa un conjunto que decae con el comportamiento del usuario.
En otras palabras, Quora determinará a priori la calidad de la pregunta in vitro , publicará la pregunta en la ubicación del alimento (quizás proporcional a la puntuación) y luego ajustará la posición de la pregunta in vivo según lo dicte el comportamiento del usuario.
Construye tu conjunto
- Como proyecto de graduación, elegimos hacerlo en el análisis de sentimientos de Twitter, tenemos algunos conceptos básicos de ML obtenidos de los MOOC, ¿a dónde deberíamos ir después?
- ¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?
- ¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?
- Cómo usar KNN para datos mixtos (categóricos y numéricos)
- ¿Qué tan difícil es el aprendizaje automático?
A priori, Quora arrojaría un montón de anotadores a una pregunta y luego ejecuta una regresión lineal (o logística) sobre ellos para determinar los pesos.
Goleadores:
- Discriminatorio clasificador entrenado en una bolsa de ngrams o representaciones latentes ( como etiquetas POS o incrustaciones de palabras )
- Integridad gramatical y sintáctica ( perplejidad del modelo de lenguaje )
- Coherencia ( relacionada con lo anterior, pero podría incluir el árbol de análisis )
- Reputación de la persona que hace la pregunta ( “rango de autor” )
- Entropía de temas etiquetados ( menos es mejor )
- Engañar detección (p. ej., basado en kNN rápido)
- Afinidad de texto a temas etiquetados
- Recuperación: consulta las respuestas en función de la pregunta enviada, evalúa la calidad de las respuestas recuperadas
… y muchos otros.
Verdad fundamental
Determine una puntuación estándar de oro para las preguntas existentes en su corpus. Aquí hay una puntuación decente que se puede calcular automáticamente:
- Votos de respuesta combinada por vista de pregunta.
Esto depende totalmente de lo que Quora quiera optimizar. Si Quora quiere preguntas que arrojen respuestas populares, esta sería una buena métrica.
Regresión:
Ejecute una regresión lineal sobre esto. Después de unos pocos miles de muestras, debe tener un clasificador de calidad de preguntas fuerte optimizado para su métrica.
Decadencia con el comportamiento del usuario
Algunas preguntas se filtran porque son engañadas, o casi engañadas, o el puntaje era demasiado bajo (estructura de oración pobre, por ejemplo).
Para las otras preguntas, con el tiempo lo que contará serán los clics, los seguimientos y las respuestas.
Lo más probable es que lo que sucede después es que Quora inserta la pregunta en una posición proporcional en algunos feeds y luego evalúa el comportamiento del usuario.
Si los usuarios hacen clic en la pregunta, la siguen y escriben respuestas, la calidad de la pregunta se considera más alta. Y viceversa.
Con el tiempo, el peso dado a la puntuación a priori decaerá y finalmente dará paso al comportamiento del usuario a posteriori . Esto permitirá que algunas preguntas aparentemente terribles lleguen a la cima si han atraído mucha atención o han obtenido una excelente respuesta.
Pregunta extra
Si Quora quisiera escribir nuevas preguntas de calidad automáticamente, ¿cómo lo harían?