No estoy seguro de cómo Facebook lo consigue. Pero los siguientes son los tres métodos que podría haber utilizado para esta tarea:
1. Manera barata. Podemos obtener los datos necesarios y los bancos de árboles de conjuntos de datos abiertos publicados por tareas compartidas o tareas de conferencia. por ejemplo Tareas compartidas en el análisis de dependencia CoNLL-X: http://depparse.uvt.nl/
Estos datos contendrán bancos de árboles y análisis de oraciones en inglés. Necesitamos filtrar solo aquellas oraciones que tienen la estructura de una consulta / preguntas, etc., usando la clasificación en las características de POS, etc.
2. Empleo / Compra. Hay empresas y organizaciones que trabajan particularmente en la creación de conjuntos de datos de capacitación mediante anotaciones manuales. Por ejemplo GK&LS (xerox) etc.
- ¿Qué es mejor entre la búsqueda binaria y el árbol de búsqueda binaria para buscar?
- ¿Cuánto tiempo lleva aprender el algoritmo?
- Si f (n) es O (g (n)) yf (n) es O (h (n)), entonces cuál de las siguientes afirmaciones debe ser verdadera: f (n) + g (n) es O (h (n)), g (n) + h (n) es O (f (n)), f (n) es O (g (n) + h (n)), o ninguno de los anteriores?
- Imagine una cerradura de bicicleta combinada con 4 anillos que contienen 10 letras. ¿Cómo se puede calcular qué letras en cada anillo producirán las palabras más válidas?
- ¿Cuál es el enfoque algorítmico para encontrar el primer entero positivo que falta si se proporciona una matriz entera sin clasificar en O (n) complejidad de tiempo y espacio constante?
3. Reglas, sin supervisión y extrapolar. Se pueden usar algunas heurísticas o métodos sin supervisión para crear un pequeño conjunto de datos de entrenamiento. Estos puntos de datos deben seleccionarse cuidadosamente para aumentar su representatividad de los datos completos y al mismo tiempo intentar minimizar el sesgo de selección. Una vez que hemos preparado un conjunto de datos muy pequeño, podemos usarlo para etiquetar más datos con métodos de análisis poco profundos. En función de los niveles de confianza, podemos agregar iterativamente más y más datos a nuestros conjuntos de capacitación.