¿De dónde provienen los datos de entrenamiento para analizar las consultas en inglés en un árbol para Facebook GraphSearch?

No estoy seguro de cómo Facebook lo consigue. Pero los siguientes son los tres métodos que podría haber utilizado para esta tarea:

1. Manera barata. Podemos obtener los datos necesarios y los bancos de árboles de conjuntos de datos abiertos publicados por tareas compartidas o tareas de conferencia. por ejemplo Tareas compartidas en el análisis de dependencia CoNLL-X: http://depparse.uvt.nl/
Estos datos contendrán bancos de árboles y análisis de oraciones en inglés. Necesitamos filtrar solo aquellas oraciones que tienen la estructura de una consulta / preguntas, etc., usando la clasificación en las características de POS, etc.

2. Empleo / Compra. Hay empresas y organizaciones que trabajan particularmente en la creación de conjuntos de datos de capacitación mediante anotaciones manuales. Por ejemplo GK&LS (xerox) etc.

3. Reglas, sin supervisión y extrapolar. Se pueden usar algunas heurísticas o métodos sin supervisión para crear un pequeño conjunto de datos de entrenamiento. Estos puntos de datos deben seleccionarse cuidadosamente para aumentar su representatividad de los datos completos y al mismo tiempo intentar minimizar el sesgo de selección. Una vez que hemos preparado un conjunto de datos muy pequeño, podemos usarlo para etiquetar más datos con métodos de análisis poco profundos. En función de los niveles de confianza, podemos agregar iterativamente más y más datos a nuestros conjuntos de capacitación.