¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

No. Hay varias razones para esto que no son exclusivas de Factual, pero las siguientes pueden ayudar a responder la pregunta de manera más amplia:

  • Velocidad: los enfoques tecnológicos cambian rápidamente, por lo que un comentario detallado es demasiado pronto o es incorrecto
  • Equipo: las mismas personas que construyen el producto son las que escribirían tal resumen; la hoja de ruta siempre tiene prioridad
  • Renuencia: algunas compañías no ofrecerán ventanas a sus negocios para mantener el secreto organizacional (no de hecho, aunque estamos bien)

Algunos argumentan que esto es un lujo en el mundo de las startups, y solo después de que una plataforma de negocios o tecnología se desploma, se puede consentir el entusiasmo por la publicación. Como resultado, nosotros, y otros, hacemos lo mejor que podemos compartiendo de manera más puntual, aunque superficial, a través de presentaciones de conferencia, quora (cf. ¿Cuál es la forma más eficiente de eliminar nombres duplicados en una base de datos de PDI?), y publicaciones de blog.

Dudo que usen algo especial. Es decir, Google Places extrae casi tantos lugares con el mismo detalle. Básicamente, confían en una combinación de registro comercial directo y rastreo de otros sitios. En el caso de Factual, es probable que dependan principalmente de este último, además de los datos que obtienen de sus socios.

Sin embargo, la página del fundador enumera a Timothy Chklovski, científico principal, y menciona su registro de publicación. Tiene algunas cosas buenas, pero se trata de un tema ligeramente diferente. No trataría de adivinar cuál es su trabajo actualmente.

Si en realidad están usando “aprendizaje automático sofisticado”, entonces no veo exactamente dónde aparece, a menos que se muestre en la forma en que, por ejemplo, analizan el tipo de cocina (que es plausible, pero no involucra el 90% de su contenido).

Por supuesto, en realidad pueden estar tratando de verificar la mayor cantidad posible de sus datos en las fuentes originales, o pueden tener algún otro control de calidad en su cartera que sea bastante intenso. Parecen tener un sitio web y antecedentes un corte por encima del sitio típico de listado de negocios, además de buenas API.