¿Fue realmente tweets? Se parece más a los datos de imagen para mí.
Aquí está la propia admisión de Startup Jackson que había descubierto:
Startup L. Jackson en Twitter
- ¿Qué es la pérdida de registro en las competiciones de Kaggle?
- ¿Qué son los momentos en las estadísticas? ¿Qué nos proporcionan sobre la distribución de datos?
- ¿Cómo evaluaría la calidad de los datos y cómo se pueden mejorar?
- ¿Por qué amas la ciencia de datos?
- ¿Cuáles son los principales análisis de big data?
Y el método descrito es “el procesamiento de imágenes y una foto de la cuenta personal [del tweeter] coincide casi exactamente con una [redactada] de SLJ”.
Además, la propia exposición de Bloomberg sobre la verdadera identidad de Startup Jackson (aquí: Desenmascarando a Startup L. Jackson, la Persona de Twitter favorita de Silicon Valley) dice específicamente lo siguiente:
A medida que el perfil de Startup L. Jackson creció en Silicon Valley, también lo hizo el encanto de desenmascararlo. Los fanáticos emprendedores, hambrientos de un buen rompecabezas y quizás aclamación, lanzaron esfuerzos a gran escala para desvelar su identidad secreta. Un detective de sillón realizó un análisis semántico del lenguaje en los tweets de Startup L. Jackson y lo comparó con otras luminarias tecnológicas. Se identificaron nueve posibles culpables, ninguno de ellos Thompson .
El análisis semántico no identificó Startup Jackson. Estoy menos inclinado a creer que hubo algún análisis de aprendizaje automático involucrado, ya que parece que todo lo que fue necesario fue un golpe de suerte y una foto casual que fue una pista suficiente para hacer una suposición educada.
Ahora, cómo se adquirió esa foto y cómo elaboraron estrategias para comparar fotos de otros perfiles públicos con las fotos cargadas por Startup Jackson, supongo que hay un argumento de que hubo algún tipo de problema de minería de datos involucrado, pero no uno relacionado con el contenido de los tweets.