Un mejor nombre para “científico de datos” es “ingeniero de predicción”. Los científicos de datos en Quora (y en cualquier otro lugar) usan datos para hacer predicciones.
Prediciendo el pasado
Muchos trabajos de ciencia de datos implican predecir el pasado. Por ejemplo, supongamos que desea determinar el género de Jason Lemkin. Si eres humano, eso es fácil (pista: es un hombre). Si eres una computadora, es más difícil. Pero es posible que tenga un gran conjunto de datos de géneros y nombres y vea que el 99% de Jasons son hombres, por lo que su algoritmo dice que es un hombre. Esto sería mucho más difícil para mí (“Auren” es un nombre más neutral en cuanto al género) y, por lo tanto, es posible que no tenga la confianza suficiente para hacer un pronunciamiento de género y, por lo tanto, necesite más datos (como el procesamiento del lenguaje natural en artículos sobre mí que se refieren para mí como “él” y “él”.
Muchos de los trabajos de ciencia de datos que implican predecir el pasado implican llenar huecos en un conjunto de datos (como puede tener género en el 30% de las personas en su conjunto de datos y necesita predecir el otro 70%).
- Quiero ser un científico de datos. ¿Cómo entreno mi sensibilidad de datos?
- Cómo recuperar la ecuación de predicción de R
- ¿Suena útil la certificación de IBM de Big Data University al dar entrevistas?
- ¿Cuál es la mejor computadora portátil Big Data?
- ¿Cómo convertirse en un científico de datos financieros? Quiero aplicar programación, matemáticas y finanzas en un solo trabajo. Tengo una licenciatura en informática, soy bueno con Java y C ++, y estoy aprendiendo R y Python. ¿Cuál debería ser mi próximo paso?
El reconocimiento de imágenes es otro problema para predecir el pasado y puede ser realmente difícil de resolver. (ver: simulador cerebral de Google identifica gatos en YouTube (Wired UK))
En realidad, predecir el pasado es muy difícil, pero generalmente hay una forma de muestrear la salida con humanos y realizar una prueba de detección para ver si obtuviste los resultados correctos.
Prediciendo el futuro
Gran parte del trabajo de Data Science se trata de predecir el futuro. Aquí desea hacer una predicción (como cuál es la mejor publicación de Quora para mostrar a un usuario) y luego probar el algoritmo. Puedes imaginar lo difícil que sería este problema en Quora: hay millones de excelentes publicaciones de Quora y también hay millones de lectores activos. Averiguar qué publicaciones deben mostrarse a la persona adecuada es realmente difícil. Y puede probar que los clics han aumentado o que los lectores han aumentado, pero siempre es difícil descifrar todas las variables para saber si está mejorando la experiencia o no, especialmente si el período de tiempo es corto.
Hacer ciencia de datos en Quora sería realmente divertido y emocionante porque (1) tienen TONELADAS de datos interesantes; y (2) tienen una gran misión para educar mejor al mundo.