Antecedentes: actualmente estoy en un rol de tipo “ciencia de datos” en un inicio web basado en datos. Los datos / análisis son nuestro negocio, y hago un gran análisis de nuestros datos para ayudar a nuestros clientes a encontrar el valor dado sus necesidades comerciales. Anteriormente, era “Wall Street Quant” en una empresa de gestión cuantitativa de activos en Boston (bueno, técnicamente no es Wall Street). Todavía trabajo con este tipo de personas regularmente. Lo que escribo aquí son mis experiencias, y el plural de anécdota no son datos, así que tenga cuidado con el lector. Tenga en cuenta que estas dos compañías también son muy diferentes: una administra miles de millones de dólares de dinero del cliente en el mercado de valores, la otra es una startup de software web empresarial que sirve a varias industrias y desarrolla nuevas tecnologías para llevar al mercado.
En términos generales, diría que los dos roles son bastante similares en los tipos de trabajo que realiza, así como en el tipo de conjunto de habilidades que se necesitan para ser buenos en ellos. Debe tener una sólida comprensión de la tecnología, y debe tener las herramientas que le permitan extraer, alinear y manipular datos en todo tipo de escalas, desde pequeñas a masivas. El conocimiento de las estadísticas y la probabilidad es crítico, y la comprensión de las técnicas de aprendizaje automático, el muestreo y la visualización / resumen de datos es muy útil. En última instancia, ambos roles se tratan de obtener datos para decirle algo interesante. Pueden ser “acciones con estas características que superan al mercado, por lo que invertir en ellas” o pueden ser “las personas con estas características tienden a querer salir con personas con estas características” para usar la analogía OkCupid.
El componente principal que separa a un “científico de datos” generalista de una “cantidad de wall street” es la experiencia en el dominio. Una buena cantidad conoce los mercados por dentro y por fuera, conoce la diferencia entre vol y VaR, y sabe por qué los estándares FASB pueden marcar la diferencia en el mundo de su análisis. Un “científico de datos”, en mi opinión, es alguien que puede acercarse a un espacio problemático aleatorio, conocer los principios subyacentes y los conjuntos de datos disponibles, y llegar a una idea con bastante rapidez. Es posible que no sea tan profundo como las ideas de un cuantificador sobre la naturaleza fluctuante de los diferenciales de oferta / demanda, pero resolverá un problema comercial que antes no tenía solución.
- ¿Qué es una explicación intuitiva de una regresión multivariada?
- ¿Qué conjuntos de datos tienen variables categóricas y funcionarán bien con regresión lineal?
- ¿Cuáles son las habilidades clave necesarias para ser un desarrollador de Big Data?
- ¿La ciencia de datos tiene una amplia gama de sectores laborales como la informática o la ingeniería de software si me gradúo de la Universidad de Waterloo con la cooperativa?
- ¿Cómo es suficiente Python para la ciencia de datos? ¿Tenemos que aprender R y Python?