¿El comercio de alta frecuencia y la ciencia de datos comparten muchas similitudes?

Como ex analista de fondos de cobertura y científico de datos actual, le diré que la ciencia de datos, en términos generales, tratará con una gama más amplia de tipos de datos que los analistas que trabajan en el comercio de alta frecuencia. Si bien el conjunto de habilidades básicas para pensar críticamente sobre los datos puede ser el mismo, tendrá que ser fácil de ver los datos desde diferentes perspectivas y contextualizarlos a la aplicación en una nueva industria.

Para generalizar, existen 7 formas amplias de pensar acerca de los datos. Hay muchos subtemas a continuación, pero estos 7 tipos de enfoques abarcarán el 80% de lo que encontrará que se usa comercialmente. Si está bien fundamentado en muchos métodos en las 7 categorías, tendrá una excelente base para abordar la gran mayoría de los desafíos analíticos que encontrará en un entorno comercial.

1. Datos mineros para patrones o agrupaciones. Simplemente traza los datos en un gráfico y mide la distancia entre puntos para evaluar la similitud. Este es el principio básico de la agrupación de la que fluyen todos los demás análisis.

2. Asignación de nuevos puntos de datos a grupos mediante clasificación. ¿Alguien morirá en su préstamo? ¿Alguien comprará tu libro? ¿Alguien votará por ti? ¿Alguien donará dinero a una causa? ¡Todas estas son preguntas de clasificación típicas!

3. Descubriendo comunidades y relaciones mediante el análisis de redes. Todo está conectado de una forma u otra. Las personas están conectadas a través de sus intereses, amistades, preferencias y cosas que compran. Las personas y los objetos están conectados a través de otros tipos de similitudes. Cuando comprenda que todo está conectado, puede comenzar a hacer preguntas como ¿quién es el conector principal? ¿Quién es el principal influyente? ¿Qué comunidades existen que necesito tratar como unidades discretas?

4. Minería de texto para identificar significado, opinión e intención. Los datos de texto están en todas partes, desde correos electrónicos hasta publicaciones en redes sociales. Pero leerlo todo e interpretarlo con precisión es imposible para un ser humano. Lo sorprendente es que puede extraer automáticamente la opinión, el grado de sentimiento (compasión, ira, etc.) sobre los temas, resumir volúmenes masivos de texto y clasificar automáticamente y particionar datos de texto. De la misma manera que Amazon y PayPal segmentan las opiniones y opiniones de los clientes.

5. Encontrar relaciones y hacer predicciones usando regresión y análisis de series de tiempo. Estos métodos lo ayudarán a identificar cómo un cambio en las condiciones (temperatura, humedad, años de experiencia de un empleado) afectará un resultado (ventas, desempeño del empleado) y cómo evolucionarán varias tendencias a lo largo del tiempo. ¿Por qué importa esto? Bueno, las ventas de juguetes de árboles de Navidad tienen un patrón diferente en diciembre que en julio, solo para darle un ejemplo.

6. Encontrar valores atípicos y anomalías para anticipar accidentes financieros, fraudes, delitos u otros eventos inusuales.

7. Prueba de hipótesis. Estos métodos lo ayudan a determinar qué anuncio es mejor para mostrar, qué inferencia puede y no puede hacer sobre diferentes poblaciones, etc. Comprender formas sólidas de realizar pruebas A / B es fundamental para trabajar con datos de manera efectiva.

¡La respuesta es un sí rotundo! Trabajo con muchas empresas de comercio cuantitativo y el mayor requisito en lo que va del año es para científicos de datos. Ahora tengo 6 requisitos con 5 compañías solo en Nueva York.


Es 2016. Con la cantidad de datos disponibles, esperando a ser utilizados para la investigación de modelos de comercio cuantitativos, las compañías están invirtiendo una tonelada de dinero en ciencia de datos. Se están creando grupos enteros en bancos y fondos de cobertura por esta misma razón, y algunos de los principales científicos de datos del mundo están siendo contratados por empresas comerciales. Algunos de los cuales son mis clientes.

No por lo que puedo ver, HFT se trata de reducir microsegundos los tiempos de transacción para vencer al otro chico hasta el final. Es contencioso y optimizado, mientras que Data Science se trata de información, imágenes ricas y profundidad. No se trata de un resultado, se trata de crear valor a largo plazo.

More Interesting

Cómo usar Simplescalar para crear un proyecto de ciencia de datos

¿Cuántos conocimientos estadísticos y de probabilidad se requieren para aprender ciencia de datos?

¿De qué manera un maestro en estadística de la Universidad de Delhi consigue un puesto de científico de datos de nivel de entrada en las principales empresas?

¿Qué diferencia a una solución típica de Kaggle en algún lugar en el medio del paquete frente a alguien en, digamos, el 5-10% superior?

¿Qué es el análisis de sentimientos de Twitter?

¿Cuáles son los métodos de selección de funciones disponibles en los paquetes de Python?

¿Es realista que las personas puedan tener el control total de sus datos digitales? ¿Cómo podría cambiar la web comercial y la publicidad en línea?

¿Qué programación es beneficiosa para los científicos de datos?

¿En qué se diferencia la minería de datos de los sistemas de bases de datos?

¿Qué capacidades debe tener cada equipo de ciencia de datos?

¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?

¿Cuáles son algunos de los mejores sitios de cartera de desarrolladores web / científicos de datos / especialistas en visualización en ciernes?

¿Cómo se puede utilizar la asignación al azar para evaluar la independencia de las variables?

¿Cómo es el título de MS Data Science and Analytics @Worcester Polytechnic Institute en términos de conexiones industriales y empleo después de la graduación?

¿Qué es la agregación de datos?