Nunca trabajé para un fondo de cobertura, pero puedo explicar cómo estaba usando el análisis de datos para invertir en acciones para la última compañía para la que trabajé. Supongo que los fondos de cobertura hacen cosas similares a lo que describiré aquí (entre otros usos del análisis de datos para invertir en activos financieros):
1. Asume un modelo en el que define cuáles son los factores que determinan el precio de una acción. Asumí en mi modelo que las relaciones financieras de una empresa en el trimestre X determinan el cambio en el precio de las acciones entre el trimestre X y el trimestre X + 1. Por ejemplo, los índices financieros de una empresa en el segundo trimestre determinan el cambio en el precio de las acciones entre el segundo y tercer trimestre.
2. Recupera los datos relevantes (históricos) y los conecta al software de análisis de datos, que a su vez le dará los valores de las variables en el modelo. Utilicé un software interno de minería de datos que encontró conjuntos de reglas tales que cuando esas reglas existían en las proporciones financieras de una empresa, el precio de las acciones de la empresa subía. Otro ejemplo podría ser la regresión lineal. Puede ejecutar un modelo de regresión lineal y encontrar que:
- ¿Podría un trabajo en consultoría de Data Science en banca implicar viajes internacionales frecuentes y el salario más alto dentro del campo de Data Science?
- ¿Qué tipo de información puede generar a través de los datos de tema de Facebook entregados a través de Datasift?
- ¿Cómo es útil aprender Big Data a Hadoop?
- ¿Puedo aprender minería de datos sin aprendizaje automático?
- ¿Qué se entiende por clasificación de datos?
cambio en el precio de las acciones = 0.5 cambio en el margen bruto + 0.2 cambio en la relación deuda / capital + 1.5 cambio en la rotación del inventario
Por supuesto, este es un ejemplo demasiado simplificado, pero dado que muchas personas están familiarizadas con la regresión lineal, da una especie de comprensión de lo que podría significar un “modelo”. Hay muchos tipos de modelos y, por supuesto, muchos tipos de variables que puede tener en cuenta. Otro tipo de análisis de datos es la minería de texto en el que el modelo asumido es el material escrito sobre una empresa que está disponible públicamente para que los inversores lo lean, como comunicados de prensa, presentaciones de artículos, artículos de noticias y opiniones, es lo que determina el precio de una acción. El modelo en este caso podría ser:
cambio en el precio de las acciones = (# de buenas referencias – # de malas referencias) / (total de referencias)
3. Usted verifica el modelo históricamente para verificar que sea verdadero. Esta es una parte crucial y supongo que esto apenas se hace. El problema que está tratando de evitar aquí es descubrir reglas o modelos que sean estadísticamente significativos pero que no sean ciertos en la realidad. Esto también se conoce como error de tipo I o sobreajuste (para modelos).
Explicaré un poco este punto porque creo que es muy importante: cuando verificas una hipótesis para un nivel de significancia del 5%, significa que hay un 5% de posibilidades de que cometas un error tipo I, es decir , descubre un efecto que realmente no existe en la población. También significa que si ejecuta cien pruebas, en promedio, 5 arrojarán resultados significativos aunque sean falsos. Ahora, dado que muchos algoritmos de análisis de datos abarcan un gran número de posibles modelos / reglas, incluso un nivel significativo de 0.1% podría dar resultados falsos. Esto también se conoce como el sesgo de supervivencia: solo puede ver las reglas que aprobaron la prueba sin ver a todos los que fallaron. Por cierto, esto también es cierto para los fondos de cobertura como industria.
¿Cómo verificas el modelo? toma el modelo generado por el software y lo verifica en un nuevo conjunto de datos históricos para ver si el modelo realmente logró predecir con precisión.
Por ejemplo, el software usa datos de Q1 para crear un modelo y luego verifica que realmente funciona en Q2, Q3 y Q4 (todo esto es información histórica)
4. Si su modelo resultó ser verdadero, ahora puede usarlo en los datos actuales para predecir el rendimiento futuro de las existencias. De esta manera, puede elegir acciones ganadoras para su cartera.