Ankit Awasthi, co-CEO de una empresa global de comercio de alta frecuencia, y he hablado sobre los pasos para eliminar el sobreajuste en el comercio de ciencia de datos.
TL; DR: (1) Realice pruebas futuras y no posteriores (2) Medición de avance
En este video (grupo de encuentro Data Science + FinTech en el área de la ciudad de Nueva York), lo que hemos enfrentado en esta área y las reglas generales que hemos aprendido. Si está en el campo del comercio basado en la ciencia de datos, le resultará útil.
Esta es una de las habilidades más importantes de un científico de datos, y una que realmente no se nos enseña en la escuela. Gran parte de la complejidad puede ser muy dependiente del dominio también.
Algunos me consideran un experto en el campo de “algo-trading” y “machine-learning en finanzas”. La mayoría de las personas que me preguntan cómo detectar los quants buenos de los quants malos, hablo de una cosa
Asegúrese de que el administrador de cartera no se ajuste demasiado.
Diapositivas aquí: Invertir es una ciencia
¿Qué hace que una buena estrategia cuantitativa y un buen administrador de inversiones?
La conclusión es que debemos entregar lo que anunciamos. Ya sea que trabajemos en una empresa comercial propietaria o en un roboadvisor, debemos ofrecer el rendimiento que anunciamos.
TL; DR: Debemos asegurarnos de que no haya un ajuste excesivo en los resultados que calculamos para la estrategia.
Más aquí
¿Cómo debería funcionar un quant para no sobreajustar?
Permítanme tratar de explicar el problema que enfrentamos cuando operamos. Cuando me uní a algo-trading de PhD, estaba decidido a hacer que mi trabajo durara para siempre. Estaba decidido a encontrar estrategias que funcionen para siempre. Traté de tomar la mayor cantidad de datos posible al hacer modelos, pero me encontré con el problema de que los datos antiguos no eran muy relevantes. Traté de utilizar el enfoque de dividir datos entre entrenamiento y pruebas. Sin embargo, hubo un problema. Los datos más recientes son los más relevantes en algo-trading. No tiene sentido no incluirlo.
Una estrategia comercial centrada en el día generalmente se basa en un “modelo” de mercados y un conjunto de parámetros “paramset”, que utilizamos para tomar decisiones comerciales. Un enfoque de la vieja escuela para encontrar buenas estrategias comerciales era tomar un montón de datos y encontrar el modelo y el parámetro que hubieran tenido las mayores ganancias en esos datos. Veamos algunas mejoras que los gerentes de cartera cuantitativa emplearon en un esfuerzo por reducir el ajuste excesivo a datos pasados y mejorar las ganancias comerciales en datos futuros no vistos.
- Primero sería tomar muchos datos. Sin embargo, esto no siempre funciona. Explicaré esto mejor en el punto 3. La respuesta corta es que los mercados cambian y los datos antiguos se vuelven menos relevantes.
- Una mejora en el paso de optimización de la búsqueda de estrategias fue cambiar el criterio de búsqueda de ganancias más altas a una medida de ganancias más estable como Sharpe Ratio. La motivación fue que estamos buscando estrategias que tengan un flujo de ingresos estable y no solo uno que hubiera ocasionado una ganancia inesperada ocasional. Las estrategias con fuentes esporádicas de rentabilidad pueden tener largos parches en el futuro sin rentabilidad.
- Otra mejora realizada por la comunidad cuantitativa fue dividir los datos en datos de entrenamiento y datos de prueba cada vez que el modelo fue reentrenado. El administrador de la cartera, también conocido como PM, se aseguraría de elegir solo modelos cuyo rendimiento no se degrade sustancialmente entre el período de entrenamiento y el período de prueba. Sin embargo, a menudo era muy difícil emplear este método en las finanzas. Déjame explicarte por qué. Hay frecuentes cambios de régimen en las finanzas. Las correlaciones entre los diferentes productos cambian. La volatilidad del mercado puede cambiar, de repente puede volverse mucho más volátil de lo que solía ser antes. Existe una gran cantidad de investigaciones que muestran la heterocedasticidad en los mercados y que la volatilidad en los mercados aumenta rápidamente y disminuye lentamente. Un primer ministro que intente encontrar una estrategia para negociar mañana probablemente pensará que los datos de hoy son los más relevantes, y que los datos de ayer serán relevantes. No les importarían los datos hace un año, por ejemplo. Ahora, si incluimos los datos de hoy en el entrenamiento, no podemos incluirlos en el período de prueba. Entonces, incluso si los resultados se deterioran en las pruebas, el primer ministro podría sentir que el deterioro es de esperar y la capacitación sobre los datos más recientes les ha permitido capturar la estacionalidad en las finanzas. Esta es la razón por la cual el método tradicional de dividir datos entre capacitación y pruebas no funciona en las finanzas.
Incluso con todo el trabajo anterior, hay evidencia establecida de la degradación de los resultados entre el backtest y el rendimiento comercial real Suhonen2016. Creemos que no hay nada fundamentalmente malo en un administrador de cartera que utiliza datos disponibles recientemente para volver a capacitar sus modelos. La única mejora que pueden hacer es encontrar datos en el pasado que sean conductualmente muy similares a los datos recientes. Sin embargo, la principal fuente de degradación de los resultados es la forma en que medimos el rendimiento esperado.
En la vida real, el administrador de la cartera estaría realizando cambios periódicamente en función de los nuevos datos. Por ejemplo, si el mercado se ha vuelto muy volátil y vemos que nuestro parámetro no está bien ajustado a este nuevo régimen, el administrador de cartera querrá recalibrar el parámetro a este nuevo régimen, ya que generalmente continúa por un tiempo. En este proceso de reentrenamiento, como sucede la mayoría de las veces, el PM terminará eligiendo un parámetro que haga que los resultados probados se vean bien. Estos resultados probados serían una predicción demasiado optimista de lo que es probable que veamos en el comercio real si comerciamos con la estrategia recientemente reentrenada.
La forma correcta de medir las ganancias esperadas requeriría que veamos este proceso de actualización de la estrategia como una parte esencial de la tubería y asegurarnos de que nunca medimos las ganancias esperadas en un día de negociación con una estrategia que se habría construido mirando datos no disponibles hasta el día antes.
¿Cuál es el desafío al usar la optimización Walk-Forward?
La optimización de avance es la forma correcta de optimizar un modelo. Sin embargo, nos obligaría a bajar la vista. Por ejemplo, es muy fácil para mí encontrar una estrategia que hubiera tenido un Sharpe Ratio de 2 en los últimos veinte años. ¡Solo compre bonos! Para aquellos que no conocen Sharpe of 2 es bastante impresionante. Incluso Warren Buffett solo ha logrado un Sharpe de 0.73. El problema es que no sabía que los bonos hubieran disfrutado de una relación de Sharpe de 2.
Gracias por el A2A!
Referencias
- Documento de investigación sobre cómo evitar el ajuste excesivo de datos pasados al hacer estrategias comerciales
- Cómo eliminar el sobreajuste en el comercio
- Cómo evitar el sobreajuste en las estrategias comerciales