¿Cómo es útil el procesamiento del lenguaje natural para fondos de cobertura cuantitativos como Renaissance Technology?

A fines de la década de 1970 y principios de la década de 1980, hubo una revolución en la inteligencia artificial y el aprendizaje automático. El enfoque general era evitar árboles de decisión complejos de reglas duras y rápidas, y tratar los problemas con el juicio bayesiano.

En el procesamiento del lenguaje natural, eso significaba no tratar de entender qué significaba cada palabra, sino asumir que había un significado subyacente oculto sobre el que el lenguaje daba pistas. El algoritmo consideraría un rango de significados y trataría de concentrarse en los más probables a medida que se examinaran más palabras.

Esto es fácil de entender para los humanos. Cuando lees la primera palabra de una oración, puede tener muchos significados. A medida que lee más palabras, el contexto da sentido a las palabras anteriores y también da pistas sobre la estructura gramatical. A menudo, las últimas palabras prácticamente no proporcionan información, las adivinarías de lo que vino _____. Pero no puedes adivinar la primera palabra de una oración.

De todos modos, estos enfoques se denominaron “modelos ocultos de Markov” o “árboles bayesianos” o “modelos de caché” u otros términos.

El mismo tipo de modelos parecía ayudar a predecir eventos financieros. Cuando observa un solo evento en los mercados, “LIBOR subió 2 puntos básicos”, puede tener casi cualquier significado. Pero a medida que los eventos se acumulan en una secuencia, puede comenzar a inferir el “significado” subyacente. Ese significado sigue cambiando, y solo afecta las probabilidades de eventos futuros, no los determina. Pero este tipo de enfoque puede producir conjeturas mejores que al azar sobre lo que sucederá después, así como los programas de procesamiento del lenguaje natural pueden hacer un trabajo mejor que al azar de adivinar cuál será la siguiente palabra.

Por extraño que parezca, las personas que fueron capacitadas en estas técnicas no han tenido un éxito notable en las finanzas. Las personas que idearon estas técnicas por sí mismas parecen tener la ventaja. Por lo tanto, puede ser que las técnicas en sí mismas no sean tan poderosas en las finanzas, sino que el tipo de personas que abordan los problemas de esta manera son muy adecuadas para la investigación financiera cuantitativa.

Como señaló Aaron Brown, los modelos ocultos de Markov (HMM) parecen ser útiles tanto en el procesamiento del lenguaje natural como en la predicción de eventos financieros.

En los años 80, Renaissance Technology reclutó a Leonard Baum, quien fue pionero en el algoritmo de aprendizaje dinámico basado en programación para HMM: el algoritmo Baum-Welch.

Más tarde, Peter Brown y Robert Mercer se unieron de IBM Research, donde ayudaron a inventar los famosos modelos de IBM para la traducción automática, de los cuales el primer modelo utiliza HMM para modelar conjuntamente la traducción léxica y la alineación de palabras. Además, se les ocurrió la agrupación de Brown, que es un modelo de lenguaje basado en clases utilizado ampliamente en el procesamiento del lenguaje natural, basado también en HMM.

Ahora, por supuesto, HMM no es lo único importante aquí; Los métodos basados ​​en redes neuronales han deslizado el modelado de big data, en términos de metodología. Sin embargo, la PNL y la predicción financiera comparten elementos comunes, ya que ambas tienden a ser secuencias en la estructura, por lo que las habilidades para detectar datos ruidosos y extraer patrones deberían ser útiles en ambas tareas.

Grandes respuestas aquí, comenzando con Aaron Brown. Tenga en cuenta que las predicciones en los fondos de cobertura cuantitativos se refieren a detectar correlaciones que pueden ser arbitradas de manera rentable por un tiempo. No se trata de reglas y leyes absolutas que supuestamente siempre se cumplen, en realidad es casi lo opuesto donde se espera que las correlaciones se rompan, por lo que se supone que toda la minería de datos también predice eso.

Por ejemplo, a principios de 2018, los bonos basura todavía están luchando contra la Fed y tratando de mantener a la fiesta manteniendo los spreads bajos sobre valores más seguros. Cuando eso se rompa, sucederá de repente, con un gran potencial para obtener ganancias con derivados. Minería la charla financiera en busca de pistas cuando eso puede suceder, es decir . un posible cambio en el sentimiento es lo que haría la PNL.

Este es un ejemplo bastante arbitrario y hay muchas otras estrategias, pero la idea es que el procesamiento del lenguaje natural nos dirá algo sobre estas correlaciones, ya sea que continúen por el momento o se rompan de repente. Por supuesto, todo esto es probabilístico, por lo que a los posibles resultados se les asignan distribuciones de probabilidad que están cambiando en función de esta extracción de datos.

En resumen, la PNL en los fondos de cobertura cuantitativos se trata de ayudar a las correlaciones en lugar de hacer predicciones comerciales directas.

Cuando la PNL entró en escena para los fondos de cobertura hace aproximadamente 15 años, había un montón de personas en el mundo cuantitativo que comenzaron a tratar de construir modelos. Los servicios de noticias acababan de hacer que sus feeds se pudieran buscar y almacenar, y conocía a media docena de personas en ese momento que trabajaban en ‘modelos de opinión’. La idea era que leyeras las noticias y si decía algo negativo que vendes, positivo que compras, etc. Que yo sepa, ninguna de esas estrategias funcionó.

Fui en una dirección diferente. La estrategia de lectura de noticias de la PNL que construí se financió en un máximo de 100 millones y fue rentable cada uno de los siete años que estuvo en funcionamiento.

Lo retiré hace unos años cuando la reducción de los diferenciales y el aumento de la volatilidad de pérdidas y ganancias redujeron su tasa de nitidez a aproximadamente 1,00. Pero en verdad, si lo encendiera hoy, probablemente todavía generaría ganancias, pero no suficientes ganancias para justificar la estructura de tarifas de 2 y 20 para un fondo de cobertura.

Estoy usando la lógica central de esa estrategia de una manera diferente ahora en mi nueva compañía. Hemos ampliado la lógica a un modelo más completo y lo hemos patentado. Si está interesado en comprender más, puede leer un montón aquí: http://clairetyAI.com

Los inversores tienen que tratar de mantenerse al día con las noticias, los documentos presentados ante la SEC, los comunicados de prensa … y un montón de información adicional para estar al tanto. El uso de máquinas para ayudar a filtrar la increíble cantidad de datos escritos puede ser extremadamente útil por estas razones, buscando extraer significado y conocimientos del lenguaje natural (lenguaje humano / legal cotidiano).

¿Cómo es útil la habilidad de inteligencia artificial de ‘procesamiento de lenguaje natural’ para fondos de cobertura cuantitativos, como Renaissance Technology?

El procesamiento del lenguaje natural se puede utilizar en la lectura de redes sociales y motores de búsqueda de patrones de datos comunes para el análisis semántico de patrones emergentes en acciones antes de que se desarrollen. La mayor parte del mercado de valores funciona con comunicados de datos cada hora en punto, pero otras partes están relacionadas con comunicados de prensa y opiniones públicas.

Por lo general, las noticias importantes pueden tener en cuenta grandes oscilaciones y movimientos volátiles en el S&P que no serían recogidos por otros métodos.