Como estudiante del mercado de valores, me enfocaría en estos factores como los más explicativos:
Recuento de noticias que hacen referencia a la empresa con un sentimiento positivo.
Recuento de noticias que hacen referencia a la empresa con sentimientos negativos.
Promedio móvil simple de 10 días para la empresa
El promedio móvil simple de 10 días para la empresa del sector está en
Promedio móvil exponencial de 30 días para la empresa
El promedio móvil exponencial de 30 días para la empresa del sector está en
Media móvil simple de 200 días para la empresa
El promedio móvil simple de 200 días para la empresa del sector está en
(Marque todos los puntos cruzados en los promedios móviles como una característica con valor 0 o 1)
Informes financieros trimestrales y financieros de 10K (calcule todas las diversas relaciones rápidas, PE, etc.)
Proporción rápida y promedios de PE para todas las empresas del sector (promedios sectoriales)
Notas sobre cómo manejar el conjunto de características:
- ¿Cuál es la explicación intuitiva para agregar flujo en bordes inversos en el algoritmo de flujo máximo? ¿Por qué necesitamos eso?
- ¿Por qué es Forth el lenguaje de programación para practicar la escritura de algoritmos?
- ¿Es posible usar Dijkstra por dos costos?
- Cómo encontrar el subconjunto contiguo de suma máxima utilizando un método de divide y vencerás
- ¿Es así como se elimina de un árbol de búsqueda binario cuando un padre tiene dos subárboles?
Para ganar algo de dinero aquí, deberíamos tratar de resolver el precio específico de las acciones o el cambio direccional en el precio de las acciones (mucho más fácil, obviamente). Sin embargo, las características anteriores están cargadas con datos históricos de precios de acciones. Es posible que desee reducir el peso asignado a los promedios (ya que esto sesgará el modelo hacia el precio de la acción más reciente) y poner más peso en los puntos de inflexión entre 10 sma y 30 ema, por ejemplo. Trataría los puntos de inflexión como el punto de partida de un evento en curso. Cuando 10 sma por encima de 30 ema, el valor de la característica es 1, cuando 10 sma por debajo de 30 ema es -1.
El sentimiento es una característica interesante, pero tendrá que encontrar una manera de manejar las historias escritas sobre la compañía durante los fines de semana y días festivos, ya que todas las demás características del modelo se producen durante los días hábiles. Veo las otras características como puntos de datos diarios u horarios, por lo que necesitará una forma de conformar las noticias … Es posible que también desee limitar las características del sentimiento a solo las historias de Bloomberg en la compañía, ayudaría con precisión allí. También tendrá que encontrar una manera de resolver las empresas menos conocidas que no se conocen ampliamente. Y, por último, para esta característica necesitará descubrir cómo determinar el sentimiento, prefiero una heurística de coincidencia de n-gramas de dominio específico.
Querrá comparar la precisión y exactitud entre un modelo basado solo en los datos del sector, en comparación con uno que incluya los datos de la compañía. Encontrará que el sector es más fácil de predecir que una empresa determinada. Deberá asegurarse de que su modelo no muestre sesgos contra las empresas que son atípicas en su sector.