logo

La misión de Quantpedia es procesar la investigación académica financiera de una forma más fácil de usar, para ayudar a cualquiera que busque nuevas ideas de estrategias cuantitativas y algorítmicas. Nuestro equipo está formado por miembros experimentados con diferentes antecedentes: financieros, matemáticos y traders, combinados con miembros con un sólido conocimiento técnico y de TI.
Quantpedia / Quantpedia.com

 

¿Pueden los modelos de aprendizaje automático predecir mejor los retornos bursátiles si se adaptan a sectores específicos, o es suficiente un enfoque generalista? Esta pregunta está en el centro de un reciente estudio realizado por Matthias Hanauer, Amar Soebhag, Marc Stam y Tobias Hoogteijling. Sus hallazgos sugieren que la solución óptima se encuentra en un punto intermedio: un modelo “híbrido” de aprendizaje automático que tenga en cuenta la estructura sectorial pero que se entrene con el conjunto completo de acciones ofrece el mejor rendimiento.

Los autores analizan tres tipos de modelos: un modelo generalista entrenado con todas las acciones sin importar su sector, modelos especialistas entrenados por separado dentro de cada uno de los 12 sectores de Fama-French, y un modelo híbrido que combina las ventajas de ambos. Este último aplica una normalización a nivel sectorial de los retornos y características—eliminando sesgos específicos del sector—pero conserva el conjunto completo de datos durante el entrenamiento. Este diseño mejora la relación señal-ruido sin fragmentar demasiado los datos, como ocurre con los modelos especialistas. En efecto, el modelo híbrido genera pronósticos neutrales por sector beneficiándose de grandes muestras y de una consciencia sectorial.

Para evaluar estos enfoques, los investigadores utilizan un extenso conjunto de datos de retornos de acciones estadounidenses desde 1957 hasta 2023, enriquecido con 153 características a nivel de empresa. Emplean varios algoritmos de aprendizaje automático—elastic nets, árboles potenciados por gradiente, redes neuronales y un modelo conjunto (ensemble)—para medir el poder predictivo fuera de muestra. Sus resultados muestran que, aunque los modelos especialistas a veces ofrecen perspectivas únicas, su menor volumen de datos conduce a un rendimiento inferior y a predicciones menos estables. Los modelos generalistas tienen un buen desempeño general, pero sufren de mayor volatilidad en cartera y desviaciones sectoriales no deseadas. Los modelos híbridos, en cambio, logran el mejor equilibrio entre precisión estadística y rendimiento económico.

Las carteras construidas con las predicciones del modelo híbrido exhiben mayores ratios de Sharpe, menor volatilidad y caídas menos pronunciadas que las basadas en modelos generalistas o especialistas. En particular, las pruebas de cobertura (spanning) revelan que la cartera híbrida no puede replicarse mediante ninguna combinación de las otras dos, lo que subraya su valor único. Estos resultados no solo se verifican en EE. UU., sino también en mercados internacionales, lo que sugiere que la hibridación de información global y sectorial es un enfoque potente para la predicción de retornos. Para los profesionales, la conclusión es clara: los modelos de aprendizaje automático no necesitan ser expertos exclusivos por sector, pero se benefician enormemente de respetar los límites sectoriales.

Autores: Hanauer, Matthias Xaver; Soebhag, Amar; Stam, Marc; Hoogteijling, Tobias
Título: Do Machine Learning Models Need to Be Sector Experts?
Enlace: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5224253

Resumen:
Examinamos la predictibilidad heterogénea de los retornos a nivel sectorial utilizando modelos de aprendizaje automático entrenados sobre un conjunto exhaustivo de características empresariales. Comparamos modelos uniformes (“generalistas”) con modelos específicos por sector (“especialistas”) e introducimos un modelo “híbrido” que incorpora la pertenencia sectorial. El modelo híbrido supera al especialista en rendimiento fuera de muestra, logrando ratios de Sharpe más altos y menor riesgo en comparación con ambas alternativas. Análisis adicionales con datos internacionales corroboran estos hallazgos. Nuestros resultados indican que el modelo híbrido se beneficia de una mejor relación señal-ruido al combinar conciencia sectorial con muestras más amplias, mejorando tanto la precisión de estimación como la eficiencia del aprendizaje.

image 29

image 30

image 31

Citas destacadas del artículo académico:

“Aunque el modelo generalista es el enfoque estándar en la literatura (cf., Gu, Kelly y Xiu, 2020), es simplista y carece de una motivación económica clara. Este enfoque de talla única asigna igual importancia a todas las acciones durante el entrenamiento (Howard, 2024), e implícitamente asume una predictibilidad homogénea entre empresas, mientras que Patton y Weller (2022) muestran una fuerte heterogeneidad en las respuestas a factores de riesgo en la sección cruzada de acciones estadounidenses.”

“Permitir componentes heterogéneos en el Factor de Descuento Estocástico (SDF), como en nuestra especificación especialista, ayuda a aliviar estos problemas. Sin embargo, entrenar modelos puramente sectoriales ignora los componentes comunes del SDF, que se ha demostrado son relevantes según Hellum, Pedersen y Rønn-Nielsen (2023). Además, dividir la sección cruzada de acciones en 12 grupos más pequeños puede limitar severamente la capacidad de aprendizaje de modelos complejos de ML, conocidos por ser ‘hambrientos de datos’.”

“Para abordar estas preocupaciones, introducimos una especificación ‘híbrida’. En esta especificación, entrenamos los modelos ML con el conjunto completo de acciones, pero procesando los datos como en la especificación especialista. La idea detrás de considerar modelos especialistas e híbridos es forzar implícitamente a los modelos ML a incorporar una estructura sectorial al construir el mapeo entre características y retornos. Esta configuración considera el papel condicional de los sectores en la valoración de activos como lo describen Moskowitz y Grinblatt (1999), a diferencia del modelo generalista, pero sin sufrir los problemas de escasez de datos del modelo especialista.”