logo

La misión de Quantpedia es procesar la investigación académica financiera de una forma más fácil de usar, para ayudar a cualquiera que busque nuevas ideas de estrategias cuantitativas y algorítmicas. Nuestro equipo está formado por miembros experimentados con diferentes antecedentes: financieros, matemáticos y traders, combinados con miembros con un sólido conocimiento técnico y de TI.
Quantpedia / Quantpedia.com

 

  • La aplicación de datos alternativos es actualmente una fuerte tendencia en la industria de inversiones. Este artículo continúa la exploración del espacio de datos alternativos. Esta vez, utilizamos el artículo de investigación de Joenväärä, que muestra que los fondos de cobertura léxicamente diversos superan a los léxicamente homogéneos como inspiración para analizar varias métricas léxicas en informes 10-K y 10-Q. ¿Explicarse mejor en estos informes tiene un impacto directo en la rentabilidad de la empresa? Parece ser que sí.

La invención de la máquina de vapor en 1698 marca el comienzo de la primera revolución industrial. Desde entonces, hemos logrado un progreso significativo y parece que no nos estamos desacelerando. Algunos dicen que la Inteligencia Artificial (IA) marca el inicio de la revolución industrial más reciente.

La inteligencia artificial se convirtió en un tema candente en los últimos años debido a su variedad de funciones, incluido el reconocimiento del habla y el lenguaje. El procesamiento del lenguaje natural, o PNL para abreviar, es la capacidad de un programa para comprender el lenguaje humano. Podría preguntarse, ¿cómo es esto útil en la esfera financiera? Pues bien, existen numerosos trabajos de investigación ( Banker et al. , 2021 y Joenväärä et al., 2019) que analizan la conexión entre el vocabulario de los inversores y la rentabilidad de sus estrategias.

Específicamente, la investigación de Joenväärä et al.  2019 nos inspiró a analizar varias métricas léxicas en informes 10-K y 10-Q. Después de ajustar por riesgo, encontraron que los fondos de cobertura con diversidad léxica superan a los fondos de cobertura con homogeneidad léxica. Además, explican que los inversores reaccionan correctamente, pero no completamente, a la información sobre la habilidad del administrador de fondos incorporada en la diversidad léxica. Sus resultados apoyan la idea de que las habilidades lingüísticas son útiles para el rendimiento de las inversiones.

Además, los datos alternativos se están convirtiendo en un tema principal en la gestión de inversiones y el comercio algorítmico. Por ejemplo, el análisis textual de las presentaciones 10-K y 10-Q se puede utilizar como una parte rentable de las carteras de inversión ( Padysak , 2020). Todas las empresas que cotizan en bolsa tienen que presentar informes 10-K y 10-Q periódicamente. Estos informes consisten en información relevante sobre el desempeño financiero. Hoy en día, hay un cambio gradual de la información numérica a la basada en texto, lo que hace que los informes sean más difíciles de analizar ( Cohen , 2010). Aún así, los informes 10-K y 10-Q reciben legítimamente un gran interés por parte de académicos, inversores y analistas.

Datos

BRAIN es una de las empresas que analiza los informes 10-K y 10-Q utilizando NLP. El objetivo principal del conjunto de datos de Brain Language Metrics on Company Filings (BLMCF) es monitorear numerosas métricas de idioma en informes de empresas de 10-K y 10-Q para aproximadamente 6000 acciones de EE. UU. El conjunto de datos BLMCF consta de dos partes. La primera parte contiene las métricas de idioma del informe 10-K o 10-Q más reciente para cada empresa, como:

  • Sentimiento financiero.
  • Porcentaje de palabras pertenecientes al dominio financiero clasificadas por tipo de idioma:
    • Lenguaje “restrictivo”.
    • Lenguaje “interesante”.
    • Lenguaje “litigioso”.
    • Lenguaje de “incertidumbre”.
  • Puntuación de legibilidad.
  • Métricas como densidad y riqueza léxica.
  • Estadísticas de texto como la longitud del informe y la longitud promedio de la oración.

La segunda parte incluye las diferencias entre los dos informes 10-K o 10-Q más recientes del mismo período para cada empresa.

Este artículo se centra en la primera sección del conjunto de datos BLMCF, específicamente las métricas léxicas como la riqueza léxicala densidad léxica y la densidad específica.

En palabras simples, la riqueza léxica dice cuántas palabras únicas usa el autor. La idea es que cuanto más variado sea el vocabulario del autor, más complejo será el texto. La riqueza léxica se mide por la relación tipo-token (TTR), que se define como el número de palabras únicas dividido por el número total de palabras. Como resultado, cuanto mayor sea el TTR, mayor será la complejidad léxica.

En segundo lugar, la densidad léxica mide la estructura y complejidad de la comunicación humana en un texto. Una densidad léxica alta indica una gran cantidad de palabras que transportan información y una densidad léxica baja indica relativamente pocas palabras que transportan información. La densidad léxica se calcula dividiendo el número de los llamados tokens léxicos (verbos, sustantivos, adjetivos, verbos excepto los verbos auxiliares) por el número total de tokens.

Por último, la densidad específica mide qué tan denso es el lenguaje del informe desde un punto de vista financiero. BRAIN utiliza un diccionario de palabras económicamente relevantes como referencia. Luego, la densidad específica se calcula como la relación entre el número de palabras del diccionario presentes en el informe dividido por el número total de palabras.

Análisis

Este artículo analiza cómo la riqueza léxica, la densidad léxica, la densidad específica y sus combinaciones afectan los rendimientos de la estrategia. Creamos dos universos de inversión, el primero contiene las 500 acciones principales por capitalización de mercado de las bolsas de valores de NYSE, NASDAQ y AMEX, y el segundo contiene las 3000 acciones principales. El primer universo de inversión es muy líquido y solo contiene acciones de gran capitalización. El segundo universo de inversión está compuesto por acciones de gran capitalización, mediana capitalización y pequeña capitalización. Nuestro proceso para construir una cartera de factores de inversión es clasificar las acciones en deciles (quintiles) y crear una estrategia de factor de acciones largo-corto (decil superior largo, decil inferior corto). Todos los backtests se realizan en la  plataforma Quantconnect y los datos se integran en la propia plataforma. Además, se puede encontrar aquí: https://www.quantconnect.com/datasets/brain-language-metrics-company-filings.

Las estrategias de factores sugeridas se reequilibran mensualmente y utilizamos diferenciales de oferta y demanda históricos reales (deslizamiento). Se omiten las comisiones (tarifas por transacción); sin embargo, no tienen un gran impacto en la estrategia resultante, ya que el administrador de activos habitual puede lograr costos de negociación en el rango de 1 a 2 pb por operación.

Sospechamos que la densidad léxica y la densidad específica tienen el mayor efecto en el rendimiento. Esto significaría que cuantas más palabras contengan información y más palabras relacionadas con las finanzas tenga el informe, mejor se comportará la empresa.

¿Qué rentabilidad obtienen las estrategias basadas en estos datos?

pastedGraphic.png

Pero en primer lugar, analizamos las tres métricas léxicas por sí mismas. Echemos un vistazo a la estrategia basada puramente en la riqueza léxica. La primera figura muestra los resultados para el universo de inversión más pequeño que contiene 500 acciones. Como podemos ver en el gráfico, el rendimiento no es tan bueno. La tendencia está creciendo solo en los últimos años. El ratio Sharpe de esta estrategia es -0,053.

pastedGraphic_1.png

Sin embargo, cuando ampliamos el universo de inversión a 3000 acciones, el rendimiento mejora. Así, aunque el rendimiento no es perfecto, es mucho mejor que el escenario anterior. Además, el ratio de Sharpe crece de -0,053 a 0,21.

pastedGraphic_2.png

Ahora echemos un vistazo a la segunda métrica léxicadensidad léxica. Analizamos esta estrategia en el universo de inversión más pequeño que contiene 500 acciones. Como podemos ver, la tendencia del la rentabilidad está creciendo desde 2012. El comportamiento negativo durante los primeros años puede explicarse por el tamaño y la precisión del conjunto de datos BRAIN en los primeros años. El ratio Sharpe de esta estrategia es 0,362.

pastedGraphic_3.png

La tercera estrategia que analizamos se basa en la densidad específica. Al igual que antes, analizamos esta estrategia en el universo de inversión más pequeño que contiene 500 acciones. Como podemos ver, la tendencia de desempeño acumulativo está creciendo casi desde el principio. Esta estrategia está experimentando caídas significativas solo en los últimos años, lo que puede explicarse por la pandemia de COVID-19. El ratio Sharpe de esta estrategia es 0,416.

 

pastedGraphic_4.png

 

En general, argumentamos que la riqueza léxica tiene un efecto mucho más débil en el rendimiento que la densidad léxica o la densidad específica. Entonces, en la siguiente sección, analizamos la combinación de densidad léxica y densidad específica. Analizamos esta estrategia en el universo de inversión que contiene 500 acciones. Como podemos ver, el desempeño acumulado de esta estrategia está aumentando durante casi todo el período. El ratio Sharpe de la estrategia que combina las dos métricas es 0,688.

pastedGraphic_5.png

 

En conjunto, la estrategia combinada de factor largo-corto de densidad léxica y específica ofrece resultados realmente prometedores. El único período con un desempeño ligeramente negativo es al comienzo de la muestra en 2012. Podemos especular e intentar explicar esto por el hecho de que el conjunto de datos BRAIN era nuevo. A menudo, en conjuntos de datos alternativos, el comienzo de la serie de tiempo es más problemático y está menos cubierto que en años posteriores, aunque no tenemos ninguna evidencia específica de esto para el conjunto de datos BRAIN.

¿Cuál es el impulsor fundamental de esta estrategia de factores? Por lo que hemos encontrado, parece que, en promedio, las empresas con un estilo de presentación de informes más “denso” tienden a obtener mejores resultados. Podría deberse a que los informes 10K y 10Q serían menos inciertos y más “prácticos” y serían recompensados con una mayor afluencia de inversores. También significaría que la estrategia está conectada a estrategias “basadas en valores devengados”, donde las empresas con estados financieros menos opacos superan a las que tienen prácticas contables menos transparentes.

Autores:

  • Daniela Hanicová , Quant Analyst, Quantpedia.com
  • Filip Kalus , desarrollador de TI / constructor de código QuantConnect, Quantpedia.com
  • Radovan Vojtko , director ejecutivo y jefe de investigación, Quantpedia.com