Friday 27 October 2017

Optimización De Sistemas De Negociación Y Carteras


Por John Moody, Matthew Saffell. 2001. Presentamos métodos para optimizar carteras, asignaciones de activos y sistemas de trading basados ​​en el refuerzo directo (DR). En este enfoque, la toma de decisiones de inversión se considera un problema de control estocástico, y las estrategias se descubren directamente. Presentamos un algoritmo adaptativo llamado r recurrente. Presentamos métodos para optimizar carteras, asignaciones de activos y sistemas de trading basados ​​en el refuerzo directo (DR). En este enfoque, la toma de decisiones de inversión se considera un problema de control estocástico, y las estrategias se descubren directamente. Presentamos un algoritmo adaptativo denominado aprendizaje de refuerzo recurrente (RRL) para el descubrimiento de políticas de inversión. Se elimina la necesidad de construir modelos de pronóstico y se obtienen mejores resultados comerciales. El enfoque de refuerzo directo difiere de la programación dinámica y los algoritmos de refuerzo como TD-learning y Q-learning, que intentan estimar una función de valor para el problema de control. Encontramos que el marco de refuerzo directo RRL permite una representación de problemas más simple, evita la maldición de Bellmanampaposs de la dimensionalidad y ofrece ventajas convincentes en la eficiencia. Demostramos cómo se puede utilizar el refuerzo directo para optimizar las rentabilidades de inversión ajustadas al riesgo (incluida la relación diferencial de Sharpe), al tiempo que se contabilizan los efectos de los costos de transacción. En un extenso trabajo de simulación utilizando datos financieros reales, encontramos que nuestro enfoque basado en RRL produce mejores estrategias comerciales que los sistemas que utilizan Q-Learning (un método de función de valor). Las aplicaciones del mundo real incluyen un operador de divisas intra-diario y un sistema mensual de asignación de activos para el SampampP 500 Stock Index y T-Bills. De Blake Lebaron. 1998. Este artículo combina técnicas extraídas de la literatura sobre algoritmos de optimización evolutiva junto con pruebas estadísticas basadas en bootstrap. Bootstrapping y la validación cruzada se utilizan como un marco general para la estimación de los objetivos de la muestra mediante el redibujo subconjuntos de una muestra de formación. Evolu. Este artículo combina técnicas extraídas de la literatura sobre algoritmos de optimización evolutiva junto con pruebas estadísticas basadas en bootstrap. Bootstrapping y la validación cruzada se utilizan como un marco general para la estimación de los objetivos de la muestra mediante el redibujo subconjuntos de una muestra de formación. La evolución se utiliza para buscar el gran espacio de arquitecturas de red potenciales. La combinación de estos dos métodos crea un procedimiento de estimación y selección de redes que tiene como objetivo encontrar estructuras de red parsimoniosas que generalizan bien. Los ejemplos se presentan a partir de datos financieros que muestran cómo se compara con los métodos de selección de modelos más tradicionales. La metodología bootstrap también permite funciones objetivo más generales que los mínimos cuadrados habituales, ya que puede estimar el sesgo de la muestra para cualquier función. Algunos de éstos se compararán con las estimaciones basadas en mínimos cuadrados tradicionales en entornos comerciales dinámicos con series de divisas. 1 1 shirani 1994). 3 Los primeros resultados muestran que son una herramienta eficaz en simulaciones de series de tiempo utilizando datos de Henon (LeBaron 1997). 4 Los recientes artículos de (Bengio 1997), (Choey amp Weigend 1997) y (-Moody amp Wu 1997--) son claramente inspiradores aquí. Otros ejemplos recientes que examinan la importancia de otras funciones de pérdida pueden encontrarse en (Granger amp Pesaran 1996). La estrategia de la primera en el tiempo t 1 sería strt1, (1) where. Optimization de los sistemas de negociación y portafolios Citation Citations 32 Referencias 5 quotResearch estudios han tendido a centrarse en los sistemas de comercio o los métodos de construcción de cartera o sistemas multi-agente (Smeureanu et al. 2012) por separado. Algunos han optimizado las carteras de sistemas de comercio (Moodyand, Lizhong 1997), (Dempster, Jones 2001), pero muy pocas han abordado problemas de optimización de cartera de sistemas comerciales a gran escala (Perold, 1984). Los sistemas multi-agentes son raramente utilizados en el comercio, aunque se pueden encontrar ejemplos ocasionales (Arajo, de Castro 2011). RESUMEN: Para entender las tareas de construcción de cartera a gran escala, analizamos los problemas de economía sostenible dividiendo grandes tareas en pequeñas y ofreciendo un enfoque evolutivo basado en el sistema de feed-forward. La justificación teórica de nuestra solución se basa en el análisis estadístico multivariado de las tareas de inversión multidimensionales, particularmente en las relaciones entre el tamaño de los datos, la complejidad del algoritmo y la eficacia de la cartera. Para reducir el problema dimensional / tamaño de la muestra, una tarea más grande se divide en partes más pequeñas por medio de la agrupación de similaridad de elementos. Problemas similares se dan a los grupos más pequeños para resolver. Los grupos, sin embargo, varían en muchos aspectos. Los grupos formados al azar forman una gran cantidad de módulos de sistemas de toma de decisiones de feed-forward. El mecanismo de la evolución forma las colecciones de los mejores módulos para cada solo corto período de tiempo. Las soluciones finales se llevan a la escala global donde se elige una colección de los mejores módulos usando un perceptron sensible a los costos multiclass. Los módulos recopilados se combinan en una solución final en un enfoque igualmente ponderado (1 / N Portfolio). La eficacia del nuevo enfoque de toma de decisiones se demostró a través de un problema de optimización de la cartera financiera, que proporcionó cantidades adecuadas de datos del mundo real. Para la construcción de la cartera, se utilizaron 11.730 simulaciones de rendimiento de robots comerciales. El conjunto de datos abarcó el período de 2003 a 2012, cuando los cambios ambientales fueron frecuentes y en gran medida impredecibles. Los experimentos de marcha atrás y fuera de muestra muestran que un enfoque basado en principios de economía sostenible supera a los métodos de referencia y que la historia de formación de agentes más cortos demuestra mejores resultados en períodos de un entorno cambiante. Texto completo Artículo Enero 2014 Raudys Aistis Raudys Pabarkait quotamp L Xu, (2003) quot Optimización de las carteras financieras desde la perspectiva de las estructuras temporales de la minería de los rendimientos bursátiles, en P. Perner y A. Rosenfeld, eds. Aprendizaje Automático y Minería de Datos en Reconocimiento de Patrones - MLDMx272003, pp 266-275, LNAI 2734, Springer Verlag. Al igual que otros problemas básicos en el análisis financiero, el problema óptimo de selección de cartera fue resiliente a la avalancha de investigadores de las disciplinas de redes neuronales artificiales y el aprendizaje de máquinas3456. El uso del enfoque de redes neuronales requiere que los parámetros óptimos sean aprendidos de forma adaptativa con el tiempo. Resumen En este trabajo, se pretende introducir cómo una de las técnicas de aprendizaje estadístico desarrolladas recientemente, el análisis de factores temporales (TFA), que se dedica originalmente a un estudio posterior de la teoría de precios de arbitraje (APT, por sus siglas en inglés) Además, estudiamos varias variantes de la técnica de maximización de la relación de Sharpe basadas en APT que utilizan los conceptos de riesgo de cartera de la cartera y volatilidad al alza adaptados - hechos para la necesidad de riesgo - Aversión, así como la agresividad de los inversionistas con fines de lucro Full-text Conference Paper Jul 2003 Kai Chun Chiu Lei Xu quotLinear regresión del tiempo de espera a la relación M / S en todos los mercados dio un coeficiente de correlación de -48. Esto es consistente con los resultados en 1 y 4 que demostraron que el entrenamiento de RRL adapta a comerciantes al coste de transacción más alto reduciendo la frecuencia que negocia. En el caso de la negociación de divisas, una menor relación M / S significa que el diferencial es un costo de transacción equivalente relativamente más alto y debemos esperar que la frecuencia de las transacciones se reduzca. RESUMEN: Este estudio investiga el comercio de divisas de alta frecuencia con redes neuronales entrenadas a través del aprendizaje de refuerzo recurrente (RRL). Comparamos el rendimiento de las redes de capa única con redes que tienen una capa oculta y examinamos el impacto de los parámetros fijos del sistema en el rendimiento. En general, concluimos que los sistemas de negociación pueden ser eficaces, pero el desempeño varía ampliamente para los distintos mercados de divisas y esta variabilidad no puede explicarse por simples estadísticas de los mercados. También encontramos que la red de una sola capa supera a la red de dos capas en esta aplicación. Documento de Conferencia Abril 2003 Desarrollo Tecnológico y Económico de la Economía C. Goldby Amir F. Atiya, Alexander G. Parlos - IEEE TRANS. REDES NEURONALES. 2000. La manera de entrenar eficientemente las redes recurrentes sigue siendo un tema de investigación desafiante y activo. La mayoría de los enfoques de capacitación propuestos se basan en métodos computacionales para obtener eficientemente el gradiente de la función de error, y generalmente se pueden agrupar en cinco grupos principales. En este estudio presentamos. La manera de entrenar eficientemente las redes recurrentes sigue siendo un tema de investigación desafiante y activo. La mayoría de los enfoques de capacitación propuestos se basan en métodos computacionales para obtener eficientemente el gradiente de la función de error, y generalmente se pueden agrupar en cinco grupos principales. En este estudio presentamos una derivación que unifica estos enfoques. Demostramos que los enfoques son sólo cinco maneras diferentes de resolver una ecuación matricial particular. El segundo objetivo de este trabajo es desarrollar un nuevo algoritmo basado en los conocimientos adquiridos con la nueva formulación. El nuevo algoritmo, que se basa en la aproximación del gradiente de error, tiene menor complejidad computacional en el cálculo de la actualización de peso que las técnicas de la competencia para la mayoría de los problemas típicos. Además, alcanza el error mínimo en un número mucho menor de iteraciones. Una característica deseable de los algoritmos de entrenamiento de red recurrente es ser capaz de actualizar los pesos de una manera en línea. También hemos desarrollado una versión en línea del algoritmo propuesto, que se basa en la actualización de la aproximación de gradiente de error de una manera recursiva. Por Thomas Hellstrm, Kenneth Holmstrm. 1999. Este artículo describe ASTA, un agente de comercio de acciones artificiales, en el entorno de programación de Matlab. El objetivo principal del proyecto es proporcionar un banco de pruebas estable y realista para el desarrollo de algoritmos de negociación multi-stock. El comportamiento del agente es controlado por un lenguaje de alto nivel. Este artículo describe ASTA, un agente de comercio de acciones artificiales, en el entorno de programación Matlab. El objetivo principal del proyecto es proporcionar un banco de pruebas estable y realista para el desarrollo de algoritmos de negociación multi-stock. El comportamiento del agente se controla mediante un lenguaje de alto nivel, que se puede ampliar fácilmente con funciones definidas por el usuario. Las reglas de compra y venta pueden ser compuestas interactivamente y se pueden realizar fácilmente diversos tipos de análisis de datos, todo dentro de la sintaxis del lenguaje m-file de Matlab. Aparte de Haizhon Li, Robert Kozma - Actas de la Conferencia Internacional Conjunta de 2003 sobre Redes Neuronales. 2003. Resumen En este trabajo se introduce la red neural dinámica de KIII y se aplica a la predicción de secuencias temporales complejas. En nuestro enfoque, KIII da una predicción paso a paso de la dirección de la variación del tipo de cambio de la moneda. Anteriormente, varios perceptron multiplayer (MLP) net. Resumen En este trabajo se introduce la red neural dinámica de KIII y se aplica a la predicción de secuencias temporales complejas. En nuestro enfoque, KIII da una predicción paso a paso de la dirección de la variación del tipo de cambio de la moneda. Anteriormente, varias redes de perceptrón multijugador (MLP) y redes neuronales recurrentes se han implementado con éxito para esta aplicación. Los resultados obtenidos por KIII se comparan favorablemente con otros métodos. I. ue al alto nivel de ruido y al carácter no estacionario de los datos, el pronóstico financiero es una aplicación difícil en el dominio de la predicción de series temporales. En esta solicitud se usan diversos métodos -4,5,6,7,9,10-. En este trabajo, usamos el modelo KIII para predecir la dirección de un paso del tipo de cambio diario. Los datos que utilizamos son de 4. Los resultados del experimento muestran la capacidad de clasificación del KI. Por Nicolas Chapados, Yoshua Bengio - Transacciones IEEE en Redes Neuronales. 2000. Introducimos un marco de asignación de activos basado en el control activo del valor en riesgo de la cartera. En este marco, comparamos dos paradigmas para hacer la asignación usando redes neuronales. El primero utiliza la red para hacer un pronóstico del comportamiento de los activos, junto con a. Introducimos un marco de asignación de activos basado en el control activo del valor en riesgo de la cartera. En este marco, comparamos dos paradigmas para hacer la asignación usando redes neuronales. El primero utiliza la red para hacer una previsión del comportamiento de los activos, junto con un asignador de varianza media tradicional para la construcción de la cartera. El segundo paradigma utiliza la red para hacer directamente las decisiones de asignación de la cartera. Consideramos un método para realizar una selección de variables de entrada suave y muestran su considerable utilidad. Utilizamos métodos de combinación de modelos (comités) para sistematizar la elección de hiperparámetros durante el entrenamiento. Mostramos que los comités que utilizan ambos paradigmas superan significativamente el desempeño del mercado de referencia. 1. Introducción En las aplicaciones financieras, la idea de formar algoritmos de aprendizaje según el criterio de interés (como el beneficio) en lugar de un criterio genérico de predicción, ha ganado interés en los últimos años. I. criterio, ha ganado interés en los últimos años. En las tareas de asignación de activos, esto se ha aplicado a la formación de redes neuronales para maximizar directamente una Sharpe Ratio u otras medidas de beneficio ajustado por riesgo -1,3,10 -. Una de esas medidas de riesgo que ha recibido recientemente una atención considerable es el valor en riesgo (VaR) de la cartera, que determina la cantidad máxima (normalmente medida en, por ejemplo) que el portfol. Por John Moody, Yufeng Liu, Mateo Saffell, Kyoungju Youn - En Proceedings of Artificial Multiagent Learning. Documentos del Simposio de Otoño 2004 de la AAAI. 2004. Investigamos juegos de matriz repetidos con jugadores estocásticos como un microcosmos para estudiar interacciones dinámicas multiagentes utilizando el algoritmo de gradiente de políticas de Refuerzo Directo Estocástico (SDR). SDR es una generalización de Recurrent Reinforcement Learning (RRL) que apoya las políticas estocásticas. U. Investigamos juegos de matriz repetidos con jugadores estocásticos como un microcosmos para estudiar interacciones dinámicas multi-agentes usando el algoritmo de gradiente de políticas de Refuerzo Directo Estocástico (SDR). SDR es una generalización de Recurrent Reinforcement Learning (RRL) que apoya las políticas estocásticas. A diferencia de otros algoritmos RL, SDR y RRL utilizan gradientes de políticas recurrentes para tratar adecuadamente la asignación temporal de créditos resultante de la estructura recurrente. Nuestros objetivos principales son: (1) distinguir la memoria recurrente de la memoria estándar no recurrente para el gradiente de políticas RL, (2) comparar el SDR con los métodos de aprendizaje de tipo Q para juegos simples, (3) distinguir entre el agente dinámico reactivo y el endógeno Y (4) explorar el uso del aprendizaje recurrente para interactuar, los agentes dinámicos. Encontramos que los jugadores de SDR aprenden mucho más rápido y por lo tanto superan a los estudiantes de tipo Q recientemente propuesto para el juego simple Rock, Paper, Scissors (RPS). Con los jugadores y opositores SDR más complejos y dinámicos, demostramos que las representaciones recurrentes y los gradientes de políticas recurrentes de SDR producen un mejor rendimiento que los jugadores no recurrentes. Para el Dilema de los Prisioneros Iterados, mostramos que los agentes de SDR no recurrentes aprenden sólo a defectos (equilibrio de Nash), mientras que los agentes de DEG con gradientes recurrentes pueden aprender una variedad de comportamientos interesantes, incluyendo la cooperación. 1 ealing, Q-Learning no puede ampliarse fácilmente a los grandes espacios de acción o estado que a menudo ocurren en la práctica. Los métodos de refuerzo directo (DR) (gradiente de políticas y búsqueda de políticas) (Williams, 1992) (Moody amp Wu 1997 -) (Baxter amp Bartlett 2001) (Ng amp Jordan 2000) representan políticas explícitamente y hacen No requieren que se aprenda una función de valor. Los métodos de gradiente de políticas buscan mejorar la política. Por John Moody, Matthew Saffell - En KDD. 1998. Proponemos entrenar sistemas de negociación optimizando las funciones objetivo fi nancieras a través del aprendizaje de refuerzo. Las funciones de desempeño que consideramos como funciones de valor son el beneficio o la riqueza, la proporción de Sharpe y nuestra propuesta de ratio de Sharpe para el aprendizaje en línea. En Moody amp W. Proponemos entrenar sistemas de trading optimizando las funciones objetivo fi nancieras a través del aprendizaje de refuerzo. Las funciones de desempeño que consideramos como funciones de valor son el beneficio o la riqueza, la proporción de Sharpe y nuestra propuesta de ratio de Sharpe para el aprendizaje en línea. En Moody ampamp Wu (1997), presentamos resultados empíricos en experimentos controlados que demostraban las ventajas del aprendizaje de refuerzo relativo al aprendizaje supervisado. Aquí ampliamos nuestro trabajo previo para comparar el Q-Learning con una técnica de aprendizaje de refuerzo basada en el aprendizaje recurrente en tiempo real (RTRL) que maximiza la recompensa inmediata. Nuestros resultados de simulación incluyen una demostración espectacular de la presencia de previsibilidad en el mensual por N. Towers, A. N. Burgess - Finanzas computacionales. En este trabajo se implementan estrategias de negociación para modelos de predicción de precios de activos utilizando reglas de decisión parametrizadas, desarrollando un entorno de negociación sintética para investigar los efectos relativos, en términos de rentabilidad, de la modificación El modelo de pronóstico y la regla de decisión. En este trabajo se implementan estrategias de negociación para modelos de predicción de precios de activos utilizando reglas de decisión parametrizadas. Desarrollamos un entorno de comercio sintético para investigar los efectos relativos, en términos de rentabilidad, El modelo de predicción y la regla de decisión. Se demuestra que la aplicación de la regla de negociación puede ser tan importante para el rendimiento comercial como la capacidad predictiva del modelo de pronóstico. Las técnicas se aplican a un ejemplo de un modelo de pronóstico generado a partir de un intra - De una combinación de índices de patrimonio. Los resultados indican que la optimización de las reglas de decisión puede mejorar significativamente el rendimiento comercial, con Sharpe ratios anualizado aumentando en un factor de dos a la nave sobre una regla de comercio. Para lograr este nivel de aumento del rendimiento a través del modelo de pronóstico solo se requeriría una mejora de 50 en la precisión de la predicción. 1 Introducción En los últimos años, se ha dedicado una cantidad considerable de investigación. En segundo lugar, una fase de decisión que convierte la información pronosticada en una acción que, en este caso, cambia la posición de negociación. Como alternativa, Moody en -3-- y Choey amp Weigend en 4, son ejemplos de metodologías que combinan estas dos etapas en una sola. Estas estrategias de negociación utilizan un único modelo para realizar una optimización conjunta sobre ambas previsiones. Por Thomas Hellstrm. 1998. Este documento describe los principios detrás y la implementación de ASTA, un Artificial Stock Trading Agent escrito en el lenguaje Matlab. El objetivo principal del proyecto es proporcionar un entorno fácil de usar para desarrollar algoritmos de negociación de acciones múltiples. Este documento describe los principios detrás y la implementación de ASTA, un Artificial Stock Trading Agent escrito en el lenguaje Matlab. El objetivo principal del proyecto es proporcionar un entorno fácil de usar para desarrollar algoritmos de negociación de acciones múltiples. Por N. Towers, A. N. Burgess. 1998. En el contexto de una estrategia de negociación dinámica, el propósito último de cualquier modelo de pronóstico es elegir acciones que resulten en la optimización del objetivo comercial. En este artículo se desarrolla una metodología para optimizar una función objetivo, utilizando una regla de decisión parametrizada, para un dato. En el contexto de una estrategia de negociación dinámica, el propósito último de cualquier modelo de pronóstico es elegir acciones que resulten en la optimización del objetivo comercial. En este trabajo desarrollamos una metodología para optimizar una función objetivo, utilizando una regla de decisión parametrizada, para un modelo de predicción dado. Simulamos el rendimiento esperado para diferentes parámetros de decisión y niveles de precisión de predicción. A continuación, aplicamos la técnica a un modelo de pronóstico de precios erróneos dentro de un grupo de índices de renta variable. Mostramos que la optimización de la regla de decisión propuesta puede aumentar el Índice de Sharpe anualizado en un factor de 1.7 sobre una regla de decisión ingenua. Por Kai Chun Chiu, Lei Xu - en J. R. Dorronsoro (Ed.): Redes Neuronales Artificiales - ICANN2002, LNCS 2415. 2002. Abstracto. La gestión adaptativa de la cartera ha sido estudiada en la literatura de redes neuronales y aprendizaje de máquinas. El modelo de Análisis de Factor Temporal (TFA), desarrollado recientemente y destinado principalmente al estudio de la Arbitrage Pricing Theory (APT), tiene aplicaciones potenciales en el portfolioman. Abstracto. La gestión adaptativa de la cartera ha sido estudiada en la literatura de redes neuronales y aprendizaje de máquinas. El modelo de Análisis Temporal de Factores (TFA), desarrollado recientemente y destinado principalmente al estudio de la Arbitrage Pricing Theory (APT), tiene aplicaciones potenciales en la gestión de carteras. En este artículo, pretendemos ilustrar la superioridad de la gestión de cartera basada en APT sobre la gestión de cartera basada en la rentabilidad. La teoría de la cartera de Markowitz tradicional en el contexto de las redes neuronales artificiales. En la literatura, la gestión adaptativa de cartera mediante la maximización de la bien conocida relación de Sharpe 4 se estudió en -1, 2 -. Sin embargo, estos enfoques tratan los pesos como constantes o dependen directamente de las devoluciones de seguridad. Recientemente, una nueva técnica llamada Análisis Temporal de Factores (TFA) fue propuesta por 5 con una.

No comments:

Post a Comment