Deep Reinforcement Learning in Portfolio Management

Anders Dall-Hansen & Casper Andreas Olsen

Student thesis: Master thesis

Abstract

Fokuspunktet i denne opgave er på anvendelsen af “Deep Reinforcement Learning” til at løse det klassiske porteføljeoptimeringsproblem. Der undersøges to konkrete løsningsmetoder, Deterministic Policy Gradient (DPG) og Deep Deterministic Policy Gradient (DDPG), som anvendes på store aktieportføljer bestående af amerikanske aktier fra Dow Jones indekset. Gennem empiriske undersøgelser dokumenteres, hvorvidt disse metoder formår at generere konkurrencedygtige afkast. I denne opgave fremlægges de anvendte teorier for portefølje management og reinforcement learning som to uafhængige afsnit. Fra porteføljeteorien motiveres nødvendigheden af at betragte et flerperiode optimeringsproblem relativt til et énperiodeproblem, specielt under antagelse af transaktionsomkostninger. Fra reinforcement learning teorien motiveres brugen af policy-based metoder som et løsningsværktøj til flerperiode problemer. Her anvendes konceptet om en agent, som en selvstændig og autonom beslutningstager, der kan vurdere og vælge optimale handlinger, selv under forsinkede rewards og med begrænset feedback. Disse to teorier sammenkobles ved at modellere agenten som en porteføljemanager i et handelsmiljø, hvor agenten lærer en dynamisk rebalanceringsstrategi gennem et neuralt netværk. Ved at anvende reinforcement learning opnås der en mere fuldautomatisk rebalanceringsalgoritme, fri fra menneskeskabte købs/salgs signaler. De udførte eksperimenter viser at både DPG og DDPG metoder er i stand til at lære in-sample tests, men har svært ved at generalisere i out-of-sample tests. Begge modeller kan til dels matche benchmarkmodellerne, men formår ikke at generere et tilfredsstillende merafkast outof-sample. Yderligere undersøgelse har vist at disse modeller begge er særligt sensitive overfor parametertuning, initialisering samt strukturen i det neurale netværk. Igen af modellerne fanger effekten af transaktionsomkostninger tilstrækkeligt. En fremtidig undersøgelse vil være at ændre netværksstrukturen til bedre at kunne identificere underliggende korrelationsstrukturer mellem aktiver samt en mere dybdegående parameterundersøgelse.

EducationsMSc in Business Administration and Mathematical Business Economics, (Graduate Programme) Final Thesis
LanguageEnglish
Publication date2021
Number of pages120
SupervisorsPeter Dalgaard