چکیده
نوسان قیمت و عدم اطمینان موجود در بازار، تعیین استراتژی بهینه برای خرید سهام را به یک فرایند پیچیده تبدیل کرده است. عدم تکرار شرایط یک معامله، لزوم یادگیری بهصورت تعاملی را ایجاب میکند. یادگیری تقویتی یک روش یادگیری تعاملی است که تنها با استفاده از یک سیگنال اسکالرِ راندمان، میتواند پارامترهای سیستم را تنظیم نماید. در این مقاله با تعریف مناسب حالتهای سیستم شامل گام زمانی، تعداد کل سهام خریداریشده تا گام زمانی فعلی، میزان انحراف معیار قیمت سهام از گام نخست تا گام زمانی مورد نظر و میزان تغییرات قیمت نسبت به گام زمانی قبل و همچنین تعریف مناسب سیگنال تقویتی، از روش یادگیری کیو بهعنوان یکی از معروفترین الگوریتمهای یادگیری تقویتی برای تقریب توابع ارزش حالت-عمل استفاده میشود. در این پژوهش، بازار سهام با توجه به روابط ریاضی موجود، مدل شده و روش ارائهشده در آن به کار گرفته شده است. عملکرد استراتژی حاصل از مدل پیشنهادی با استراتژی بازگشت به میانگین در 5000 بازارِ شبیهسازیشده مورد مقایسه قرار گرفته است. نتایج نشاندهنده آن است که بهرهگیری از مدل پیشنهادی در مقایسه با استراتژی بازگشت به میانگین نهتنها هزینه متوسط پایینتر، بلکه قابلیت اطمینان بسیار بالاتری نیز دارد.