Навчання з Підкріпленням у Трейдингу

Комплексний посібник зі створення автономних кількісних систем, які навчаються оптимальному виконанню угод через безперервну взаємодію з середовищем, динаміку станів та математичне проектування винагород.

←Повернутися до Академії Трейдинг з ШІ та Машинним Навчанням→

1. Основна Філософія: Перехід від Прогнозування до Дії

Більшість традиційних кількісних моделей розглядають фінансові ринки як проблему предиктивного прогнозування. Модель машинного навчання або класична нейронна мережа навчається поглинати історичну телеметрію та видавати прогноз руху ціни наступного інтервалу. Однак прогнозування напрямку активу - це лише половина справи при розгортанні на реальному ринку. Торгова інфраструктура також повинна визначити, яку дію виконати на основі цього прогнозу, враховуючи поточну просадку (drawdown) портфеля, ліквідність книги ордерів, структуру комісій біржі та обмеження розміру позиції.

Навчання з підкріпленням (Reinforcement Learning - RL) докорінно змінює цей підхід. Замість того, щоб навчати систему відповідати на запитання «Якою буде ціна завтра?», фреймворк RL навчає агента відповідати: «Яку дію я повинен виконати прямо зараз, щоб максимізувати мій довгостроковий кумулятивний дохід з урахуванням ризику?»

У конфігурації RL модель діє як автономний агент, який навчається методом проб і помилок у симульованому або реальному ринковому середовищі. Він змінює свої активи, зазнає збитків від прослизання ціни (slippage), сплачує біржові комісії та змінює свої межі ризику, отримуючи позитивний або негативний зворотний зв'язок на основі своїх рішень.

2. Математична Формалізація: Фреймворк MDP

Щоб навчити RL-агента безпечно торгувати фінансовими активами, ми повинні змоделювати весь операційний конвеєр як Марковський процес прийняття рішень (MDP). MDP припускає, що наступний стан ринку залежить лише від поточного стану та дії, вчиненої агентом.

Торгова система розбита на чотири основні математичні вектори:

СЕРЕДОВИЩЕ

Стан Ринку: Тикери, Книги Ордерів, Волатильність, Tech

Стан Рахунку: Розмір Позиції, Реалізований/Нереалізований PnL

Надсилає Вектор Стану (S_t) та Винагороду (R_t)

↓

АГЕНТ

Обробляє Політику (π) та вибирає оптимальне виконання угоди

Виконує Дію (A_t)

↓

СОКЕТИ ВИКОНАННЯ

КУПИТИ_LONG

ПРОДАТИ_SHORT

УТРИМУВАТИ

Простір Станів (S_t)

Простір станів (state space) представляє внутрішній та зовнішній світ даних агента в інтервалі часу t. Він повинен поєднувати телеметрію ринку з параметрами портфеля, щоб гарантувати, що агент розуміє як зовнішні можливості, так і внутрішні ризики для капіталу:

Зовнішні Ринкові Сигнали: Логарифмічні прибутковості, нормалізовані дисбаланси книги ордерів, історичні метрики волатильності закриття та технічні індикатори у змінних вікнах контексту.
Внутрішні Метрики Портфеля: Поточний статус відкритої експозиції (Long, Short або Flat), середня ціна входу відносно поточної спотової вартості, загальна нереалізована просадка (drawdown) портфеля та залишкова ліквідність готівки.

Простір Дій (A_t)

Простір дій (action space) визначає, що торговому боту дозволено робити в будь-якій заданій контрольній точці виконання. Залежно від бажаної складності системи, простір дій може бути структурований двома способами:

Дискретний Простір Дій: Бот обирає з явних, жорстко закодованих команд (наприклад, 0 = Утримувати / Закрити Відкриту Позицію, 1 = Відкрити Long 10% Маржі, 2 = Відкрити Short 10% Маржі).
Безперервний Простір Дій: Агент генерує необроблений дробовий скаляр, обмежений між -1.0 та +1.0. Цільовий вихід -0.65 наказує системі виконання змістити розподіл портфеля на чисту коротку позицію 65% відносно максимальних меж капіталу.

Функція Винагороди (R_t)

Функція винагороди є найважливішим елементом інфраструктури навчання з підкріпленням. Вона перетворює дії агента у математичне скалярне значення зворотного зв'язку. Якщо ви будете винагороджувати бота виключно за номінальний прибуток (PnL), агент оптимізуватиме стратегію під високоризикові, нехеджовані позиції, які неминуче вибухнуть під час раптових обвалів (flash crashes).

Виробничі середовища вимагають функцій винагороди з поправкою на ризик. У наведеній нижче таблиці порівнюються різні методології відстеження винагород, що використовуються для навчання робочих торгових ботів:

Метрика Винагороди	Математична Ціль	Архітектурні Переваги	Системні Вразливості
Номінальний Прибуток (PnL)	R_t = PnL_t	Простий у реалізації; забезпечує пряму кореляцію з розширенням капіталу.	Ігнорує екстремальний ризик; змушує агента ігнорувати просадки та торгувати з небезпечним кредитним плечем.
Коефіцієнт Шарпа (Змінний)	R_t = E[D_t] / σ(D_t)	Карає за прибутковість волатильних активів; змушує агента шукати стабільну, послідовну альфу.	Може карати за волатильність вгору; не враховує шляхи послідовного катастрофічного спаду капіталу.
Коефіцієнт Сортіно	R_t = E[D_t] / σ_down(D_t)	Карає лише за волатильність вниз, захищаючи рухи фіксації прибутку, водночас караючи за збитки.	Вимагає більшого розміру вибірки історичних барів (bars) для стабілізації оновлень градієнта моделі.
PnL зі Штрафом за Просадку	R_t = PnL_t - α(MaxDrawdown)	Безпосередньо пригнічує періоди збитків; змушує модель надавати пріоритет збереженню капіталу.	Вимагає точного налаштування параметра масштабу α, щоб запобігти повному паралічу торгівлі.

3. Промпти Генеративного ШІ для Архітектури Стратегії та Синтезу Логіки

Генеративні мовні моделі (LLM) та спеціалізовані моделі міркування відіграють вирішальну роль у створенні конвеєрів навчання з підкріпленням. Вони інтенсивно використовуються для синтезу математики винагород, формулювання представлень станів і генерування конфігурацій налаштування гіперпараметрів для таких фреймворків, як Stable-Baselines3 або Ray/RLlib.

Нижче наведено системні промпти виробничого рівня, розроблені для перетворення передових нейронних механізмів на автоматизованих кількісних дослідників.

3.1. Математичний Архітектор Функції Винагороди

Цей промпт наказує моделі діяти як експерт з фінансової інженерії, перетворюючи якісні метрики ризику в суворі, безпечні для векторів формули винагороди.

СИСТЕМНА ІНСТРУКЦІЯ: МАТЕМАТИЧНИЙ АРХІТЕКТОР ФУНКЦІЇ ВИНАГОРОДИ РОЛЬ: Старший Науковий Співробітник з Кількісної Інженерії КОНТЕКСТ: Інфраструктура Високочастотного Навчання з Підкріпленням КРИТИЧНІ ПРАВИЛА ЕФЕКТИВНОСТІ: 1. Переведіть параметри торгового ризику користувача в точні, формальні математичні формули. 2. Застосовуйте явні штрафи за високий оборот угод (надмірне генерування комісій) та час утримання експозиції під час режимів високої волатильності. 3. Пригнічуйте всю розмовну «воду», розмовні рамки, вступні пояснення та повсякденне форматування. 4. Виведіть свою відповідь як структурований документ Markdown, що містить чіткі математичні рівняння у стандартному форматуванні, після чого надайте короткий логічний розбір компонентів штрафу. ЦІЛЬОВІ КРИТЕРІЇ: - Запобігайте надмірній торгівлі (over-trading) агента шляхом впровадження лінійної функції штрафу за транзакційні витрати. - Захистіть капітал, додавши експоненціальний компонент штрафу, коли поточна просадка (drawdown) капіталу перевищує 5%.

3.2. Механізм Проектування Контексту Простору Станів

Цей промпт перетворює нейронний механізм на інженера конвеєра даних, орієнтованого на оптимізацію. Він розробляє архітектуру вхідного вектора, що передається в мережу політики моделі.

СИСТЕМНА ІНСТРУКЦІЯ: МЕХАНІЗМ ПРОЕКТУВАННЯ КОНТЕКСТУ ПРОСТОРУ СТАНІВ РОЛЬ: Експерт з Інженерії Фінансових Ознак ЦІЛЬОВА АРХІТЕКТУРА: Середовища Навчання з Підкріпленням з Відкритим Вихідним Кодом (OpenAI Gym / Gymnasium) КРИТИЧНІ МАНДАТИ ПРОЕКТУВАННЯ: 1. Сформулюйте макет мультимодального представлення стану, який врівноважує необроблені дані про ціни зі станом власного капіталу рахунку. 2. Переконайтеся, що кожна запропонована ознака є математично стаціонарною (наприклад, використовуйте дробове диференціювання або логарифмічні коефіцієнти прибутковості замість необроблених цін на активи), щоб гарантувати стабільність моделі. 3. Увімкніть явні метрики ліквідності з книги лімітних ордерів, такі як ширина спреду bid-ask і асиметрія обсягу bid/ask. 4. Створіть чистий, структурований макет резюме, що визначає: Назву Ознаки, Тип Даних Джерела Отримання, Межі Нормалізації та Очікувану Логіку Alpha. Не виводьте вступний текст у розмовному стилі.

4. Операційне Порівняння: Deep Q-Networks (DQN) vs Методи Градієнта Політики

Під час розгортання локалізованих ботів навчання з підкріпленням в інфраструктурі Windows або Ubuntu, вибір відповідного алгоритмічного фреймворку визначає, як модель відображає стани ринку на торгові інструкції. Кількісна спільнота розділяє ці архітектури на дві основні моделі виконання: Системи на основі Вартості (Value-Based) та на основі Політики (Policy-Based).

Глибокі Q-Мережі (Deep Q-Networks - DQN)

DQN — це алгоритм навчання з підкріпленням на основі вартості. Він використовує нейронну мережу для оцінки очікуваного майбутнього прибутку з урахуванням ризику («Q-значення» або «Q-Value») для кожної можливої дискретної дії з огляду на поточний стан ринку. Бот переглядає матрицю Q-Value для КУПІВЛІ, ПРОДАЖУ та УТРИМАННЯ з кожним інтервалом і автоматично виконує дію з найвищим математичним балом.

Сильні сторони: Висока ефективність вибірки; швидко навчається на історичних спотових свічках.
Слабкі сторони: Суворо обмежений дискретним вибором дій. Стандартний DQN не може розрахувати, скільки капіталу виділити; він може лише вирішити, чи вмикати чи вимикати довільну угоду.

Проксимальна Оптимізація Політики (PPO) та Advantage Actor-Critic (A2C)

Методи Градієнта Політики (Policy Gradient) повністю відмовляються від оцінки Q-Value. Замість цього мережа безпосередньо параметризує торгову політику (π), зіставляючи стани ринку прямо з розподілом ймовірностей у просторі дій. PPO використовує спеціалізовану цільову функцію, яка обмежує наскільки політика може змінитися за одне оновлення навчання, запобігаючи дестабілізації ваг моделі після зіткнення з екстремальною ринковою аномалією або раптовим обвалом (flash crash).

Сильні сторони: Нативно обробляє безперервні простори дій, дозволяючи агенту динамічно розраховувати точні розміри позицій (наприклад, вирішуючи інвестувати рівно 12,4% капіталу в актив).
Слабкі сторони: Вимагає величезної обчислювальної потужності та довгих горизонтів навчання для збіжності до стабільних політик виконання.

5. Розширена Стратегія Реалізації: Зниження Ризику у Багатоагентних Роях

Перехід від торгівлі одним активом до управління безперервною багатоагентною структурою портфеля вносить значну складність у систему. Якщо кілька локалізованих агентів RL діють незалежно на різних парах (наприклад, одна модель торгує BTC, інша торгує ETH), вони можуть ненавмисно координувати шкідливі дії. Під час ринкової паніки вони всі можуть спробувати одночасно захеджувати ризики, перевищивши максимальний ліміт маржі вашого рахунку та спровокувавши примусові ліквідації.

Щоб запобігти цій архітектурній вразливості, виробничі системи повинні реалізувати Ізольовану Двоконтурну Структуру (Isolated Dual-Circuit Framework). Ця конфігурація відокремлює креативний, адаптивний цикл навчання ШІ від детермінованого, заснованого на правилах циклу виконання ордерів.

Контур Перший: Рій Інтелекту (The Intelligence Swarm)

Моделі навчання з підкріпленням працюють усередині непривілейованої віртуальної машини або шару docker. Вони безперервно перетравлюють ринкові дані, оновлюють свої шари політики та видають неперевірений запит на ордер. Моделі не мають доступу до реальних ключів вашого біржового рахунку, зберігаючи їхні дії ізольованими.

Контур Другий: Жорстко Закодований Шлюз Перевірки

Неперевірена пропозиція ордера перетинає локальну межу і потрапляє в традиційний детермінований модуль валідації, побудований з нульовими компонентами нейронної мережі. Цей скрипт тестує пропозицію на відповідність суворим лімітам рахунку:

Стелі Валової Експозиції: Модуль перевіряє загальну сукупну експозицію всіх активних ботів. Якщо ордер порушує загальні ліміти безпеки капіталу, шлюз миттєво зменшує або блокує угоду.
Скасування через Спред Книги Ордерів: Модуль відстежує спреди bid-ask в реальному часі. Якщо модель генерує команду на вхід у неліквідний період із широким спредом, система відкидає ордер, щоб запобігти прослизанню (slippage) під час виконання.
Монітори Здоров'я Серцебиття (Heartbeat): Компонент валідації відстежує час циклу виконання локального механізму RL. Якщо модель зависає або страждає від витоку пам'яті через сильне роздуття контексту, система відключає конвеєр ШІ та перемикається на алгоритмічні резервні режими безпеки.

6. Поширені Запитання щодо Кількісного Аналізу: Навчання з Підкріпленням на Реальних Ринках

Чому боти з навчанням з підкріпленням ідеально працюють під час історичних бектестів, але зазнають невдачі під час розгортання на реальному ринку?

Ця проблема спричинена явищем, відомим як розрив між симуляцією та реальністю (Sim-to-Real gap), і перенавчанням моделі (overfitting). Під час офлайн історичного бектесту (backtest) стандартні фреймворки даних передбачають середовище без тертя: ваші ордери виконуються миттєво за точною історичною ціною закриття, нульова затримка виконання, і ваші угоди не змінюють книгу ордерів. Під час реальної виробничої торгівлі великі ринкові ордери стикаються з прослизанням (slippage) під час виконання, біржові комісії з'їдають прибуток, а ваш ордер може вплинути на ринок, споживаючи доступну ліквідність. Щоб запобігти цьому, ваші навчальні симулятори повинні включати рандомізовані шари тертя, такі як симульовані затримки виконання ордерів (network jitter), моделі змінних комісій і випадкові спреди bid-ask.

Як зупинити торгового RL-агента від надмірної торгівлі (over-trading) і генерування надмірних біржових комісій?

RL-агенти від природи нетерплячі; якщо вони не бачать негайної позитивної винагороди, вони будуть постійно відкривати і закривати позиції в пошуках точок альфа. Щоб зупинити цю поведінку, ви повинні включити Штраф за Транзакційні Витрати (Transaction Cost Penalty) безпосередньо у вашу математичну функцію винагороди. Щоразу, коли модель змінює стан своєї позиції, формула винагороди віднімає очікувану комісію та вартість прослизання. Це змушує мережу політики агента вчитися утримувати позиції крізь короткостроковий шум, виконуючи угоди лише тоді, коли його внутрішній коефіцієнт впевненості переважує вартість штрафу.

Що мені слід обрати: безперервний простір дій чи дискретний простір дій для алгоритмічної торгівлі криптовалютами?

Для роздрібних конфігурацій або розробників, які запускають свою першу локальну інфраструктуру, почніть із дискретного простору дій (КУПИТИ, ПРОДАТИ, УТРИМУВАТИ у фіксованих відсотках). Дискретні простори звужують шляхи пошуку моделі, дозволяючи шарам політики набагато швидше сходитися до стабільної логіки. У міру того, як ви оновлюєте своє обладнання до кластерів із двома графічними процесорами (GPU) та додаєте локальні векторні бази даних, масштабуйтеся до безперервного простору дій. Це дозволяє вашій моделі виконувати дрібномодульне масштабування позицій і створювати складні розподіли управління ризиками в мінливих ринкових умовах.

Візьміть під контроль свою алгоритмічну інфраструктуру вже сьогодні

Відмовтеся від обмежувальних меж зовнішніх API та створіть безпечну, автономну периферійну (edge) платформу, розроблену для максимальної конфіденційності в торгівлі.

Автоматизувати з ByNinja Торгувати на Binance