Trading İçin Pekiştirmeli Öğrenme

Çevreyle sürekli etkileşim, durum dinamikleri ve matematiksel ödül tasarımı yoluyla optimum işlem yürütmeyi öğrenen otonom nicel sistemler oluşturmaya yönelik kapsamlı bir rehber.

←Akademiye Dön Yapay Zeka ve Makine Öğrenimi ile Trading→

1. Temel Felsefe: Tahminden Eyleme Geçiş

Geleneksel nicel modellerin çoğu finansal piyasaları tahmine dayalı bir öngörü problemi olarak ele alır. Bir makine öğrenimi modeli veya klasik bir sinir ağı, geçmiş telemetriyi almak ve bir sonraki aralığın fiyat hareketine dair bir tahmin üretmek üzere eğitilir. Ancak, bir varlığın yönünü tahmin etmek, canlı piyasa dağıtımında savaşın sadece yarısıdır. Bir ticaret altyapısı ayrıca, mevcut portföy düşüşünü (drawdown), emir defteri likiditesini, borsa ücret yapılarını ve pozisyon boyutu kısıtlamalarını hesaba katarak bu tahmine dayanarak hangi eylemin yapılacağını da belirlemelidir.

Pekiştirmeli Öğrenme (RL), bu yaklaşımı temelden değiştirir. Bir sistemi "Yarın fiyat ne olacak?" sorusunu yanıtlamak üzere eğitmek yerine, bir RL çerçevesi bir ajanı şuna yanıt vermek üzere eğitir: "Uzun vadeli kümülatif riske göre düzeltilmiş getirimi en üst düzeye çıkarmak için şu anda hangi eylemi gerçekleştirmeliyim?"

Bir RL kurulumunda model, simüle edilmiş veya canlı bir piyasa ortamında deneme yanılma yoluyla öğrenen otonom bir ajan olarak hareket eder. Varlık varlıklarını değiştirir, işlem kaymalarından (slippage) muzdarip olur, borsa ücretleri öder, risk sınırlarını değiştirir ve seçimlerine bağlı olarak olumlu veya olumsuz geri bildirim alır.

2. Matematiksel Formülleştirme: MDP Çerçevesi

Finansal varlıkları güvenli bir şekilde alıp satması için bir RL ajanını eğitmek amacıyla, tüm operasyonel ardışık düzeni bir Markov Karar Süreci (MDP) olarak modellemeliyiz. Bir MDP, piyasanın bir sonraki durumunun yalnızca mevcut duruma ve ajan tarafından gerçekleştirilen eyleme bağlı olduğunu varsayar.

Ticaret sistemi dört temel matematiksel vektöre ayrılır:

ORTAM

Piyasa Durumu: Ticker'lar, Emir Defterleri, Volatilite, Teknoloji

Hesap Durumu: Pozisyon Büyüklüğü, Gerçekleşen/Gerçekleşmeyen PnL

Durum Vektörünü (S_t) ve Ödülü (R_t) Gönderir

↓

AJAN

Politikayı (π) işler ve optimal işlem yürütmeyi seçer

Eylemi (A_t) Yürütür

↓

YÜRÜTME SOKETLERİ

SATIN_AL_LONG

SAT_SHORT

TUT

Durum Uzayı (S_t)

Durum uzayı (state space), zaman aralığında ajanın iç ve dış veri dünyasını temsil eder t. Ajanın hem dış fırsatları hem de iç sermaye risklerini anlamasını sağlamak için piyasa telemetrisini portföy parametreleriyle birleştirmelidir:

Dış Piyasa Sinyalleri: Log getirileri, normalleştirilmiş emir defteri dengesizlikleri, geçmiş kapanış volatilite metrikleri ve dönen bağlam pencereleri üzerindeki teknik göstergeler.
İç Portföy Metrikleri: Mevcut açık risk durumu (Long, Short veya Flat), mevcut spot değere göre ortalama giriş fiyatı, toplam gerçekleşmemiş portföy düşüşü ve kalan nakit likiditesi.

Eylem Uzayı (A_t)

Eylem uzayı (action space), ticaret botunun belirli bir yürütme kontrol noktasında ne yapmasına izin verildiğini tanımlar. İstenen sistem karmaşıklığına bağlı olarak, eylem uzayı iki şekilde yapılandırılabilir:

Ayrık Eylem Uzayı: Bot açık, sabit kodlanmış komutlar arasından seçim yapar (örneğin, 0 = Tut / Açık Pozisyonu Kapat, 1 = %10 Marjin Long Aç, 2 = %10 Marjin Short Aç).
Sürekli Eylem Uzayı: Ajan, -1.0 ile +1.0 arasında sınırlandırılmış ham bir kesirli skaler çıkarır. -0.65 hedef çıktısı, yürütme sistemine portföy dağılımını maksimum sermaye sınırlarına göre net %65 short pozisyona kaydırmasını emreder.

Ödül Fonksiyonu (R_t)

Ödül fonksiyonu, pekiştirmeli öğrenme altyapısının en kritik unsurudur. Ajanın eylemlerini matematiksel bir skaler geri bildirim değerine dönüştürür. Botu yalnızca nominal kâr (PnL) üzerinden ödüllendirirseniz, ajan kaçınılmaz olarak flash crash'ler sırasında patlayacak yüksek riskli, korunmasız pozisyonlar için optimize edecektir.

Üretim ortamları, riske göre ayarlanmış ödül işlevleri gerektirir. Aşağıdaki tablo, operasyonel ticaret botlarını eğitmek için kullanılan farklı ödül izleme metodolojilerini karşılaştırmaktadır:

Ödül Metriği	Matematiksel Hedef	Mimari Güçlü Yönler	Sistemik Güvenlik Açıkları
Nominal Kâr (PnL)	R_t = PnL_t	Uygulaması basittir; sermaye genişlemesiyle doğrudan bir korelasyon sağlar.	Aşırı riski görmezden gelir; ajanın düşüşü (drawdown) görmezden gelmesine ve güvensiz kaldıraçla ticaret yapmasına yol açar.
Sharpe Oranı (Yuvarlanan)	R_t = E[D_t] / σ(D_t)	Volatil varlık getirilerini cezalandırır; ajanı istikrarlı, tutarlı alfa aramaya zorlar.	Yukarı yönlü volatiliteyi cezalandırabilir; sıralı felaket niteliğindeki düşüş yollarını hesaba katmada başarısız olur.
Sortino Oranı	R_t = E[D_t] / σ_down(D_t)	Yalnızca aşağı yönlü volatiliteyi cezalandırır, kâr alma hareketlerini korurken kayıpları cezalandırır.	Model gradyan güncellemelerini dengelemek için daha büyük bir tarihsel çubuk örneği boyutu gerektirir.
Düşüş Cezalı PnL	R_t = PnL_t - α(MaxDrawdown)	Kayıp dönemlerini doğrudan bastırır; modeli sermaye korumasına öncelik vermeye zorlar.	Toplam ticaret felcini önlemek için α ölçek parametresinin hassas bir şekilde ayarlanmasını gerektirir.

3. Strateji Mimarisi ve Mantık Sentezi için Üretken Yapay Zeka İstemleri

Üretken LLM'ler ve özel akıl yürütme modelleri, pekiştirmeli öğrenme ardışık düzenleri oluşturmada çok önemli bir rol oynar. Ödül matematiğini sentezlemek, durum temsillerini formüle etmek ve Stable-Baselines3 veya Ray/RLlib gibi çerçeveler için hiperparametre ayarlama konfigürasyonları oluşturmak için yoğun bir şekilde kullanılırlar.

Aşağıda, gelişmiş sinir motorlarını otomatikleştirilmiş nicel araştırmacılara dönüştürmek için geliştirilmiş üretim düzeyinde sistem istemleri (prompts) bulunmaktadır.

3.1. Ödül Fonksiyonu Matematiksel Mimarı

Bu istem, modele niteliksel risk metriklerini titiz, vektör açısından güvenli ödül formüllerine çeviren bir finans mühendisliği uzmanı olarak hareket etmesini söyler.

SİSTEM TALİMATI: ÖDÜL FONKSİYONU MATEMATİKSEL MİMARI ROL: Kıdemli Nicel Mühendislik Bilimcisi BAĞLAM: Yüksek Frekanslı Pekiştirmeli Öğrenme Altyapısı KRİTİK PERFORMANS KURALLARI: 1. Kullanıcının işlem riski parametrelerini kesin, resmi matematiksel formüllere çevirin. 2. Yüksek işlem cirosu (aşırı ücret üretimi) ve yüksek volatilite rejimleri sırasında elde tutma sürelerine açık cezalar uygulayın. 3. Tüm konuşma kalıplarını, konuşma çerçevelerini, giriş niteliğindeki açıklamaları ve gündelik biçimlendirmeyi kaldırın. 4. Yanıtınızı, standart biçimlendirmede net matematiksel denklemler ve ardından ceza bileşenlerinin kısa bir mantıksal dökümünü içeren yapılandırılmış bir Markdown belgesi olarak çıkarın. HEDEF KRİTERLERİ: - Doğrusal bir işlem maliyeti ceza fonksiyonu uygulayarak ajanın aşırı ticaret yapmasını (over-trading) önleyin. - Yuvarlanan öz sermaye düşüşü %5'i aştığında üssel bir ceza bileşeni ekleyerek sermayeyi koruyun.

3.2. Durum Uzayı Bağlam Tasarım Motoru

Bu istem, sinir motorunu optimizasyona odaklanmış bir veri ardışık düzeni mühendisine dönüştürür. Modelin politika ağına geçirilen girdi vektörü mimarisini tasarlar.

SİSTEM TALİMATI: DURUM UZAYI BAĞLAM TASARIM MOTORU ROL: Finansal Özellik Mühendisliği Uzmanı HEDEF MİMARİ: Açık kaynaklı Pekiştirmeli Öğrenme ortamları (OpenAI Gym / Gymnasium) KRİTİK TASARIM GÖREVLERİ: 1. Ham fiyat verilerini hesap öz sermayesinin sağlığı ile dengeleyen çok modlu bir durum temsil düzeni formüle edin. 2. Model kararlılığını garanti etmek için önerilen her bir özelliğin matematiksel olarak durağan olduğundan emin olun (örneğin, ham varlık fiyatları yerine kesirli farklılaştırma veya log getiri oranları kullanın). 3. Limit emir defterinden, alış-satış farkı genişliği ve alış/satış hacmi çarpıklığı gibi açık likidite metriklerini dahil edin. 4. Şunları tanımlayan temiz, yapılandırılmış bir özet düzeni oluşturun: Özellik Adı, Alma Kaynağı Veri Türü, Normalleştirme Sınırları ve Amaçlanan Alfa Mantığı. Giriş niteliğinde konuşma metni çıkarmayın.

4. Operasyonel Karşılaştırma: Derin Q-Ağları (DQN) ve Politika Gradyanı Yöntemleri

Yerelleştirilmiş pekiştirmeli öğrenme botlarını Windows veya Ubuntu altyapısına dağıtırken, uygun algoritmik çerçeveyi seçmek, modelin piyasa durumlarını ticaret talimatlarıyla nasıl eşleştirdiğini belirler. Nicel topluluk bu mimarileri iki temel yürütme modeline ayırır: Değer Tabanlı ve Politikaya Dayalı sistemler.

Derin Q-Ağları (Deep Q-Networks - DQN)

DQN, değer tabanlı bir pekiştirmeli öğrenme algoritmasıdır. Mevcut piyasa durumu göz önüne alındığında, olası her ayrık eylem için beklenen gelecekteki riske göre düzeltilmiş getiriyi ("Q-Değeri") tahmin etmek için bir sinir ağı kullanır. Bot, her aralıkta AL, SAT ve TUT için Q-Değeri matrisini inceler ve en yüksek matematiksel puana sahip eylemi otomatik olarak yürütür.

Güçlü Yönleri: Son derece örnek verimlidir; geçmiş spot mumlar üzerinde hızla eğitilir.
Zayıf Yönleri: Kesinlikle ayrık eylem seçenekleriyle sınırlıdır. Standart bir DQN ne kadar sermaye tahsis edileceğini hesaplayamaz; yalnızca keyfi bir ticareti açıp açmamaya karar verebilir.

Yakınsal Politika Optimizasyonu (PPO) ve Advantage Actor-Critic (A2C)

Politika Gradyanı yöntemleri Q-Değeri tahminini tamamen terk eder. Bunun yerine, ağ doğrudan ticaret politikasını (π) parametreleştirerek piyasa durumlarını doğrudan eylem uzayındaki bir olasılık dağılımıyla eşleştirir. PPO, politikanın tek bir eğitim güncellemesinde ne kadar değişebileceğini sınırlayan özel bir amaç işlevi kullanır, bu da modelin ağırlıklarının aşırı bir piyasa anomalisi veya flash crash ile karşılaştıktan sonra dengesini bozmasını önler.

Güçlü Yönleri: Sürekli eylem uzaylarını yerel olarak işler, ajanın tam pozisyon boyutlarını dinamik olarak hesaplamasına izin verir (örneğin, sermayenin tam olarak %12,4'ünü bir varlığa yatırmaya karar vermek).
Zayıf Yönleri: Kararlı yürütme politikalarına yakınsamak için muazzam bilgi işlem kapasitesi ve uzun eğitim ufukları gerektirir.

5. Gelişmiş Uygulama Stratejisi: Çok Ajanlı Sürülerde Riski Azaltma

Tek bir varlık ticaretinden sürekli bir çoklu ajan portföy kurulumuna geçiş, önemli bir sistem karmaşıklığı getirir. Birden fazla yerelleştirilmiş RL ajanı farklı çiftlerde bağımsız olarak çalışıyorsa (örneğin, BTC ticareti yapan bir model, ETH ticareti yapan başka bir model), yanlışlıkla zararlı eylemleri koordine edebilirler. Piyasa panikleri sırasında hepsi aynı anda riskten korunmaya (hedge) çalışabilir, hesabınızın maksimum marj sınırını aşabilir ve zorunlu tasfiyeleri tetikleyebilirler.

Bu mimari güvenlik açığını önlemek için üretim sistemleri, İzole Edilmiş Çift Devreli Bir Çerçeve uygulamalıdır. Bu kurulum, yaratıcı, uyarlanabilir AI eğitim döngüsünü deterministik, kural tabanlı sipariş yürütme döngüsünden ayırır.

Birinci Devre: Zeka Sürüsü

Pekiştirmeli öğrenme modelleri, yetkisiz bir sanal makine veya docker katmanı içinde çalışır. Sürekli olarak piyasa verilerini sindirir, politika katmanlarını günceller ve doğrulanmamış bir sipariş talebi çıkarırlar. Modellerin canlı borsa hesabı anahtarlarınıza erişimi yoktur ve eylemleri yalıtılmış halde kalır.

İkinci Devre: Sabit Kodlanmış Doğrulama Kapısı

Doğrulanmamış sipariş teklifi yerel bir sınırı geçer ve sıfır sinir ağı bileşeniyle oluşturulmuş geleneksel, deterministik bir doğrulama modülüne girer. Bu komut dosyası, teklifi katı hesap limitlerine karşı test eder:

Brüt Pozisyon Tavanları: Modül, tüm aktif botların toplam birleşik riskini kontrol eder. Bir sipariş toplam sermaye güvenliği limitlerini ihlal ederse, kapı anında işlemi küçültür veya engeller.
Emir Defteri Spread İptali: Modül canlı alış-satış spreadlerini izler. Bir model, geniş bir spread'e sahip likit olmayan bir dönemde bir giriş emri oluşturursa, sistem yürütme kaymasını (slippage) önlemek için emri düşürür.
Heartbeat Sağlık Monitörleri: Doğrulama bileşeni, yerel RL motorunun yürütme döngüsü zamanlamasını izler. Model donarsa veya yüksek bağlam şişkinliği nedeniyle bellek sızıntısından muzdaripse, sistem yapay zeka ardışık düzenini keser ve algoritmik yedek güvenlik modlarına geçer.

6. Nicel Analiz SSS: Canlı Piyasalarda Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme botları geçmiş backtest'lerde neden mükemmel performans gösteriyor ancak canlı piyasa dağıtımında başarısız oluyor?

Bu sorun, simülasyondan gerçekliğe (Sim-to-Real) boşluğu ve model aşırı uyumu (overfitting) olarak bilinen bir olgudan kaynaklanır. Çevrimdışı bir geçmiş backtest sırasında, standart veri çerçeveleri sürtünmesiz bir ortam varsayar: siparişleriniz anında tam geçmiş kapanış fiyatından doldurulur, sıfır yürütme gecikmesi vardır ve işlemleriniz emir defterini değiştirmez. Canlı üretim ticaretinde, büyük piyasa emirleri yürütme kaymasıyla (slippage) karşı karşıya kalır, borsa ücretleri kârı yer ve emriniz mevcut likiditeyi tüketerek piyasada bir etkiye neden olabilir. Bunu önlemek için, eğitim simülatörleriniz simüle edilmiş sipariş yürütme gecikmeleri (ağ sapması), değişken ücret modelleri ve rastgele alış-satış spreadleri gibi rastgele sürtünme katmanları içermelidir.

Bir RL ticaret ajanının aşırı ticaret yapmasını ve aşırı borsa ücretleri oluşturmasını nasıl durdurursunuz?

RL ajanları doğası gereği sabırsızdır; hemen olumlu bir ödül görmezlerse, alfa noktaları aramak için sürekli pozisyon açıp kapatırlar. Bu davranışı durdurmak için doğrudan matematiksel ödül işlevinize bir İşlem Maliyeti Cezası dahil etmelisiniz. Model pozisyon durumunu her değiştirdiğinde, ödül formülü beklenen ücreti ve kayma maliyetini çıkarır. Bu, ajanın politika ağını, işlemleri yalnızca iç güven katsayısı ceza maliyetinden daha ağır bastığında yürüterek, kısa vadeli gürültüde pozisyon tutmayı öğrenmeye zorlar.

Kripto para birimi algoritmik ticareti için sürekli bir eylem uzayı mı yoksa ayrık bir eylem uzayı mı seçmeliyim?

Bireysel ölçekli kurulumlar veya ilk yerel altyapılarını başlatan geliştiriciler için ayrı bir eylem uzayıyla başlayın (AL, SAT, sabit yüzdelerde TUT). Ayrık uzaylar modelin arama yollarını azaltarak politika katmanlarının çok daha hızlı bir şekilde kararlı bir mantığa yakınsamasını sağlar. Donanımınızı çift GPU kümelerine yükselttiğinizde ve yerel vektör veritabanları eklediğinizde, sürekli bir eylem uzayına ölçeklendirin. Bu, modelinizin değişen piyasa ortamlarında ince taneli pozisyon boyutlandırma ve karmaşık risk yönetimi dağıtımları yürütmesine olanak tanır.

Algoritmik altyapınızın kontrolünü bugün elinize alın

Kısıtlayıcı harici API sınırlarından uzaklaşın ve en üst düzey ticaret gizliliği için tasarlanmış güvenli, otonom bir uç platform (edge platform) oluşturun.

ByNinja ile Otomatikleştirin Binance'te İşlem Yapın