Makine Öğrenmesi Uygulama Adımları

yepural · Mayıs 15, 2021, 7:07ös

Merhabalar, veri bilimi dersi kapsamında bir veri setine Ridge ve RandomForrest Regresyon uygulanması isteniyor.

Normalde işlemler veri setinin train ve test olarak bölünmesi ardından train seti ile model kurulup, test seti ile model başarı metriklerinin hesaplanması şeklinde oluyor. Yeterli veri yoksa bu işlem cross-validation kullanılarak daha sağlıklı yapılıyor.

Hiperparametre optimizasyonu gerekiyorsa veri seti train-test olarak ayrıldıktan sonra train seti tekrar train-validation olarak ayrılıyor. train setinde model kurulurken validation setinde hiperparametre optimizasyonu yapılıyor. Ardından optimum parametreler ile test verisi kullanılarak başarı metrikleri hesaplanıyor.

Buraya kadar yazdıklarım şimdiye kadar edindiğim bilgilerden oluşuyor. Yanlışım veya eksiğim varsa düzeltin lütfen. Verilen ödevde istenilenler şu şekilde ;
“model kur - kurduğun modeli verilen hiperparametrelerde test et, optimumu bul - son olarak 10-fold 10 tekrarla (RepeatedKFold) metrikleri hesaplayıp ortalamasını al”

Sorum ise şu şekilde, modeli kurup hiperparametre optimizasyonu yaptıktan sonra hangi veri setini 10 parçaya bölüp, 10 kez tekrar ederek metrik hesaplayacağım? Verinin tamamında bu işi yaparsam overfitting’e sebep olmaz mı?

anon18277073 · Mayıs 15, 2021, 8:49ös

merhaba, hiperparametre optimizasyonunu hangi şekilde yapıyorsunuz, “train + val” mi cross-validation mı?