Scrapy birden fazla spider çalıştırmak

Merhaba arkadaşlar,

Bir site üzerinde scrapy ile veri kazıyorum. Kazıdıgım veriler toplamda 100.000 üzerinde oldugundan dolayı yaptıgım isleri bölmem ve zaman olarak kısaltmam gerekiyor.

Birden fazla spider çalıştırmak için en etkili ve kullanışlı yolu yaptığım araştırmalar ile net olarak anlayamadım.

Su an yaptıgım sey tam olarak yaklaşık 5400 tane hedef link üzerinden icerisindeki linkleri alıp daha sonra page degistirip her aldıgım 2.link icerisine gidip istedigim bilgileri almak, bu islem 2 saniye delay ile tahmin edeceginiz gibi cok uzun sürüyor. Bu durumda bu 5400 linki önce bölüp farklı spiderlar ile aynı islemi yaptırmak mı daha mantıklı oluyor, yoksa 5400 link alıp veri kazıdıgımız kısımda mı spiderları ayırmak daha etkili oluyor, bu konu ile ilgili örnek kodlarınız var ise paylasabilirseniz cok sevinirim.
Ayrıca aynı anda aynı kodlar ile 2 spider çalıştırdıgımda cakısma yasıyor mu ?

Bu… Biraz ileri düzey olabilir…

Şu an icin aklıma en mantıklı yol olarak threading ile verileri kazımak ama bu seferde proxy havuzuna ihtiyac duyacagim muhtemelen bu kadar cok request gönderdigim icin proxy için bir çözüm bulabilirsem en azından deneyebilirim.

multithreading ile verileri farklı işlem parçacıklarında çekebilirsin. Asenkron programlamayı araştır

Kaç kere foruma yazdım,yine yazıyorum…

Burada bir sorun/istek var ve bunun çözümü isteniyor.Siz ise bunun düzeyini söylüyorsunuz.Yani hiç yardımcı olmuyorsunuz.Size önerim,benim önceden yaptığım gibi bilmediğiniz konulara cevap vermemeniz.Forumda zaman kaybetmek yerine burdan Python’u iyice öğrenip projeler geliştirebilirsiniz.

1 Beğeni

öncelikle cevap icin tesekkürler, bende thread olarak düsündüm yalnız bu seferde bu kadar cok request icin bloke yiyecegimi tahmin ettim ve proxy havuzuna ihtiyacım olacagını dusundum. Proxy çözersem thread ile deneyecegim.

proxy havuzu yerine header bilgilerini rastgele gönderiirsen acaba sorun çözülebilir mi ? araştırmak lazım