Merhabalar, pyhton ile bir siteden bir milyon küsür veri kazıyorum. Biraz uzun sürüyor şu an tam saat süresi hesabı yapamadım. Ama bu kadar verinin çekilmesi ortalama ne kadar sürmelidir, yani normali nedir sizce? Ortalama bir süre belirtebilir misiniz?
duruma göre değişir. eğer birçok link kazınıyorsa normaldir. geçen haftalarda yazdığım, yaklaşık 8bin adet linki kazıyan bir scraper yaklaşık 48 dakika çalışmıştı mesela. kullanılan framework ve kod kalitesine göre de değişiyor.
Anlıyorum. Evet yüzlerce link. Mesela hesaplarıma göre bu bir milyon küsür veriyi yaklaşık bir buçuk günde çekecek gibi görünüyorum. Sizce bu kabul edilebilir bir süre midir?
Bir de örneğin hızlandırmak için lxml ve cchardet kütüphanelerini buldum. Cchardet’ i kodlarıma nasıl uyarlayabileceğim konusunda hiçbir fikrim yok. Ancak lxml’ i şu şekilde kullanabileceğimi düşünüyorum.(Veri çektiğim için kodlarımda test edemedim.)
make_model_link_soup = BeautifulSoup(make_model_link_lastpage_source, 'html.parser')
make_model_link_soup = BeautifulSoup(make_model_link_lastpage_source, 'lxml')
Bu kullanım uygun mudur sizce?
scrapy’i araştırın. asenkron çalıştığı için çok daha hızlı çalışıyor.
Tamamdır teşekkür ediyorum.
Bu kadar fazla veriyi hiç kazımadım ancak farklı yöntemler kullanarak ölçüm yapabilmek için kazınacak veri miktarını azaltıp testler yapabilirsiniz. Testleri birkaç kez yapmanızda fayda var, o anki internet hızı bilgisayarınızın kullanım durumu gibi faktörler de etkili olacağından dolayı daha doğru bir tercih yapmış olursunuz. Herhangi bir mahsuru yoksa ne verisi çektiğinizi söyler misiniz?
Sen sen ol, şu sözümü unutma, bi iş için en ideal süre, mümkün olan en kısa süredir. Zira zaman engel olunamaz şekilde kaybettiğimiz tek şeydir. Bu yüzden zamandan kazanım, sadece onu en az kaybettiğin kadar olabilir.
Veriyi kazima suresi, iki kazima isleminin arasindaki zamandan az olmalidir.
Iki kazima islemi arasindaki zaman, verinin minimum degisme suresinden az olmalidir.
Araçları çekiyorum, ancak biraz fazla zaman alıyor