Veri Kazımada İdeal Süre

Test1 · Ekim 18, 2022, 11:45öö

Merhabalar, pyhton ile bir siteden bir milyon küsür veri kazıyorum. Biraz uzun sürüyor şu an tam saat süresi hesabı yapamadım. Ama bu kadar verinin çekilmesi ortalama ne kadar sürmelidir, yani normali nedir sizce? Ortalama bir süre belirtebilir misiniz?

makesamba · Ekim 18, 2022, 1:41ös

duruma göre değişir. eğer birçok link kazınıyorsa normaldir. geçen haftalarda yazdığım, yaklaşık 8bin adet linki kazıyan bir scraper yaklaşık 48 dakika çalışmıştı mesela. kullanılan framework ve kod kalitesine göre de değişiyor.

Test1 · Ekim 18, 2022, 2:54ös

Anlıyorum. Evet yüzlerce link. Mesela hesaplarıma göre bu bir milyon küsür veriyi yaklaşık bir buçuk günde çekecek gibi görünüyorum. Sizce bu kabul edilebilir bir süre midir?

Test1 · Ekim 18, 2022, 2:57ös

Bir de örneğin hızlandırmak için lxml ve cchardet kütüphanelerini buldum. Cchardet’ i kodlarıma nasıl uyarlayabileceğim konusunda hiçbir fikrim yok. Ancak lxml’ i şu şekilde kullanabileceğimi düşünüyorum.(Veri çektiğim için kodlarımda test edemedim.)

make_model_link_soup = BeautifulSoup(make_model_link_lastpage_source, 'html.parser')

make_model_link_soup = BeautifulSoup(make_model_link_lastpage_source, 'lxml')

Bu kullanım uygun mudur sizce?

makesamba · Ekim 19, 2022, 6:17öö

scrapy’i araştırın. asenkron çalıştığı için çok daha hızlı çalışıyor.

Test1 · Ekim 19, 2022, 7:07öö

Tamamdır teşekkür ediyorum.

Nusret · Ekim 21, 2022, 9:19ös

Bu kadar fazla veriyi hiç kazımadım ancak farklı yöntemler kullanarak ölçüm yapabilmek için kazınacak veri miktarını azaltıp testler yapabilirsiniz. Testleri birkaç kez yapmanızda fayda var, o anki internet hızı bilgisayarınızın kullanım durumu gibi faktörler de etkili olacağından dolayı daha doğru bir tercih yapmış olursunuz. Herhangi bir mahsuru yoksa ne verisi çektiğinizi söyler misiniz?

Shanyu · Ekim 22, 2022, 11:25öö

Sen sen ol, şu sözümü unutma, bi iş için en ideal süre, mümkün olan en kısa süredir. Zira zaman engel olunamaz şekilde kaybettiğimiz tek şeydir. Bu yüzden zamandan kazanım, sadece onu en az kaybettiğin kadar olabilir.

aib · Ekim 22, 2022, 11:32öö

Veriyi kazima suresi, iki kazima isleminin arasindaki zamandan az olmalidir.

Iki kazima islemi arasindaki zaman, verinin minimum degisme suresinden az olmalidir.

Test1 · Ekim 25, 2022, 12:39ös

Araçları çekiyorum, ancak biraz fazla zaman alıyor