Veri Çekmede Süre Azaltma

Merhabalar, daha öncede bahsetmiştim ancak herhangi bir ilerleme olmadığı için sorumu detaylandırarak sormak istedim. Bir milyondan fazla verinin detay bilgilerini çekiyorum. Bir ilanın(bir ev ilanı olabilir) altındaki bilgileri veritabanına yazdırıyorum. Yaklaşık 35 detay bilgisi mevcut, fakat bir saatte max. 1000 tane ilanı, detay bilgileri ile çekebiliyorum. Ve ilanının çokluğuna bakılırsa bu çok ciddi bir süre. ‘lxml’, cchardet gibi hızlandırıcı komutları ekledim, ancak hala performansı iyi değil. Scrapy gibi yeni bir kütüphane ile yazacak vaktim de yok ne yazık ki. Pc 8 çekirdek ve internet hızı da iyi. Performansı artıracak önerisi olan paylaşırsa çok sevinirim.

Veri analizinde, hiçbir şey yapamıyorsan, veri ya da boyut azaltma algoritmalarını kullanırsın(PCA vs.). Eğer verilerden belirli koşullar ya da değişkenler düzeyinde fedakarlık yapamıyorsan, ancak donanımsal yükseltmelerle bu işi çözebilirsin. Kodların zamanını hızlandıran spesifik bir modül olacağını sanmıyorum. Bu ancak veri analizi algoritması ile olabilecek bir şey galiba. Bilgisayar performansını artırmak için bile veri analizi ve veri bilimi bu söylediğim şekilde kullanılıyor. CPU’yu hızlandıracak sihirli bir formül duymadım.

Belki programını parçalara bölüp, parçaları threadlar ile çalıştırırsan biraz hızlanabilir.

İlginç bir vaka.

1 Beğeni

Evet ne yazık ki verilerde azaltma yapamam. Pc 8 çekirdek ve hepsini kullanıyor.