Arkadaşlar öncelikle selamlar bu ilk mesajım forumun üslubuna henüz hakim değilim, bir yanlışlık yaparsam şimdiden kusura bakmayın.
Selenium ve BeautifulSoup ile internet sitelerinden veri çekme üzerine beni rahatsız eden bir durum var. Soracağım konuda tecrübe sahibi arkadaşların bilgilerine ihtiyacım var.
Python’a tamamen internet sitelerinden veri çekme işlemlerini halledebilmek için öğrenmeye başladım ki 2-3 aydır yoğun bir şekilde ilgileniyorum. Selenium ve BeautifulSoup ile ilgili bulabildiğim tüm döküm, videoları inceliyorum ve uyguluyorum. Tekli sayfaların verisini çekme ile başlayan yolculuk hali ile bir seferde daha fazla sayfadan tek seferde daha çok veri çekmeye doğru ilerledi.
Amazon, Aliexpress gibi büyük hacimli sitelerden selenium üzerinden binlerce linkin verisini problemsiz çekebiliyorum, şimdiye kadar aşamadığım bir problem olmadı. Zaten genellikle eğitimlerde de çokça bu sitelerin örneği vardı.
Biraz daha spesifik sitelerden veri çekmeye çalıştığımda - örneğin: epey.com - tek tek işlem yaptığımda herhangi bir problem olmazken, işlemleri yüzlerce linkle çevirdiğimde “we are checking your browser” sayfası ile karşılaşmaya başladım. BeautifulSoup ile veri çekmeye çalıştığımda ilklerde problem olmazken yine işlemler yoğunlaştığında response: 403 hatası ile karşılaştım. En popüler çözüm yöntemlerini “kısmen” denedim. Kısmen diyorum çünkü bir yerden sonra ücretli sistemlere yönlendirmeler vardı.
Google aramalarından veri çekmeye çalıştığımda da 30-40 linkten sonra captcha ekranı ile karşılaştım. Bu sorunun çözümünü araştırdığımda canımı sıkan “asıl noktaya” gelmiş oldum. Forumlarda Google’nin bu tarz yoğun “bot” işlemlerini engellediği ve bunun için ücretli bazı sitelerin olduğunu gördüm. Anladığım kadarıyla Google bu konuda gerçekten katı.
Buraya yazmamın asıl sebebine gelirsek: Motivasyonum düştü !
Bu captcha,cloudflare vs. gibi problemlerle yeni karşılaştım. Bir kaç günlük araştırmamda da henüz bir çözüm bulamadım ve bu durum hevesimi kırmaya başladı.
Bir internet sitesinden ( haber, e-ticaret, karşılaştırma vs. ) istediğim veriyi her zaman çekemez miyim ? Tamam, güvenlik sistemleri var ancak bunları bir şekilde atlatamaz mıyım yoksa bir site “sitemden veri çekilmesini istemiyorum” dediği anda Selenium, BeautifulSoup vs. tamamen çöp mü olur ?
Bu soruyu sadece epey.com ya da google için sormuyorum. Şu an için adını bile hiç duymadığım bir sitede de aynı problem ile karşılaşınca bu problemin global bir çözümü olmaz mı ?
Elbette nokta atış bir cevap almak çok isterim ancak “şu konuyu araştır” bile demeniz benim için yeterli.
Uzun bir yazı oldu, vaktinizi ayırdığınız için şimdiden teşekkürler.