BeautifulSoup ve Requests ile sahibinden.com'un kaynak kodlarını alamamak

Mustafa_Deniz_Ayar · Mayıs 16, 2023, 7:38ös

Herkese merhaba, sahibinden.com sitesinin kaynak kodlarını çekmeye çalışıyorum. Fakat chrome ile sayfa kaynağını görüntülediğimde, requests ile çektiğim kaynak kodlar farklı geliyor (chromeda görünen şekliyle sayfa kaynağını gelmiyor) bunun sebebi ne olabilir?

makalidap · Mayıs 16, 2023, 8:43ös

Siteye bakmadım ama 2 ihtimal var ya sitenin açılması için javascript gerekiyor yada bot koruması var ilkiyse api scraping veya selenium kullanabilirsiniz. 2.si ise user agent eklemeyi deneyin ama kesin olmayabilir.

Mustafa_Deniz_Ayar · Mayıs 16, 2023, 8:55ös

user agent ekledim yine olmadı, bu durumda requests ve beautifulsoup yalan oldu diyebilir miyiz?

makalidap · Mayıs 16, 2023, 9:01ös

Bende tam hakim değilim ama sanırım bs4 yalan oldu yapabiliyorsanız api scraping ile yapın daha hızlı olur seleniumdan.Api scrapingde de request kullanıyorsunuz ona yalan oldu diyemeyiz.

BandoLero · Mayıs 16, 2023, 9:05ös

kodu at

2000000000000

Mustafa_Deniz_Ayar · Mayıs 16, 2023, 9:18ös

import requests

from bs4 import BeautifulSoup

url = "https://www.sahibinden.com/satilik-daire/istanbul-bayrampasa-yildirim-yildirim-mh."

r = requests.get(url)

soup = BeautifulSoup(r.content, “html.parser”)

print(soup)

Mustafa_Deniz_Ayar · Mayıs 16, 2023, 9:18ös

Teşekkür ederim ederim ilginiz için ama anladığım kadarıyla sahibinden.com’da güvenlik üst düzey

makalidap · Mayıs 16, 2023, 9:21ös

Yarın bilgisayara geçince denerim bende ama kesin bir şey diyemem bende çok uzman değilim bu konuda.

Alih78 · Mayıs 17, 2023, 5:23öö

Sitenin döndürdüğü koda göre değerlendirmek gerekir. Eğer 403 döndürüyorsa istek bot korumasına takılıyordur, User-Agent eklemeyi deneyebilirsiniz. Ancak cloudflare gibi bir koruma varsa iş biraz zor. Ya da 200 dönmesine rağmen içerik eksik geliyorsa site JS ile de yükleniyor olabilir, bu durumda da requests_html kütüphanesini deneyebilirsiniz.

Mustafa_Deniz_Ayar · Mayıs 17, 2023, 5:36öö

Hocam 403 geliyordu User-Agent ekledim yine olmadı muhtemelen korunuyor. Görünen o ki UIPath deneyeceğiz.

makesamba · Mayıs 17, 2023, 8:12öö

Selenium ya da Playwright kullanmalısınız hocam

Mustafa_Deniz_Ayar · Mayıs 17, 2023, 8:24öö

Hocam selenium denedim, fakat bu sefer site otomatik girişi anlıyor güvenlik sorusu soruyor. playwright hakkında hiç bir bilgim yok.

makesamba · Mayıs 17, 2023, 8:30öö

evet selenium artık çok kolay anlaşılabiliyor siteler tarafından.
şuraya bir göz atın faydalı olacaktır. ayrıca playwright içerisinde 3 tane browser ile geliyor bunlar chromium (chrome, opera, brave gibi tarayıcıların temelini oluşturan browser), nightly(firefox) ve webkit(iosdaki safari). bunlardan nightly (firefox) olanı kullanacaksınız

Mustafa_Deniz_Ayar · Mayıs 17, 2023, 8:31öö

İnceleyeceğim hocam, teşekkür ederim.

Mehmet_Caliskan · Mayıs 18, 2023, 9:22öö

Sahibinden.com gibi sitelerde bot koruması var selenium veya beautifulsoup ile olmuyor ben denemiştim. arka arkaya request gönderince CAPTHCHA filan çıkıyor. Bu sorunları aşmak kolay değil . Yapay zeka ile aşılabilir diye düşünüyorum. Seleniumda denemeyin driver ı kolayca tespit edebiliyor siteler ve bazıları direk banlayabiliyor.

Mustafa_Deniz_Ayar · Mayıs 18, 2023, 9:44öö

Hocam UIpath ile otomasyon kullanarak çekebildim selenium, scrapy, requests, bs4 işe yaramıyor. İlgilenen herkese teşekkürler.