Merhabalar…Ben Bir Proje İle İlgileniyorum Python İle Projemin Amacı Şuanlık Google’dan Siteleri Çekmek Lakin Google Baba Engel Atıyor Engeli Aşmak İçin Proxy Kullanıyorum Lakin Benlik Bir Sorun mu Anlayamadım Ama Yok Çalışmıyor…Yine Benim İp’im İle İstek Gönderiyor Siteye…Bazen Proxy den İstek Gönderiyor Ama Yine Ban Yedi Diyor…Ama Chrome’da Öyle Bir Sorun Yok?
import requests
from bs4 import BeautifulSoup
def googledorkarama():
proxy={"https:":"http://88.198.24.108:3128"}
# Baglanacagimiz site
aramalar=[
"http://www.google.com.pk/search?q=","http://www.google.cn/search?q="]
numlar=["&num=100&start=30&filter=0","&num=100&start=10&filter=0","&num=100&start=20&filter=0","&num=100&start=50&filter=0","&num=100&start=60&filter=0","&num=100&start=800&filter=0",
"& num =100 & start =100 & filter =0"]
siteleriyaz = open("DorkTaramaSonuçları.txt", "w",encoding="utf-8")
kelime=input("Taratılacak Dorku Giriniz: ")
print("Siteler DorkTaramaSonuçları.txt'ye Kaydedilir.")
soru = input("\nSiteler Dosyaya Kaydedilsinmi ? E\H ")
if soru == "h" or soru == "H":
print("\nSonuçlar Dosyaya Kaydedilmeyecek!")
if soru == "E" or soru == "e":
for x in numlar:
for i in aramalar:
s=requests.session()
s.proxies=proxy
url = i+kelime+x
sayfa=s.get(url,proxies=proxy)
deneme=sayfa.text
if "CAPTCHA" in deneme:
print("Google Ban Atmış")
print(sayfa.url)
print(deneme)
exit()
else:
soup = BeautifulSoup(sayfa.content, "html.parser")
for link in soup.findAll('cite'):
print(link.text)
siteleriyaz.write(link.text+"\n")
Proxy’lerim Şifresiz Otomatik Giriyor Ve Şöyle Bir Şey Var IDLE’da Çalışan Kodum Pycharm İle Yazıp Kaydedince Çalışmıyor Sebebini Anlayamadım Bir Türlü…
Pycharm hiç kullanmadım ama muhakkak konfigürasyon ayarlarında problem olabilir ben hep geany kullanırım, ayarlardan python3.6 yı seçip F5 'e bastığımda otomatik olarak python yolunu tanıyıp kodları çalıştırıyor, python yolunu tanıttığından emin misin?Özel sebebin yoksa Ubuntu ve editör olarak geany kullan, böylece ek sorunlarla uğraşıp zaman kaybetmezsin.
Proxy bağlantısına gelince:
ubuntu için;
install sudo pip3 install PySocks
kullanımı
github da bu modülün pek çok kullanım örneği var ben kısaca şu örneği paylaşayım:
import socket
import socks
import requests
ip='localhost' # proxy'yi değiştir
port = 0000 # proxy portunu da isteğine göre değiştir
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, ip, port)
socket.socket = socks.socksocket
url = u'http://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=inurl%E8%A2%8B'
print(requests.get(url).text)
Sağolun Hocam İyi Güzelde Pycharmda Her Türlü Programım Çalışıyor Sorun Yok.Tek Şu Proxy Olayı Çalışmıyor…Birde Proxylerim HTTP Socks5 Proxy Bulmak Çok Zor
http://pasted.co/24cf5dda Şuradaki Çıktıya Bakarsanız İp Sitesinde Değişmiş Görünüyor Fakat Google’da Hala Aynı İp…Acaba User Agent mi Değiştirmek Gerekir?
Google ın güvenlikle ilgili aldığı önlemler muhakkak aşılır da şu an için bu konuda bir görüş bildiremeyeceğim ama bilgi edinirsem muhakkak paylaşırım burda.En son kendi gmailime de giremiyordum, telefon numaramı istiyodu, google gerçekten berbat bi kurum, arama motorundan veri çekmek istiyorsan duckduckgo’yu deneyebilir misin orda bir sorun çıkacak mı bakalım?
Veri çekmek için tüm kısıtlardan kaçmak için bir tarayıcı gibi internette dolaşmak en iyisi özel bir nedenin yoksa yukarıdaki modül kullanım konusunda; seleniumla firefox’u headless olarak kullanarak netti dolaşabilir isteğin verileri çekebilirsin.Bunu haricinde veri çekiminde yukarıdaki modülle google engeli nasıl aşılır bilemecem şimdik:D
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
options = Options()
options.set_headless(headless=True)
driver = webdriver.Firefox(firefox_options=options, executable_path='geckodriver')#geckodriver firefox için netten indirebilirsin
driver.get("http://google.com/")
print ("Headless Firefox Başlatılıyor")
driver.quit()