BeautifulSoup nerede yanlışlık yapıyorum?

erennnkr · Mart 27, 2019, 11:05ös

import requests

from bs4 import BeautifulSoup

url = "https://www.google.com.tr/search?safe=strict&source=hp&ei=WvubXIX1L4eUsAeP_I2wAQ&q=wechsler+pdf&oq=we&gs_l=psy-ab.1.0.35i39j0l2j0i131j0l5j0i131.3158.5442..7394...0.0..0.199.485.0j3......0....1..gws-wiz.....0.fNm9z0QXiBI"

takepage = requests.get(url)

html_içeriği = takepage.content

parça = BeautifulSoup(html_içeriği,"html.parser")

for x in parça.find_all("a"):
print(x.get("href"))

neden href değerleri yerine ping değerlerini yazdırıyor ?

Asosyal_Futbolcu · Mart 27, 2019, 11:19ös

Aldığınız çıktıyı atabilirmisiniz ?

from requests import get
from bs4 import BeautifulSoup

url = "https://www.google.com.tr/search?safe=strict&amp;source=hp&amp;ei=WvubXIX1L4eUsAeP_I2wAQ&amp;q=wechsler+pdf&amp;oq=we&amp;gs_l=psy-ab.1.0.35i39j0l2j0i131j0l5j0i131.3158.5442..7394...0.0..0.199.485.0j3......0....1..gws-wiz.....0.fNm9z0QXiBI"
takepage = get(url)
html_içeriği = takepage.content
parça = BeautifulSoup(html_içeriği,"html.parser")
for x in parça.find_all("a"):
       print(x)
#Output;
<a href="/">Google Ana Sayfasý</a>
<a href="/intl/tr/ads">Reklam Kampanyalarý</a>
<a href="/intl/tr/policies/privacy/">Gizlilik</a>
<a href="/intl/tr/policies/terms/">Þartlar</a>
<a href="/intl/tr/about.html">Google Hakkýnda</a>

Buraya kadar çektirmişsiniz zaten şu print(x) olan yeri şu şekilde değiştirdiğimde 
print(x.get("href"))

#OUTPUT;
/intl/tr/ads
/intl/tr/policies/privacy/
/intl/tr/policies/terms/
/intl/tr/about.html

başarılı bir şekilde alabiliyorum anlamadım sizde neden olmadığını

erennnkr · Mart 27, 2019, 11:32ös

link

hocam bu link teki href değerlerini çekmeyi dener misin

ismailarilik · Mart 28, 2019, 9:11öö

O linkten programsal olarak herhangi bir şey çekemezsiniz; sitenin robots.txt dosyasının ilgili satırı:

Disallow: /search

erennnkr · Mart 28, 2019, 11:43öö

hocam robots.txt yi ilk sizden duydum biraz araştırdım ama anlamadığım noktalar var ?

robots.txt içine yazdığımız komutlarla sitenin bazı yerlerine izin veriyoruz bazı yerlerine yasak koyuyoruz mesela bir sitenin /images kısmı disallow olsun ben requests ile sayfam/images kısmını aldım ve BeautifulSoup(sayfamın_içeriği,“html.parser”) yaptım diyelim bundan sonra yapacağım hangi işlemler yasaklanıyor bunu anlayamadım ? yani kısacası robots.txt ile BeautifulSoup u bağdaştıramadım
izin verilen kısımların dizine eklenmesi yani indekslenmesinden kasıt nedir? indeksleme dediğimiz şey nedir

ismailarilik · Mart 28, 2019, 7:51ös

En başta o içeriği almanız yasak.

“Dizinleme” bir nevi kaydetmek anlamına gelir. Ancak bu kaydetme yapısal bir şekilde olur. Böylece daha sonra arandığında bu veriler kolaylıkla bulunabilir.

erennnkr · Mart 28, 2019, 11:50ös

anladım hocam çok teşekkürler aklıma takılan tek soru kaldı verdiğim linkten bir şey çekemezsiniz dediniz ve disallow search ü gösterdiniz ne alaka anlayamadım. Linkim https://www.google.com.tr/search değil ki