String kısaltma

Oguzhan_Soylu · Ağustos 15, 2022, 10:27ös

Selamlar,

[<div class="P6K39c">₺3.33</div>, <div class="P6K39c">₺3.39 - ₺3.57</div>, <div class="P6K39c">₺1.59 - ₺3.57</div>, <div class="P6K39c">16.20B TRY</div>, <div class="P6K39c">4.08M</div>, <div class="P6K39c">7.93</div>, <div class="P6K39c">0.09%</div>, <div class="P6K39c">IST</div>, <div class="P6K39c">2016</div>, <div class="P6K39c"><a class="tBHE4e" href="https://www.google.com/maps/place/Turkey?hl=en-US" target="_blank">Turkey</a></div>, <div class="P6K39c"><a class="tBHE4e" href="http://www.ziraatgyo.com.tr/" rel="noopener noreferrer" target="_blank">ziraatgyo.com.tr</a></div>, <div class="P6K39c">35</div>]

Benzeri uzun bir dizim var. Benim burada sadece 5. virgülden sonraki <div class="P6K39c">7.93</div> bölüme ihtiyacım var (aslında sadece 7.93 lazım)

Aklıma ilk gelen split() ile virgülden bölüp yeni liste üretmek oldu (kulağımı tersten gösteriyor da olabilirim bilmiyorum)

ilk aldığım hata

a=[<div class="P6K39c">₺3.33</div>, <div class="P6K39c">3.39 - 3.57</div>, <div class="P6K39c">1.59 - 3.57</div>, <div class="P6K39c">16.20B TRY</div>, <div class="P6K39c">4.08M</div>, <div class="P6K39c">7.93</div>, <div class="P6K39c">0.09%</div>, <div class="P6K39c">IST</div>, <div class="P6K39c">2016</div>, <div class="P6K39c"><a class="tBHE4e" href="https://www.google.com/maps/place/Turkey?hl=en-US" target="_blank">Turkey</a></div>, <div class="P6K39c"><a class="tBHE4e" href="http://www.ziraatgyo.com.tr/" rel="noopener noreferrer" target="_blank">ziraatgyo.com.tr</a></div>, <div class="P6K39c">35</div>]
yeni=a.split(",")

SyntaxError: invalid character '₺' (U+20BA) oldu. Hadi bunu elle sildim diyelim (500 civarı satır var onun için de bir yöntem bulmak lazım ama vakit kaybetmemek amacıyla ilkini elle sildim) bu kez SyntaxError: invalid decimal literal hatası verdi. Hatayı google’a sorduğumda değişken rakamla başlamaz gibi sonuçlar geldi ki benim değişkenlerde rakam yok

bu sorunu nasıl çözebilirim?

Alih78 · Ağustos 16, 2022, 5:17öö

a zaten bir liste değil mi, endeks kullanırsanız sorununuz çözülür gibi duruyor.

a = [...]
gerekli_yazi = a[4].text

Arif_RYG · Ağustos 16, 2022, 8:22öö

HTMLParser sınıfını denediniz mi ?

from html.parser import HTMLParser

a = ['<div class="P6K39c">₺3.33</div>', '<div class="P6K39c">₺3.39 - ₺3.57</div>', '<div class="P6K39c">₺1.59 - ₺3.57</div>', 
     '<div class="P6K39c">16.20B TRY</div>', '<div class="P6K39c">4.08M</div>', '<div class="P6K39c">7.93</div>', '<div class="P6K39c">0.09%</div>', 
     '<div class="P6K39c">IST</div>', '<div class="P6K39c">2016</div>', 
     '<div class="P6K39c"><a class="tBHE4e" href="https://www.google.com/maps/place/Turkey?hl=en-US" target="_blank">Turkey</a></div>', 
     '<div class="P6K39c"><a class="tBHE4e" href="http://www.ziraatgyo.com.tr/" rel="noopener noreferrer" target="_blank">ziraatgyo.com.tr</a></div>', 
     '<div class="P6K39c">35</div>']

class Parser(HTMLParser):
    def __init__(self, parsestring:list[str]) -> None:
        self.storage = []
        super().__init__()
        for i in parsestring:
            self.feed(i)
    
    def handle_data(self, data: str) -> None:
        self.storage.append(data)

if __name__ == "__main__":
    print(Parser(a).storage)

htmlparser sınıfını miras aldım. Ardından text verilerini alabilmek için pythonun sitesine gidip baktığımda html.parser — Simple HTML and XHTML parser — Python 3.10.6 documentation Böyle bir örneği gördüm. İnceledim ve text verilerine ulaşabildim.

Yaptığım iki şey var. İlki feed methodu ile ilgili veriyi miras aldığımız sınıfa bildirmek. İkincisi ise miras olarak aldığımız sınıftan handle_data methodunu kullanarak text verisini ayrıştırıp yeni bir listeye eklemek.

Çıktı:

['₺3.33', '₺3.39 - ₺3.57', '₺1.59 - ₺3.57', '16.20B TRY', '4.08M', '7.93', '0.09%', 'IST', '2016', 'Turkey', 'ziraatgyo.com.tr', '35']

Oguzhan_Soylu · Ağustos 16, 2022, 11:17öö

Teşekkür ederim.

Bu da güzel bir çözüm ancak şöyle bir sıkıntısı var. Siz anladığım kadarıyla elemanların başına elle ' ' eklemişsiniz. tek satır için ok ama bundan 500 satır olunca iş biraz daha komplike bir hale geliyor.

bu diziyi aşağıdaki gibi oluşturuyordum ve ufak bir eklentiyle (@Alih78 in de değindiği gibi) sonuca biraz daha yaklaştırdım.

liste=[]
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response=requests.get(url,headers=headers)
html_icerigi=response.content
corba=BeautifulSoup(html_icerigi, "html.parser")


for i in kodlar:
    url="https://www.google.com/finance/quote/"+i.replace('.IS','')+":IST"
    print(url)
    
    fk=corba.find_all("div", {'class':"P6K39c"})[5]
    
    if fk == "N/A":
        fk=""
    print(fk)

   liste.append([deger])

buradan

https://www.google.com/finance/quote/ANHYT:IST
<div class="P6K39c">7.92</div>

şeklinde sonuç geliyor. <div class="P6K39c"> ve </div> tag lerinden nasıl kurtarabilirim?

Arif_RYG · Ağustos 16, 2022, 11:42öö

Siz zaten

Diyerek bir liste içerisine alıp komplike haline getiriyorsunuz.

Evet çünkü En başta herhangi bir bilgi vermediniz. Şu modüller kullanıldı şunu yapmaya çalışıyorum vs… Hatta sizin örnek olarak verdiğiniz a listesi buraya yapıştırırken gözden kaçan ' ' arasındaki elemanlar.

Bellekten dolayı bir sıkıntı yaşayacağınızı düşünüyorsanız bunu bir generator oluşturarak düşüncenizden kurtulabilirsiniz. Hatta oluşturmanıza gerek yok çünkü Handle_data methodu bir generatorü çağırarak işlem yapıyor o yüzden herhangi olumsuz düşünceye sapmayın.

fk değişkenini üstte oluşturduğum sınıfa parametre olarak verin.

Diğer işlemler içinde htmlparser sınıfını kullanın işiniz çok daha kolaylaşacaktır.

Eğer kullanmak istemiyorsanız siz kendiniz parse ederek işlem yapmanız gerekiyor. Atıyorum <div ile başlıyor </div> ile bitiyorsa bunu belirtip aradaki diğer belirteçleri de ortadan kaldırarak parse edebilirsiniz. startswith, endswith, split gibi methodlara göz atın.

Oguzhan_Soylu · Ağustos 16, 2022, 11:42öö

Aslında burada da çözüm @Arif_RYG in verdiği örnekte. Bunun içine html parser girince iş çözülüyor

Destekler için teşekkür ederim

Alih78 · Ağustos 16, 2022, 7:32ös

Aldığınız html parçası string olarak gelmiyor, BeautifulSoupun kendine özel bir veri türü olarak geliyor. Bundan dolayı bu türün text özelliğini kullanabilirsiniz. En azından bende sıkıntısız çalışıyor. Sizde çalışmıyor mu bilemedim.

a.text