PDF İçinde Bilgi Arama

ysga · Ağustos 8, 2020, 3:51ös

Merhaba. Python öğrenmeye pandemide başlamış bir kullanıcıyım. Bu süreçte siteden çok yararlandım. Her kimin emeği varsa, öncelikle, teşekkür etmek istiyorum.

Kısaca özetlemek gerekirse; zamanında taranıp .pdf olarak server da saklanan dosyalar içinden istediğim PDF leri bulup çekmek istiyorum. Kısaca PDF mining yapmam gerek.

Dosyalar taranmış halde olduğundan içinde arama yapılamıyor. Windows search de çalışmıyor haliyle. Ya gözle tek tek kontrol etmem gerek ya da Python

İnternette hazır algoritma örneklerine bakarak az buçuk bir algoritma kurdum aslında ve çalıştı;

PDF dosyasını resimlere dönüştürdüm (PyMuPDF paketi).
Resimlerdeki bilgileri de text dosyasına dönüştürdüm (PIL + pytesseract paketleri)
Text içinde de bulmak istediğim keyword leri arattım.

Velhasılıkelam, çalıştı çalışmasına ama %50 ancak başarılı şekilde bulabiliyor. OCR olayının başarı oranı düşük diye biliyorum, eyvallah. Yine de bu oranı arttırmanın bir yolu yöntemi var mıdır diye merak ettim. Yapmak istediğim işlem için Python da önerdiğiniz başka bir yol var mıdır?

EkremDincel · Ağustos 8, 2020, 4:10ös

Merhaba.

PDF dosyalarının resmini çıkartabiliyorsunuz, peki içinde yazıları okuyamıyor musunuz?

ysga · Ağustos 8, 2020, 4:17ös

Durumu tam anlatamadım galiba.

PDF leri tek tek açıp bakabiliyorum, yani gözle kontrol etmek istersem edebiliyorum. Ancak binlerce PDF var. Bunu bilgisayar benim için yapsın istiyorum.

Resimlere dönüştürüp yine ben bakacaksam direkt server dan bakarım. Hem PDF de hem resimlerde okunma problemi yok çünkü. Neden resimlere dönüştürdün derseniz, genelde o şekilde algoritmalar vardı internette

PDF ler resimlere dönüştürüldü diyelim, yine binlerce resim. Benim istediğim; programın aradığım keyword ün atıyorum direkt 15. resimde olduğunu ve o resmin de A PDF ine ait olduğunu bulmasını istiyorum.

Şu an bunun bulunma oranı %50 yani A pdf ini ilk önce resimlere dönüştürüp text e atıyorum ve içinde aradığım keyword listesindeki string lerden biri varsa A pdf ini bulundu listesine ekliyorum diyelim. Sonra B ye geçiyorum. B bulunmadı diyelim ama bulunması lazım normalde çünkü açıp baktığımda ben rahatça aradığım keyword ün orada olduğunu görebiliyorum. Bu sebeple oran %50 dedim.

EkremDincel · Ağustos 8, 2020, 4:44ös

Benim okumadan kastım uygulamanın okumasıydı. PDF içindeki yazılara erişmek anlamında.

Eğer yazılar karakter şeklinde değil de resim şeklinde ise görüntü işleme yapmanız lazım. Veya PDF’lerin nasıl bir tarama sonucu oluşturulduğunu bilirsek ona göre başka yöntemler de bulabiliriz.

ysga · Ağustos 8, 2020, 5:11ös

Evet, karakter olarak değil resim olarak mevcut sayfalar maalesef. OCR a o yüzden yöneldim ancak dediğim gibi net bir başarı sağlayamadım henüz. PDF lerin nasıl tarandığı konusunda ise bilgim yok maalesef.