500 Mb Türkçe Cümlelerden oluşan Dataseti Nasıl Elde Ederim

Merhabalar, Doğal dil işleme yapıyorum. Cevap nerede projem için data seti toplamaya başladım. İnternet üzerinden e-book ları indirip içeriğini text’e kaydeiyorum. Bu kitaplarlar 2mb 250 den fazla kitap indirmem gerektiğini görünce elinizde bir data set yada elde edebileceğim yöntem veya yazılmış script varsa yardım edebilirmisiniz?

Bunların nasıl yapıldığını bilmiyorum ama birkaç fikir veriyim:

  • Twitterdeki gönderileri çekin.

  • (Eğer webde tutuluyorsa) Git’teki belgeleri alın.

  • Bu konuyla ilgili bir oyun var(Adı simsimi) . Sanıyorum konu ile ilgili veri topluyorlar. Onlarla temasa geçebilirsiniz.

Daha fazla aklıma gelirse buraya eklerim.