Merhaba, Bu başlıkta OCR işlemini en az hatayla tamamlayabilmek için PDF dosyasının nasıl olması gerektiğini ve hangi pdf dosyalarından epub yapılamayacağını öğreneceğiz. Öncelikle PDF dosyasının nasıl oluşturulduğundan söz etmemiz gerekiyor. Herhangi bir belgeyi/kitabı/dergiyi bilgisayar ortamına aktarmak için tarayıcı gerekmektedir. Tarayıcılar, kağıt beslemeli tarayıcı ve flatbed(düz yataklı) tarayıcı olmak üzere ikiye ayrılır. Kağıt beslemeli tarayıcılar için buraya tıklayınız. Çoğu kişide ise flatbed tarayıcı olarak adlandırılan camlı tarayıcılar bulunmaktadır. Sayfa/sayfaları bu camın üzerine yapıştırıp bir program ile tarama işlemi yapılır. Taranan sayfanın yada sayfaların dosya uzantısı resim formatındadır. Resim formatları şunlardır; jpeg, jpg, png, tiff, tif. Flatbed tarayıcılarda, herhangi bir kitabı taramak için kitabı 180° (derece) açıp cama yapıştırdığınızda aşağıdaki gibi görüntü oluşacaktır. Yukarıda gördüğünüz görüntü, flatbed tarayıcının camın altından bir seferde ileri gidip gelmesiyle oluşan bir kitabın taranan iki sayfasıdır. -Kitapları birer sayfa olarak da tarayabilirsiniz ancak ikili taramak varken birer birer taramak zaman kaybıdır.- Kitap taramalarınızda görüntü bilgisayarınızda böyle oluşacaktır. Bu sayfa görüntüleri pdf oluşturmak için yeterli değildir. Yeterli olmamasının en önemli sebepleri; görüntülerin iki sayfa barındırması, sayfa kenarlarındaki boşlukların farklı olması, sayfalardaki eğrilikler, sayfalardaki kişisel yazıların silinmesi, ... Sıkıntıların giderilmesi için yapılması gerekenler:
Bu sıkıntılar giderildikten sonra sayfalar yine resim formatında/uzantısında olacaktır. Bu resim formatından oluşturulacak pdf dosyasına TIPKIÇEKİM dosya denir. "Fotokopi de diyebiliriz." Bu pdf türünün resim formatında olmasından dolayı sayfa üzerinde bulunan yazıları/harfleri/sayıları bilgisayar tanıyamaz. Örnek olarak, herhangi bir yakınınız ile eski fotoğraflara baktığınızı düşünün. Eski bir fotoğrafta, tanımadığınız bir kişi olduğunda onu tanıyabilmemiz/bilebilmemiz için o kişinin size tanıtılması gerekmektedir. Bilgisayar da aynı bizim gibidir. Taranan sayfa üzerinde bulunan harfler ve rakamlar bilgisayara tanıtılmalıdır. Bu tanıtma işlemine OCR işlemi diyoruz. OCR işlemi nasıl gerçekleşiyor? Sanırım bu yazıyı okuyan herkes, hayatının şu anına kadar herhangi bir word programı kullanmıştır. Aşağıdaki örnek görüntüdeki "f" harflerinin farklı olduklarını görebiliyorsunuzdur. Bunları farklı yapan, program içerisinde seçtiğiniz font aileleridir. Her font ailesindeki harflerin belli bir görünüşleri vardır. Fontlara, harflerin görsel değişikleri olarak da bakabilirsiniz. Yukarıdaki farklılıklara sebep olanın font aileleri olduğunu öğrendiğimize göre artık OCR işleminin mantığını açıklayabiliriz. OCR işlemini bazı programlar gerçekleştirebiliyor. (Abbyy Finereader, Adobe Acrobat) Resim formatında olan sayfalardaki harflerin görünüşü ile programda yüklü olan tanımlı fontların harf görünüşleri karşılaştırılır. Eşleşme başarıyla gerçekleşirse, o harf belirli bir font ailesine tanımlanır. Mesela, Arial ailesindeki "f" harfi gibi. OCR işlemi işte böyle gerçekleşir dostlar. * * * TIPKIÇEKİM dosya türü dışında bir de OCR işleminden geçirilmiş pdf dosya türü vardır. Bu pdf türüne de OCR'den geçirilmiş pdf diyeceğiz. Bu tür kendi içerisinde; clearscan yapılmış pdf dosyası, tıpkıçekim görüntünün altına tanınmış font ailesinin gömülmesi ile oluşan pdf dosyası ve tamamen tanımlı font ile oluşturulan pdf dosyası olarak üçe ayrılır. Bu türlerden ilk ikisi ile ePub oluşturulabilir ancak üçüncüsü ile ePub oluşturmak kesinlikle yanlıştır. Sebebi ise kolaylıkla harf değişikliği yapılabilmesi, cümlelerin silinebilmesi, çevirisi değiştirilebilmesi diyebiliriz. Bir sayfası yırtılmış ya da basılmamış bir kitabı okumak gibidir. Bu sebeplerden dolayı güvenilir bir belge değildir. Tamamen tanımlı font ile oluşturulan pdf dosyası türüne orijinal pdf dosyaları da girmektedir. Orijinal pdf dosyaları sadece satın alınabilir ve kütüphanelerden elde edilir. Yani yayınevinin baskıya gönderdiği pdf dosyasıdır. Güvenilirdir aksi taktirde bunun dışındakiler dosyalar çöp niteliğindedir. Kendinize ait yazılar da orijinal dosya niteliğinde olduğu için güvenilirdir. Sonuca gelecek olursak, başkasının hazırladığı bu tarz word/pdf dosyalarından uzak durmanız gerekmektedir. Aşağıdaki görüntüde aynı sayfanın dört farklı pdf türünü görebilirsiniz. Birincisi, tıpkıçekim pdf dosyası. İkincisi, clearscan pdf dosyası. Üçüncüsü, tamamen tanımlı font ile oluşturulan pdf dosyası. Dördüncü ise tıpkıçekim görüntünün altına tanımlı fontun gömülmesi ile oluşturulan pdf dosyasıdır. Görüntüyü daha detaylı görebilmek için buraya tıklayınız. Yukarıda bahsi geçen pdf dosyalarını indirip incelemenizi öneririm, indirmek için buraya tıklayınız. Son olarak önemli bir hatırlatma; birinci, ikinci ve dördüncü pdf’lerden epub yapılabilir fakat üçüncü pdf’den epub oluşturmak kesinlikle yanlıştır. PDF'ten ePub'a dönüştürürken hatasız OCR işlemi hiçbir zaman mümkün değildir. Bu yüzden Clearscan yapılmış dosyalarda en az hatayı elde etmek için aşağıdaki anlatımı bilmeniz gerekmektedir. CLEARSCAN PDF DOSYASINDAN EPUB OLUŞTURMAK Clearscan yapılmış bir dosyaya sahipseniz Adobe Acrobat programıyla her sayfayı jpeg formatı olarak kaydetmelisiniz. (Kaydetme işleminden önce mutlaka bir klasör oluşturmanız gerekmektedir çünkü her sayfa ayrı bir jpeg dosyası olarak çıkacaktır.) Bunu da (Dosya - Farklı Formatta Kaydet - Görüntü - JPEG - Ayarlar) diyoruz. Karşımıza çıkan pencerede birçok seçenek göreceksiniz. Bu seçenekleri aşağıdaki görseldeki gibi yapmanızı öneririm. Birçok denememde en iyi sonucu aşağıdaki seçenekler verdi. Bu konu anlatımını tamamlamış bulunmaktayız. Sıradaki konuya yani "Abbyy Finereader ile PDF'i ePub'a Dönüştürülmesi"ne geçebilirsiniz.
5 Yorumlar
Burak YOLCU
3/26/2019 09:39:55
Burak YOLCU3/26/2019 09:36:55
Yanıtla
Meister
3/31/2019 02:26:12
Sorunuza geç cevap vermek istemezdim ancak bazı kişisel sebeplerden dolayı geciktim.
Yanıtla
Burak YOLCU
4/5/2019 17:09:10
Öncelikle vermiş olduğunuz bilgi için teşekkür ederim. Hemen hemen tüm sayfalarınızı okudum. Haftaya elimdeki word dosyasını epuba çevirmeye başlayacağım. Başlamadan önce size bir sorum daha olacak. Epubta sayfaları nasıl ayarlıyoruz. Yani istediğimiz yazıların birinci sayfa da yada ikinci sayfada görünümlerini nasıl ayarlayacağız. scantailormu kullanmalıyız. Onu tam olarak bilemedim. Yada sizin anlattığınız ama benim gözden kaçırdığım kısımlar olabilir mi?
Yanıtla
Meister
4/10/2019 12:42:06
İlginiz için teşekkür ediyorum öncelikle.
Yanıtla
burak yolcu
5/7/2019 12:42:36
hocam mail adresinizden size mesaj attım. Yanıt Ver. |
|