Bir süredir ufak tefek NLP projeleriyle ilgilenmeye başlayan ben, Deniz Yüret’in hazırladığı Emacs Turkish mode‘un Emre Sevinç tarafından yapılan Python çevirisini Java için uyarlamış bulunuyorum.
_Deasciifying _kelimesi ilk etapta yabancı gelebilir, özetle Latin alfabesindeki harfler kullanarak yazılmış Türkçe yazıları tekrar Türkçe’ye özel harflere kavuşturma işlemi olarak tanımlayabiliriz. Turkish deasciifier‘ın yaptığı da tam olarak bu. Türkçe klavye sahibi olmayanlar (veya sahip olup İngilizce ayarında kullanmaya alışmış olanlar), uzun yazılar yazdıklarında bunu Türkçe harflere çevirmek için bu kütüphaneyi kullanabilirler.
Örneğin:
Hadi bir masal uyduralim, icinde mutlu, doygun, telassiz durdugumuz. yazısı, deasciifying işlemi sonrasında aşağıdaki gibi olacaktır: Hadi bir masal uyduralım, içinde mutlu, doygun, telaşsız durduğumuz. Kullanım alanlarına örnek verecek olursak, bir foruma yazı yazarken veye e-posta yollarken Türkçe karakterleri düzeltmek istiyorsanız kuracağınız bir Firefox veya Chrome eklentisi ile tek tuşla anında yazıyı düzeltebilirsiniz. Yahut sitenizde ziyaretçilerinizden düz yazı içeriği veya _feedback _topluyorsanız daha okunaklı olması açısından sitenin backend‘inde bu kütüphaneyi kullanabilirsiniz.
Kütüphaneyi kullanmak da çok basit. Herhangi bir kütüphane gibi kendi projenize dahil edip hazır hale getirebiliyorsunuz. Proje sitesinden indireceğiniz JAR dosyasını Java projenizin classpath’ine dahil ettikten sonra hemen aşağıdaki örnekle başlayabilirsiniz:
Deasciifier d = new Deasciifier();
d.setAsciiString("Son nefesime sakladım, daha söyleyeceklerim var.");
System.out.println(d.convertToTurkish());
Mustafa Emre Acer tarafından JavaScript kütüphanesi ve örnek web uygulaması geliştirilmiş. Bu sebeple ben de bir demo yazmaya gerek duymadım. Yüret hoca’nın başlattığı bu dalga sonucunda Türkçe NLP kütüphanelerine yeni bir çeşit eklenmesi sevindirici. Zemberek kütüphanesi de aslında bu işlemi yapıyor, fakat Turkish deasciifier’ların daha amaca yönelik, hızlı (neredeyse 2.000 kat) ve kolay kullanıma sahip olduğunu hatırlatmak gerek. Yedi sene önce Gökhan Tür tarafından geliştirilen bir deasciifier uygulaması da mevcut fakat kaynak kodu açık değil.
Benim yazdığım Java kütüphanesinin proje sayfası http://code.google.com/p/turkish-deasciifier/ adresinde. Sayfada kaynak kodunu nasıl elde edebileceğiniz ve JAR arşivini indirmeniz için gerekli linkler var. Deneyip herhangi bir hata ile karşılaşırsanız proje sayfası üzerinden issue açmaktan veya bana ulaşmaktan çekinmeyiniz. Proje GNU/GPL v3 açık kaynak lisansına sahip. Wirofon gibi lisans gafletine düşmeden rahatça kullanabilirsiniz. Projeye katkıcı olmak isterseniz veya herhangi bir projenizde kullandığınızı bildirecek olursanız bana ulaşmanızdan mutluluk duyarım.
Leave your thoughts