Burada, Örneğe-Dayalı Bilgisayar Çevirisi (Example-Based Machine Translation) konulu Bilgisayarlı-Dilbilim makalelerini listelemeye çalışıyorum… Listenin zaman içinde büydüğünü görebilirsiniz… Konuyla ilgili iseniz ara ara uğrayıp yoklayabilirsiniz… Liste büyüyünce, ‘yeni eklenenler’ adıyla açacağım ayrı bir sayfadan da güncellemeleri görebilirsiniz.
Örneğe-Dayalı Bilgisayar Çevirisi, özellikle Türkçe konuşan biz 200-240 milyon kişiye ve gene benzer bitişimli (agglutinative) ve Özne-Tümleçler-Yüklem (SOV, Subject-Object-Verb) yapıdaki dünya dilleri için çok daha başarılı bir teknik. Bu SOV tipi diller azımsanmayacak çoklukta. Hintçe ve diğer Hint dilleri bu yapıda örneğin. Japonca ve Korece ise hem bitişimli ve SOV hem de Türkçe ile çok benzer kalıplara sahip… Sonra Çince, Mandarin her ne kadar fiil genelde önce diye SVO kabul edilse de tamlamalar, ki bunlar bilgisayar çevirisinde asıl sorunsal kısımlar, SOV dillerdeki gibi.
Dünya Anglo-Sakson değil… Türk dilleri dünyada en yaygın konuşulan 5. dil… Ve Google Translate’in çerçöp çevirisinden de görebileceğimiz gibi yapısal bir derinliği olmadığından, çok fazla istisnai kurallara sahip Anglo-Sakson dilden, İngiliz dilinden Türkçe’ye ve diğer dünya dillerine yapılan çeviriler çok kötü bir kalitede.
2010 itibariyle günümüzde yaygın Bilgisayar Çevirisi tekniği İstatistiksel Bilgisayar Çevirisi (SMT). Bu teknik Hispanik dillerde görece bir başarı sağlıyorken, sözcük dizimi baştan aşağı farklı olan diğer dünya dilleri karşısında oldukça başarısız…
Bunun birkaç sebebi var: Bitişimli diller (Türkçe, Korece, Japonca, Fince, Macarca, …) çok daha fazla sözcüğe sahip ve GIZA++ sözcük eşleme koduyla yapılan sözcük eşlemeleri Avrupa dileri ile Bitişimli diller arasında eşleme (alignment) yaparken çok fazla boş-eşleme (null-alignment) ve yanlış eşleme yapıyor. Bir diğer sebep de, SOV diller ile SVO diller arasındaki sözcük diziminin cümle uzadıkça oldukça farklılaşması. Bu durum ise, SMT tekniğinde Dil Modellemsine bakarak doğru cümleyi kurmaya çalışması için çok daha fazla bir olasılık uzayını taramasını (beam search) gerektiriyor. Pratikte ise bu çok zaman alıcı bir süreç ve tarama işlemi belli bir süre geçilince, kullanıcyı bekletmemek adına kesiliyor… Sonuç ise Google Translate’te görebileceğiniz gibi sözcük çorbaları oluyor.
EBMT (ÖDBÇ – Örneğe-Dayalı Bilgisayar Çevirisi) tekniğinde ise bu sorunlar yok. Ama başka sorunlar var… Ve 1990′ların başında yeterli Derlem (Corpus) ve bilgisayar gücü olmadığından, hazır SMT de ortaya çıkmışken, çoğu bilim adamı çalışmalarını SMT’ye kaydırdı ve EBMT bir biçimde oldukça geri planda kalmış oldu…
Çalışmaları sekteye uğratan bir başka nokta ise BLEU ölçümünün icadı oldu. BLEU, referans çevirilere bakarak Bilgisayar Çevirisinin başarısını ölçmeye çalışan bir yöntem. Bilgisayar çevirisinin ürettiği ardışık sözcük dizilerinin, daha önce bir insan tarafından çevilmiş referans çevirilerle karşılaştırılması ile elde edilip 0-1 veya 0-100 arasında temsil edilen bir sayı…
Ancak bir sorun var: SOV türü diller görece hareketli bir sözcük sırasına sahipler… Bir tek Yüklemin sonda olması, devrik cümle olmaması açısından önemli. Geri kalan sözcükler ise, yapısal özellikler eklerle zaten belirtilmiş olduğundan vurgulanmak istenen öğe yükleme yaklaşacak şekilde cümle içinde hemen her yerde olabilir… Örneğin şu meşhur reklamı anımsayalım: “Turkcell’le bağlan hayata… Hayata bağlan Turkcell’le… Bağlan Turkcell’le hayata… Bağlan hayata… vs. vs. …” Bunların hepsinde anlam aynı. Hepsi de doğru. Ancak BLEU ölçüsü yalnızca birini, çevirmenin tercih etmiş olduğu örneği doğru kabul edecek, diğerleri için 0 rakamını uygun görüp hatalı kabul edecektir…
İşte bu BLEU sorunu yüzünden de Türkçe gibi SOV dillere bilgisayar çevirilerinin SMT ile düzgün yapılması mümkün olamıyor. SMT Makine Çevirisi sistemleri eğitilirken kullanılan MERT (Minimum Error Rate Training) yönteminde BLEU ölçüsü kullanılıyor çünkü.
ÖDBÇ (EBMT) tekniğinde ise daha önce insanlar tarafından çevrilmiş örneklere bakılarak şablonlar ve çeviri parçacıkları sapanıp çıkarılıyor, ve çeviri anında en benzer şablona en benzer parçacıklar yapıştırılıyor… Bu teknik, belli bir konuya odaklanmış çevirilerde (sadece tıp, sadece elektronik, sadece bilgisayar oyunları, sadece yeni mobil teknolojiler, vs. vs. gibi dar bir alanda) oldukça başarılı çeviriler üretiyor… Konu dışına çıkıldığında ise neredeyse hiç çeviri üretemiyor. Ya hep, ya hiç… İşte bu aşağıdaki EBMT makaleleri listesinde bu teknik üzerine çalışmaları bulabileceğiz:
EBMT Makaleleri
Adetten olduğu üzere, Örneğe-Dayalı Bilgisayar Çevirisi yönteminin buluşçusu ile, konuya ilişkin ilk makale ile başlayalım:
(1984) Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle, Artificial and human intelligence: edited review papers presented at the international NATO Symposium, October 1981, Lyons, France; ed. A. Elithorn and R. Banerji. Amsterdam: North Holland, 1984; pp. 173-180. [PDF, 260KB]
Ve güncelliğine ve önemine göre başka makaleler:
(2010) Kim, J., Brown, R. and Carbonell, J. “Chunk-Based EBMT.” In Proceedings of the 14the Workshop of the European Association for Machine Translation, Raphael, France, 2010.
Bizden, getirdiği şablon saptama yöntemi sayesinde en çok atıf alan makalelerden, Sayın İlyas Çiçekli ile Altay Güvenir’in makaleleri:
(1998) H.Altay Güvenir & Ilyas Cicekli: Learning translation templates from examples. Information Systems, vol. 23, no.6; pp.353-363. [PDF, 51KB]
(2001) Ilyas Cicekli & H.Altay Güvenir: Learning translation templates from bilingual translation examples. Applied Intelligence, vol.15, no.1; pp.57-76. [PDF, 251KB]
Birbirine oranlı benzerlikler (proportional analogies) yaklaşımı (Bu oldukça ilginç ve zekice bir yöntem; gelecek vaadediyor):
(2009) Harold Somers, Sandipan Dandapat, & Sundip Kumar Naskar: A review of EBMT using proportional analogies. Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009, Dublin City University, Dublin, Ireland, ed. Mikel L. Forcada [and] Andy Way; pp.53-60. [PDF, 337KB]
(2005) Yves Lepage & Etienne Denoual: The ‘purest’ EBMT system ever built: no variables, no templates, no training, examples, just examples, only examples MT Summit X, Phuket, Thailand, September 16, 2005, Proceedings of Second Workshop on Example-Based Machine Translation; pp.81-90. [PDF, 400KB]
(2005) Yves Lepage & Etienne Denoual: ALEPH: an EBMT system based on the preservation of proportional analogies between sentences across langauges. International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation [IWSLT 2005], 24-25 October, 2005, Pittsburgh, PA, USA; 8pp. [PDF, 388KB]
(2007) Yves Lepage & Adrien Lardilleux: The GREYC machine translation system for the IWSLT 2007 evaluation campaign. IWSLT 2007: International Workshop on Spoken Language Translation, 15-16 October 2007, Trento, Italy. 7pp. [PDF, 312KB]; presentation [PDF, 584KB]
(2009) Yves Lepage, Adrien Lardilleux, & Julien Gosme: The GREYC translation memory for the IWSLT 2009 evaluation campaign: one step beyond translation memory. IWSLT 2009: Proceedings of the International Workshop on Spoke n Language Translation, National Museum of Emerging Science and Innovation, Tokyo, Japan, December 1-2, 2009; pp. 45-49. [PDF, ];
Şablon temelli sistemlere örnek, Ralf Brown’un Pangloss’u… Giderek bir hibrit sisteme dönüşse de, içindeki EBMT modülü oturmuş bir sistem ve Açık Kaynak kodlu olarak Sourceforge’dan indirilebiliyor:
CMU-EBMT kaynak kodu: http://cmu-ebmt.sourceforge.net
(1994) Robert Frederking, Sergei Nirenburg, David Farwell, Steven Helmreich, Eduard Hovy, Kevin Knight, Stephen Beale, Constantine Domashnev, Donalee Attardo, Dean Grannes, & Ralf Brown: Integrating translations from multiple sources within the PANGLOSS Mark III machine translation system. Technology partnerships for crossing the language barrier: Proceedings of the First Conference of the Association for Machine Translation in the Americas,5-8 October, Columbia, Maryland, USA. [Washington, DC: AMTA]; pp. 73-80. [PDF, 137KB]
(2000) Ralf D.Brown: Automated generalization of translation examples. Coling 2000 in Europe: the 18th International Conference on Computational Linguistics. Proceedings of the conference, Universität des Saarlandes, Saarbrücken, Germany, 31 July -4 August 2000; pp. 125-131 [PDF,.650KB]
(2003) Ralf D. Brown, Rebecca Hutchinson, Paul N. Bennett, Jaime G. Carbonell, & Peter Jansen: Reducing boundary friction using translation-fragment overlap. MT Summit IX, New Orleans, USA, 23-27 September 2003; pp.24-31. [PDF, 117KB]
Karışık sırayla önemli başka EBMT konulu makaleler:
(2005) Sudip Kumar Naskar & Sivaji Bandyopadhyay: A phrasal EBMT system for translating English to Bengali. MT Summit X, Phuket, Thailand, September 13-15, 2005, Conference Proceedings: the tenth Machine Translation Summit; pp.372-379. [PDF, 263KB]
(2004) Gábor Hodász, Tamás Gröbler, & Balázs Kis: Translation memory as a robust example-based translation system 9th EAMT Workshop, “Broadening horizons of machine translation and its applications”, 26-27 April 2004, Malta; pp.82-89. [PDF, 227KB]
Geçen Kasım ayındaki EBMT konferansı bildirileri:
Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009 – Centre for Next Generation Localisation, Dublin City University, Dublin, Ireland; Edited by Mikel L. Forcada, Andy Way http://www.mt-archive.info/EBMT-2009-TOC.htm
Bu listenin devamı gelecek. Yukarıdakilerin arasına ve/veya buradan aşağıya yeni eklemeler olacak.