Feeds:
Yazılar
Yorumlar

Archive for Ağustos 2010

Burada, Örneğe-Dayalı Bilgisayar Çevirisi (Example-Based Machine Translation) konulu Bilgisayarlı-Dilbilim makalelerini listelemeye çalışıyorum… Listenin zaman içinde büydüğünü görebilirsiniz… Konuyla ilgili iseniz ara ara uğrayıp yoklayabilirsiniz… Liste büyüyünce, ‘yeni eklenenler’ adıyla açacağım ayrı bir sayfadan da güncellemeleri görebilirsiniz.

Örneğe-Dayalı Bilgisayar Çevirisi, özellikle Türkçe konuşan biz 200-240 milyon kişiye ve gene benzer bitişimli (agglutinative) ve Özne-Tümleçler-Yüklem (SOV, Subject-Object-Verb) yapıdaki dünya dilleri için çok daha başarılı bir teknik. Bu SOV tipi diller azımsanmayacak çoklukta. Hintçe ve diğer Hint dilleri bu yapıda örneğin. Japonca ve Korece ise hem bitişimli ve SOV hem de Türkçe ile çok benzer kalıplara sahip… Sonra Çince, Mandarin her ne kadar fiil genelde önce diye SVO kabul edilse de tamlamalar, ki bunlar bilgisayar çevirisinde asıl sorunsal kısımlar, SOV dillerdeki gibi.

Dünya Anglo-Sakson değil… Türk dilleri dünyada en yaygın konuşulan 5. dil… Ve Google Translate’in çerçöp çevirisinden de görebileceğimiz gibi yapısal bir derinliği olmadığından, çok fazla istisnai kurallara sahip Anglo-Sakson dilden, İngiliz dilinden Türkçe’ye ve diğer dünya dillerine yapılan çeviriler çok kötü bir kalitede.

2010 itibariyle günümüzde yaygın Bilgisayar Çevirisi tekniği İstatistiksel Bilgisayar Çevirisi (SMT). Bu teknik Hispanik dillerde görece bir başarı sağlıyorken, sözcük dizimi baştan aşağı farklı olan diğer dünya dilleri karşısında oldukça başarısız…

Bunun birkaç sebebi var: Bitişimli diller (Türkçe, Korece, Japonca, Fince, Macarca, …) çok daha fazla sözcüğe sahip ve GIZA++ sözcük eşleme koduyla yapılan sözcük eşlemeleri Avrupa dileri ile Bitişimli diller arasında eşleme (alignment) yaparken çok fazla boş-eşleme (null-alignment) ve yanlış eşleme yapıyor. Bir diğer sebep de, SOV diller ile SVO diller arasındaki sözcük diziminin cümle uzadıkça oldukça farklılaşması. Bu durum ise, SMT tekniğinde Dil Modellemsine bakarak doğru cümleyi kurmaya çalışması için çok daha fazla bir olasılık uzayını taramasını (beam search) gerektiriyor. Pratikte ise bu çok zaman alıcı bir süreç ve tarama işlemi belli bir süre geçilince, kullanıcyı bekletmemek adına kesiliyor… Sonuç ise Google Translate’te görebileceğiniz gibi sözcük çorbaları oluyor.

EBMT (ÖDBÇ – Örneğe-Dayalı Bilgisayar Çevirisi) tekniğinde ise bu sorunlar yok. Ama başka sorunlar var… Ve 1990’ların başında yeterli Derlem (Corpus) ve bilgisayar gücü olmadığından, hazır SMT de ortaya çıkmışken, çoğu bilim adamı çalışmalarını SMT’ye kaydırdı ve EBMT bir biçimde oldukça geri planda kalmış oldu…

Çalışmaları sekteye uğratan bir başka nokta ise BLEU ölçümünün icadı oldu. BLEU, referans çevirilere bakarak Bilgisayar Çevirisinin başarısını ölçmeye çalışan bir yöntem. Bilgisayar çevirisinin ürettiği ardışık sözcük dizilerinin, daha önce bir insan tarafından çevilmiş referans çevirilerle karşılaştırılması ile elde edilip 0-1 veya 0-100 arasında temsil edilen bir sayı…

Ancak bir sorun var: SOV türü diller görece hareketli bir sözcük sırasına sahipler… Bir tek Yüklemin sonda olması, devrik cümle olmaması açısından önemli. Geri kalan sözcükler ise, yapısal özellikler eklerle zaten belirtilmiş olduğundan vurgulanmak istenen öğe yükleme yaklaşacak şekilde cümle içinde hemen her yerde olabilir… Örneğin şu meşhur reklamı anımsayalım: “Turkcell’le bağlan hayata… Hayata bağlan Turkcell’le… Bağlan Turkcell’le hayata… Bağlan hayata… vs. vs. …” Bunların hepsinde anlam aynı. Hepsi de doğru. Ancak BLEU ölçüsü yalnızca birini, çevirmenin tercih etmiş olduğu örneği doğru kabul edecek, diğerleri için 0 rakamını uygun görüp hatalı kabul edecektir…

İşte bu BLEU sorunu yüzünden de Türkçe gibi SOV dillere bilgisayar çevirilerinin SMT ile düzgün yapılması mümkün olamıyor. SMT Makine Çevirisi sistemleri eğitilirken kullanılan MERT (Minimum Error Rate Training) yönteminde BLEU ölçüsü kullanılıyor çünkü.

ÖDBÇ (EBMT) tekniğinde ise daha önce insanlar tarafından çevrilmiş örneklere bakılarak şablonlar ve çeviri parçacıkları sapanıp çıkarılıyor, ve çeviri anında en benzer şablona en benzer parçacıklar yapıştırılıyor… Bu teknik, belli bir konuya odaklanmış çevirilerde (sadece tıp, sadece elektronik, sadece bilgisayar oyunları, sadece yeni mobil teknolojiler, vs. vs. gibi dar bir alanda) oldukça başarılı çeviriler üretiyor… Konu dışına çıkıldığında ise neredeyse hiç çeviri üretemiyor. Ya hep, ya hiç… İşte bu aşağıdaki EBMT makaleleri listesinde bu teknik üzerine çalışmaları bulabileceğiz:

EBMT Makaleleri

Adetten olduğu üzere, Örneğe-Dayalı Bilgisayar Çevirisi yönteminin buluşçusu ile, konuya ilişkin ilk makale ile başlayalım:

(1984) Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle, Artificial and human intelligence: edited review papers presented at the international NATO Symposium, October 1981, Lyons, France; ed. A. Elithorn and R. Banerji. Amsterdam: North Holland, 1984; pp. 173-180. [PDF, 260KB]

Ve güncelliğine ve önemine göre başka makaleler:

(2010) Kim, J., Brown, R. and Carbonell, J. “Chunk-Based EBMT.” In Proceedings of the 14the Workshop of the European Association for Machine Translation, Raphael, France, 2010.

Bizden, getirdiği şablon saptama yöntemi sayesinde en çok atıf alan makalelerden, Sayın İlyas Çiçekli ile Altay Güvenir’in makaleleri:

(1998) H.Altay Güvenir & Ilyas Cicekli: Learning translation templates from examples. Information Systems, vol. 23, no.6; pp.353-363. [PDF, 51KB]

(2001) Ilyas Cicekli & H.Altay Güvenir: Learning translation templates from bilingual translation examples. Applied Intelligence, vol.15, no.1; pp.57-76.  [PDF, 251KB]

Birbirine oranlı benzerlikler (proportional analogies) yaklaşımı (Bu oldukça ilginç ve zekice bir yöntem; gelecek vaadediyor):

(2009) Harold Somers, Sandipan Dandapat, & Sundip Kumar Naskar: A review of EBMT using proportional analogies. Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009, Dublin City University, Dublin, Ireland, ed. Mikel L. Forcada [and] Andy Way; pp.53-60. [PDF, 337KB]

(2005) Yves Lepage & Etienne Denoual: The ‘purest’ EBMT system ever built: no variables, no templates, no training, examples, just examples, only examples MT Summit X, Phuket, Thailand, September 16, 2005, Proceedings of Second Workshop on Example-Based Machine Translation; pp.81-90. [PDF, 400KB]

(2005) Yves Lepage & Etienne Denoual: ALEPH: an EBMT system based on the preservation of proportional analogies between sentences across langauges. International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation [IWSLT 2005], 24-25 October, 2005, Pittsburgh, PA, USA; 8pp. [PDF, 388KB]

(2007) Yves Lepage & Adrien Lardilleux: The GREYC machine translation system for the IWSLT 2007 evaluation campaign. IWSLT 2007: International Workshop on Spoken Language Translation, 15-16 October 2007, Trento, Italy. 7pp. [PDF, 312KB]; presentation [PDF, 584KB]

(2009) Yves Lepage, Adrien Lardilleux, & Julien Gosme: The GREYC translation memory for the IWSLT 2009 evaluation campaign: one step beyond translation memory. IWSLT 2009: Proceedings of the International Workshop on Spoke n Language Translation, National Museum of Emerging Science and Innovation, Tokyo, Japan, December 1-2, 2009; pp. 45-49. [PDF, ];


Şablon temelli sistemlere örnek, Ralf Brown’un Pangloss’u… Giderek bir hibrit sisteme dönüşse de, içindeki EBMT modülü oturmuş bir sistem ve Açık Kaynak kodlu olarak Sourceforge’dan indirilebiliyor:

CMU-EBMT kaynak kodu: http://cmu-ebmt.sourceforge.net

(1994) Robert Frederking, Sergei Nirenburg, David Farwell, Steven Helmreich, Eduard Hovy, Kevin Knight, Stephen Beale, Constantine Domashnev, Donalee Attardo, Dean Grannes, & Ralf Brown: Integrating translations from multiple sources within the PANGLOSS Mark III machine translation system. Technology partnerships for crossing the language barrier: Proceedings of the First Conference of the Association for Machine Translation in the Americas,5-8 October, Columbia, Maryland, USA. [Washington, DC: AMTA]; pp. 73-80. [PDF, 137KB]

(2000) Ralf D.Brown: Automated generalization of translation examples. Coling 2000 in Europe: the 18th International Conference on Computational Linguistics. Proceedings of the conference, Universität des Saarlandes, Saarbrücken, Germany, 31 July -4 August 2000; pp. 125-131 [PDF,.650KB]

(2003) Ralf D. Brown, Rebecca Hutchinson, Paul N. Bennett, Jaime G. Carbonell, & Peter Jansen: Reducing boundary friction using translation-fragment overlap. MT Summit IX, New Orleans, USA, 23-27 September 2003; pp.24-31. [PDF, 117KB]


Karışık sırayla önemli başka EBMT konulu makaleler:

(2005) Sudip Kumar Naskar & Sivaji Bandyopadhyay: A phrasal EBMT system for translating English to Bengali. MT Summit X, Phuket, Thailand, September 13-15, 2005, Conference Proceedings: the tenth Machine Translation Summit; pp.372-379. [PDF, 263KB]

(2004) Gábor Hodász, Tamás Gröbler, & Balázs Kis: Translation memory as a robust example-based translation system 9th EAMT Workshop, “Broadening horizons of machine translation and its applications”, 26-27 April 2004, Malta; pp.82-89. [PDF, 227KB]


Geçen Kasım ayındaki EBMT konferansı bildirileri:

Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009 – Centre for Next Generation Localisation, Dublin City University, Dublin, Ireland; Edited by Mikel L. Forcada, Andy Way   http://www.mt-archive.info/EBMT-2009-TOC.htm

Bu listenin devamı gelecek. Yukarıdakilerin arasına ve/veya buradan aşağıya yeni eklemeler olacak.

Reklamlar

Read Full Post »

Karışık göründüğüne bakmayın… Anlattığımı yapması, buraya yazmasından daha kolay… Dikkatini verip iyice inceleyenler, çok çok sürpriz uygulama sahalarını da fark edecekler yöntemin ;) bir sır…

Web sitenize yüklenen bir makalenin özgün olup olmadığını, ya da sizin sitenizdeki makaleleri aşıranların kimler olduğunu otomatik olarak saptamanın bir yolu var.

Vektör Uzayı Modeli denen yöntemle makalelerin birbirlerine benzerliklerini karşılaştırabilirsiniz.

Bu yöntem şu şekilde kullanılıyor:

Önce makalelerin farklılıklarını temsil edebilecek bir sözcük listesi oluşturuyoruz. Bu liste, bir makalede sık geçen ama makaleler arasında az geçen sözcüklerden seçilerek oluşturuluyor. Sonra bu listeyi bir dizine alıyoruz, ve listedeki her bir sözcüğü sanki çok boyutlu bir vektörün değişkeni imişçesine işliyoruz. Bir makaledeki bu listede olan sözcüklerin görülme sıklıklarının 0-1 normalizasyonu bizim vektörümüzün katsayıları olacak.

Örneğin listemizde “fizik” sözcüğü varsa, ve 321 sözcüklük bir makalede 12 kez “fizik” geçiyorsa katsayımız: 12/321=0.0373831 olacak. Elimizdeki her makale için oluşturduğumuz listede bulunan sözcükler varsa bu katsayıları hesaplayıp bir dizine alıyoruz. Bu bizim çok boyutlu vektörümüz.

Malum, vektörler yön gösterir. Ok şekliyle ifade ederiz fizikte, matematikte zaten. İşte bu vektörleri elde ettikten sonra aynı yönü işaret edip etmediklerine bakıyoruz, aynı yöne doğru bakan vektörlerin temsil ettikleri makaleler benzerdir. Benzerlik oranı, iki vektörün arasındaki açıyla orantılı.

İki vektör arasındaki açıyı ise bu iki vektörün nokta çarpımını, vektörlerin determinantlarının çarpımına bölerek bulabiliriz. Bu bölüm bize açının kosinüsünü verecektir. Yani tam olarak aynı noktaya bakıyorlarsa 1, ortogonallerse, dik açı yapıyorlarsa 0 değerini alacağız.

Matematik ifadesi:

cos(açı) = vektör1 . vektör2 / (det(vektör1)*det(vektör2))

Örneğin vektör1, özgün olup olmadığını merak ettiğimiz makalenin vektörü olsun, vektör2’ler de sırayla daha önce web sitemize yüklenmiş makalelerin vektörleri olsun tek tek.

Ya da vektör1 sizin rakibiniz bir web sitesine yeni yüklenmiş bir makalenin vektörü, vektör2’ler de sırayla sizin sitenizdeki makalelerin vektörleri olabilir. Böylece rakip site sizden makale aşırdıysa bunu hemen anlayabilirsiniz.

Yapması anlatmasından daha kolay. Örnekliyorum:

(daha&helliip;)

Read Full Post »

Bask Dili

Baskça, bir tek Avrupa’nın Batısında konuşuluyor olsa da, sözdizimi kuralları açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Türkçe’ye benzer.

Bask dili ya da Baskça İspanya’nın Bask özerk bölgesindeki ve Fransa’nın Güney Batısında kalan Bask bölgesindeki Baskların konuştuğu dildir. Kendilerinin Euskara diye adlandırdıkları bu dile yalıtık dillerdendir denir (language isolate). Avrupa kıtasında Baskların kökeni veya akrabası olabilecek başka bir etnik grup veya dil ailesi bulunmadığından yalıtık diye nitelendirilmiş olsa da, Baskça sözdizimi kuralları (gramer) açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Yenisey Türkçesine benzer.

Tümce kuruluş yapıları ve kimi sözcükleri ise Türkçe’ye benzemektedir. Tümceler “özne – tümleçler – yüklem” biçimindedir. Yüklem Türkçe’deki gibi gizli özneyi de içerir. Gene adı gibi yüklem tümcenin hemen hemen tüm sentetik yükünü yüklenir, tıpkı Türkçe’deki gibi. Gene Çerkesce ve Türkçe’deki gibi vurgulanmak istenen noktalar yükleme yaklaştırılır. Ve gene benzer biçimde özneler eğer vurgu yapılmayacaksa çıkartılır. Türkçe’den farklı olaraksa özne, tümlece göre farklı ek almaktadır.

Abecesi fonetiktir. Birkaç harf dışında yazıldığı gibi okunur. Özgün Baskça’da c sesi kullanılmaz. rr ve ll uzun sesleri vardır, tx ç diye, tz ş diye okunur.

Birkaç Baskça sözcük örneği (Swadesh listesinden alıntı):

(daha&helliip;)

Read Full Post »

Bubba Kiki Etkisi

Bubba Kiki EtkisiTestere sözcüğünü söylerken niçin diliniz testere dişi gibi hareket ediyor?… Peki ya balon derken neden ağzınız yuvarlak şekiller alıyor?…

Dilin (lisanın) evriminde şekillerle sesler arasındaki soyut bağa işaret eden bubba-kiki etkisi psikolog Wolfgang Köhler tarafından 1929’da keşfedilmiştir. İlkin Tenerife adasında yapılan psikolojik deneylerde, Köhler insanlara biri keskin, testere dişi gibi hatlara sahip olan, diğeri de yuvarlak hatlara, kıvrımlara sahip olan iki şekil göstermiştir; ve Tenerife adasındaki (modern dünyadan soyut bir ada) dile göre hangi şeklin “takete” hangi şeklin de “baluba” sözcüğünü işaret ettiğini sormuştur. Bulgular keskin hatlı şekil için “takete”, yuvarlak hatlı şekil için de “baluba” sözcüğünün %95-%98 gibi bir oranla yeğlendiğini göstermiştir.

2001’de aynı deney Vilayanur S. Ramachandran ile Edward Hubbard tarafından “kiki” ve “bouba” (“bubba”) sözcükleriyle İngilizce ve Tamilce konuşan denekler üzerinde yinelendi. Denekler %98 oranında kıvrımlı şekli “bubba”, testere dişli şekli de “kiki” sözcüğü ile ilişkilendirdiler.

Bu durum beynin bir biçimde sesler ve şekiller arasında soyut bağlar kurduğunu gösteriyor. Daphne Maurer ve ark.’nın yeni çalışması 2.5 yaşındaki çocukların dahi bu davranışı gösterdiğini ortaya çıkarmıştır.

Ramachandran ile Hubbard, kiki/bubba etkisinin dilin evrimi üzerine etkili olduğunu, çünkü bu deneyin nesnelerin adlandırılmasının tamamiyle rastlantısal olmadığını gösterdiğini ifade etmişlerdir. Yuvarlaklı şeklin genelde “bubba” diye adlandırıldığını, çünkü dudakların da yuvarlak halde çıkardığı sesin “bubba” sözüne yakın olduğunu, benzer şekilde “kiki” sesini çıkarırken ağız açılı ve gergin olduğu için bu şekille eşleştiğini belirtmişlerdir. Ayrıca “k” sesi “b” sesinden daha sert ve güçlüdür.

Seslerin rastlantısal-olmayan bir biçimde nesne ve olaylarla/anılarla ilişkilendirildiği sinestezya benzeri bu eşleşme, ses sembolizminin temelinin nörolojik olabileceğini göstermektedir.

İlker Fıçıcılar
29.6.2009

Yedeği: Bu yazının bir yedeği http://www.izedebiyat.com/yazi.asp?id=90306 adresinde bulunabilir.

Read Full Post »