Beslemeler:
Yazılar
Yorumlar

EC Tercüme Bürosu’nun Şip Şak Çeviri diye bir sitesi var. Adresi: http://www.sipsakceviri.com/

Dil üzerine epeyi bir site inceleme fırsatım olduğu için rahatlıkla söyleyebilirim ki Türkiye’de bir eşi daha yok… Doğal dil algoritmaları, makinelerin insanları anlaması, anlambilim gibi alanlarda uğraştığımdan dil ile ilgili çeşitli tercüme siteleri, üniversitelerin yayın sayfaları, mt-archive.info gibi yerlere girip çıkmam gerekiyor. Ve gördüğüm kadarıyla EC Tercüme’ye az da olsa benzerbir firma Londra’da var, ve birkaç da ABD’de, hepsi o.

Peki farklı olan ne?.. Söyleyeyim: Yapay Zeka

Şip Şak Çeviri’de belli ki yapay zeka ve ileri programlama kullanılmış.

Öncelikle Türkiye’de başka hiçbir tercüme bürosunda öyle dosyayı yükleyeyim de hemen çeviri başlansın gibi bir hizmet yok… EC Tercüme gönderilen dosyanın ne olduğunu otomatik anlama işini başarmış.

Çalışma sistemi şöyle: Çevrilecek bir dosyanız var, belki ticari bir mektup belki bir akademik makale, belki bir ödev ya da belki bir CV… Bu dosyayı sitedeki ilgili formu kullanarak yüklüyorsunuz. Ve size bir fiyat ve süre verip soruyor: Çeviriye başlansın mı?

E ne var bunda değil mi?.. Şu var:

- Gönderdiğiniz dosyanın tipini anlıyor: PDF mi, DOC mu ne?.. E hadi bu da basit diyelim.

- Eğer bir sayfa taramış ve JPG olarak yüklemişseniz bunu düz yazıya dönüştürüp öyle yokluyor!… Hımm bu biraz zor işte… Başka?

- Gönderdiğiniz dosyanın dilini anlıyor!.. Nasıl yani değil mi?

- Kategorisini anlıyor!.. İşte bu da yukarıdaki gibi yapay zeka konularından. Burada olasılıkla bir classifier algoritması, Bayesian öğrenme algoritması gibi bir teknik kullanılmış.

- Sizi anımsıyor ve daha önce gönderdiğiniz konuya benzer konu ise indirim uyguluyor!!.. Hımm bunda da yukardaki gibi bir benzerlik bulma yöntemi, veya çok boyutlu vektör uzayı modellemesi kullanılmış olmalı… Giderek yüksek matematiğe el attılar farkındaysanız.

- Konuya en uygun çevirmen tahsisi yapılıyor… Gene benzer bir sınıflandırmaya ek olarak kaynak tahsis algoritması kullanılabilir.

- İmla hataları saptanıyor ve metin ne kadar hatasızsa o oranda indirim uygulanıyor!.. Hadi bunu basit bir veritabanı yoklaması ile yapabilirler diyeceğim, ama Türkçe sözcükler ekleriyle birlikte milyonlarca farklı şekle bürünüyor… Zemberek gibi açık kaynak kodlu yazım denetimi kodları da yavaş. Yüklenen dosyayı saniyesinde işlemden geçirdiğini düşünürsek burada bir sihir var diyebiliriz.

- Bir de metin zorluğu hesaplıyormuş. Bunu ise klasik bir istatistik sayımla yapıyor olabilirler. Ya da Dale Chall gibi ilköğretim çocuklarına uygun metin seçmede kullanılan çeşitli hesaplamalar var. Ama Türkçe için yok. Belki onlar kullanılıyordur… Ama metin ne kadar kolaysa, o kadar indirim deniyor, ve metnin kolaylığını zorluğunu bilgisayar saptıyor ki işte bu da yapay zeka konusu aslında.

Güzel oluyor bu tür ileri teknolojileri Türkiye’de görmek…

Geriye bir tek EC Tercüme Bürosu‘nun bu Şip Şak İngilizce Türkçe Çeviri sitesinin konuşması kalmış, utanmasa “Kahve ister misiniz çeviri yapılırken?” diyecek! :)

Ne var ne yok?

Patlayan Bilgisayar KarikatürüEski bir fıkradır:

Bir süperbilgisayar yapılmıştır, ne sorulsa yanıtlamaktadır… Her ülkeden bilim adamları gelir, bir şeyler sorar ve başarıyla yanıt alırlar bilgisayardan; ve bravo der çekilirler… Ve evet, sıra bize, bizim Temel’e gelir :)

Ve Temel bilgisayara sorar:

Ne var ne yok?

***

Ve bu soruyu bir deyim olarak algılamayan bilgisayar, bilgi saymaya, evrende var olan ve var olmayan her şeyi saymaya başlar…

Sayar… sayar… sayar… Ve dumanlar çıkararak patlar :)

***

Doğal dil ile çalışan, İngilizce ve Türkçe anlayan yanıt motoru Didikle de patlıyor!..

http://m.didikle.com/ adresine Firefox ile girip, Türkçe olarak

ne var ne yok?

diye sorarsanız :)

not: Didikle’de başka sürpriz yumurtalar da var! Keşfetmekse eğlenceli :)


[Sip Sak Ceviri]

Duru Dil Üzərinə

Dili razılaşmaq üçün istifadə edirik. Izah etmək istədiklərimiz var. Bunu isə ilk insanların yaptğı kimi əlimizlə, kolumuzla, burnumuzla gösterek deyil, danışaraq izah etmək istəyirik. Nə qədər duru, o qədər yaxşı:

“Əhməd, qaç!”

Yoxsa: “Sevgili dostum Əhməd, epeyidir namüsait bir təşəkkül bulunduğunuzda ifadə etmədə cəhd gösterememle nəticəsində meydana çıxan, söyləyə bilmədim ki, gerinizden şəxs-ı alinize sürətlə yaxınlaşmaqda olan pitbull terrier cinsinə aid bir Kəlb təhlükə ifadə edir olub, Sizin şəxsi basanlara dərz etmədə kes’in və də qərarlı bir görünüş ərz edirlər, halıyla, əlbət soruşar deyirsinizsə, şahsınıza tövsiyəm, dərhal mövcud mevkinizden yol alaraq təhlükəni aradan etmə səyi göstərməniz istiqamətindədir əfəndim “… mi deməli?

Duru dil bir lazımlılıq

Müxtəlif gündəlik danışıq yazıları üzərindəki hərf uzunluğu istatistiği 40-50 arası bir rəqəm göstərir. Yəni ortalama tümce uzunluğu 45 hərf. Ancaq, iş akademik yazılara, xəbərlərə, ədəbiyyat monologlarına gəlincə bu orta hesabla təxminən iki qatına çıxır. Səbəb: ədəbiyyat etmək!

İzah etmək istediklerimizi nə deyə aydın olmaz yazdığımızı sormayalım hələlik.Ancaq, aydın olmaq istəyiriksə; diyeceğimizi çoxu adam doğru anlasın istəyir isək mümkün duru danışmalı və yazmalıyız.

Əlbəttə, vaxt bunu umarsamadığını, lazım olsa öz-özünə danışmaq istədiyini söyləyənlər çıxacaq. Amma onsuz da öz-özünə danışanlara nə deyildiyini hamımız bilirik.

Duru bir dil ilə yazıb danışmaq üçün bunları edə bilərik:

- Cümlənin qısa tutmaq. Türkçe üçün 10-15, İngilis kimi bitişken olmayan dillər üçün 20 sözdən qısa tümce yazmaq faydalı.

- Ortaq sözləri seçmək: 70-80 milyon insanın danışdığı Türkiyə Türkcəsi ilə, 20-30 milyon insanın danışdığı Özbək Türkcəsi və 10-15 milyon insanın danışdığı Azəri türkcəsində ortaq istifadə edilən sözlər var. Məsələn, ‘çimərlik’ və ya ‘sahil’ demək yerinə qumlu demək, ‘lakin’ ‘lakin’ ‘amma’ yerinə ‘ancaq’ demək yazdıqlarımızı daha geniş kütlələr tərəfindən gələcəkdə də anlaşılma nisbətini artıracaq. Bundan başqa ortaq sözlər seçmək Türk dillərini də bir-birinə yaxınlaşdıracaq, gələcəkdə siyasi bir təzyiq gücü meydana gətirəcək bir-birlik meydana gətirmədə faydalı olacaq.

- Sözlərin daha qısa olan formalarını yeğlemek: Türkcədə 30.000 min qədər kök, təxminən 150 qədər əlavəsi müxtəlif sıralarla birdən çox dəfə ala bilir. Bir qisimi sözdizimsel (gramatik) baxımdan doğru olmasa da Türkcədə 100 milyondan daha çox bir söz forması meydana gətirə bilir.

Yenidən deyim: Üz milyondan daha çox söz forması var Türk dillərində. Bu böyük bir rəqəm. Dilini yeni öyrənənlər və ya Türkçe yazılardan mənalı məlumat parçaları ayıklamaya işləyən proqramların yaxşılığı üçün daha duru danışmalıyıq. Əgər bir sözü daha az əlavə, daha duru yazabiliyorsak, heç düşünmədən elə yazmalıyız.

- Gərəksiz sözləri elemek: Bu əslində Mark Twainin sözü. ”Bir cümlənin bir sözcüyü atabileceğinizi düşünürsünüzsə, daha çox düşünmədən atın”. İzah etmək istəniləni nə qədər az sözlə diyebilirsek o qədər yaxşı.

- Söz qaydalarına uyğun gəlmək: Türkcədə cümlənin yükünü, adı üstündə yüklem daşıyır. Yüklem isə tümce sonundasan. Sözlərin bu formadakı dizilimine uymaq əhəmiyyətli. Çox yeni dil “Özne-Hərəkət-tamamlıq” formasını alarkən, Türkçe, Sümerce, Koreya, Yapon kimi köhnə bilmə “Özne-tamamlıq-Hərəkət” formasındadır. Bu quruluşa tabe olmaq və qorumaq, yenə duru bir ifadə üçün lazım və vacib. Yəni: “neçə itdən Əhməd” deyil, “Əhməd itdən neçə” demək doğru.

Bu vaxt, bəziləri Əhmədə itlərdən qaçmağı deyil onları pak bir şəkildə başa düşməyi də öyrətməli. Kim bilər, bəlkə də o itin tək dərdi bir oyun idi! :)

İlker Fıçıcılar
 

Burada, Örneğe-Dayalı Bilgisayar Çevirisi (Example-Based Machine Translation) konulu Bilgisayarlı-Dilbilim makalelerini listelemeye çalışıyorum… Listenin zaman içinde büydüğünü görebilirsiniz… Konuyla ilgili iseniz ara ara uğrayıp yoklayabilirsiniz… Liste büyüyünce, ‘yeni eklenenler’ adıyla açacağım ayrı bir sayfadan da güncellemeleri görebilirsiniz.

Örneğe-Dayalı Bilgisayar Çevirisi, özellikle Türkçe konuşan biz 200-240 milyon kişiye ve gene benzer bitişimli (agglutinative) ve Özne-Tümleçler-Yüklem (SOV, Subject-Object-Verb) yapıdaki dünya dilleri için çok daha başarılı bir teknik. Bu SOV tipi diller azımsanmayacak çoklukta. Hintçe ve diğer Hint dilleri bu yapıda örneğin. Japonca ve Korece ise hem bitişimli ve SOV hem de Türkçe ile çok benzer kalıplara sahip… Sonra Çince, Mandarin her ne kadar fiil genelde önce diye SVO kabul edilse de tamlamalar, ki bunlar bilgisayar çevirisinde asıl sorunsal kısımlar, SOV dillerdeki gibi.

Dünya Anglo-Sakson değil… Türk dilleri dünyada en yaygın konuşulan 5. dil… Ve Google Translate’in çerçöp çevirisinden de görebileceğimiz gibi yapısal bir derinliği olmadığından, çok fazla istisnai kurallara sahip Anglo-Sakson dilden, İngiliz dilinden Türkçe’ye ve diğer dünya dillerine yapılan çeviriler çok kötü bir kalitede.

2010 itibariyle günümüzde yaygın Bilgisayar Çevirisi tekniği İstatistiksel Bilgisayar Çevirisi (SMT). Bu teknik Hispanik dillerde görece bir başarı sağlıyorken, sözcük dizimi baştan aşağı farklı olan diğer dünya dilleri karşısında oldukça başarısız…

Bunun birkaç sebebi var: Bitişimli diller (Türkçe, Korece, Japonca, Fince, Macarca, …) çok daha fazla sözcüğe sahip ve GIZA++ sözcük eşleme koduyla yapılan sözcük eşlemeleri Avrupa dileri ile Bitişimli diller arasında eşleme (alignment) yaparken çok fazla boş-eşleme (null-alignment) ve yanlış eşleme yapıyor. Bir diğer sebep de, SOV diller ile SVO diller arasındaki sözcük diziminin cümle uzadıkça oldukça farklılaşması. Bu durum ise, SMT tekniğinde Dil Modellemsine bakarak doğru cümleyi kurmaya çalışması için çok daha fazla bir olasılık uzayını taramasını (beam search) gerektiriyor. Pratikte ise bu çok zaman alıcı bir süreç ve tarama işlemi belli bir süre geçilince, kullanıcyı bekletmemek adına kesiliyor… Sonuç ise Google Translate’te görebileceğiniz gibi sözcük çorbaları oluyor.

EBMT (ÖDBÇ – Örneğe-Dayalı Bilgisayar Çevirisi) tekniğinde ise bu sorunlar yok. Ama başka sorunlar var… Ve 1990′ların başında yeterli Derlem (Corpus) ve bilgisayar gücü olmadığından, hazır SMT de ortaya çıkmışken, çoğu bilim adamı çalışmalarını SMT’ye kaydırdı ve EBMT bir biçimde oldukça geri planda kalmış oldu…

Çalışmaları sekteye uğratan bir başka nokta ise BLEU ölçümünün icadı oldu. BLEU, referans çevirilere bakarak Bilgisayar Çevirisinin başarısını ölçmeye çalışan bir yöntem. Bilgisayar çevirisinin ürettiği ardışık sözcük dizilerinin, daha önce bir insan tarafından çevilmiş referans çevirilerle karşılaştırılması ile elde edilip 0-1 veya 0-100 arasında temsil edilen bir sayı…

Ancak bir sorun var: SOV türü diller görece hareketli bir sözcük sırasına sahipler… Bir tek Yüklemin sonda olması, devrik cümle olmaması açısından önemli. Geri kalan sözcükler ise, yapısal özellikler eklerle zaten belirtilmiş olduğundan vurgulanmak istenen öğe yükleme yaklaşacak şekilde cümle içinde hemen her yerde olabilir… Örneğin şu meşhur reklamı anımsayalım: “Turkcell’le bağlan hayata… Hayata bağlan Turkcell’le… Bağlan Turkcell’le hayata… Bağlan hayata… vs. vs. …” Bunların hepsinde anlam aynı. Hepsi de doğru. Ancak BLEU ölçüsü yalnızca birini, çevirmenin tercih etmiş olduğu örneği doğru kabul edecek, diğerleri için 0 rakamını uygun görüp hatalı kabul edecektir…

İşte bu BLEU sorunu yüzünden de Türkçe gibi SOV dillere bilgisayar çevirilerinin SMT ile düzgün yapılması mümkün olamıyor. SMT Makine Çevirisi sistemleri eğitilirken kullanılan MERT (Minimum Error Rate Training) yönteminde BLEU ölçüsü kullanılıyor çünkü.

ÖDBÇ (EBMT) tekniğinde ise daha önce insanlar tarafından çevrilmiş örneklere bakılarak şablonlar ve çeviri parçacıkları sapanıp çıkarılıyor, ve çeviri anında en benzer şablona en benzer parçacıklar yapıştırılıyor… Bu teknik, belli bir konuya odaklanmış çevirilerde (sadece tıp, sadece elektronik, sadece bilgisayar oyunları, sadece yeni mobil teknolojiler, vs. vs. gibi dar bir alanda) oldukça başarılı çeviriler üretiyor… Konu dışına çıkıldığında ise neredeyse hiç çeviri üretemiyor. Ya hep, ya hiç… İşte bu aşağıdaki EBMT makaleleri listesinde bu teknik üzerine çalışmaları bulabileceğiz:

EBMT Makaleleri

Adetten olduğu üzere, Örneğe-Dayalı Bilgisayar Çevirisi yönteminin buluşçusu ile, konuya ilişkin ilk makale ile başlayalım:

(1984) Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle, Artificial and human intelligence: edited review papers presented at the international NATO Symposium, October 1981, Lyons, France; ed. A. Elithorn and R. Banerji. Amsterdam: North Holland, 1984; pp. 173-180. [PDF, 260KB]

Ve güncelliğine ve önemine göre başka makaleler:

(2010) Kim, J., Brown, R. and Carbonell, J. “Chunk-Based EBMT.” In Proceedings of the 14the Workshop of the European Association for Machine Translation, Raphael, France, 2010.

Bizden, getirdiği şablon saptama yöntemi sayesinde en çok atıf alan makalelerden, Sayın İlyas Çiçekli ile Altay Güvenir’in makaleleri:

(1998) H.Altay Güvenir & Ilyas Cicekli: Learning translation templates from examples. Information Systems, vol. 23, no.6; pp.353-363. [PDF, 51KB]

(2001) Ilyas Cicekli & H.Altay Güvenir: Learning translation templates from bilingual translation examples. Applied Intelligence, vol.15, no.1; pp.57-76.  [PDF, 251KB]

Birbirine oranlı benzerlikler (proportional analogies) yaklaşımı (Bu oldukça ilginç ve zekice bir yöntem; gelecek vaadediyor):

(2009) Harold Somers, Sandipan Dandapat, & Sundip Kumar Naskar: A review of EBMT using proportional analogies. Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009, Dublin City University, Dublin, Ireland, ed. Mikel L. Forcada [and] Andy Way; pp.53-60. [PDF, 337KB]

(2005) Yves Lepage & Etienne Denoual: The ‘purest’ EBMT system ever built: no variables, no templates, no training, examples, just examples, only examples MT Summit X, Phuket, Thailand, September 16, 2005, Proceedings of Second Workshop on Example-Based Machine Translation; pp.81-90. [PDF, 400KB]

(2005) Yves Lepage & Etienne Denoual: ALEPH: an EBMT system based on the preservation of proportional analogies between sentences across langauges. International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation [IWSLT 2005], 24-25 October, 2005, Pittsburgh, PA, USA; 8pp. [PDF, 388KB]

(2007) Yves Lepage & Adrien Lardilleux: The GREYC machine translation system for the IWSLT 2007 evaluation campaign. IWSLT 2007: International Workshop on Spoken Language Translation, 15-16 October 2007, Trento, Italy. 7pp. [PDF, 312KB]; presentation [PDF, 584KB]

(2009) Yves Lepage, Adrien Lardilleux, & Julien Gosme: The GREYC translation memory for the IWSLT 2009 evaluation campaign: one step beyond translation memory. IWSLT 2009: Proceedings of the International Workshop on Spoke n Language Translation, National Museum of Emerging Science and Innovation, Tokyo, Japan, December 1-2, 2009; pp. 45-49. [PDF, ];


Şablon temelli sistemlere örnek, Ralf Brown’un Pangloss’u… Giderek bir hibrit sisteme dönüşse de, içindeki EBMT modülü oturmuş bir sistem ve Açık Kaynak kodlu olarak Sourceforge’dan indirilebiliyor:

CMU-EBMT kaynak kodu: http://cmu-ebmt.sourceforge.net

(1994) Robert Frederking, Sergei Nirenburg, David Farwell, Steven Helmreich, Eduard Hovy, Kevin Knight, Stephen Beale, Constantine Domashnev, Donalee Attardo, Dean Grannes, & Ralf Brown: Integrating translations from multiple sources within the PANGLOSS Mark III machine translation system. Technology partnerships for crossing the language barrier: Proceedings of the First Conference of the Association for Machine Translation in the Americas,5-8 October, Columbia, Maryland, USA. [Washington, DC: AMTA]; pp. 73-80. [PDF, 137KB]

(2000) Ralf D.Brown: Automated generalization of translation examples. Coling 2000 in Europe: the 18th International Conference on Computational Linguistics. Proceedings of the conference, Universität des Saarlandes, Saarbrücken, Germany, 31 July -4 August 2000; pp. 125-131 [PDF,.650KB]

(2003) Ralf D. Brown, Rebecca Hutchinson, Paul N. Bennett, Jaime G. Carbonell, & Peter Jansen: Reducing boundary friction using translation-fragment overlap. MT Summit IX, New Orleans, USA, 23-27 September 2003; pp.24-31. [PDF, 117KB]


Karışık sırayla önemli başka EBMT konulu makaleler:

(2005) Sudip Kumar Naskar & Sivaji Bandyopadhyay: A phrasal EBMT system for translating English to Bengali. MT Summit X, Phuket, Thailand, September 13-15, 2005, Conference Proceedings: the tenth Machine Translation Summit; pp.372-379. [PDF, 263KB]

(2004) Gábor Hodász, Tamás Gröbler, & Balázs Kis: Translation memory as a robust example-based translation system 9th EAMT Workshop, “Broadening horizons of machine translation and its applications”, 26-27 April 2004, Malta; pp.82-89. [PDF, 227KB]


Geçen Kasım ayındaki EBMT konferansı bildirileri:

Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009 – Centre for Next Generation Localisation, Dublin City University, Dublin, Ireland; Edited by Mikel L. Forcada, Andy Way   http://www.mt-archive.info/EBMT-2009-TOC.htm

Bu listenin devamı gelecek. Yukarıdakilerin arasına ve/veya buradan aşağıya yeni eklemeler olacak.

Karışık göründüğüne bakmayın… Anlattığımı yapması, buraya yazmasından daha kolay… Dikkatini verip iyice inceleyenler, çok çok sürpriz uygulama sahalarını da fark edecekler yöntemin ;) bir sır…

Web sitenize yüklenen bir makalenin özgün olup olmadığını, ya da sizin sitenizdeki makaleleri aşıranların kimler olduğunu otomatik olarak saptamanın bir yolu var.

Vektör Uzayı Modeli denen yöntemle makalelerin birbirlerine benzerliklerini karşılaştırabilirsiniz.

Bu yöntem şu şekilde kullanılıyor:

Önce makalelerin farklılıklarını temsil edebilecek bir sözcük listesi oluşturuyoruz. Bu liste, bir makalede sık geçen ama makaleler arasında az geçen sözcüklerden seçilerek oluşturuluyor. Sonra bu listeyi bir dizine alıyoruz, ve listedeki her bir sözcüğü sanki çok boyutlu bir vektörün değişkeni imişçesine işliyoruz. Bir makaledeki bu listede olan sözcüklerin görülme sıklıklarının 0-1 normalizasyonu bizim vektörümüzün katsayıları olacak.

Örneğin listemizde “fizik” sözcüğü varsa, ve 321 sözcüklük bir makalede 12 kez “fizik” geçiyorsa katsayımız: 12/321=0.0373831 olacak. Elimizdeki her makale için oluşturduğumuz listede bulunan sözcükler varsa bu katsayıları hesaplayıp bir dizine alıyoruz. Bu bizim çok boyutlu vektörümüz.

Malum, vektörler yön gösterir. Ok şekliyle ifade ederiz fizikte, matematikte zaten. İşte bu vektörleri elde ettikten sonra aynı yönü işaret edip etmediklerine bakıyoruz, aynı yöne doğru bakan vektörlerin temsil ettikleri makaleler benzerdir. Benzerlik oranı, iki vektörün arasındaki açıyla orantılı.

İki vektör arasındaki açıyı ise bu iki vektörün nokta çarpımını, vektörlerin determinantlarının çarpımına bölerek bulabiliriz. Bu bölüm bize açının kosinüsünü verecektir. Yani tam olarak aynı noktaya bakıyorlarsa 1, ortogonallerse, dik açı yapıyorlarsa 0 değerini alacağız.

Matematik ifadesi:

cos(açı) = vektör1 . vektör2 / (det(vektör1)*det(vektör2))

Örneğin vektör1, özgün olup olmadığını merak ettiğimiz makalenin vektörü olsun, vektör2′ler de sırayla daha önce web sitemize yüklenmiş makalelerin vektörleri olsun tek tek.

Ya da vektör1 sizin rakibiniz bir web sitesine yeni yüklenmiş bir makalenin vektörü, vektör2′ler de sırayla sizin sitenizdeki makalelerin vektörleri olabilir. Böylece rakip site sizden makale aşırdıysa bunu hemen anlayabilirsiniz.

Yapması anlatmasından daha kolay. Örnekliyorum:

Okumaya Devam »

Bask Dili

Baskça, bir tek Avrupa’nın Batısında konuşuluyor olsa da, sözdizimi kuralları açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Türkçe’ye benzer.

Bask dili ya da Baskça İspanya’nın Bask özerk bölgesindeki ve Fransa’nın Güney Batısında kalan Bask bölgesindeki Baskların konuştuğu dildir. Kendilerinin Euskara diye adlandırdıkları bu dile yalıtık dillerdendir denir (language isolate). Avrupa kıtasında Baskların kökeni veya akrabası olabilecek başka bir etnik grup veya dil ailesi bulunmadığından yalıtık diye nitelendirilmiş olsa da, Baskça sözdizimi kuralları (gramer) açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Yenisey Türkçesine benzer.

Tümce kuruluş yapıları ve kimi sözcükleri ise Türkçe’ye benzemektedir. Tümceler “özne – tümleçler – yüklem” biçimindedir. Yüklem Türkçe’deki gibi gizli özneyi de içerir. Gene adı gibi yüklem tümcenin hemen hemen tüm sentetik yükünü yüklenir, tıpkı Türkçe’deki gibi. Gene Çerkesce ve Türkçe’deki gibi vurgulanmak istenen noktalar yükleme yaklaştırılır. Ve gene benzer biçimde özneler eğer vurgu yapılmayacaksa çıkartılır. Türkçe’den farklı olaraksa özne, tümlece göre farklı ek almaktadır.

Abecesi fonetiktir. Birkaç harf dışında yazıldığı gibi okunur. Özgün Baskça’da c sesi kullanılmaz. rr ve ll uzun sesleri vardır, tx ç diye, tz ş diye okunur.

Birkaç Baskça sözcük örneği (Swadesh listesinden alıntı):

Okumaya Devam »

Bubba Kiki Etkisi

Bubba Kiki EtkisiTestere sözcüğünü söylerken niçin diliniz testere dişi gibi hareket ediyor?… Peki ya balon derken neden ağzınız yuvarlak şekiller alıyor?…

Dilin (lisanın) evriminde şekillerle sesler arasındaki soyut bağa işaret eden bubba-kiki etkisi psikolog Wolfgang Köhler tarafından 1929′da keşfedilmiştir. İlkin Tenerife adasında yapılan psikolojik deneylerde, Köhler insanlara biri keskin, testere dişi gibi hatlara sahip olan, diğeri de yuvarlak hatlara, kıvrımlara sahip olan iki şekil göstermiştir; ve Tenerife adasındaki (modern dünyadan soyut bir ada) dile göre hangi şeklin “takete” hangi şeklin de “baluba” sözcüğünü işaret ettiğini sormuştur. Bulgular keskin hatlı şekil için “takete”, yuvarlak hatlı şekil için de “baluba” sözcüğünün %95-%98 gibi bir oranla yeğlendiğini göstermiştir.

2001′de aynı deney Vilayanur S. Ramachandran ile Edward Hubbard tarafından “kiki” ve “bouba” (“bubba”) sözcükleriyle İngilizce ve Tamilce konuşan denekler üzerinde yinelendi. Denekler %98 oranında kıvrımlı şekli “bubba”, testere dişli şekli de “kiki” sözcüğü ile ilişkilendirdiler.

Bu durum beynin bir biçimde sesler ve şekiller arasında soyut bağlar kurduğunu gösteriyor. Daphne Maurer ve ark.’nın yeni çalışması 2.5 yaşındaki çocukların dahi bu davranışı gösterdiğini ortaya çıkarmıştır.

Ramachandran ile Hubbard, kiki/bubba etkisinin dilin evrimi üzerine etkili olduğunu, çünkü bu deneyin nesnelerin adlandırılmasının tamamiyle rastlantısal olmadığını gösterdiğini ifade etmişlerdir. Yuvarlaklı şeklin genelde “bubba” diye adlandırıldığını, çünkü dudakların da yuvarlak halde çıkardığı sesin “bubba” sözüne yakın olduğunu, benzer şekilde “kiki” sesini çıkarırken ağız açılı ve gergin olduğu için bu şekille eşleştiğini belirtmişlerdir. Ayrıca “k” sesi “b” sesinden daha sert ve güçlüdür.

Seslerin rastlantısal-olmayan bir biçimde nesne ve olaylarla/anılarla ilişkilendirildiği sinestezya benzeri bu eşleşme, ses sembolizminin temelinin nörolojik olabileceğini göstermektedir.

İlker Fıçıcılar
29.6.2009

Yedeği: Bu yazının bir yedeği http://www.izedebiyat.com/yazi.asp?id=90306 adresinde bulunabilir.

Sözlük Yazarının Dimağı

Acaba ortaklaşa hazırlanan bir edebiyat, sanat, felsefe ve bilim sözlüğünün sözlük yazarlarının dimağında kaç sözcük var? Hani öyle ya, derler hani insan gün içinde 300′den fazla farklı sözcük kullanmaz diye.

Bakalım, sözlük yazarları kaç sözcük biliyor ve gün içinde kullanıyormuş!

Şimdi, linux işletim sisteminin bize sağladığı güzelliklerden yararlanarak sözlüğü sözcüklerine bölüyoruz önce. Noktalama işaretlerinden yalnızca kesme işaretini bırakarak geri kalan her noktalamayı ve rakamları silerek yalnızca sözcükleri bırakacak şekilde, regexp denen süzme yöntemiyle bir ayıklama yapıyoruz. Büyük harfleri küçüklere dönüştürüyoruz. Sonra bunlardan yinelenen sözcükleri eliyor ve bilgisayara saydırıyoruz elimizde kaç farklı sözcük biçimi var diye:

Sonuç: 397377

Yaklaşık 400 bin farklı sözcük biçimi kullanılmış sözlükte.

Yalnız bunlardan az da olsa bir kısmı, şarkı sözlerinden kalma ingilizce sözcükler. Bir miktarı da özel ad. Eğer büyük harfleri küçüklere dönüştürmeden sayarsak yaklaşık 430 bin sözcük sayıyor. Bu 30 bin farkın bir kısmı ise cümle başı sözcüklerinin ilk harfleri. Bir cümle ortalama 13 sözcük. Sözlükte, 14 ayda birikmiş toplam 4 milyon kadar sözcük vardı. Yani yaklaşık 300 bin tümce. Farklı sözcük sayımız toplamın yüzde 10 kadarı olduğuna göre 30 bin kadar ilk harfi büyük cümle başı sözcüğümüz var. Elbette bunlar yaklaşık hesaplar. Az önceki büyük harf küçük harf farklı sözcük sayıları arasındaki 30 binlik fark ile bu tahmini 30 binlik rakam bize özel isimlerin önemli bir yekün tutmadığını gösteriyor. Öyleyse yaklaşık 400 bin farklı sözcük kullanılmış iddiamıza devam edebiliriz.

Elbette bu 400 bin sözcük biçimi türkçe’nin eklemli bir dil olmasından ötürü leksikal anlamda farklı sözcüklere işaret etmiyor. Şimdi ortalama kaç sözcük formunun kullanıldığını anlamaya çalışalım. Kimi sözcükler, özellikle de yüklemler epeyi biçime giriyor. Bir örnek:

Açabildi, açabildiği, açabileceği, açabileceğim, açabileceğimiz, açabileceğini, açabilecek, açabilecekleri, açabilecekti,
Açabilen, açabilenler
Açabilir, açabilirdi, açabilirdim, açabilirim, açabilirken, açabilirsin, açabilirsiniz, açabiliyor
Açabilme, açabilmek, açabilmekle, açabilmektedir, açabilmektir
Açabilmeli, açabilmeliler, açabilmenin, açabilmesi, açabilseydim

Eh.. Ben de “işin içinde çıkabilseydim” diyeyim bari. :)

İnat edelim gene de: Bu yukarıdaki örnekte değişmeyen tek kısım grubundaki ilk 7 harf. “açabilen-” dışındakilerse fiil halleri. Toplam iki anlam var yani bu 29 sözcük biçimi arasında. Bu arada “açık-” ile başlayan 311 sözcük biçimi var. Ancak çoğu sözcük bu kadar biçimde değil elbette. “amansız”, “amade”, “andaç(ı)”, … Genelde en çok i, e, de, den halleri ve bunların çoğulları görülüyor. Yüklemlerse az önceki gibi gayet çeşitlenebiliyor… Türkçe’de kökler isim yapan ek aldıktan sonra genelde 5-6 harf uzunluğuna erişiyor. Yabancı dillerden gelen terimlerse biraz daha uzun ancak az. Yine de bunlar da ilk 5-6 harfiyle ayırt edilebiliyor. Bu şu demek: elimizdeki 400.000 sözcüğün ilk 6 harften sonrasını kesip atarsak, ortalama olarak farklı anlama sahip sözcük sayısını bulmaya yaklaşabiliyoruz. Deneyelim:

Sonuç: 133271 farklı leksikal grup.

Acaba bu çok mu fazla oldu! bir de ilk 5 harfi farklı olanları sayalım:

Sonuç: 82425 farklı grup.

Her ikisi de günde 300 farklı sözcük kullanan insandan epeyi fazla.

Burada, bir internet sözlüğünde bir yazar, yaklaşık 100 bin farklı anlamda sözcüğü gayet güzel bir şekilde kullanıyor gibi görünüyor. Sadece okumuyor, dimağındaki bu sözcükleri yazıyor sivil sözlük yazarı.

E güzeeel.

İlker Fıçıcılar
1 Temmuz 2010

Çevrilebilir Yazı Yazmak

Yazılarımızı çok daha geniş bir hedef kitleye ulaştırmak için kontrollü bir dille yazı yazmak oldukça önemli.

Şimdilerde giderek daha fazla oranda ‘makine çevirisi’ kullanır olduk. Gerek Babil Türk sitesi yardımıyla olsun, gerek Google Translate yardımıyla olsun, çoğu yabancı dildeki siteyi anlayabiliyoruz artık. Aynı şekilde, bizim Türkçe yazdıklarımızı da yabancıların okuyabilmesi için, yazılarımızı BabilTurk ve Google’ın doğru anlayıp çevirebileceği bir biçimde yazmamız önemli. Aksi halde bu makine tercümesi metinleri okumak zor olabilir.

İleride belki bu makine çevirileri çok daha kaliteli olacak, ama o an gelene kadar makine çevirisi kalitesini arttırmak için yapabileceğiniz bazı şeyler var.

Düşünce basit: ‘duru dil’ / ‘kontrollü dil’ denen yazı yazma ipuçlarını kullanarak yanlış çevirileri ve garip cümlelerden oluşmuş sonuçları epeyce azaltabilirsiniz.

Peki ‘duru dil’ ile ne demek istiyoruz? Aslında bir yazarın yazısına düşünce çorbası değil de hassas bir aletmişçesine yaklaşmasıdır sadece. İyi teknik yazarlar zaten böyle yöntemler kullanırlar: yazılarını standartlaştırır, basitleştirir, düzeltir ve kısaltırlar.

Açıkçası, her dil kendine özgü bir dizi kurala gerek duyar. Ancak, yine de çoğu dünya dili için geçerli olan çekirdek bir kurallar dizisi de vardır…

 

  1. İmlânızın doğru olduğundan emin olun. Örneğin Babil Türk online bir yazım denetimi aracı sunuyor. Benzer şekilde OpenOffice veya MS Word de F7 tuşu ile çalışan yazım düzeltme özelliğine sahipler.
  2. Sade bir dil kullanın. Örneğin …
  3. Doğrusu: arabayı sürün

    Yanlışı: motorlu aracın götürgecini tepikleyin

  4. Yaklaşık 25 veya daha az sözcükten oluşan kısa cümleler kurun.
  5. Her tümce yalnızca bir kavram açıklasın. Örneğin…
  6. Doğrusu: Açık ve sade yazmak makine çevirisini daha güvenilir yapar. Güvenilir bir çeviri daha kolay anlaşılır olacaktır.

    Yanlışı: Açık ve sade yazış makine tercümesini daha güvenilir kılar ve haliyle bu daha kolay anlaşılır olacaktır.

  7. Yazarken, düzgün ve tamamlanmış, tam tümceler kurun. Örneğin…
  8. Doğrusu: Kahvenize süt tozu da ister misiniz?

    Yanlışı: Süt tozu?

  9. Benzer düşünceleri anlatırken tutarlı bir dil kullanın. Örneğin…
  10. Doğrusu: Yağmurluyken, işe araba ile giderim. Güneşliyken, işe bisiklet ile giderim.

    Yanlışı: Yağmurluyken, işe araba ile giderim. Güneş ışıldarkense, velespitimle varırım işime.

  11. Zamirleri kullanmaktansa isimleri tekrarlayın. Örneğin…
  12. Doğrusu: Mektubu göndermeden önce mektuba bir pul yapıştırın.

    Yanlışı: Mektubu göndermeden önce ona bir pul yapıştırın.

  13. Pasif, edilgen, devrik tümce biçimleri yerine, aktif tümceler kurun. Örneğin…
  14. Doğrusu: Babam size bir bayram kartpostalı yollayacak.

    Yanlışı: Bir bayram kartpostalı size yollanacak.

  15. İsimleri belirtmek için “bu”, “şu”, “o”, “böyle”… gibi gösterme sıfatlarını kullanın. Örneğin…
  16. Doğrusu: Bu arabayı alın.

    Yanlışı: Arabayı alın.

  17. Karman çorman bir biçimde yazmayın! Cümlelerinizi mantıklı, aşamalı bir biçimde oluşturun. Örneğin…
  18. Doğrusu: Halınızı temizleyip tozlarını almak için bir elektrikli süpürge kullanın.

    Yanlışı: Bir elektrikli süpürgeden yararlanarak, ki halı temiz olsun diye, tozları üstünden çekebilirsiniz. (Hmmmm. Halı süpürülecek yani…)

     

    Lütfen bunların yalnızca kılavuz amaçlı olduğunu hatırda tutun: Bu tür katı kurallar kimi yazı tarzları için uygun değildir. Örneğin edebiyat, tekdüze bir yazı tarzı sevmez. Bunlar şiire veya yaratıcı reklam metinlerine de uygulanamaz. Ama zaten bu tür metinleri de gerçek çevirmenlere çevirtmek gerekir, makinelere değil.

    Dolayısıyla, “duru dil”, “kontrollü dil” özellikle teknik yazılarda çok işe yarar. Örneğin bir web günlüğü yazısına, teknik bir açıklamaya veya çabuk tüketilecek teknoloji haberlerine oldukça uygundur.

    Bu önerileri akıldan çıkarmadan, seçici olmak kaydıyla çok başarılı makine çevirisi sonuçları elde edebilir, yazdıklarınızı Türkçe bilmeyen dünyanın geri kalanına da doğru bir biçimde ulaştırabilirsiniz.

     

    Bu yazı aşağıda kaynak kısmında belirtilen “Writing for translation” adlı yazının genişletilmiş ve ülkemize uyarlanmış bir çevirisidir.

    İlker Fıçıcılar
    4 Şubat 2008

     

    Kaynak:

    Ek bilgi

     

Anlam Bilim Dilleri ve Anlambilim Dili Çözümleme Üzerine Düşünceler – 1

İlker Fıçıcılar
30 Ekim 2008

1. Önerme: Her karmaşık ifade daha az karmaşık ifadelerin birleşimi ile ifade edilebilir.

karmaşık ifade = ifade 1 (işlem) ifade2 [ (işlem) ifade 3 ... ]

örnek: “Her karmaşık ifade daha az karmaşık ifadelerin birleşimi ile ifade edilebilir.”

olgu-1 = her karmaşık ifade = tümlemi( karmaşık (ifade) )

olgu-2 = olgu-1 anlatılabilir =  anlatmak kapsar olgu-1

olgu-3 = olgu-1 – daha_az(karmaşık)

olgu-4 = tümlemi(olgu-3)

olgu-5 = olgu-4 anlatir olgu-1

Bu olgular super-set bir anlambilim dili ile ifade edildiğinde, örnekte verilen cümleyi harhangi bir başka dilde anlambilim-çözücü bir algoritma ile yeniden ifade etmek mümkün olacaktır.

Anlambilim-çözücüden kasıt, şu örnek ifade-etme ve yeniden ifade-etme ile görülebilir:

Türkçe cümle: “Bir kadın insandır.”

olguluk-1: kadın tanımlanacak

olguluk-2: kadın sayılabilir bir kavram

olguluk-3: insan üst kümesi kadın alt-kümesini kapsıyor

Bunu DRS anlambilim dili ile yazarsak:

[A, B, C]
object(A, kadın, sayılabilir, na, eq, 1)-1
object(B, insan, sayılabilir, na, eq, 1)-1
predicate(C, eşittir, A, B)-1

Veya OWL anlambilim dili ile:

Ontology(
ClassAssertion(
Class(:kadın)      AnonymousIndividual(1)   )
ClassAssertion(      Class(:human)      AnonymousIndividual(2)   )
SameIndividual(      AnonymousIndividual(1)      AnonymousIndividual(2)   ))

Veya OWL RDF ile:

<?xml version=”1.0″ encoding=”UTF-8″?>
<rdf:RDF
xmlns:owl=”http://www.w3.org/2002/07/owl#”
xmlns:owl11=”http://www.w3.org/2006/12/owl11#”
xmlns:swrl=”http://www.w3.org/2003/11/swrl#”
xmlns:swrlb=”http://www.w3.org/2003/11/swrlb#”
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”
xmlns:rdfs=”http://www.w3.org/2000/01/rdf-schema#”>
<owl:Ontology rdf:about=”"/>
<owl:Thing rdf:nodeID=”id1″>
<rdf:type>      <owl:Class rdf:about=”#kadın”/>    </rdf:type>  </owl:Thing>
<owl:Thing rdf:nodeID=”id2″>
<rdf:type>      <owl:Class rdf:about=”#insan”/>    </rdf:type>  </owl:Thing>  <owl:Thing rdf:nodeID=”id1″>
<owl:sameAs rdf:nodeID=”id2″/>  </owl:Thing></rdf:RDF>

Tabii günümüzdeki bu anlambilim dilleri henüz bir süper-set olmaktan uzak. Yine de gidilecek yola ilişkin fikir veriyorlar.

Bu diller, WordNet gibi bir veritabanı ile ilişkilendirildikten sonra her dilde yeniden ifade-etme işlemlerinde kullanılabilirler.

Söze-dökme diyebileceğimiz bu işlem için her dile özgü bir çözücü yazılmalıdır.

Bu anlambilim dillerinde fiiller dilin içine gömülü olduğundan genellikle bir tek isimlerin sözcük karşılıklarına bakmak kalıyor.

Örneğin yukarıdaki OWL dilindeki metin dillere de ilgili dilin çözücüsü ile aktarılacaktır:

Okumaya Devam »

Eski Gönderiler »

Follow

Get every new post delivered to your Inbox.