Feeds:
Yazılar
Yorumlar

İyi bir yazı yayınlanmış EC Tercüme Bürosu’nun Şip Şak Çeviri sitesinde. Kullanılan Türkçe’yi durulaştırmanın ve biraz özen göstermenin oldukça büyük bir fark yarattığı madde madde gösterilmiş.

Yazı, “Anlam bozukluklukları, uzun tümceler, yazım yanlışları ve belirsiz ifadeler Türkçe’den İngilizce’ye çeviri hızını düşürüp tercüme fiyatının ise artmasına yol açıyor” cümlesiyle başlayarak amacı tek bir cümleyle özetliyor: Düzgün Türkçe ile çeviri fiyatı düşer, tercüme teslim süresi kısalır.

Şip Şak Çeviri’nin yazısı, cümle uzunluğunun en önemli etmen olduğunu belirtmiş. Ucuz çeviri fiyatları için cümlelerin kısa olması gerektiği ısrarla vurgulanıyor: “Cümleleriniz ne kadar kısa olursa yanlış yapma olasılığınız da o derece azalmakta. Üstelik bir cümle ne kadar kolay anlaşılırsa o kadar da hızlı çevriliyor. Ve ne kadar hızlı çevrilirse o kadar da ucuz oluyor.”

Tercüme fiyatı ile süresine etki eden bu anlam bozukluğu ve uzun cümlelere ilişkin örnekleri şu adresteki bu yazıda örnekleriyle birlikte madde madde bulabilirsiniz:

http://www.sipsakceviri.com/makale/daha-hizli-ve-daha-ucuz-bir-ceviri-icin-daha-iyi-bir-turkce

Daha hızlı ve daha ucuz bir çeviri için bu yazıdaki maddeleri baştan sona dikkatlice okuyup uygulamak. Anlam bozukluklarını giderip uzun cümleleri kısalttıkça tasarruf edeceksiniz çünkü; hem zamandan hem de paradan.

EC Tercüme Bürosu’nun Şip Şak Çeviri diye bir sitesi var. Adresi: http://www.sipsakceviri.com/

Dil üzerine epeyi bir site inceleme fırsatım olduğu için rahatlıkla söyleyebilirim ki Türkiye’de bir eşi daha yok… Doğal dil algoritmaları, makinelerin insanları anlaması, anlambilim gibi alanlarda uğraştığımdan dil ile ilgili çeşitli tercüme siteleri, üniversitelerin yayın sayfaları, mt-archive.info gibi yerlere girip çıkmam gerekiyor. Ve gördüğüm kadarıyla EC Tercüme’ye az da olsa benzerbir firma Londra’da var, ve birkaç da ABD’de, hepsi o.

Peki farklı olan ne?.. Söyleyeyim: Yapay Zeka

Şip Şak Çeviri’de belli ki yapay zeka ve ileri programlama kullanılmış.

Öncelikle Türkiye’de başka hiçbir tercüme bürosunda öyle dosyayı yükleyeyim de hemen çeviri başlansın gibi bir hizmet yok… EC Tercüme gönderilen dosyanın ne olduğunu otomatik anlama işini başarmış.

Çalışma sistemi şöyle: Çevrilecek bir dosyanız var, belki ticari bir mektup belki bir akademik makale, belki bir ödev ya da belki bir CV… Bu dosyayı sitedeki ilgili formu kullanarak yüklüyorsunuz. Ve size bir fiyat ve süre verip soruyor: Çeviriye başlansın mı?

E ne var bunda değil mi?.. Şu var:

– Gönderdiğiniz dosyanın tipini anlıyor: PDF mi, DOC mu ne?.. E hadi bu da basit diyelim.

– Eğer bir sayfa taramış ve JPG olarak yüklemişseniz bunu düz yazıya dönüştürüp öyle yokluyor!… Hımm bu biraz zor işte… Başka?

– Gönderdiğiniz dosyanın dilini anlıyor!.. Nasıl yani değil mi?

Kategorisini anlıyor!.. İşte bu da yukarıdaki gibi yapay zeka konularından. Burada olasılıkla bir classifier algoritması, Bayesian öğrenme algoritması gibi bir teknik kullanılmış.

– Sizi anımsıyor ve daha önce gönderdiğiniz konuya benzer konu ise indirim uyguluyor!!.. Hımm bunda da yukardaki gibi bir benzerlik bulma yöntemi, veya çok boyutlu vektör uzayı modellemesi kullanılmış olmalı… Giderek yüksek matematiğe el attılar farkındaysanız.

– Konuya en uygun çevirmen tahsisi yapılıyor… Gene benzer bir sınıflandırmaya ek olarak kaynak tahsis algoritması kullanılabilir.

– İmla hataları saptanıyor ve metin ne kadar hatasızsa o oranda indirim uygulanıyor!.. Hadi bunu basit bir veritabanı yoklaması ile yapabilirler diyeceğim, ama Türkçe sözcükler ekleriyle birlikte milyonlarca farklı şekle bürünüyor… Zemberek gibi açık kaynak kodlu yazım denetimi kodları da yavaş. Yüklenen dosyayı saniyesinde işlemden geçirdiğini düşünürsek burada bir sihir var diyebiliriz.

– Bir de metin zorluğu hesaplıyormuş. Bunu ise klasik bir istatistik sayımla yapıyor olabilirler. Ya da Dale Chall gibi ilköğretim çocuklarına uygun metin seçmede kullanılan çeşitli hesaplamalar var. Ama Türkçe için yok. Belki onlar kullanılıyordur… Ama metin ne kadar kolaysa, o kadar indirim deniyor, ve metnin kolaylığını zorluğunu bilgisayar saptıyor ki işte bu da yapay zeka konusu aslında.

Güzel oluyor bu tür ileri teknolojileri Türkiye’de görmek…

Geriye bir tek EC Tercüme Bürosu‘nun bu Şip Şak İngilizce Türkçe Çeviri sitesinin konuşması kalmış, utanmasa “Kahve ister misiniz çeviri yapılırken?” diyecek! :)

Ne var ne yok?

Patlayan Bilgisayar KarikatürüEski bir fıkradır:

Bir süperbilgisayar yapılmıştır, ne sorulsa yanıtlamaktadır… Her ülkeden bilim adamları gelir, bir şeyler sorar ve başarıyla yanıt alırlar bilgisayardan; ve bravo der çekilirler… Ve evet, sıra bize, bizim Temel’e gelir :)

Ve Temel bilgisayara sorar:

Ne var ne yok?

***

Ve bu soruyu bir deyim olarak algılamayan bilgisayar, bilgi saymaya, evrende var olan ve var olmayan her şeyi saymaya başlar…

Sayar… sayar… sayar… Ve dumanlar çıkararak patlar :)

***

Doğal dil ile çalışan, İngilizce ve Türkçe anlayan yanıt motoru Didikle de patlıyor!..

http://m.didikle.com/ adresine Firefox ile girip, Türkçe olarak

ne var ne yok?

diye sorarsanız :)

not: Didikle’de başka sürpriz yumurtalar da var! Keşfetmekse eğlenceli :)


[Sip Sak Ceviri]

Duru Dil Üzərinə

Dili razılaşmaq üçün istifadə edirik. Izah etmək istədiklərimiz var. Bunu isə ilk insanların yaptğı kimi əlimizlə, kolumuzla, burnumuzla gösterek deyil, danışaraq izah etmək istəyirik. Nə qədər duru, o qədər yaxşı:

“Əhməd, qaç!”

Yoxsa: “Sevgili dostum Əhməd, epeyidir namüsait bir təşəkkül bulunduğunuzda ifadə etmədə cəhd gösterememle nəticəsində meydana çıxan, söyləyə bilmədim ki, gerinizden şəxs-ı alinize sürətlə yaxınlaşmaqda olan pitbull terrier cinsinə aid bir Kəlb təhlükə ifadə edir olub, Sizin şəxsi basanlara dərz etmədə kes’in və də qərarlı bir görünüş ərz edirlər, halıyla, əlbət soruşar deyirsinizsə, şahsınıza tövsiyəm, dərhal mövcud mevkinizden yol alaraq təhlükəni aradan etmə səyi göstərməniz istiqamətindədir əfəndim “… mi deməli?

Duru dil bir lazımlılıq

Müxtəlif gündəlik danışıq yazıları üzərindəki hərf uzunluğu istatistiği 40-50 arası bir rəqəm göstərir. Yəni ortalama tümce uzunluğu 45 hərf. Ancaq, iş akademik yazılara, xəbərlərə, ədəbiyyat monologlarına gəlincə bu orta hesabla təxminən iki qatına çıxır. Səbəb: ədəbiyyat etmək!

İzah etmək istediklerimizi nə deyə aydın olmaz yazdığımızı sormayalım hələlik.Ancaq, aydın olmaq istəyiriksə; diyeceğimizi çoxu adam doğru anlasın istəyir isək mümkün duru danışmalı və yazmalıyız.

Əlbəttə, vaxt bunu umarsamadığını, lazım olsa öz-özünə danışmaq istədiyini söyləyənlər çıxacaq. Amma onsuz da öz-özünə danışanlara nə deyildiyini hamımız bilirik.

Duru bir dil ilə yazıb danışmaq üçün bunları edə bilərik:

– Cümlənin qısa tutmaq. Türkçe üçün 10-15, İngilis kimi bitişken olmayan dillər üçün 20 sözdən qısa tümce yazmaq faydalı.

– Ortaq sözləri seçmək: 70-80 milyon insanın danışdığı Türkiyə Türkcəsi ilə, 20-30 milyon insanın danışdığı Özbək Türkcəsi və 10-15 milyon insanın danışdığı Azəri türkcəsində ortaq istifadə edilən sözlər var. Məsələn, ‘çimərlik’ və ya ‘sahil’ demək yerinə qumlu demək, ‘lakin’ ‘lakin’ ‘amma’ yerinə ‘ancaq’ demək yazdıqlarımızı daha geniş kütlələr tərəfindən gələcəkdə də anlaşılma nisbətini artıracaq. Bundan başqa ortaq sözlər seçmək Türk dillərini də bir-birinə yaxınlaşdıracaq, gələcəkdə siyasi bir təzyiq gücü meydana gətirəcək bir-birlik meydana gətirmədə faydalı olacaq.

– Sözlərin daha qısa olan formalarını yeğlemek: Türkcədə 30.000 min qədər kök, təxminən 150 qədər əlavəsi müxtəlif sıralarla birdən çox dəfə ala bilir. Bir qisimi sözdizimsel (gramatik) baxımdan doğru olmasa da Türkcədə 100 milyondan daha çox bir söz forması meydana gətirə bilir.

Yenidən deyim: Üz milyondan daha çox söz forması var Türk dillərində. Bu böyük bir rəqəm. Dilini yeni öyrənənlər və ya Türkçe yazılardan mənalı məlumat parçaları ayıklamaya işləyən proqramların yaxşılığı üçün daha duru danışmalıyıq. Əgər bir sözü daha az əlavə, daha duru yazabiliyorsak, heç düşünmədən elə yazmalıyız.

– Gərəksiz sözləri elemek: Bu əslində Mark Twainin sözü. “Bir cümlənin bir sözcüyü atabileceğinizi düşünürsünüzsə, daha çox düşünmədən atın”. İzah etmək istəniləni nə qədər az sözlə diyebilirsek o qədər yaxşı.

– Söz qaydalarına uyğun gəlmək: Türkcədə cümlənin yükünü, adı üstündə yüklem daşıyır. Yüklem isə tümce sonundasan. Sözlərin bu formadakı dizilimine uymaq əhəmiyyətli. Çox yeni dil “Özne-Hərəkət-tamamlıq” formasını alarkən, Türkçe, Sümerce, Koreya, Yapon kimi köhnə bilmə “Özne-tamamlıq-Hərəkət” formasındadır. Bu quruluşa tabe olmaq və qorumaq, yenə duru bir ifadə üçün lazım və vacib. Yəni: “neçə itdən Əhməd” deyil, “Əhməd itdən neçə” demək doğru.

Bu vaxt, bəziləri Əhmədə itlərdən qaçmağı deyil onları pak bir şəkildə başa düşməyi də öyrətməli. Kim bilər, bəlkə də o itin tək dərdi bir oyun idi! :)

İlker Fıçıcılar
 

Burada, Örneğe-Dayalı Bilgisayar Çevirisi (Example-Based Machine Translation) konulu Bilgisayarlı-Dilbilim makalelerini listelemeye çalışıyorum… Listenin zaman içinde büydüğünü görebilirsiniz… Konuyla ilgili iseniz ara ara uğrayıp yoklayabilirsiniz… Liste büyüyünce, ‘yeni eklenenler’ adıyla açacağım ayrı bir sayfadan da güncellemeleri görebilirsiniz.

Örneğe-Dayalı Bilgisayar Çevirisi, özellikle Türkçe konuşan biz 200-240 milyon kişiye ve gene benzer bitişimli (agglutinative) ve Özne-Tümleçler-Yüklem (SOV, Subject-Object-Verb) yapıdaki dünya dilleri için çok daha başarılı bir teknik. Bu SOV tipi diller azımsanmayacak çoklukta. Hintçe ve diğer Hint dilleri bu yapıda örneğin. Japonca ve Korece ise hem bitişimli ve SOV hem de Türkçe ile çok benzer kalıplara sahip… Sonra Çince, Mandarin her ne kadar fiil genelde önce diye SVO kabul edilse de tamlamalar, ki bunlar bilgisayar çevirisinde asıl sorunsal kısımlar, SOV dillerdeki gibi.

Dünya Anglo-Sakson değil… Türk dilleri dünyada en yaygın konuşulan 5. dil… Ve Google Translate’in çerçöp çevirisinden de görebileceğimiz gibi yapısal bir derinliği olmadığından, çok fazla istisnai kurallara sahip Anglo-Sakson dilden, İngiliz dilinden Türkçe’ye ve diğer dünya dillerine yapılan çeviriler çok kötü bir kalitede.

2010 itibariyle günümüzde yaygın Bilgisayar Çevirisi tekniği İstatistiksel Bilgisayar Çevirisi (SMT). Bu teknik Hispanik dillerde görece bir başarı sağlıyorken, sözcük dizimi baştan aşağı farklı olan diğer dünya dilleri karşısında oldukça başarısız…

Bunun birkaç sebebi var: Bitişimli diller (Türkçe, Korece, Japonca, Fince, Macarca, …) çok daha fazla sözcüğe sahip ve GIZA++ sözcük eşleme koduyla yapılan sözcük eşlemeleri Avrupa dileri ile Bitişimli diller arasında eşleme (alignment) yaparken çok fazla boş-eşleme (null-alignment) ve yanlış eşleme yapıyor. Bir diğer sebep de, SOV diller ile SVO diller arasındaki sözcük diziminin cümle uzadıkça oldukça farklılaşması. Bu durum ise, SMT tekniğinde Dil Modellemsine bakarak doğru cümleyi kurmaya çalışması için çok daha fazla bir olasılık uzayını taramasını (beam search) gerektiriyor. Pratikte ise bu çok zaman alıcı bir süreç ve tarama işlemi belli bir süre geçilince, kullanıcyı bekletmemek adına kesiliyor… Sonuç ise Google Translate’te görebileceğiniz gibi sözcük çorbaları oluyor.

EBMT (ÖDBÇ – Örneğe-Dayalı Bilgisayar Çevirisi) tekniğinde ise bu sorunlar yok. Ama başka sorunlar var… Ve 1990’ların başında yeterli Derlem (Corpus) ve bilgisayar gücü olmadığından, hazır SMT de ortaya çıkmışken, çoğu bilim adamı çalışmalarını SMT’ye kaydırdı ve EBMT bir biçimde oldukça geri planda kalmış oldu…

Çalışmaları sekteye uğratan bir başka nokta ise BLEU ölçümünün icadı oldu. BLEU, referans çevirilere bakarak Bilgisayar Çevirisinin başarısını ölçmeye çalışan bir yöntem. Bilgisayar çevirisinin ürettiği ardışık sözcük dizilerinin, daha önce bir insan tarafından çevilmiş referans çevirilerle karşılaştırılması ile elde edilip 0-1 veya 0-100 arasında temsil edilen bir sayı…

Ancak bir sorun var: SOV türü diller görece hareketli bir sözcük sırasına sahipler… Bir tek Yüklemin sonda olması, devrik cümle olmaması açısından önemli. Geri kalan sözcükler ise, yapısal özellikler eklerle zaten belirtilmiş olduğundan vurgulanmak istenen öğe yükleme yaklaşacak şekilde cümle içinde hemen her yerde olabilir… Örneğin şu meşhur reklamı anımsayalım: “Turkcell’le bağlan hayata… Hayata bağlan Turkcell’le… Bağlan Turkcell’le hayata… Bağlan hayata… vs. vs. …” Bunların hepsinde anlam aynı. Hepsi de doğru. Ancak BLEU ölçüsü yalnızca birini, çevirmenin tercih etmiş olduğu örneği doğru kabul edecek, diğerleri için 0 rakamını uygun görüp hatalı kabul edecektir…

İşte bu BLEU sorunu yüzünden de Türkçe gibi SOV dillere bilgisayar çevirilerinin SMT ile düzgün yapılması mümkün olamıyor. SMT Makine Çevirisi sistemleri eğitilirken kullanılan MERT (Minimum Error Rate Training) yönteminde BLEU ölçüsü kullanılıyor çünkü.

ÖDBÇ (EBMT) tekniğinde ise daha önce insanlar tarafından çevrilmiş örneklere bakılarak şablonlar ve çeviri parçacıkları sapanıp çıkarılıyor, ve çeviri anında en benzer şablona en benzer parçacıklar yapıştırılıyor… Bu teknik, belli bir konuya odaklanmış çevirilerde (sadece tıp, sadece elektronik, sadece bilgisayar oyunları, sadece yeni mobil teknolojiler, vs. vs. gibi dar bir alanda) oldukça başarılı çeviriler üretiyor… Konu dışına çıkıldığında ise neredeyse hiç çeviri üretemiyor. Ya hep, ya hiç… İşte bu aşağıdaki EBMT makaleleri listesinde bu teknik üzerine çalışmaları bulabileceğiz:

EBMT Makaleleri

Adetten olduğu üzere, Örneğe-Dayalı Bilgisayar Çevirisi yönteminin buluşçusu ile, konuya ilişkin ilk makale ile başlayalım:

(1984) Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle, Artificial and human intelligence: edited review papers presented at the international NATO Symposium, October 1981, Lyons, France; ed. A. Elithorn and R. Banerji. Amsterdam: North Holland, 1984; pp. 173-180. [PDF, 260KB]

Ve güncelliğine ve önemine göre başka makaleler:

(2010) Kim, J., Brown, R. and Carbonell, J. “Chunk-Based EBMT.” In Proceedings of the 14the Workshop of the European Association for Machine Translation, Raphael, France, 2010.

Bizden, getirdiği şablon saptama yöntemi sayesinde en çok atıf alan makalelerden, Sayın İlyas Çiçekli ile Altay Güvenir’in makaleleri:

(1998) H.Altay Güvenir & Ilyas Cicekli: Learning translation templates from examples. Information Systems, vol. 23, no.6; pp.353-363. [PDF, 51KB]

(2001) Ilyas Cicekli & H.Altay Güvenir: Learning translation templates from bilingual translation examples. Applied Intelligence, vol.15, no.1; pp.57-76.  [PDF, 251KB]

Birbirine oranlı benzerlikler (proportional analogies) yaklaşımı (Bu oldukça ilginç ve zekice bir yöntem; gelecek vaadediyor):

(2009) Harold Somers, Sandipan Dandapat, & Sundip Kumar Naskar: A review of EBMT using proportional analogies. Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009, Dublin City University, Dublin, Ireland, ed. Mikel L. Forcada [and] Andy Way; pp.53-60. [PDF, 337KB]

(2005) Yves Lepage & Etienne Denoual: The ‘purest’ EBMT system ever built: no variables, no templates, no training, examples, just examples, only examples MT Summit X, Phuket, Thailand, September 16, 2005, Proceedings of Second Workshop on Example-Based Machine Translation; pp.81-90. [PDF, 400KB]

(2005) Yves Lepage & Etienne Denoual: ALEPH: an EBMT system based on the preservation of proportional analogies between sentences across langauges. International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation [IWSLT 2005], 24-25 October, 2005, Pittsburgh, PA, USA; 8pp. [PDF, 388KB]

(2007) Yves Lepage & Adrien Lardilleux: The GREYC machine translation system for the IWSLT 2007 evaluation campaign. IWSLT 2007: International Workshop on Spoken Language Translation, 15-16 October 2007, Trento, Italy. 7pp. [PDF, 312KB]; presentation [PDF, 584KB]

(2009) Yves Lepage, Adrien Lardilleux, & Julien Gosme: The GREYC translation memory for the IWSLT 2009 evaluation campaign: one step beyond translation memory. IWSLT 2009: Proceedings of the International Workshop on Spoke n Language Translation, National Museum of Emerging Science and Innovation, Tokyo, Japan, December 1-2, 2009; pp. 45-49. [PDF, ];


Şablon temelli sistemlere örnek, Ralf Brown’un Pangloss’u… Giderek bir hibrit sisteme dönüşse de, içindeki EBMT modülü oturmuş bir sistem ve Açık Kaynak kodlu olarak Sourceforge’dan indirilebiliyor:

CMU-EBMT kaynak kodu: http://cmu-ebmt.sourceforge.net

(1994) Robert Frederking, Sergei Nirenburg, David Farwell, Steven Helmreich, Eduard Hovy, Kevin Knight, Stephen Beale, Constantine Domashnev, Donalee Attardo, Dean Grannes, & Ralf Brown: Integrating translations from multiple sources within the PANGLOSS Mark III machine translation system. Technology partnerships for crossing the language barrier: Proceedings of the First Conference of the Association for Machine Translation in the Americas,5-8 October, Columbia, Maryland, USA. [Washington, DC: AMTA]; pp. 73-80. [PDF, 137KB]

(2000) Ralf D.Brown: Automated generalization of translation examples. Coling 2000 in Europe: the 18th International Conference on Computational Linguistics. Proceedings of the conference, Universität des Saarlandes, Saarbrücken, Germany, 31 July -4 August 2000; pp. 125-131 [PDF,.650KB]

(2003) Ralf D. Brown, Rebecca Hutchinson, Paul N. Bennett, Jaime G. Carbonell, & Peter Jansen: Reducing boundary friction using translation-fragment overlap. MT Summit IX, New Orleans, USA, 23-27 September 2003; pp.24-31. [PDF, 117KB]


Karışık sırayla önemli başka EBMT konulu makaleler:

(2005) Sudip Kumar Naskar & Sivaji Bandyopadhyay: A phrasal EBMT system for translating English to Bengali. MT Summit X, Phuket, Thailand, September 13-15, 2005, Conference Proceedings: the tenth Machine Translation Summit; pp.372-379. [PDF, 263KB]

(2004) Gábor Hodász, Tamás Gröbler, & Balázs Kis: Translation memory as a robust example-based translation system 9th EAMT Workshop, “Broadening horizons of machine translation and its applications”, 26-27 April 2004, Malta; pp.82-89. [PDF, 227KB]


Geçen Kasım ayındaki EBMT konferansı bildirileri:

Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 12-13 November 2009 – Centre for Next Generation Localisation, Dublin City University, Dublin, Ireland; Edited by Mikel L. Forcada, Andy Way   http://www.mt-archive.info/EBMT-2009-TOC.htm

Bu listenin devamı gelecek. Yukarıdakilerin arasına ve/veya buradan aşağıya yeni eklemeler olacak.

Karışık göründüğüne bakmayın… Anlattığımı yapması, buraya yazmasından daha kolay… Dikkatini verip iyice inceleyenler, çok çok sürpriz uygulama sahalarını da fark edecekler yöntemin ;) bir sır…

Web sitenize yüklenen bir makalenin özgün olup olmadığını, ya da sizin sitenizdeki makaleleri aşıranların kimler olduğunu otomatik olarak saptamanın bir yolu var.

Vektör Uzayı Modeli denen yöntemle makalelerin birbirlerine benzerliklerini karşılaştırabilirsiniz.

Bu yöntem şu şekilde kullanılıyor:

Önce makalelerin farklılıklarını temsil edebilecek bir sözcük listesi oluşturuyoruz. Bu liste, bir makalede sık geçen ama makaleler arasında az geçen sözcüklerden seçilerek oluşturuluyor. Sonra bu listeyi bir dizine alıyoruz, ve listedeki her bir sözcüğü sanki çok boyutlu bir vektörün değişkeni imişçesine işliyoruz. Bir makaledeki bu listede olan sözcüklerin görülme sıklıklarının 0-1 normalizasyonu bizim vektörümüzün katsayıları olacak.

Örneğin listemizde “fizik” sözcüğü varsa, ve 321 sözcüklük bir makalede 12 kez “fizik” geçiyorsa katsayımız: 12/321=0.0373831 olacak. Elimizdeki her makale için oluşturduğumuz listede bulunan sözcükler varsa bu katsayıları hesaplayıp bir dizine alıyoruz. Bu bizim çok boyutlu vektörümüz.

Malum, vektörler yön gösterir. Ok şekliyle ifade ederiz fizikte, matematikte zaten. İşte bu vektörleri elde ettikten sonra aynı yönü işaret edip etmediklerine bakıyoruz, aynı yöne doğru bakan vektörlerin temsil ettikleri makaleler benzerdir. Benzerlik oranı, iki vektörün arasındaki açıyla orantılı.

İki vektör arasındaki açıyı ise bu iki vektörün nokta çarpımını, vektörlerin determinantlarının çarpımına bölerek bulabiliriz. Bu bölüm bize açının kosinüsünü verecektir. Yani tam olarak aynı noktaya bakıyorlarsa 1, ortogonallerse, dik açı yapıyorlarsa 0 değerini alacağız.

Matematik ifadesi:

cos(açı) = vektör1 . vektör2 / (det(vektör1)*det(vektör2))

Örneğin vektör1, özgün olup olmadığını merak ettiğimiz makalenin vektörü olsun, vektör2’ler de sırayla daha önce web sitemize yüklenmiş makalelerin vektörleri olsun tek tek.

Ya da vektör1 sizin rakibiniz bir web sitesine yeni yüklenmiş bir makalenin vektörü, vektör2’ler de sırayla sizin sitenizdeki makalelerin vektörleri olabilir. Böylece rakip site sizden makale aşırdıysa bunu hemen anlayabilirsiniz.

Yapması anlatmasından daha kolay. Örnekliyorum:

Okumaya Devam »

Bask Dili

Baskça, bir tek Avrupa’nın Batısında konuşuluyor olsa da, sözdizimi kuralları açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Türkçe’ye benzer.

Bask dili ya da Baskça İspanya’nın Bask özerk bölgesindeki ve Fransa’nın Güney Batısında kalan Bask bölgesindeki Baskların konuştuğu dildir. Kendilerinin Euskara diye adlandırdıkları bu dile yalıtık dillerdendir denir (language isolate). Avrupa kıtasında Baskların kökeni veya akrabası olabilecek başka bir etnik grup veya dil ailesi bulunmadığından yalıtık diye nitelendirilmiş olsa da, Baskça sözdizimi kuralları (gramer) açısından Adige ve Kabardey Çerkesce’sine, bir ölçüde Gürcüce’ye ve kısmen de Yenisey Türkçesine benzer.

Tümce kuruluş yapıları ve kimi sözcükleri ise Türkçe’ye benzemektedir. Tümceler “özne – tümleçler – yüklem” biçimindedir. Yüklem Türkçe’deki gibi gizli özneyi de içerir. Gene adı gibi yüklem tümcenin hemen hemen tüm sentetik yükünü yüklenir, tıpkı Türkçe’deki gibi. Gene Çerkesce ve Türkçe’deki gibi vurgulanmak istenen noktalar yükleme yaklaştırılır. Ve gene benzer biçimde özneler eğer vurgu yapılmayacaksa çıkartılır. Türkçe’den farklı olaraksa özne, tümlece göre farklı ek almaktadır.

Abecesi fonetiktir. Birkaç harf dışında yazıldığı gibi okunur. Özgün Baskça’da c sesi kullanılmaz. rr ve ll uzun sesleri vardır, tx ç diye, tz ş diye okunur.

Birkaç Baskça sözcük örneği (Swadesh listesinden alıntı):

Okumaya Devam »