• Ana Sayfa
  • Dil Bağlantıları
  • Dosya İndirme
  • Hakkında
  • Makaleler

DİL ÜZERİNE

Dil üzerine deneysel çalışmalar ve bilgiler

Feeds:
Yazılar
Yorumlar

Bilgisayar Çevirisi İyileştirmeleri

12 Temmuz 2008 dilmac tarafından

Otomatik çeviri programlarını kıyaslamak üzere “Bilgisayar Çevirisi Karşılaştırmaları” başlıklı bir yazıya başlamış, ama hemencevir.com sitesinin aslında Pro Çeviri programını kullanan bir arayüz olduğunu fark edince karşılaştırma yazısını yarıda kesmiştim. Bu kopya web sitesi konusundaki incelemeyi “HemenÇeviri ile Pro Çeviri Karşılaştırması” başlıklı dilüzerine.wordpress.com yazısında bulabilirsiniz.

Bu yazıda en eski ve en yaygın kullanılan İngilizce’den Türkçe’ye makine çevirisi programı Pro Çeviri’nin daha iyi çeviri yapabilmesi için gerekli noktaları saptamayı deneyelim. Buradaki çoğu bilgi diğer çeviri programlarında da işe yarayacaktır.

Öncelikle deneme yapmakta kullanılacak cümleleri seçiyorum. Pro Çeviri’nin demo sürümü p, r ve s harfleriyle başlayan sözcükleri çevirmediğinden bir ekitaptan böyle sözcükler içermeyen cümleleri ayıklayarak seçtim. Linux kullanıyorum; bu ayıklamayı yapmak linux/unix ile kolay:

cat Tomczyk,Michael.-The_Home_Computer_Wars.txt |tr -d “15″|sed “s/\([\.\?\!]\) /\1\n\n/g;s/ / /g;s/ / /g;s/ / /g;s/^ //g;s/ $//g;”|grep -v -i -e “[ -][prs]” -e “^[prs]“|grep “[[:alpha:]]”

Örnek kitap olarak “Ev bilgisayarı savaşları” adlı İngilizce ekitabı seçtim. Bu kitap 80′lerdeki Commodore, Atari, Apple, Sinclair vs. arasındaki tatlı rekabeti anlatan güzel bir kitap.

Denemelere başlayalım. Önce soru kalıplarından bir iki çeviri deneyelim:

İng: How do I get from the hotel to the Dallas office?

PÇ:  Ben, otelden Dallas ofisine nasıl olurum?

‘Olmak’ eylemi burada olmadı. Hemen Pro Çeviri’nin Tercüme -> Seçenekler -> Tercüme menüsüne girip “Çevirdikten sonra anlam seçme moduna geç.” seçeneğini işaretleyip bir daha çevirtelim. Bu ikinci denemede ‘olurum’ yüklemi koyu renkle yazılmış olacak. Üstüne tıklayınca ‘varırım’ yüklemini de önerdiğini göreceğiz. Buna çift tıkladıktan sonra onay (v) tuşuna tıklayarak çeviriyi bitirelim. Şimdi sonuç şöyle oldu:

PÇ: Ben, otelden Dallas ofisine nasıl varırım?

Evet biraz daha anlamlı oldu. Ama ‘Ben’ silinip ‘varırım’ yerine ‘gidebilirim’ denseydi daha iyi olurdu; ‘do’ yerine ‘can’ kullanmadıkça bu olası değil tabii. Ancak hiç değilse şu can sıkıcı çift iyelikten kurtulalım; ‘varırım‘ derken zaten ‘ben’ demiş olduk, bir de cümle başında tekrarlayıp tümceyi çirkinleştirmesek:

echo “Ben, otelden Dallas ofisine nasıl varırım?”|sed “s/^\(Ben, \)\(.*\)m?/\2m?/g;”

unix: otelden Dallas ofisine nasıl varırım?

Neyse ki Pardus Linux imdadımıza yetişti. Basit bir düzenli-ifade (regexp) kuralıyla sorunu giderdik. Artık ‘Ben’le başlayıp ‘m?’ ile biten bütün sorulardaki gereksiz ‘Ben’ler silinecek.

Benzer bir başka cümle ile deneyelim:

İng: How do I do that?

PÇ: Ben, onu nasıl yaparım?

Linux: onu nasıl yaparım?

Bu sonuca Tercüme -> Seçenekler -> Tercüme -> Gelişmiş menüsünden “Özne zamirleri ayrıca gösterme” seçeneğini seçerek de ulaşabiliyoruz aslında. Yine de Linux ile regexp kullanımına ısınmakta yarar var; çünkü çok daha esnek başka değişiklikler yapmamız gerekecek.

Şimdi ufak bir değişiklikle aynı tümce kalıbını tekrarlayalım:

İng: How do you do that?

PÇ: Nasılsınız o?

Haydi buyrun bakalım. ‘I’ yerine ‘you’ dedik ve Pro Çeviri saçmaladı. Sorun buradaki ‘How do you do’nun bir kalıp olması. Ama iyi de tümce orada bitmiyor ki, devam ediyor. Çeviri ‘Onu nasıl yaparsın?’ türünde bir şaşkınlık ifadesi olmalıydı; oysa program bize tuhaf tuhaf hatır soruyor! Bu sorunu ne yazık ki ayarlarla oynayarak düzeltemiyoruz. Sırayla her sözcükten sonra virgül koyarak deneyelim, bakalım ne olacak:

Nasıl, onu yapar mısın?
Nasıl yapar, onu yaparsın?
Nasıl yaparsın, öyle değil mi?
Nasılsınız, o?

Ne yazık ki işe yaramadı. İlk ‘do’ yerine ‘can’ koysak?

İng: How can you do that?

PÇ: Onu nasıl yapabilirsin?

Şimdi oldu. Bir çeviri ön-işlemesi olarak ‘do you do’ yerine ‘can you do’ diyebileceğimizi bir yere not edelim en iyisi. Sırada başka cümle örneklerine geçelim:

İng: They didn’t think they could get the costs down low enough.

PÇ: Onlar, onların, fiyatları yeteri kadar düşük inebildiğini düşünmüyordu.

Eyvah! Zamirlerle gerçekten de ciddi bir sorunumuz var. İngilizce cümlede geçiyor diye bizim de Türkçe’de her yere ‘onlar’ı koymamaz gerekmez. Kişileri zaten yüklem içinde belirtebiliyoruz. Pro Çeviri’nin gene sağını solunu burkalayalım; bakalım biraz düzeltebilecek miyiz.

PÇ etkileşimli: Onlar, onların, maliyetleri yeteri kadar aşağı inebildiğini düşünmüyordu.

Doğrusuna en yakın makine çevirisi bu kadar oldu. “Maliyetleri yeterince aşağı çekebildiklerini düşünmüyorlardı.” denmek isteniyor bu arada.

Bir başka örneğe geçelim:

İng: For example, in 1981 almost all modems were acoustic.

PÇ:  Örneğin, 1981′de neredeyse bütün modemler, akustikti.

Bu gayet güzel bir bilgisayar çevirisi oldu. Sadece sondaki virgül silinmeli. Peki bu tümceyi neden doğru çevirdi? Öyle değil mi? Sürekli hatalı çeviri yapan bir program nasıl olur da doğru bir çeviri yapabilir, inceleyelim:

Program soldan sağa doğru doğrusal olarak ilerliyor ve tanımlı kurallara göre değişiklikler yapıyor. n-gram desen eşleme ile çalışıyor. “For example” çok bilinen bir kalıp; sözlükteki karşılığını yazıp devam ediyor. ‘in ####’ basit bir tarih kuralı: unix regexp ile şöyle yazabiliriz: sed “s/in \([[:digit:]]..[[:digit:]]\)/\1′de/g;”. ‘almost’ ve ‘all’ sözcüklerinin çevirisi için sözlükteki en yüksek sıklıklı karşılıkları aynı sırayla yazması yeterli. ‘modem(s)’ karşılığı da aynı sıradan devam ediyor. Geldik cümle sonuna. Gene basit bir kural “were + sıfat” -> “sıfatın çevirisi + di’li geçmiş zaman”.

Kısaca bu tümcedeki başarılı çevirinin sebebi, İngilizce tümcedeki öğelerin Türkçe’deki karşılığı ile hemen hemen aynı sırada bulunuyor olması. Öyleyse doğrusal yapıdaki tümceleri yakalayabilirsek eğer, bunların yüksek olasılıkla doğru çevrilebileceğini varsayabiliriz.

Bu varsayımı sınamak için, içinde ‘were’ geçen ve benzer yapıdaki birkaç tümce seçelim:

This time they were wearing the uniforms of Atari.
All of these women were doers more than managers.
Apple had offered me a job, but they were too bureaucratic.
But there were too many important things to do.
Our office bays were crowded.
The ceilings were too low.

Çevirileri:

Onlar bu sefer, Atari’nin üniformalarını giyiyordu.
Bu kadınların hepsi, yöneticiden daha çok iş yapan kişilerdi.
Apple, bana bir işi teklif etmişti, ama onlar, fazla bürokratikti.
Ama, yapmak için çok fazla önemli şey vardı.
Ofis bölümlerimiz, kalabalıktı.
Tavanlar, fazla alçaktı.

Evet idare eder çeviriler bunlar. Benzer şekilde ‘düzgün çevrilebilir’ başka tümce kalıpları bulabilirsek bunları bilgisayara çevirtebilir ve normal çeviri sürecine katkıda bulunabiliriz…

Şimdi bir de tersini deneyelim. Yanlış çevrilme olasılığı yüksek tümce türlerini bulmaya çalışalım. Önce sezgimizi dinleyerek içinde ‘that’ veya ‘who’ geçen edilgen tümceleri deneyelim:

Toplu halde deniyorum. Önce İngilizceleri:

And that’s what I wanted most.
But we weren’t going to wait for that to happen.
How could that happen?
Later, it turned out I was the only one who didn’t call Jack.
When I told Jack who it was, he almost hit the ceiling.

Şimdi de Pro Çeviri’nin ürettiği makine çevirileri:

Ve ne en çok istiyor olduğumdur.
Ama olmak için onu beklemeyecektik.
Nasıl olabilirdi?
Sonra, Jack’ı çağırmayan tek biri olduğumu kapattı.
Onun olduğu Jack’ı söylediğim zaman, neredeyse tavana vurdu.

Beklediğimiz gibi tamamen hatalı. Aslında bu örneklerden sadece üçü edilgen (passive) yapı içeriyor. İkinci ve üçüncüdeki zamir olarak kullanılan ‘that’ ise Türkçe’ye olan makine çevirilerinde hep sorun çıkarıyor. Bu tümceleri toparlamak için Pro Çeviri’nin ayarlarıyla, sözcük yerleriyle virgüllerle vs. epey oynadım ama nafile. Pro Çeviri ve de haliyle kopyası www.hemencevir.com bu tarz tümcelerde başarısız.

Bu ufak denemeden çıkarabileceğimiz sonuç şu: Türkçe Özne-Nesne-Eylem, İngilizce ise Özne-Eylem-Nesne yapısını takip ettiğinden genellikle, tümcelerin yan cümleciklerini ya da mümkünse kendisini çeviri öncesi Türkçe dizilime yaklaştırmak programın işini kolaylaştıracaktır. Tabii bu İngilizce gramerinden sapmak anlamına geldiğinden düzgün-yapıda-girdi ilkesi ile çelişiyor. Ancak bugünkü MÇ (MT) programları iyi olmadıklarından şimdilik bu ilkeyi hafifçe eğerek programların daha rahat çözebilecekleri cümleler hazırlayabiliriz.

Benzer şekilde olabildiğince “passive-voice” (edilgen) yapıdaki tümceleri “active” yapılar halinde yeniden yazmak çeviri kalitesini belirgin ölçüde arttıracaktır. Bu tür çeviri öncesi gramer düzenlemeleri için http://www.spellchecker.net/spellcheck/ adresindeki veya deneysel http://community.languagetool.org/ adresindeki yazım düzeltimi hizmetlerinden, MS Word’ün F7 ile kullanılan yazım denetiminden veya daha iyisi style writer programından yararlanılabilir.

Çeviri sonrası çıkan Türkilizce makine çevirisini toparlamak ise ayrı bir hikaye…

İlker Fıçıcılar
Temmuz 2008

Makine Çevirisi kategorisinde yayınlandı | Etiketler bilgisayar çevirisi, düzeltme, Makine Çevirisi, makine çevirisi iyileştirme, redaksiyon | No Comments Yet

  • Son Yazılar

    • Çevrilebilir Yazı Yazmak
    • Her karmaşık ifade daha az karmaşık ifadelerin birleşimi ile ifade edilebilir
    • Dilde Arınma ve Ortak Bir Türkçe Gereği
    • Yazıyı Fırınlamak
    • Bilgisayar Çevirisi İyileştirmeleri
  • Kategoriler

    • Anlambilim
    • doğru Türkçe
    • Duru dil
    • Genel
    • Makine Çevirisi
    • Sümerce
  • Bağlantılar

    • Çağdaş Türk Lehçeleri
    • Çivi Yazısı Veritabanı
    • Eski Türk Öyküleri Arşivi
    • Eski Türk Dili
    • Fiziğin Müziği Öyküsü
    • Sümer Metinleri Veritabanı
    • Türk Dil Kurumu
    • Türk Dili Dergisi
  • Kütüphaneler

    • Ankara Üniv. Kütüphanesi
    • Milli Kütüphane
    • Toplu Katalog
  • Popüler Yazılar

    • HemenÇeviri ile Pro Çeviri Karşılaştırması
    • Çevrilebilir Yazı Yazmak
    • Sümer ve Türk Dillerinin Târihî İlgisi ile Türk Dili'nin Yaşı Meselesi
    • Dosya İndirme
    • Bilgisayar Çevirisi İyileştirmeleri
    • Dil Bağlantıları
    • Her karmaşık ifade daha az karmaşık ifadelerin birleşimi ile ifade edilebilir
  • Arşiv

    • Şubat 2009
    • Ekim 2008
    • Ağustos 2008
    • Temmuz 2008
  • Reklam

    Şip Şak Çeviri.com
    Çevirinizi internetten gönderin
    fiyatı süreyi hemen hesaplasın
    biten siparişiniz cebinize gelsin
    www.SipSakCeviri.com

    Kağıtsız Ofis
    Daha verimli bir çalışma
    için kağıtsız ofis yöntemleri
    www.KagitsizOfis.com

    Babil Türk
    İngilizce Türkçe
    online kaliteli ücretsiz çeviri
    www.BabilTurk.com

  • Meta

    • Giriş yap
    • Yazılar RSS
    • Yorumlar RSS
    • WordPress.com

WordPress.com'dan blog alın.

Tema: Mistylook by Sadish.