ChatGPT gibi yapay zeka destekli araçlar, destekledikleri dili biliyorsanız harika fırsatlar sunuyor.
Ancak Etiyopya’nın başkenti Addis Ababa’da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca dilinde makine çevirisinin imkansız olduğunu söylüyor. DW’ye konuşan Gebrewold, “Google Çeviri gibi araçlar Amharca için iyi yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz” diyor.
Mekdes Gebrewold gibi milyarlarca insan, yapay zeka destekli araçlardan anadillerinde yararlanamıyor.
Bu durum yalnızca ChatGPT gibi üretken yapay zeka destekli araçlar veya Google Çeviri (Translate) gibi çeviri hizmetlerine özgü değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve sosyal medyadaki içerik denetimi gibi birçok yapay zeka destekli araç, farklı dillerde hizmet verme konusunda yetersiz.
Ancak bazı şirketler bunu değiştirmeye çalışıyor.
Yapay zeka destekli araçlar nasıl çalışıyor?
Aslında modern yapay zeka araçları, aldıkları girdiye göre en olası yanıtı tahmin ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu tahminler, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları “eğitim verilerine” dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim verileri çok büyük yer kaplıyor.
Common Crawl, bu eğitim verileri için önemli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir veri kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka destekli ChatGPT- 3.5 sürümünü eğitmek için kullanılan verilerin yaklaşık yüzde 60’ı bu koleksiyondan alınmıştı.
Yapay zeka araçları, bazı dillerdeki eğitim verileri kısıtlı olduğu için farklı dillerde aynı performansla çalışmıyor. İnternetteki içerikler yoğun olarak birkaç dilde oluşturulduğu için, birçok dilde yapay zeka eğitim verisi bulmak bir sorun.
Örneğin İngilizce, Common Crawl’daki tüm içeriklerin neredeyse yarısını oluşturuyor.
Öte yandan diğer tüm Afrika, Amerika ve Okyanusya dilleriyle birlikte Amharca, Common Crawl verilerinin yüzde 0,1’inden azını oluşturuyor. Amharca çok az dijital veri üretilen, düşük kaynaklı bir dil olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı dilleri konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce gibi diller bile düşük kaynaklı dil olarak görülüyor.
Avrupa dilleri ise Asya ve Afrika dillerinin çoğuna kıyasla eğitim verilerinde daha fazla içerik sahibi. Örneğin Flemenkçe, Amharca’ya benzer şekilde 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Ancak Flemenkçe, Common Crawl veri setinde Amharca’ya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl veri setinde 300 milyondan fazla kişinin anadili Hintçe’den bile yüzlerce kat daha fazla içeriğe sahip.
Ancak bu veri eksikliğini gidermenin yolları var.
Silikon Vadisi’ndeki teknoloji devlerinin dışında, dünyanın her yerindeki makine öğrenimi araştırmacıları, kendi dilleri için yapay zeka destekli araçlar geliştiriyor.
Yapay zeka destekli araçlarda dil açığı nasıl kapatılır?
Asmelash Teka Hadgu, Etiyopya’daki Amharca ve Tigrinya dillerinde makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesan’ın kurucu ortağı. Bu dillerde çok büyük miktarda online kaynak bulunmadığından, Hadgu’nun ekibi doğrudan bu dilleri konuşan topluluklarla çalışıyor ve veri toplamanın yaratıcı yollarını buluyor.
DW’ye konuşan Hadgu, “Genellikle kendi dillerini seven öğrencilerle çalışıyoruz” diyor. Öğrenciler için Hadgu, “Onlara böyle bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi dilimizde içerik toplamak için görevler belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz” ifadelerini kullanıyor.
Böylesi bir veri toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan kişiler, öncelikle güvenilir kitaplar veya gazeteler gibi yüksek kaliteli veri kümelerini belirliyor ve ardından bunları dijitalleştirerek hedef dillere çeviriyorlar. Son olarak bu kişiler, makine öğrenimi sürecine rehberlik etmek için orijinal ve çevrilmiş versiyonları cümle cümle sıralıyorlar.
Bu yöntem, Lesan gibi şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Ancak başka avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya’da Google Çeviri’den daha iyi performans gösteriyor.
Asmelash Teka Hadgu, bu durumu “Küçük, dikkatle seçilmiş veri kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik” diye açıklıyor. Hadgu, bu modeller için “Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft veya Google genellikle tüm diller için tek, devasa bir model oluşturuyor, dolayısıyla bu modelin denetlenmesi neredeyse imkansız” diye ekliyor.
Daha fazla dilin dijital desteğe ihtiyacı var
Lesan bu çalışma yöntemine sahip tek şirket değil. Benzer projeler, dijital ayak izi daha küçük olan diller için bile tüm dünyada başarıyla uygulanıyor.
Hristiyan bir sivil toplum kuruluşu olan SIL International’ın yürüttüğü küresel bir dil veritabanı olan Ethnologue, Amharca’yı “önemli” dil desteğine sahip diller arasında listeliyor. Bu, en azından Amharca’da bazı makine çeviri araçlarının, yazım denetiminin ve konuşma işlemenin mevcut olduğu anlamına geliyor.
Birçoğunun bir milyonun üzerinde kullanıcısı olan dillerin de aralarında yer aldığı binlerce dilde, çok daha az içerik ve daha az dijital araç sunuluyor.
Asmelash Teka Hadgu, yapay zeka konusunda Afrikalı önde gelen isimlerden oluşan bir ağın parçası. Hadgu, Afrika, Avrupa ve Kuzey Amerika’dan bir grup araştırmacının yer aldığı Dağıtılmış Yapay Zeka Araştırma Enstitüsü’nde (DAIR) araştırma görevlisi. Aynı zamanda Hadgu, GanaNLP ve Afrikalı halk kolektifi Masakhane gibi gruplarla da düzenli temas halinde.
Hadgu DW’ye “Afrikalı kurucuların bu teknolojileri sahiplenmesine olanak sağlıyoruz” diyor. Hadgu, “Bu araçlar, bu topluluklardan insanlar tarafından üretiliyor ve hizmet veriyor. Yani mali karşılığı da doğrudan onlara geri dönecek” ifadelerini kullanıyor.
Afrika dışında da dünyanın dört bir yanındaki araştırmacılar Jamaika Patois dili, Katalanca, Sudan dili ve Maori dili gibi diğer dilleri yapay zekaya eklemenin yolları üzerine çalışıyor.
ChatGPT’nin OpenAI’si gibi teknoloji devleri modellerini gizli ve anlaşılmaz tutarken, küresel yapay zeka kolektifi Hugging Face gibi girişimler bilgilerini ve yapay zeka modellerini özgürce paylaşıyor. Böylece, herhangi bir araştırmacının kendi dilleri için çözüm üretmesini kolaylaştırıyorlar.
Asmelash Teka Hadgu, “Yetenek her yerdedir, fırsat yoktur” diyor. Hadgu, “Diyelim ki Gana’daki bir dil için en iyi türde makine çevirisi teknolojisini yaratmak istiyorsanız, bunu tutkuyla isteyen ve bunu iyi yapabilecek bir Ganalı mutlaka vardır. Buna fırsat sağlamak lazım” diye ekliyor.
Hanna Demissie bu habere Etiyopya’dan katkıda bulundu.
– Bu haber İngilizce’den Türkçe’ye adapte edilmiştir.
DW Türkçe’ye VPN ile nasıl ulaşabilirim?