ConceptNet Numberbatch: KelimeLink'in Arkasındaki Bilgi Tabanı
Yayın Tarihi: 2 Haziran 2026
KelimeLink oynarken girdiğiniz her kelime, arka planda karmaşık matematiksel hesaplamalardan geçer. Peki bir kelimeyi "güneş" yazdığınızda, "sıcak" ile bağlantı kurabileceğini ama "masa" ile kuramayacağını nasıl bilebiliyoruz? Bu makalede, KelimeLink'in temelini oluşturan ConceptNet Numberbatch teknolojisini detaylı olarak inceleyeceğiz.
ConceptNet Nedir?
ConceptNet, MIT Media Lab ve Luminoso Technologies tarafından geliştirilen açık kaynaklı bir bilgi tabanıdır (knowledge graph). İnsan bilgisini yapılandırılmış bir formatta depolayan bu proje, 300'den fazla dilde milyonlarca kavram ve kavramlar arası ilişki içerir.
ConceptNet'in diğer veritabanlarından farkı, sadece sözlük tanımları yerine sağduyu bilgisi (commonsense knowledge) barındırmasıdır. Örneğin ConceptNet şunları "bilir":
- "Yağmur yağdığında insanlar şemsiye kullanır" (NedensellikHakkında)
- "Köpek bir hayvan türüdür" (BirTürü)
- "Mutfak, evde yemek yapılan yerdir" (KullanımYeri)
- "Soğuk, sıcağın zıttıdır" (Karşıtı)
Bu ilişkiler; Wiktionary, Open Multilingual Wordnet, oyunlaştırılmış veri toplama sistemleri ve uzman katkıları gibi çeşitli kaynaklardan derlenerek oluşturulmuştur.
Numberbatch: Kelimelerden Sayılara
Bilgisayarlar kelimeleri doğrudan anlayamaz, onlar için her şey sayıdır. "Numberbatch", ConceptNet'teki anlamsal ilişkileri sayısal vektörlere dönüştüren bir modeldir. Her kelime, 300 boyutlu bir sayı dizisi (vektör) olarak temsil edilir.
Bu vektörler, kelimenin tüm anlamsal özelliklerini kompakt bir biçimde kodlar. Anlam bakımından yakın kelimeler, bu 300 boyutlu uzayda birbirine yakın konumlarda bulunur. Uzak kavramlar ise birbirinden uzak noktalarda yer alır. Bu yapıya "kelime gömme" (word embedding) denir.
Numberbatch, diğer popüler kelime gömme modellerinden (Word2Vec, GloVe, FastText) farklı olarak sadece büyük metin veri setlerinden öğrenmez. ConceptNet'in yapılandırılmış bilgisini de modele entegre ederek, özellikle sağduyu gerektiren anlamsal ilişkilerde çok daha başarılı sonuçlar üretir.
Kosinüs Benzerliği: İki Kelime Ne Kadar Yakın?
İki kelimenin vektörleri elimizde olduğunda, aralarındaki "anlam mesafesini" ölçmek için kosinüs benzerliği formülünü kullanırız. Bu formül, iki vektör arasındaki açının kosinüsünü hesaplar:
Sonuç -1 ile 1 arasında bir değer verir. KelimeLink'te bu değer yüzdelik olarak gösterilir:
- %50 ve üzeri: Çok güçlü anlamsal ilişki (örn: "kedi" – "hayvan")
- %26 – %50: Orta düzey ilişki — bağlantı oluşur (örn: "yağmur" – "şemsiye")
- %10 – %25: Zayıf ilişki — bağlantı oluşmaz ama bir ipucu olabilir
- %10 altı: Anlamsal olarak ilişkisiz kavramlar
Türkçe Kelime İşleme Zorlukları
Türkçe, sondan eklemeli (aglütinatif) bir dildir. Bu özellik, kelime gömme modellerinde özel zorluklar yaratır. Örneğin "ev", "evler", "evlerin", "evlerinizden" gibi biçimler aynı kök kelimeden türemesine rağmen, model bunları ayrı kelimeler olarak görebilir.
KelimeLink, bu sorunu çeşitli ön-işleme adımlarıyla ele alır. Kelimelerin temel biçimleri (lemma) üzerinden çalışılır ve eklerin yarattığı varyasyonlar mümkün olduğunca normalize edilir. Buna rağmen bazı ek bağımlı anlam değişiklikleri modelin kapsamı dışında kalabilir.
Özel Bağlantı Sistemi
Hiçbir yapay zeka modeli mükemmel değildir. ConceptNet Numberbatch, birçok ilişkiyi doğru tespit etse de, kültürel referanslar, Türkçe'ye özgü deyimler ve güncel kavramlar konusunda eksik kalabilir. Bu nedenle KelimeLink, oyuncu geri bildirimlerine dayalı bir "özel bağlantı" sistemi kullanır.
Oyuncular beklenen ancak oluşmayan bağlantıları raporlayabilir. Ekibimiz bu önerileri değerlendirerek, modelin matematiksel olarak tespit edemediği ancak Türkçe bilenler için açıkça ilişkili olan kelime çiftlerini özel bağlantılar olarak sisteme ekler. Bu sayede model, topluluğun kolektif dilsel bilgisiyle sürekli zenginleşir.
Sonuç
KelimeLink'in her basit görünen kelime bağlantısının arkasında, yapay zeka, dilbilim ve matematik alanlarının kesişiminde çalışan sofistike bir sistem bulunur. ConceptNet Numberbatch sayesinde kelimeler arasındaki anlam ilişkileri sayısal olarak ölçülebilir hale gelir ve bu da bir oyun mekaniğine dönüşür. Bir sonraki bulmacayı çözerken, her tahminizin arka planda 300 boyutlu bir uzayda hesaplandığını bilmek, deneyimi biraz daha ilginç kılabilir!