Evaluating state-of-the-art nmt on football tweets with high context: correlating human (MQM) and automated (cometkiwi-xl) metrics
Özet
Bu tez, korelasyon merkezli bir değerlendirme çerçevesi benimseyerek referanssız metrik COMETKiwi-XL'nin insan temelli MQM 2.0 değerlendirmeleriyle ne ölçüde örtüştüğünü incelemektedir. Bu çerçevede, normalleştirilmiş MQM puanları (RQS) ile COMETKiwi-XL skorları arasındaki ilişkiler hem segment hem de sistem düzeyinde karşılaştırılmıştır. Bu çalışmada, İngilizce↔Türkçe futbol alanına ilişkin, kullanıcılar tarafından üretilen içeriklerden (UGC) oluşan 20 tweetlik (iki dil yönünde 10'ar tane) bir veri seti kullanılmıştır. Bu tweetler, argo ifadeler, kısaltmalar, emojiler ve kültüre özgü göndermeler içermektedir. İlgili tweet'ler DeepL, ChatGPT-o3 ve X Translate (yerleşik Google Translate) tarafından çevrilmiş ve toplam 60 çıktı elde edilmiştir. Üç uzman değerlendirici MQM 2.0 üzerinden değerlendirmelerde bulunmuş; ilgili değerlendirmeler kategori×önem puanları APT → PWPT → RQS (0–1) hesaplamalarına dönüştürülmüş ve her segment için ortalama alınmıştır. Elde edilen MQM ham skorları Pearson's r ve Kendall's τ ölçümleri kullanılarak COMETKiwi-XL sonuçlarıyla karşılaştırılmıştır. Bulgular, segment düzeyinde orta derecede ancak tutarsız bir korelasyon ortaya koymaktadır. Bu durum kısmen, varyansı daraltan ve birden çok çıktının RQS = 0.000 almasıyla ortaya çıkan taban etkisinden kaynaklanmaktadır. Sistem düzeyinde ise, MQM ve COMETKiwi-XL EN-TR yönünde yüksek ölçüde örtüşürken, TR-EN yönünde belirgin biçimde ayrışmakta ve bahsi geçen sistemleri tamamen zıt biçimde sıralamaktadır. Ek olarak, insan değerlendiricilerin MQM hata seçim sayılarına bakıldığında ise dağılım çeviri yönleri arasında dengeli olmuştur. ChatGPT-o3 genellikle diğer sistemlerden daha yüksek RQS elde etse de bu çalışmanın temel çıkarımı sistem üzerine olmaktan ziyade yöntemsel bir gözlem içermektedir. Doğası gereği MQM, düşük kaliteli çevirileri 0.000 gibi minimum puanlara indirip tamamen başarısız çeviri olarak puanlayabiliyorken, COMETKiwi-XL, çevirileri kademeli bir şekilde değerlendirerek puanları birbirine daha yakın konumlandırmakta ve kalite farklılıklarını daha aşamalı bir biçimde yansıtmaktadır. Bu çalışmada kullanılan veri setinin sınırlı büyüklüğü ve tek alanlı yapısı nedeniyle elde edilen sonuçlar dikkatle değerlendirilmelidir. Buna rağmen, sınırlı veri seti ile bu çalışma, insan temelli MQM ve referanssız otomatik metriklerin birlikte nasıl kullanılabileceğine dair çıkarımlar sağlarken, MQM–COMET (Kiwi-XL) uyumunu daha iyi incelemek adına daha büyük ve çok alanlı veri setlerine ihtiyaç olduğuna da işaret etmektedir.
-----
Adopting a correlation-centered evaluation framework, this thesis investigates how well the reference-free metric COMETKiwi-XL aligns with human MQM 2.0 judgements. Within this framework, the study compares segment- and system-level relationships between normalized MQM points (RQS) and COMETKiwi-XL scores. The sample of the study is English↔Turkish football UGC—tweets rich in slang, abbreviations, emojis, and culture-specific references. A small, domain-focused dataset of 20 tweets (10 per direction) was translated by three machine translation systems (DeepL, ChatGPT-o3, and X Translate), yielding 60 outputs. Three expert annotators applied MQM; category×severity counts were converted to APT → PWPT → RQS (0–1) and then averaged per segment. We compared these human scores with COMETKiwi-XL using Pearson's r and Kendall's τ, at both the segment and system levels. Findings suggest moderate yet inconsistent segment-level correlations, partly driven by floor effects (multiple items with RQS = 0.000) that compress variability. At the system level, MQM and COMETKiwi-XL converge to a larger extent in EN-TR but diverge substantially in TR-EN, yielding a reversed ordering of systems. Regarding MQM error tags, the distribution was balanced across translation directions. Although ChatGPT-o3 generally achieves higher RQS than the other systems, the central takeaway of this study is methodological rather than system-specific. MQM, by design, can reduce poor translations to very low scores, sometimes reaching 0.000, which indicates complete failure. COMETKiwi-XL, in contrast, distributes outputs on a smoother scale, placing scores closer together and reflecting quality differences in a more gradual manner. Given the limited size and single domain, the results should be interpreted cautiously. Even so, they provide some indications of how human-in-the-loop MQM and a reference-free automatic metric might be used together, while also pointing to the need for larger, multi-domain datasets to better examine MQM–COMET(Kiwi-XL) alignment.
Koleksiyonlar
- Tez Koleksiyonu [27]


















