Title Metode vrednovanja strojnih prijevoda prema kriteriju razumljivosti
Title (english) Methods for Evaluating Intelligibility in Machine Translation
Author Sandra Ljubas
Mentor Božo Bekavac (mentor) MBZ: 244290
Mentor Marijana Kresić Vukosav (komentor) MBZ: 324184
Committee member Nataša Pavlović (predsjednik povjerenstva) MBZ: 283993
Committee member Goranka Antunović (član povjerenstva) MBZ: 10034
Committee member Vanda Mikšić (član povjerenstva) MBZ: 289292
Granter University of Zadar Zadar
Defense date and country 2023-11-27, Croatia
Scientific / art field, discipline and subdiscipline HUMANISTIC SCIENCES Philology
Universal decimal classification (UDC ) 81 - Linguistics and languages
Abstract U ovome se radu analiziraju i uspoređuju tri ljudske metode vrednovanja strojnih prijevoda: metoda subjektivne procjene, metoda testa razumijevanja i metoda analize pogrešaka. Kao kriterij vrednovanja strojnih prijevoda odabrana je razumljivost jer su u istraživanju, umjesto prevoditelja ili lingvista, za ispitanike odabrani prosječni korisnici javno dostupnih sustava za strojno prevođenje, koji bi se njima potencijalno mogli poslužiti da shvate glavnu bit nekog teksta napisanog na jeziku koji ne razumiju, odnosno u svrhu asimilacije podataka. Njemački je izvornik na hrvatski preveden alatom Google Prevoditelj. U istraživanju je sudjelovalo sto šezdeset jednojezičnih ispitanika, koji ne govore njemački jezik i nemaju prethodnog iskustva s redigiranjem strojnih prijevoda. Ishodišna istraživačka pitanja odnosila su se na utjecaj različitih varijabli na provedbu odabranih metoda: Postiže li se veće slaganje među ispitanicima kada ocjenjuju prijevod u cjelini u odnosu na raščlanjene segmente? Ovise li ocjene pri procjeni razumljivosti o prethodnim iskustvima sa strojnim prevođenjem ili o stavovima o njemu? Jesu li te ocjene razmjerne broju točnih odgovora na testu razumijevanja? Ovise li o broju jezičnih pogrešaka u segmentima? Utječu li pogreške u leksičkoj točnosti značajnije na nerazumijevanje od ostalih pogrešaka? Postiže li se smanjenjem broja jezičnih pogrešaka veća dosljednost u rezultatima vrednovanja različitim metodama? Ispitanici su u istraživanju pristupili raznovrsnim zadacima kako bi se usporedio proces primjene triju odabranih metoda vrednovanja te se utvrdilo kako se uz promjene postavki istraživanja mogu dobiti što relevantniji i objektivniji podaci o kvaliteti strojnih prijevoda. U prvom su zadatku ispitanici podijeljeni u dvije skupine: osamdeset ispitanika subjektivno je na ljestvici od 1 do 5 procijenilo razumljivost raščlanjenih i nasumično raspoređenih segmenata strojnog prijevoda, a preostalih je osamdeset ispitanika prema istoj ljestvici vrednovalo razumljivost strojnog prijevoda u cjelini. U drugom zadatku svih je sto šezdeset ispitanika čitalo cjelovit strojni prijevod te je potom odgovaralo na pitanja razumijevanja, kao i procijenilo svoju sigurnost u ponuđene odgovore. Ispitanici su mjerili vrijeme potrebno za rješavanje testa. Zatim su pristupili anketnom obrascu o stavovima i iskustvima sa strojnim prevođenjem. Analizom stavova provjeravao se njihov suodnos s ocjenama razumljivosti i uspješnosti na testu razumijevanja, te se procjenjivala objektivnost rezultata pojedinih metoda. U završnoj fazi istraživanja angažiran je stručni anotator koji je proveo analizu pogrešaka prema sljedećim kategorijama: izostavljene riječi, leksičke pogreške, morfosintaktičke pogreške, ortografske pogreške, pogrešan redoslijed riječi i ostalo. Također su dijakronijski uspoređeni pomaci u kvaliteti izlaznih podataka u ovom istraživanju u odnosu na predistraživanje provedeno 2019. godine. Dobiveni rezultati pokazali su da metodu subjektivne procjene valja provoditi vrednujući cjelokupni tekst radije nego raščlanjene segmente teksta, da ispitanici imaju sve pozitivnija iskustva sa strojnim prijevodima te da stavovi ispitanika danas rjeđe negativno interferiraju u procjene razumljivosti, kao i da se s metodom testa razumijevanja dobivaju objektivniji rezultati vrednovanja u odnosu na druge proučene metode. Kad je riječ o metodi analize pogrešaka, nije utvrđena direktan suodnos između broja pogrešaka u određenim segmentima i ocjena razumljivosti, a također se zaključuje da leksičke pogreške u neuronskim strojnim prijevodima nisu glavni izvor nerazumljivosti, kao što je često bio slučaj sa statističkim sustavima. Dijakronijska je analiza pokazala da su izlazni podaci danas sve veće jezične kvalitete, a da se s izazovom porasta kvalitete najbolje nosi metoda testa razumijevanja. Ovi su nalazi na tragu i najrecentnijih međunarodnih spoznaja o vrednovanju strojnog prevođenja u svijetu te predstavljaju važne doprinose istraživanju strojnog prevođenja u Hrvatskoj.
Abstract (english) The objective of this study was to compare three human methods for evaluating machine translations: subjective judgement, reading comprehension test and error analysis. The machine translations were evaluated against the intelligibility criterion. The respondents selected for our study were neither translators nor linguists, but average users of publicly accessible machine translation systems who usually want to grasp the gist of a text in another language, i.e. who use it for assimilation. The source text was translated from German into Croatian using Google Translate. A total of 160 monolingual respondents without any prior experience in the postediting of machine translations participated in the study. In this study, we focused on various variables that can impact MT-evaluation. The research questions raised were: Can a higher inter-annotator agreement be attained if the respondents evaluate isolated segments or whole texts? Do subjective judgements depend on previous experiences with MT and/or the evaluators’ attitudes towards MT? Are their intelligibility grades proportionate to the respondents’ scores on the reading comprehension test? Are they influenced by the number of language errors in particular segments? Do lexical errors have a more significant impact on unintelligibility than other error types? Does evaluating segments with fewer errors automatically lead to a higher inter-annotator agreement? The respondents were given a series of tasks, with the idea of finding the most relevant and objective evaluation method. In the first phase, the respondents were divided into two groups: a total of 80 respondents evaluated the intelligibility of isolated and randomly presented segments on a scale from 1 to 5, and the remaining 80 respondents evaluated the intelligibility of the whole machine translation. In the second phase, as many as 160 evaluators read the entire target text, proceeded to take a reading comprehension test, assessed how confident they were in their answers, as well as measured the time needed to complete the test. The respondents then filled out a perception survey on their attitudes and prior experience with MT. These data were compared with the subjective intelligibility judgements and the respondents’ performance on the reading comprehension test in order to determine the objectivity of the individual methods. In the last phase, an expert annotator was asked to conduct an error analysis with regard to the following categories: omitted words, lexical errors, morphological errors, orthographic errors, word-order errors, and “miscellaneous”. Lastly, changes in the output data quality were diachronically compared with the results of our pilot study conducted in 2019. Several conclusions can be drawn from this study. First, it is better to subjectively evaluate the entire translation instead of individual segments. Second, the respondents generally have a rather positive attitude towards MT and their attitudes do not interfere with the subjective evaluation as significantly as in the previous years. Furthermore, based on our findings and discussion, reading comprehension tests lead to more objective results in comparison with other evaluation methods. As for the error analysis, no direct parallel could be drawn between the intelligibility scores and the number of errors in segments. There is also no indication that lexical errors would be the primary source of unintelligibility in neural machine translation, which was usually the case with statistical machine translation. The diachronic analysis showed an increase in the quality of MT-output data, but even though evaluating MT-output of high quality is challenging for many metrics, the reading comprehension test method seems to handle it most adequately out of the three studied methods. Our findings are consistent with the findings of recent international studies on evaluating MT and serve as a strong contribution to the field of MT-evaluation studies in Croatia.
Keywords
strojno prevođenje
metode vrednovanja
kriterij razumljivosti
subjektivna procjena
test razumijevanja
analiza pogrešaka
Keywords (english)
machine translation
evaluation methods
intelligibility
subjective judgements
reading comprehension tests
error analysis
Language croatian
URN:NBN urn:nbn:hr:162:353957
Promotion 2024
Study programme Title: Humanities Study programme type: university Study level: postgraduate Academic / professional title: doktor/doktorica znanosti, područje humanističkih znanosti, odgovarajuće polje (određeno matičnom strukom) (doktor/doktorica znanosti, područje humanističkih znanosti, odgovarajuće polje (određeno matičnom strukom))
Type of resource Text
File origin Born digital
Access conditions Open access
Terms of use
Created on 2024-03-19 10:36:21