Statistično strojno prevajanje

Statistično strojno prevajanje je vrsta strojnega prevajanja, ki temelji na večji količini vzporednih besedil, iz katerih se s statističnimi algoritmi izračunavajo verjetnosti prevodne ekvivalence za posamezne jezikovne enote.

Strokovnjaki na področju strojnega prevajanja že dolgo poskušajo opisati jezik. Naravni jezik pa je živ in se nenehno spreminja, pravila so kompleksna in ne upoštevajo kreativnosti, zato jezika z vsemi izjemami ne morejo ukleščiti v svoje stroge okvire. To je že na začetku stoletja ugotovil Edward Sapir in napisal, da "vse slovnice puščajo" oziroma: "All gramars leak."[1]

Zgodovina uredi

Začetki statističnega strojnega prevajanja segajo v leto 1949, ko je ameriški znanstvenik Warren Weaver pri prevajanju uporabil teorijo informacij ameriškega matematika in inženirja elektrotehnike Clauda Shannona, znanega kot "oče informacijske teorije". Leta 1991 pa so raziskovalci iz podjetja IBM za to vejo strojnega prevajanja vzbudili zanimanje, ki nespremenjeno veliko ostaja še danes.

Oris delovanja uredi

Sistemi statističnega strojnega prevajanja so osnovani na parametričnih statističnih modelih, ki so naučeni na poravnanih dvojezičnih korpusih (učnih primerih). Namesto, da bi prevajalnik - kot pri strojnem prevajanju na osnovi pravil - razčlenjeval stavke po slovničnih pravilih, ta išče splošne vzorce, ki se pojavljajo v jezikovni rabi. Besedilo je prevedeno glede na verjetnostno porazdelitev – prevod je tisto besedilo, ki ima najvišjo verjetnost; ta se običajno računa po posameznih povedih. Statistične metode so se prvotno ukvarjale s prevajanjem posameznih besed, v zadnjih letih pa so napredovale na raven besednih zvez.

Aplikacije uredi

Strojna prevajalnika, ki vključujeta slovenščino in delujeta po statistični metodi, sta:

Vrste statističnega strojnega prevajanja uredi

Prevajanje po besedah uredi

Pri tem tipu prevajanja je osnovna prevodna enota beseda nekega naravnega jezika. Število besed v izhodiščni in ciljni povedi je običajno različno – zaradi sestavljenk, oblikoslovja in frazeologije. Razmerje med dolžinami prevedenih povedi se imenuje plodnost[2] (ang. fertility). Ta nam pove, koliko besed v ciljnem jeziku proizvede vsaka beseda v izhodiščnem jeziku. Informatika predpostavlja, da med seboj ustrezajoči si leksemi pokrivajo isti pojem, resnica pa je pogosto drugačna. Tako se lahko slovensko besedo kót v španščino prevede z besedo rincón ali esquina; odvisno, ali gre za notranji ali zunanji kot.

Primer prevajalnega sistema za prevajanje po besedah je program GIZA++.

Ta preprosti način prevajanja pa ni ustrezen za prevajanje med jeziki z različno plodnostjo. Sicer je relativno preprosto ustvariti sistem strojnega prevajanja na osnovi besed, ki se lahko kosa z visoko plodnostjo, saj ene besede ni težko prevesti z več besedami; težava se pojavi v nasprotni smeri – prepoznavanju večbesednih enot in prevajanju le-teh z eno besedo.

Spodnji primer prikazuje pravilen prevod Googlovega Prevajalnika iz slovenščine v angleščino ter napačnega iz angleščine v slovenščino, pri katerem prevajalnik kot povedek ni prepoznal fraznega oziroma sestavljenega glagola call off = cancel = preklicati, temveč le njegov del call = poklicati.

On je preklical poroko. – He canceled the wedding.
He called off the wedding. – Poklical je off poroko. (Google Translate, prevzeto 13. 3. 2010)

Prevajanje po besednih zvezah uredi

Bolj kot po besedah se v zadnjem času prevaja po (različno dolgih) besednih nizih, in sicer s ciljem, da bi se zmanjšale omejitve prevajanja po besedah. z "nizi" niso mišljeni stavki kot slovnične strukture, temveč nizi besed, ki jih v korpusu prepoznajo sistemi, ustvarjeni po statistični metodi. Dokazano je bilo, da omejevanje nizov na slovnične stavke (slovnično motivirane skupine besed) zmanjšuje kakovost prevoda.

Prevajanje po slovnici uredi

 
Slika 1: Drevo skladenjske razčlembe

Prevajanje po slovnici v nasprotju s prevajanjem po besedah in besednih nizih temelji na prevajanju slovničnih enot, tj. slovnično razčlenjenih povedih. Ta pristop je na področju strojnega prevajanja prisoten že dlje, vendar pa njegov statistični dvojnik ni zaživel do prihoda močnih naključnih slovničnih razčlenjevalnikov (ang. stochastic parser) v 90. letih 20. stoletja.

Prednosti uredi

Največje prednosti statistične metode v primerjavi s tradicionalnejšimi pristopi so:

  • lažje dostopni viri; veliko materiala v naravnem jeziku je dostopnega v digitalni obliki;
  • neodvisnost od jezikovnega para (četudi je ta metoda pri določenih jezikovnih parih ustreznejša (slovenščina mednje ne spada[3]));
  • manjši stroški kot pri metodah, ki temeljijo na pravilih; sistemi za strojno prevajanje na osnovi pravil zahtevajo ročno oblikovanje/razvijanje jezikovnih pravil, kar je neekonomično; pravil prav tako pogosto ni mogoče posplošiti oziroma prenesti na druge jezike;
  • naravnejši prevodi; sistemi, ki temeljijo na pravilih, pogosto prevajajo dobesedno, statistično strojno prevajanje pa se tej težavi izogiba. Težava pri zanašanju na verjetnostno porazdelitev (v nasprotju s slovarji in slovničnimi pravili) pa je, da statistično prevedena besedila pogosto vključujejo že na prvi pogled nesmiselne in očitne napake.

Problemi uredi

Najpogostejše težave, ki se pojavijo pri statističnem strojnem prevajanju, so:

  • poravnava povedi; v vzporednih korpusih je marsikatera poved izhodiščnega besedila prevedena v več povedi ciljnega besedila in obratno;
  • prevajanje sestavljenk;
  • prevajanje frazeologije;
  • razlike v oblikoslovju različnih jezikov; oblikoslovne težave so precej pogoste pri slovenščini, saj je ta morfološko zelo bogata;
  • razlike v besednem redu; različni jeziki imajo različen besedni red. Do določene mere se vrstni red besed lahko določi z običajnim vzorcem osebek-povedek-predmet (tako lahko govorimo o jezikih SVO (subject-verb-object), VSO (verb-subject-object) ipd.). Dodatne razlike v besednem redu se pojavijo pri prilastkih ter med trdilnimi in vprašalnimi povedmi;
  • besede zunaj besedišča (ang. out of vocabulary (OOV)); sistemi za statistično strojno prevajanje imajo v svojih bazah podatkov različne besedne oblike shranjene kot posebne simbole brez medsebojne povezave. Besednih oblik in stavkov, ki niso v bazi podatkov, ni mogoče prevesti – do tega pride zaradi pomanjkanja besedilnih virov, razlik v oblikoslovju različnih jezikov ipd.

Sklici in opombe uredi

  1. Sapir, Edward (1921). Language: an introduction to the study of speech. New York: Hartcourt Brace. str. 39. COBISS 2082312.
  2. Vičič, Jernej (2002). »Statistično strojno prevajanje naravnih jezikov. Magistrska naloga«. Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. str. 5, 6. Pridobljeno 10. marca 2011.
  3. Vičič, Jernej (Oktober 2010). »Strojno prevajanje in slovenščina« (PDF). Zbornik Sedme konference JEZIKOVNE TEHNOLOGIJE. Institut Jožef Stefan, Ljubljana. str. 48, 49. ISBN 978-961-264-026-2. Pridobljeno 9. marca 2011.

Viri uredi

  • Vrščaj, Aljoša (2011). Evalvacija strojnih prevajalnikov. Ljubljana: Filozofska fakulteta Univerze v Ljubljani, Oddelek za prevajalstvo. str. 29. COBISS 44939618.

Zunanje povezave uredi