Lematizacija
Lematizacija (tudi "geslenje") je bodisi ročni bodisi računalniško podprt postopek določanja osnovne (slovarske) oblike posameznim besedam, ki jih najdemo v besedilu. Osnovno obliko besede imenujemo lema. Pri ocenjevanju uspeha lematizacije se uporablja mera natančnosti, ki je definirana kot razmerje med pravilno lematiziranimi besedami in vsemi besedami v besedilu. Lematizacija je tesno povezana s krnjenjem besed. Razlika med tema postopkoma je v tem, da krnjenje besede ne preoblikuje v njeno slovarsko obliko, ampak besedi zgolj odreže končnico in tako dobi krn besede (npr. krn besede "hoditi" je "hodi"). Kombinacija leme z besedno vrsto besede pa je leksem.
V mnogih jezikih se besede pojavljajo v različnih skladenjskih oblikah, s postopkom lematizacije pa besedam pripišemo osnovno obliko (npr. besedam »hodim«, »hodiš«, »hodita«, »hodimo«, vsem pripada lema "hoditi"), ki je zapisana v slovarjih.
Lematizacija ima višji odstotek pravilnosti kadar so besedam že določene besedna vrsta in kontekst. Obstajajo tudi načini računalniške lematizacije, pri katerih ni potrebno vnaprejšnje določanje besedne vrste.[1] Prednost takih algoritmov je večja hitrost, saj delujejo zgolj na nivoju besed in se s konteksti ne ukvarjajo, vendar pa imajo velikokrat slabšo natančnost lematizacije kot kompleksnejši algoritmi, ki razčlenijo celotne stavke. Lematizacija večjih korpusov besedil ni skoraj nikoli 100% pravilna (celo, če jo naredimo ročno).
Za razliko od angleškega jezika, kjer je krnjenje skoraj enako uporabno za potrebe rudarjenja besedil kot lematizacija, pa to za slovenski jezik ne velja, saj pogosto dobimo (pre)krakte krne, ki se zlijejo z besedami drugih pomenov in tako otežujejo nalogo postopkom, ki krnjenju sledijo (npr. rudarjenje besedil). Za slovenščino in druge morfološko bogate jezike se tako priporoča uporaba lematizacije namesto krnjenja.
Na primer:
- Beseda »hoditi« je osnovna oblika besede »hodim«, kar je razvidno tako z lematizacijo kot s krnjenjem.
Toda
- Beseda »boljši« ima za lemo »dober«, kar pa iz krna ni razvidno.
Notes
uredi- ↑ Juršič M. Implementacija učinkovitega sistema za gradnjo, uporabo in evalvacijo lematizatorjev tipa RDR Arhivirano 2011-05-24 na Wayback Machine.. 2007.
Zunanje povezave
uredi- Collatinus, an open-source lemmatiser for latin language (http://ofset.sourceforge.net/freeduc/book/book_27.html Arhivirano 2008-12-21 na Wayback Machine.) and its adaptation for Internet (http://collatinus.fltr.ucl.ac.be/collatinus.php)
- Večjezični odprto kodni lematizator LemmaGen Arhivirano 2017-06-06 na Wayback Machine. - podatki, programske knjižnice ter spletni vmesnik (podprta tudi slovenščina)