Kodiranje šumnikov

Znakov Č, Š in Ž (ter ostalih) ni v angleški abecedi, zato so (bile) s kodiranjem teh znakov v računalništvu precejšnje težave.

Kodni nabori uredi

Spodaj so najbolj znani kodni nabori in desetiške kode znakov (za Unicode so vrednosti šestnajstiške).

Standard	JUS I.B1.002			ISO 8859-2	ISO 10646
Vrsta kodiranja	YUSCII	CP852	CP1250	Latin2	Unicode
Č	94	172	200	200	U+010C
č	126	159	232	232	U+010D
Š	91	230	138	169	U+0160
š	123	231	154	185	U+0161
Ž	64	166	142	174	U+017D
ž	96	167	158	190	U+017E

Zasilne rešitve uredi

Kot zasilna rešitev se včasih pojavijo zamenjave za besedo križišče na različne načine:

slog CSZ: krizisce,
slog TeX: kri"zi"s"ce ali kri \v zi \v s\v ce,
teleks slog: krizzisscce,
slog zvezdica: kriz*is*c*e.

Urejanje HTML uredi

Pri urejanju HTML v glavo dokumenta dodamo eno od spodnjih vrstic:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-2" />
<meta http-equiv="Content-Type" content="text/html; charset=windows-1250" />

Seveda glede na to, v katerem kodnem naboru pišemo dokument. Priporočeni kodni nabor je UTF-8 (Unicode), Predvsem uporabniki operacijskega sistema Windows pa imajo navadno z Unicodom včasih težave in raje uporabljajo kodni nabor windows-1250.

Ko UTF-8 še ni bil tako razširjen, ko so se težave s šumniki še vrstile vsevprek, ali če se danes še kje najde dokument, zapisan v kodnem naboru, ki ne podpira slovenskih znakov, jih je mogoče zapisati tudi v obliki &#xxx; (kjer je xxx desetiška koda znaka):

Č Č
č č
Š Š
š š
Ž Ž
ž ž

Šumniki v TeX-u uredi

Šumniki »nekoč« uredi

TeX je bil šumnikom kos že od začetka osemdesetih let dvajsetega stoletja, čeprav se je mnogo ostalih računalniških programov spopadalo z njimi še dolgo potem. Pisava Computer Modern Roman (cmr), ki jo je TeX uporabljal, šumnikov ni imela, vendar je znal program postaviti katerikoli akcent na katerokoli črko. Šumnike je tako mogoče dobiti z:

\v{c}\v{s}\v{z} \v{C}\v{S}\v{Z}

Z dodatnim makro paketkom je bila pisava za silo poenostavljena:

"c"s"z "C"S"Z

Mnogo ljudi še vedno uporablja ta zapis, čeprav danes ni skoraj nobenega dobrega razloga več, da ne bi v zapisu uporabljali pravih šumnikov in tako tudi črkovalniku omogočil, da opravi svoje delo.

Kodiranje pisave uredi

TeX zna deliti besede in skrbeti za pravilen razmak med znaki (angl. kerning), vendar nič od tega ne deluje, če v besedi nastopajo črke, ki jih ni v pisavi in jih mora TeX umetno sestaviti (npr. iz strešice in C-ja, da dobi Č).

Medtem ko vnos znakov v Unicode-u s pravimi makri danes ni več problem, zna TeX še vedno delati samo s pisavami z največ 256-imi znaki (izjeme so nekatere nove izpeljanke: Omega, Aleph, NTS, exTeX, XeTeX in LuaTeX). Edini standardni nabor, ki vsebuje vse slovenske znake, je EC (ali CORK, v LaTeX-u nosi ime T1). Če želimo pisati slovenske dokumente, ga zato moramo uporabiti:

\usepackage[slovene]{babel} % slovenske nastavitve (naslovi, deljenje besed ...)
\usepackage[T1]{fontenc}    % font encoding; T1 podpira slovenščino

Danes standardno pisavo Computer Modern Roman zamenjuje Latin Modern Roman, ki vsebuje večino latinskih znakov z akcenti, vendar je TeX še vedno omejen na 256 znakov.

Šumniki danes uredi

V LaTeX-u pišemo šumnike tako, da v glavo dokumenta dodamo:

\usepackage[utf8]{inputenc} % input encoding; lahko je tudi [cp1250] ali [latin2]

in pišemo šumnike kot v vsakem drugem dokumentu, brez nepotrebnih " oz. \v{}. V ConTeXt-u je enakovreden ukaz:

\enableregime[utf]

Primer rabe šumnikov v LaTeX-u:

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\begin{document}
Pešec gre čez cestišče.
\end{document}

Viri uredi

Peterlin, Košir, Erjavec: Standardi pri digitalnem zapisu slovenskih znakov Arhivirano 2005-04-30 na Wayback Machine. (COBISS)
http://wiki.contextgarden.net/Encodings_and_Regimes Arhivirano 2005-12-16 na Wayback Machine.

Glej tudi uredi

Težave s šumniki