Mednarodni kemijski identifikator

Mednarodni kemijski identifikator IUPAC (InChI, /ˈɪntʃiː/) je besedilni identifikator kemijskih spojin, ki je zasnovan tako, da zagotovi standarden in razumljiv način zapisovanja podatkov o molekuli in omogoča iskanje tovrstnih informacij v bazah podatkov in na spletu. Sistem sta razvila Mednarodna zveza za čisto in uporabno kemijo in Narodni urad za standarde in tehnologijo v letih 2000–2005. Oblika in algoritmi niso zakonsko zaščiteni in so prosto dostopni pod pogoji LGPL, sam naziv "InChI" pa je zaščitena blagovna znamka IUPAC.[3]

InChI
RazvijalecInChI Trust
Začetna izdaja15. april 2005 (2005-04-15)[1][2]
Stabilna izdaja21 avgust 2024
OSMicrosoft Windows in Unix-like
OkoljeIA-32 in x86-64
Razpoložljivi jezikiangleščina
LicencaIUPAC / InChI Trust Licence
Spletno mestowww.inchi-trust.org

Mednarodni kemijski identifikator se je na začetku imenoval IChI (IUPAC Chemical Identifier). Julija 2004 se je preimenoval v INChI (IUPAC-NIST Chemical Identifier), novembra 2004 pa v InChI (IUPAC International Chemical Identifier) in je zaščitena blagovna znamka IUPAC.

Identifikatorji InChI opisujejo kemijske spojine v vešslojnih informacijah, v katere spadajo atomi in njihove medsebojne povezave ter informacije o tavtomeriji, izotopih, stereokemiji in električnih nabojih. V sistem niso vedno zajeti vsi sloji. Primer: če podatki o tavtomeriji za neko spojino niso pomembni, je tavtomerni sloj lahko izpuščen.

InChI se od zelo razširjenega števila CAS razlikuje v treh pogledih:

  • ni avtorsko zaščiten
  • lahko se izračuna iz podatkov o zgradbi spojine in ne potrebuje odobritve nobene organizacije
  • večina informacij v InChI je bralcu razumljiva

InChI je torej nekakšna posplošena in skrajno formalizirana verzija IUPAC-ovih imen kemijskih spojin. InChI lahko izrazi več informacij kot enostavnejši SMILES in se od njega razlikuje po tem, da ima vsaka struktura enoznačen InChI, kar je pomembno za uporabo v bazah podatkov. InChI ne daje informacij o trodimenzionalnih koordinatah atomov. Za take primere se lahko uporabi format PDB.

Pretvarjanje strukturnih informacij o spojini v enoten InChI identifikator poteka v treh korakih: normalizacija, ki odstrani vse odvečne informacije, kanonizacija, ki vsakemu atomu pripiše enoznačno (zaporedno) številko, in serializacija, ki podatke pretvori v niz znakov.

Ključ InChI, ki je poznan tudi kot sesekljani InChI, je niz s stalno dolžino 25 znakov, ki je zgoščena digitalna oblika zapisa InChI in za bralca ni razumljiva. Ključ InChI se je začel uporabljati septembra 2007, da bi olajšal iskanje kemijskih spojin na spletu, ker je bilo iskanje s celotnim InChI problematično.[4]

Končna verzija programske opreme InChI z oznako 1.02 je bila izdana januarja 2007. Zadnja verzija generira tako imenovani standardni InChI, ki uporabnikom ne dopušča izbiranja opcij na slojih stereokemije in tavtomerije. Standardni ključ InChI je binarna verzija standardnega niza InChI.

Oblika zapisa in sloji

uredi

Vsak InChI se začne z uvodnim nizom "InChI =", kateremu sledi številka verzije, trenutno 1. Ostale informacije so strukturirane kot sekvence slojev in podslojev. Vsak sloj daje specifično vrsto informacij. Sloji in podsloji so ločeni s poševnico "/" in se začenjajo z značilnim predznakom. Izjema je podsloj za kemijsko formulo, ki je del glavnega sloja. Sistem ima šest slojev z nekaj podsloji:

  1. Glavni sloj
    • Kemijska formula (brez predznaka) je edini podsloj, ki mora biti v vseh InChI.
    • Povezava atomov (predznak "c"), v katerem so opisi medsebojnih povezav atomov. Atomi v kemijskih formulah, razen vodika, so oštevilčeni po sekvencah.
    • Vodikovi atomi (predznak "h"). Podsloj opisuje, koliko vodikovih atomov je vezanih na posameznih drugih atomih.
  2. Nabojni sloj
    • Podsloj s pozitivnimi naboji ima predznak "p".
    • Podsloj z negativnimi naboji ima predznak "q".
  3. Stereokemijski sloj
  4. Izotopski sloj
  5. Stalni H-sloj
  6. Povezovalni sloj

Sistem poševnica-predznak ima to prednost, da lahko uporabnik išče identifikatorje, ki se ujemajo samo v izbranih slojih.

Primera

uredi
CH3CH2OH
etanol
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
 
L-askorbinska kislina
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

Ključ InChI

uredi
 
Zgradba morfina

Zgoščeni 25 znakov dolgi ključ InChI je binarna verzija InChI, narejena z algoritmom SHA-256. Ključ InChI omogoča enostavno iskanje kemijskih spojin na spletu.[4] Večina kemijskih struktur, ki so prišle na splet do leta 2007, je zapisana v formatu GIF, zato se jih na spletu ne da iskati po njihovih kemijskih zgradbah.

Celoten identifikator InChI je za iskanje spojin predolg, zato so razvili ključ InChI. Pri iskanju s ključem obstaja možnost, da imata dve spojini enak ključ, vendar je ta možnost izjemno majhna. Verjetnost podvajanja prvih štirinajstih znakov ključa InChI je ocenjena na eno podvajanje v 75 bazah podatkov, če bi vsaka baza podatkov vsebovala po eno milijardo struktur. Vse baze podatkov skupaj trenutno vsebujejo manj kot 50 milijonov struktur, zato je možnost podvajanja skoraj izključena.

Prvih 14 znakov ključa InChI je rezultat sekljanja podatkov iz InChI o povezavah, ki jim sledi črtica (-). Črtici sledi 8 znakov, ki so rezultat sekljanja ostalih slojev InChI. Predzadnji znak v binarnem nizu je oznaka verzije, zadnji pa kontrolna vsota.

Primer: morfin ima zgradbo, ki je prikazana na zgornji sliki. InChI morfina je:

InChI = 1/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11-,13-,16-,17-/m0/s1,

njegov ključ InChI pa:

BQJCRHHNABKAKU-XKUOQXLYBY.[5]

Zunanje povezave

uredi

Dokumentacija in predstavitve

uredi

Programska oprema in podpora

uredi

Sklici

uredi
  1. »IUPAC International Chemical Identifier Project Page«. IUPAC. Arhivirano iz prvotnega spletišča dne 27. maja 2012. Pridobljeno 5. decembra 2012.
  2. Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). »InChI - the worldwide chemical structure identifier standard«. Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
  3. McNaught, Alan (2006). »The IUPAC International Chemical Identifier:InChl«. Chemistry International. Zv. 28, št. 6. IUPAC. Pridobljeno 18. septembra 2007.
  4. 4,0 4,1 »The IUPAC International Chemical Identifier (InChI)«. IUPAC. 5. september 2007. Arhivirano iz prvotnega spletišča dne 30. oktobra 2007. Pridobljeno 18. septembra 2007.
  5. »InChI=1/C17H19NO3/c1-18...«. Chemspider. Pridobljeno 18. septembra 2007.