SMILES (iz angleškega Simplified Molecular Input Line Entry Specification) je specifikacija, ki za nedvoumen opis strukture molekul uporablja kratke nize ASCII znakov. Specifikacijo SMILES lahko večina urejevalnikov molekul pretvori nazaj v dvodimenzionalno risbo ali trodimenzionalen model molekule.

Generiranje SMILES: odpiranje obročev, ki se zatem zapišejo kot stranske verige glavne (najdaljše) verige molekule.

Izvirno specifikacijo SMILES sta v poznih 1980. letih razvila Arthur in David Weininger. Specifikacijo so kasneje razširili in dodelali drugi avtorji, med katerimi je najpomembnejši Daylight Chemical Information Systems Inc.. Leta 2007 je neformalna skupina kemikov Blue Obelisk razvila javno dostopen standard, imenovan "OpenSMILES". Med druge linearne notacije spadajo Wiswesser Line Notation (WLN), ROSDAL in SLN (Tripols Inc.).

Avgusta 2006 je IUPAC kot standard za prikazovanje kemijskih formul uvedel mednarodni kemijski identifikator (InChI). SMILES je po splošnem mnenju nekoliko boljši, ker je malo bolj čitljiv kot InChI in ima široko programsko podporo z obširnim teoretičnim ozadjem, na primer s teorijo grafov.

Terminologija

uredi

Termin SMILES se nanaša na vrstični sistem znakov za kodiranje molekularnih struktur in bi se moral striktno imenovati "niz SMILES". Termin se uporablja tudi za druge namene, vendar je njegov pomen v posameznem primeru povsem razviden iz konteksta. Nekaj zmede pri uporabi lahko povzročita naziva Kanonski in Izomerni SMILES. Izrazi, ki opisujejo različne atribute nizov SMILES, se med seboj ne izključujejo.

Isto molekulo se običajno lahko zapiše z več enakovrednimi SMILES. Strukturo etanola (C2H5OH) se lahko na primer zapiše s CCO, OCC in C(O)C. Da bi se za vsako strukturo generiral en sam SMILES, ne glede na vrstni red atomov v molekuli, so se razvili številni algoritmi. Ta SMILES je za vsako strukturo edinstven, čeprav je odvisen od kanonizacijskega algoritma, ki ga je generiral, in se imenuje Kanonski SMILES. Vsi algoritmi najprej pretvorjo SMILES v notranjo predstavitev molekularne strukture in ne manipulirajo enostavno z nizi znakov kot se včasih domneva. Za generiranje Kanonskega SMILES je več algoritmov, med katerimi so najopaznejši tisti, ki so jih razvili v Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT in Chemical Computing Group. Skupne aplikacije Kanonskega SMILES so indeksirane in zagotavljajo edinstvenost molekul v bazah podatkov.

Notacija SMILES omogoča tudi specificiranje konfiguracij na tetraedričnih centrih in dvojnih vezeh. Tovrstne strukture kodira Izomerni SMILES, ki omogoča tudi natančno specifikacijo kiralnosti. Naziv Izomerni SMILES se uporablja tudi za SMILES za specificiranje izotopov.

Označevanje na osnovi grafa

uredi

V računalniški proceduri, ki temelji na grafu spojine, se najprej odstranijo vodikovi atomi, zatem pa se odprejo obroči in se razvijejo v obliko razvejanega drevesa. Mesta, kjer so obroči prekinjeni, se označujejo s številkami, ki omogočajo povezovanje veznih točk. Za označevanje mest, kjer se glavna veriga razveja, se uporabljajo oklepaji.

Primeri

uredi

Atomi

uredi

Atomi se pišejo z njihovimi simboli v oglatih oklepajih, na primer [Ag] za srebro. Izjema so "organski" elementi B, C, N, O, P, S, F, Cl, Br in I, pri katerih se oklepaji lahko izpustijo. Izpuščeni oklepaji istočasno pomenijo pripadajoče število implicitnih vodikovih atomov. Primer: SMILES za vodo je preprosto O.

Atomi, ki imajo enega ali več električnih nabojev (ioni), se pišejo v oklepajih. Če je na element vezan vodik, simbolu elementa sledi simbol H in število pozitivnih (+) ali negativnih (-) nabojev. Edina izjema je amonij, ki se piše z NH4. Če je število nabojev večje od 1, se njihovo število lahko piše na primer s "Ti+4" ali "Ti++++" za titan(IV) oziroma Ti4+. Hidroksidni ion se torej zapiše z [OH-], oksonijev ion z [OH+3], kobaltov(III) kation (Co3+) pa s [Co+3] ali [Co+++].

Če ni posebej označeno, se vezi med alifatskimi atomi obravnavajo kot enojne in se ne pišejo. Primer: etanol (CH2-CH2-OH) se zapiše s CCO. Mesta, na katerih se stikajo obroči, so označena s številkami na dveh nesosednjih atomih. Cikloheksan in dioksan se zato zapišeta kot C1CCCCC1 oziroma O1CCOCC1. Vezna mesta na naslednjem obroču so označena s številko 2. in tako naprej. Naftalen se zato zapiše kot c1cccc2c1cccc2. Da ne bi prihajalo do nesporazumov, se obroči od 10. dalje označujejo s predznakom '%'. Oznaka ~C12~ zato pomeni, da označeni ogljikov atom zapira 1. in 2. obroč, oznaka ~C%12~ pa da gre za 12. obroč v neki strukturi. Dvojne in trojne vezi se označujejo s simboloma '=' oziroma '#'. SMILES O=C=O pomeni ogljikov dioksid (CO2), C#N pa vodikov cianid (HCN).

Aromatičnost

uredi
 
Prikaz kodiranja 3-cianoanizola v COc(c1)cccc1C#N.

Aromatski atomi C, O, S in N so prikazani z malimi črkami 'c', 'o', 's' in 'n'. Benzen, piridin in furan se s SMILES zapišejo s c1ccccc1, n1ccccc1 in o1cccc1. Vezi med aromatskimi atomi so po dogovoru aromatske, vendar se lahko zapišejo zudi eksplicitno s simbolom ':'. Aromatski atomi so lahko med seboj povezani tudi z enojnimi vezmi, zato se bifenil lahko zapiše s c1ccccc1-c2ccccc2. Aromatski dušik, vezan na vodik, na primer v pirolu, mora biti zapisan z [nH]. Imidazol se zato v notaciji SMILES zapiše z n1c[nH]cc1.

Algoritma Daylight in OpenEye za generiranje kanonskega SMILES obravnavata aromatičnost drugače.

Razvejanost

uredi

Stranske verige se pišejo v oklepajih, na primer s CCC(=O)O za propanojsko kislino in za C(F)(F)F fluoroform. Substituirani obroči se lahko pišejo z mestom razvejanja v obroču, na primer s COc(c1)cccc1C#N in COc(cc1)ccc1C#N. Zapisa predstavljata izomera 3 in 4-cianoanizol. Takšen zapis zapisovanja substituiranih obročev je za uporabnika malo bolj razumljiv.

Stereokemija

uredi

Konfiguracije ob dvojni vezi se opisujejo z znakoma "/" in "\". Primer: zapis F/C=C/F predstavlja trans-difluoroeten, v katerem sta flourova atoma na nasprotnih straneh dvojne vezi. Zapis F/C=C\F je eden od možnih zapisov cis-difluoroetena, v katerem sta fluorova atoma na isti strani dvojne vezi.

Konfiguracija na kvartetnem ogljiku se opiše z znakoma @ ali @@. L-alanin, ki je najbolj pogost anantiomer amino kisline alanin, se lahko zapiše z N[C@@H](C)C(=O)O. Simbola @@ pomenita, da si substituente vodik (H), metil (C) in karboksilat (C(=O)O) sledijo v smeri urnega kazalca, kadar gledamo od dušika vzdolž vezi do hiralnega centra. D-alanin se lahko zapiše z N[C@H](C)C(=O)O. Vrstni red substituent v nizih SMILES je zelo pomemben in D-alanin se lahko zapiše tudi z N[C@@H](C(=O)O)C.

Izotopi

uredi

Izotopi se zapisujejo s celoštevilčnimi vrednostmi njihove atomske mase, katerim sledi simbol izotopa. Benzen z enim ogljikom C14, se zapiše z [14c]1ccccc1, devterokloroform pa z [2H]C(Cl)(Cl)Cl.

Zapisi nekaterih spojin

uredi
Molekula Zgradba SMILES
Dušik N≡N N#N
Metil izocianat (MIC) CH3–N=C=O CN=C=O
Bakrov(II) sulfat Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
Enantotoksin (C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Piretrin II (C21H28O3)   COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoksin B1 (C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukoza (glukopiranoza) (C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Kuskutin ali bergenin (smola) (C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Feromon kalifornijskega insekta iz reda Hemiptera   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-halkogran: ferpmon hrošča Pityogenes chalcographus[1]   CC[C@H](O1)CC[C@@]12CCCO2
Vanilin   O=Cc1ccc(O)c(OC)c1
Melatonin (C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirin (C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nikotin (C10H14N2)   CN1CCC[C@H]1c2cccnc2
Alfa-tujon (C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin (C12H17ClN4OS+)
(vitamine B1)
  OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2


Prikaz molekule cefalostatina-1.[2] Cefalostatin je steroidni trisdekaciklični pirazin z empirično formulo C54H74N2O10, ki so ga izolirali iz polhordate Cephalodiscus gilchristi iz Indijskega oceana:

 
Zgradba molekule cefalostatina-1

Kodiranje se začne pri najbolj levi metilni skupini na zgornji sliki. SMILES cefalostatina-1 je:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Drugi primeri SMILES

uredi

Notacija SMILES je obširno opisana v priročniku SMILES theory manual, ki ga je izdala družba Daylight Chemical Information Systems. V priročniku so tudi številni izbrani primeri. Ena od rutin (depict utility Arhivirano 2001-12-02 na Wayback Machine.) omogoča uporabniku preverjanje njegovih primerov SMILES in je zato zelo uporabno orodje za učenje.

Pretvarjanje

uredi

SMILES se lahko z raznimi programskimi orodji[3] pretvori nazaj v dvodimenzionalen prikaz. Pretvorba ni vedno nedvoumna. Možna je tudi pretvorba v tridimenzionalen prikaz. Za pretvarjanje SMILES so na spletu na razpolago številna orodja.

Glej tudi

uredi

Zunanje povezave

uredi

Specifikacije

uredi

Programska orodja

uredi

Sklici

uredi