Matrika nadomeščanja

Matrika nadomeščanja (tudi matrika substitucije) je v bioinformatiki in evolucijski biologiji matrika, ki opisuje stopnje zamenjave ene aminokisline (znaka ali elementa) z drugo aminokislino. Običajno so matrike nadomeščanja povezane z zaporedji v aminokislinah ali zaporedji zapisov v DNK. V teh matrikah se kažejo razhajanja med časovno podobnostjo zaporedij zapisov. Prav tako se v njih vidijo stopnje zamenjav aminokislin.

V času evolucije se proteini spreminjajo zaradi mutacije DNA. Zaradi tega aminokisline mutirajo v drugo vrsto aminokisline.

Matrika nadomeščanja nam tako prikazuje podobnost med dvema aminokislinama.

Logit matrike uredi

Izrazimo verjetnost, da pride do spremembe, s funkcijo logit (inverzna logistična funkcija) ugodnih izidov (zamenjav). Elementi matrike ugodnih izidov   je določena kot

 

kjer je

  •   verjetnost, da se bo aminokislina i zamenjala z aminokislino j
  •   pogostost aminokisline i

Baza logaritma ni pomembna, zaradi tega srečamo matrike nadomeščanja, ki imajo različne baze.

Najbolj znani sta dve vrsti matrik zgrajeni na osnovi logit matrik. To sta matriki, ki ju označujemo s PAM in BLOSUM.

PAM uredi

Oznaka PAM izhaja iz angleškega izraza Point Accepted Mutation (tudi Percent Accepted Mutation).

Ena izmed prvih matrik nadomeščanja je razvila ameriška fizikalna kemičarka Margaret Belle Dayhoff (1925 – 1983) v 70-ih letih prejšnjega stoletja. Matriko je dobila tako, da je primerjala razlike v sorodnih proteinih.

Označevanje PAM matrik uredi

Matrika PAM1 predvideva stopnjo nadomeščanja, kadar pričakujemo, da se lahko spremeni 1% aminokislin. Iz tega izhaja tudi oznaka PAM1. Margaret Dayhoff je razvila matrike vse do PAM250. Običajno pa se uporabljata PM30 in PAM70.

Primer matrike PAM1 uredi

      A     R    N    D    C    Q    E    G    H    I    L    K    M    F    P    S    T    W    Y    V
A  9867     2    9   10    3    8   17   21    2    6    4    2    6    2   22   35   32    0    2   18
R     1  9913    1    0    1   10    0    0   10    3    1   19    4    1    4    6    1    8    0    1
N     4     1 9822   36    0    4    6    6   21    3    1   13    0    1    2   20    9    1    4    1
D     6     0   42 9859    0    6   53    6    4    1    0    3    0    0    1    5    3    0    0    1
C     1     1    0    0 9973    0    0    0    1    1    0    0    0    0    1    5    1    0    3    2
Q     3     9    4    5    0 9876   27    1   23    1    3    6    4    0    6    2    2    0    0    1
E    10     0    7   56    0   35 9865    4    2    3    1    4    1    0    3    4    2    0    1    2
G    21     1   12   11    1    3    7 9935    1    0    1    2    1    1    3   21    3    0    0    5
H     1     8   18    3    1   20    1    0 9912    0    1    1    0    2    3    1    1    1    4    1
I     2     2    3    1    2    1    2    0    0 9872    9    2   12    7    0    1    7    0    1   33
L     3     1    3    0    0    6    1    1    4   22 9947    2   45   13    3    1    3    4    2   15
K     2    37   25    6    0   12    7    2    2    4    1 9926   20    0    3    8   11    0    1    1
M     1     1    0    0    0    2    0    0    0    5    8    4 9874    1    0    1    2    0    0    4
F     1     1    1    0    0    0    0    1    2    8    6    0    4 9946    0    2    1    3   28    0
P    13     5    2    1    1    8    3    2    5    1    2    2    1    1 9926   12    4    0    0    2
S    28    11   34    7   11    4    6   16    2    2    1    7    4    3   17 9840   38    5    2    2
T    22     2   13    4    1    3    2    2    1   11    2    8    6    1    5   32 9871    0    2    9
W     0     2    0    0    0    0    0    0    0    0    0    0    0    1    0    1    0 9976    1    0
Y     1     0    3    0    3    0    1    0    4    1    1    0    0   21    0    1    1    2 9945    1
V    13     2    1    1    3    2    2    3    3   57   11    1   17    1    3    2   10    0    2 9901

horizontalno: prvotne aminokisline
vertikalno: mutirane aminokisline

Primer matrike PAM250 uredi

      A    R    N    D    C    Q    E    G    H    I    L    K    M    F    P    S    T    W    Y    V
A    13    6    9    9    5    8    9   12    6    8    6    7    7    4   11   11   11    2    4    9
R     3   17    4    3    2    5    3    2    6    3    2    9    4    1    4    4    3    7    2    2
N     4    4    6    7    2    5    6    4    6    3    2    5    3    2    4    5    4    2    3    3
D     5    4    8   11    1    7   10    5    6    3    2    5    3    1    4    5    5    1    2    3
C     2    1    1    1   52    1    1    2    2    2    1    1    1    1    2    3    2    1    4    2
Q     3    5    5    6    1   10    7    3    7    2    3    5    3    1    4    3    3    1    2    3
E     5    4    7   11    1    9   12    5    6    3    2    5    3    1    4    5    5    1    2    3
G    12    5   10   10    4    7    9   27    5    5    4    6    5    3    8   11    9    2    3    7
H     2    5    5    4    2    7    4    2   15    2    2    3    2    2    3    3    2    2    3    2
I     3    2    2    2    2    2    2    2    2   10    6    2    6    5    2    3    4    1    3    9
L     6    4    4    3    2    6    4    3    5   15   34    4   20   13    5    4    6    6    7   13
K     6   18   10    8    2   10    8    5    8    5    4   24    9    2    6    8    8    4    3    5
M     1    1    1    1    0    1    1    1    1    2    3    2    6    2    1    1    1    1    1    2
F     2    1    2    1    1    1    1    1    3    5    6    1    4   32    1    2    2    4   20    3
P     7    5    5    4    3    5    4    5    5    3    3    4    3    2   20    6    5    1    2    4
S     9    6    8    7    7    6    7    9    6    5    4    7    5    3    9   10    9    4    4    6
T     8    5    6    6    4    5    5    6    4    6    4    6    5    3    6    8   11    2    3    6
W     0    2    0    0    0    0    0    0    1    0    1    0    0    1    0    1    0   55    1    0
Y     1    1    2    1    3    1    1    1    3    2    2    1    2   15    1    2    2    3   31    2
V     7    4    4    4    4    4    4    4    5    4   15   10    4   10    5    5    5   72    4   17

horizontalno: prvotne aminokisline
vertikalno: mutirane aminokisline

Za oznake (okrajšave) aminokislin glej: aminokislina.

BLOSUM uredi

Oznaka BLOSUM izhaja iz angleškega izraza (BLOck SUbtitution Matrix, tudi BLOcks of Amino Acid Substitution Matrix). S. Henikoff in J. G. Henikoff sta izdelala te vrste matrik z uporabo zaporedij v evolucijsko divergentnih proteinih

Izkazalo se je, da metoda, ki jo je razvila Margaret Dayhoff ni deluje dobro pri primerjavi sorodnih vrst evolucijsko divergentnih zaporedij. Pri matrikah BLOSUM se izračuna matrika z opazovanjem blokov (skupin), ki se ohranjajo v teh skupinah oziroma blokih. Potrebno je med bloki najti tiste, ki se ohranjajo. Matrika nam pove kakšna je verjetnost, da se ena aminokislina zamenja z drugo. Zamenjave lahko vključujejo tudi vključevanje novih blokov ali njihovo odstranitev (brisanje) [1]

Primer matrike BLOSUM uredi

 
Matrika BLOSUM 62. Aminokisline so označene s trimestnimi oznakami (glej aminokislina).

Za izračun BLOSUM matrike se uporablja obrazec

  [2].

kjer je

  •   verjetnost, da aminokislini   in   zamenjata druga drugo
  •   je verjetnost, da najdemo aminokislino   v zaporedju
  •   je verjetnost, da najdemo aminokislino   v zaporedju
  •   je konstanta, s katero priredimo matriko tako, da vsebuje primerna cela števila.

Označevanje BLOSUM matrik uredi

Tudi matrike BLOSUM označujemo podobno kot matrike PAM. Pri matrikah PAM najprej povemo vrsto matrike, nato pa stopnjo nadomeščanja.

Pri matrikah BLOSUM je način označevanja podoben. Prvi del oznake pove vrsto matrike, nato pa sledi procent podobnosti. Primer: BLOSUM62 pomeni, da je bila matrika zgrajena z uporabo zaporedij, ki so bila najmanj 62% podobna [1].

Razlike med matrikami PAM in BLOSUM uredi

  1. Osnova matrik PAM je eksplicitni evolucijski model, matrike BLOSUM pa so osnovane na implicitnem evolucijskem modelu.
  2. Matrike PAM so narejene na osnovi mutacij, ki so jih opazili, in tako vsebujejo stalne in močno spremenljive dele. BLOSUM matrike pa so zgrajene na osnovi opazovanja stalnih področij zaporedij, ki nimajo prekinitev.
  3. Obe metodi se razlikujeta tudi v načinu štetja zamenjav. Metoda BLOSUM uporablja skupine zaporedij, ki vedno ne vsebujejo mutacij in tako niso vse mutacije enakovredne.
  4. Višje številke v matriki PAM pomenijo večjo evolucijsko razdaljo . V matrikah BLOSUM pa pomenijo višje številke večjo podobnost večjo podobnost v zaporedjih in s tem manjšo evolucijsko razdaljo.

Opombe in sklici uredi

  1. 1,0 1,1 BLOSUM matrike
  2. »BLOSUM matrike v Enciklopediji bioinformatike«. Arhivirano iz prvotnega spletišča dne 6. januarja 2010. Pridobljeno 11. marca 2011.

Zunanje povezave uredi