00b49539caa3d60629000000(2).pdf
(
948 KB
)
Pobierz
STUDIA INFORMATICA
Volume 33
2012
Number 2A (105)
Bożena MAŁYSIAK-MROZEK, Dariusz MROZEK, Łukasz KOŁKOWSKI
Politechnika Śląska, Instytut Informatyki
EFEKTYWNA REPREZENTACJA MOLEKULARNYCH
STRUKTUR BIAŁKOWYCH STOSOWANA
W PROCESIE ICH PORÓWNANIA
Streszczenie.
Porównanie molekularnych struktur białkowych często jest ważnym
procesem towarzyszącym poszukiwaniu podobieństwa strukturalnego białek, identy-
fikacji ich funkcji, a także badaniu ewolucji organizmów żywych. Efektywna repre-
zentacja struktur białkowych jest niezwykle istotna dla powodzenia procesu porówna-
nia oraz szybkości jego prowadzenia. W niniejszym artykule przedstawiono rozważa-
nia na temat wyboru cech reprezentatywnych opisujących struktury białkowe w proce-
sie ich porównywania. Zaprezentowano również badania dotyczące porównania struk-
tur białkowych za pomocą macierzy odległości międzyrezydualnych, transformo-
wanych następnie do macierzy odcieni szarości i opisanych przez współczynnik jako-
ści obrazu Q dla szybszego porównania i wyszukiwania w bazie danych.
Słowa kluczowe:
bioinformatyka, białka, struktura, podobieństwo, porównanie
struktur
EFFECTIVE REPRESENTATION OF PROTEIN MOLECULAR
STURCTURES APPLIED IN THEIR COMPARISON
Summary.
Comparison of protein, molecular structures is often an essential com-
ponent process of protein structure similarity searching, identification of protein func-
tions, and investigation of the evolution of living organisms. Effective representation
of protein structures in the comparison process is then very important for its success-
fulness and swiftness. In the paper, we present considerations on using various, repre-
sentative features describing protein structures in their comparison. We also show our
research on protein structure comparison with the use of intra-residual distance matri-
ces, which are transformed to the grayscale images and described by means of the
Universal Image Quality Index for faster comparison and database retrieval.
Keywords:
structural bioinformatics, protein structure, similarity, structure com-
parison
508
B. Małysiak-Mrozek, D. Mrozek, Ł. Kołkowski
1. Wprowadzenie
Istnienie, właściwa konstrukcja i aktywność cząstek białkowych leżą u podstaw funkcjo-
nowania wszystkich organizmów żywych. Białka są niezwykle ważnymi cząsteczkami, peł-
niącymi kluczową rolę we wszystkich reakcjach biochemicznych zachodzących w komórkach
organizmów [1]. Nie dziwi zatem fakt, że cząsteczki te stały się obiektami badań naukowych
prowadzonych przez naukowców wielu dziedzin, takich jak: biochemia, biologia molekular-
na, fizyka, bioinformatyka i in.
W badaniach prowadzonych przez różne zespoły naukowe białka bardzo często porównu-
je się ze sobą, aby znaleźć odpowiedź na rozmaite pytania, w tym m.in.:
Czy otrzymana w eksperymencie naukowym cząstka białkowa ma zbliżoną budowę do
znanych już cząstek?
Jaką potencjalnie funkcję może pełnić wyizolowane w badanym organizmie białko?
Jak obecna struktura białka świadczy o jego aktywności komórkowej?
Czy wytworzona syntetycznie struktura białka może pełnić w organizmie zamierzoną
rolę?
Jak zmiana genetyczna przekłada się na strukturę białka i jakie są tego konsekwencje bio-
logiczne?
Jaką informację badana struktura białkowa może wnieść w odniesieniu do klasyfikacji
ewolucyjnej badanego organizmu?
Porównanie białek może być prowadzone na różnych poziomach opisu czy organizacji
ich struktury, począwszy od struktury pierwszorzędowej aż po strukturę czwartorzędową.
Każdy z tych poziomów dostarcza innego rodzaju informacji, a sama budowa białka może
być różnie opisana lub reprezentowana w systemach komputerowych. W zależności od celu
prowadzenia porównania naukowców będzie interesował opis bardziej lub mniej szczegóło-
wy. W każdym jednak przypadku analizie i porównaniu będzie podlegała wewnętrzna budo-
wa cząsteczek białkowych. Efektywna reprezentacja struktur białkowych jest natomiast nie-
zwykle istotna dla powodzenia procesu porównania oraz szybkości jego prowadzenia.
W niniejszym artykule, przyglądając się czterem poziomom organizacji struktur białko-
wych, przedstawiono rozważania na temat wyboru cech reprezentatywnych opisujących te
struktury w procesie porównania. Zaprezentowano także ogólnie akceptowane sposoby repre-
zentacji deskryptorów struktur białkowych w systemach komputerowych. Ponadto autorzy
zaprezentowali własne badania dotyczące porównania struktur białkowych zgodnie z przyję-
tym przez siebie deskryptorem w postaci macierzy odległości.
Efektywna reprezentacja molekularnych struktur białkowych stosowana…
509
2. Cztery poziomy opisu budowy białek i ich reprezentacja
w systemach komputerowych
Analizując ogólną budowę białek, można powiedzieć, że są to makrocząsteczki o masie
cząsteczkowej powyżej 10 kDa (1 Da = 1,66 x 10
–24
g), zbudowane z aminokwasów (>100
aminokwasów) połączonych w łańcuchy wiązaniami peptydowymi [2]. W budowie białek
wyróżnia się cztery poziomy opisu lub reprezentacji, niezwykle istotne z punktu wiedzenia
prowadzonej analizy – są to: struktura pierwszo-, drugo-, trzecio- i czwartorzędowa [3], [4].
Trzy ostatnie poziomy definiują tzw. konformację białka lub jego strukturę przestrzenną [2].
Porównanie białek prowadzi się zazwyczaj na jednym lub kilku wybranych poziomach –
można np. prowadzić porównanie wyłącznie na poziomie struktury pierwszorzędowej wów-
czas, gdy staramy się wykryć i przeanalizować mutacje powstałe w sekwencji białka na sku-
tek zajścia mutacji w genie kodującym to białko.
2.1. Struktura pierwszorzędowa
Strukturę pierwszorzędową białek określa tzw. sekwencja aminokwasów białka, czyli ko-
lejność aminokwasów w łańcuchu białkowym, stąd też często zamiast pojęcia struktura
pierwszorzędowa używa się właśnie pojęcia sekwencja. W porównaniu struktur białkowych
lub klasyfikacji białek, np. prowadzonych za pomocą systemu CATH [5] lub SCOP [6],
struktura pierwszorzędowa często spełnia rolę posiłkową. Przyjęto bowiem założenie, że
prawdopodobieństwo, iż dwa białka o bardzo zbliżonej sekwencji będą miały zbliżoną struk-
turę przestrzenną, jest bardzo wysokie. Sekwencja aminokwasów może być różnie reprezen-
towana w procesie przetwarzania i analizy danych biologicznych. Niemniej jednak najczę-
ściej stosowanym sposobem jest reprezentacja w formacie FASTA [7]. Przykład sekwencji
białek mioglobiny i hemoglobiny w formacie FASTA przedstawiono na rys. 1. Pierwsza linia
zbioru dla każdej cząsteczki ma charakter opisowy, informacyjny, natomiast począwszy od
drugiego wiersza, poszczególne aminokwasy w liniowym łańcuchu są reprezentowane przez
litery alfabetu (np. V to aminokwas waliny, L – lizyny, S – seryny itd.).
>1MBN:A|PDBID|CHAIN|SEQUENCE
VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGA
ILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKE
LGYQG
>4HHB:A|PDBID|CHAIN|SEQUENCE
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVD
DMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
Rys. 1. Sekwencje białek: mioglobiny (PDB ID: 1MBN) i hemoglobiny (PDB ID: 4HHB, łańcuch
A) w formacie FASTA
Fig. 1. Sequences of proteins: myoglobin (PDB ID: 1MBN) and hemoglobin (PDB ID: 4HHB,
chain A) in the FASTA format
510
2.2. Struktura drugorzędowa
B. Małysiak-Mrozek, D. Mrozek, Ł. Kołkowski
Struktura drugorzędowa białek opisuje wzajemne przestrzenne ułożenie reszt amino-
kwasowych, sąsiadujących ze sobą w sekwencji liniowej. Ten poziom opisu w strukturze
przestrzennej wyróżnia pewne charakterystyczne, regularnie pofałdowane regiony, np.: heli-
sy α, harmonijki β (β-kartki), pętle (zakręty). Struktury drugorzędowe białek są cennym źró-
dłem informacji o budowie cząstek białkowych. Pozwalają one ocenić ogólny kształt białka,
ogólny sposób uformowania łańcucha aminokwasów, a także wskazać rodzaje lub elementy
struktur drugorzędowych (SSE) występujących w jego budowie – czy są to struktury tylko
jednego rodzaju, np. tylko
-helisy
lub tylko
-kartki,
czy struktury te są rodzajowo zróżni-
cowane. Ten sposób reprezentacji umożliwia również stwierdzenie, czy struktury danego typu
są mocno posegregowane, czy występują naprzemiennie. Obserwacja trójwymiarowej budo-
wy białka, reprezentowanej na poziome struktur drugorzędowych, ujawnia wzajemną organi-
zację przestrzenną poszczególnych fragmentów białka i dostarcza informacji dotyczących
formowania różnego rodzaju motywów strukturalnych (zwanych inaczej superstrukturami
drugorzędowymi), np. popularna
-spinka
(ang.
-hairpin)
składa się z dwóch antyrównole-
głych
-nici
(ang.
-strand)
połączonych krótką pętlą (ang.
loop),
równie często występują-
cym motywem jest np. motyw
--.
Obserwacja białka w postaci struktury drugorzędowej
pozwala również określić miejsca występowania domen funkcyjnych, czyli stabilnych kon-
strukcyjnie fragmentów białka, które mogą fałdować się niezależnie od siebie i pełnią zwykle
określoną rolę w procesach komórkowych [8]. Na rys. 2a przedstawiono fragment struktury
formujący charakterystyczną
-spinkę,
na rys. 2b można natomiast obserwować struktury
typu
-helisa
w przestrzennej budowie przykładowego białka z bazy Protein Data Bank
(PDB) [9].
a)
b)
Rys. 2. Przykłady struktur przestrzennych białek reprezentowanych na poziomie struktury drugo-
rzędowej: a) motyw
-spinka,
b) struktury
-helikalne
w białku PDB ID: 1X91
Fig. 2. Examples of spatial structures represented by secondary structures: a)
-hairpin
motif,
b)
-helices
in the protein PDB ID: 1X91 (crystal structure of mutant form A of a pectin
methylesterase inhibitor from
Arabidopsis)
Struktury drugorzędowe, podobnie jak sekwencje aminokwasów, stanowią podstawę kla-
syfikacji białek i używa się ich w procesie porównywania budowy białek. Przyjmuje się tutaj
biologicznie uzasadnione założenie, że białka różniące się na poziomie sekwencji aminokwa-
Efektywna reprezentacja molekularnych struktur białkowych stosowana…
511
sów mogą pozostać podobne w sensie struktury przestrzennej, w tym struktury drugorzędo-
wej. Struktury przestrzenne są bowiem bardziej konserwatywne. Na etapie ewolucji organi-
zmów, na skutek zmian zachodzących w łańcuchach DNA sekwencje białek uległy zróżnico-
waniu, jednakże nie spowodowało to wielokrotnie tak dużych zmian w strukturach prze-
strzennych białek.
Jednak z punktu widzenia prowadzonej analizy obliczeniowej często istotne jest odpo-
wiednie reprezentowanie struktury drugorzędowej i jej właściwe przechowywanie np. w bazie
danych. Dobrym sposobem opisu budowy przestrzennej białek przez struktury drugorzędowe
jest reprezentowanie jej przez sekwencje elementów struktury drugorzędowej (SSE). Każdy
element struktury drugorzędowej odpowiada jednemu elementowi struktury pierwszorzędo-
wej, a zatem pojedynczemu aminokwasowi. Na rys. 3 zaprezentowano sekwencję aminokwa-
sów białka o nazwie
6-phosphogluconolactonase
w organizmie
Escherichia coli
oraz odpo-
wiadającą jej sekwencję elementów struktury drugorzędowej. Poszczególne symbole w se-
kwencji elementów struktury drugorzędowej mają następujące znaczenie: H odpowiada
-
helisie, E odpowiada
-kartce,
a C odpowiada pętli (dla pętli stosuje się również oznaczenie
L). Taki sposób reprezentacji został wykorzystany przez autorów w implementacji języka
PSS-SQL [10, 11].
A7ZY23
6PGL_ECOHS
6-phosphogluconolactonase OS=Escherichia coli O9:H4 (strain HS) GN=pgl PE=3 SV=1
MKQTVYIASPESQQIHVWNLNHEGALTLTQVVDVPGQVQPMVVSPDKRYLYVGVRPEFRVLAYRIAPDDGALTFAAESAL
PGSPTHISTDHQGQFVFVGSYNAGNVSVTRLEDGLPVGVVDVVEGLDGCHSANISPDNRTLWVPALKQDRICLFTVSDDG
HLVAQDPAEVTTVEGAGPRHMVFHPNEQYAYCVNELNSSVDVWELKDPHGNIECVQTLDMMPENFSDTRWAADIHITPDG
RHLYACDRTASLITVF
CCCEEEEECCCCEEEEEEECCCCEEEEEEEEEEECCCCCEEEECCCEEEEEECCCCCEEEEEEEECCCCCCHHHHHHHCC
CCCCCCEEECCCCEEEEECCCCCCEEEEEEECCCCCCEEEEEEECCCCCCCCCCCCCCCEEEECCHHHHHEEEEECCCCC
CEEECCCCCEEEECCCCCCCEEECCCCEEEEEECCCCCCEEEEEECCCCCCEEEEEECCCCCCCCCCCCCCEEEECCCCC
CEEEECCCCCCCEEEE
Rys. 3. Przykładowa sekwencja aminokwasów białka
6-phosphogluconolactonase
w orga-
nizmie
Escherichia coli
oraz odpowiadająca jej sekwencja elementów struktury
drugorzędowej, wygenerowana za pomocą programu Predator [12]
Fig. 3. Sample amino acid sequence of the protein
6-phosphogluconolactonase
in the
Esch-
erichia coli
with the corresponding sequence of secondary structure elements gener-
ated by means of the Predator program [12]
2.3. Struktura trzeciorzędowa
Struktura trzeciorzędowa odnosi się do powiązań przestrzennych i wzajemnego ułożenia
reszt aminokwasowych zarówno tych oddalonych od siebie w sekwencji liniowej, jak i sąsia-
dujących ze sobą (rys. 4). Opisuje zatem ukształtowanie struktury spowodowane dodatko-
wymi, wewnętrznymi oddziaływaniami elektrostatycznymi, wodorowymi oraz ewentualnymi
Plik z chomika:
xyzgeo
Inne pliki z tego folderu:
pd-dok(2).pdf
(17987 KB)
06_Struktura-norm(2).pdf
(10166 KB)
odgadywanie.pdf
(1383 KB)
00b49539caa3d60629000000(2).pdf
(948 KB)
164-183-1-SM (1)(2).pdf
(843 KB)
Inne foldery tego chomika:
0
algorytmika
artykuly
bioinformatyka (biotech06)
Bioinformatyka (patryska89)
Zgłoś jeśli
naruszono regulamin