wyklad_inauguracyjny_2011(4).pdf

(2065 KB) Pobierz
prof. dr hab. inż. Jacek Błażewicz
Instytut Informatyki, Politechnika Poznańska
BIOINFORMATYKA
I JEJ PERSPEKTYWY
1. Wstęp
Bioinformatyka jest jedną z najmłodszych nauk, której burzliwy rozwój zo-
stał wymuszony przez postęp w dziedzinie nauk biologicznych, a umożliwiły
go dokonane przełomowe osiągnięcia i wdrożenia w samej informatyce. Tak
jak wiek XIX był wiekiem węgla, pary i mechaniki, a wiek XX – wiekiem ato-
mu i fizyki, tak wszystko wskazuje na to, że wiek XXI będzie wiekiem
biologii
i właśnie
informatyki.
Świadczy o tym między innymi fakt, iż większość prze-
łomowych prac publikowanych w ostatnich dziesięcioleciach w prestiżowych
czasopismach naukowych
Science
i
Nature
dotyczy biologii, a do uzyskania tych
rezultatów w większości przypadków wykorzystano skomplikowane narzędzia
bioinformatyczne.
Przełomowym odkryciem II połowy XX wieku,
stymulującym powyższy rozwój nauki było podanie
w 1953 r. przez Watsona i Cricka (wykorzystujących
także prace Wilkinsa i Franklin)
modelu podwójnej
helisy łańcucha DNA
(por. Rys. 1), przechowującego
(kodującego) informację genetyczną we wszystkich
organizmach żywych [41], [19] i [42]. Za osiągnię-
cie to badacze uzyskali kilka lat później nagrodę
Nobla. Odkrycie budowy helisy zrewolucjonizo-
wało nasze spojrzenie na biologię, w szczególności
biologię molekularną, której rozwój znacząco przy-
spieszył. Jej wpływ na informatykę też był bardzo
znaczący. Po pierwsze, ilość generowanych danych
z eksperymentów biologicznych okazała się za
duża do zapamiętania i przetworzenia „ręcznego”.
Niezbędna była pomoc informatyki. Z drugiej stro-
ny łańcuch DNA okazał się
zakodowaną informacją
Rys. 1. Podwójna
dotyczącą budowy i funkcjonowania organizmów
helisa DNA.
58
BIuleTyN INAuguRACyJNy PP – PAŹDZIeRNIK 2011
żywych. Niezbędne okazało się zatem wykorzystanie informatyki co najmniej
na dwóch poziomach pracy biologów:
• na etapie
gromadzenia
i
efektywnego zapisywania, przechowywania i wydoby-
wania informacji,
co prowadziło do wykorzystywania istniejących, a później
stymulacji rozwoju nowych systemów baz danych;
• na etapie
przetwarzania informacji
zawartej w łańcuchach DNA, a także
RNA i białek, modelowania struktur przestrzennych tych molekuł, a także
przewidywania ich funkcjonalności i wzajemnych powiązań, co wymaga-
ło zastosowania dostępnych i rozwoju nowych narzędzi informatycznych
i matematycznych, w szczególności, kombinatoryki, probabilistyki, staty-
styki, geometrii przestrzennej i wielu innych.
Możemy zatem powiedzieć, że
bioinformatyka
to dziedzina wiedzy, która
sytuuje się na pograniczu informatyki, biologii i matematyki. Wymaga zna-
jomości tych trzech obszarów badawczych, ale w tej chwili jest traktowana
jako samodzielna dyscyplina naukowa. Przepływ idei jest tu następujący: bio-
logia, która jak powiedzieliśmy, jest w tej chwili motorem napędowym nauki,
kreuje pewien problem, a informatyka próbuje (wykorzystując także matema-
tykę) pomóc w jego rozwiązaniu. Należy podkreślić tutaj istotność aspektu
obliczeniowego, a więc wykorzystanie komputerów. Samo zamodelowanie
pewnego zjawiska, np. przy wykorzystaniu równań matematycznych, nie wy-
starczy! Potrzebne są efektywne algorytmy i programy komputerowe konstru-
ujące rozwiązanie, choćby nie zawsze optymalne. To między innymi przyczyna
wielkiego sukcesu bioinformatyki i stosunkowo niewielkiego zainteresowania
biomatematyką. Warto w tym miejscu również wspomnieć o niesłychanym
postępie nauk obliczeniowych (nie tylko związanych z biologią i bioinforma-
tyką), który został spowodowany rozwojem Internetu i wielu różnorodnych
technik obliczeń równoległych.
Wspomniany wyżej aspekt konstrukcyjny doprowadził też do często wy-
stępującego podziału interesującej nas dziedziny na
biologię obliczeniową
i właściwą
bioinformatykę,
w zgodzie z obowiązującym rozróżnieniem:
nauka
a
technologia
(science vs
technology).
Zgodnie z tym podziałem
biologia obli-
czeniowa opracowuje modele ilościowe
zagadnień biologicznych, często bardzo
teoretyczne, bazujące na sformułowaniach matematycznych, bioinformatyka
natomiast korzystając z tych modeli (lub znacznie je upraszczając) buduje al-
gorytmy konstruujące interesujące biologów rozwiązania. Nie jest to jednak
jedyne możliwe rozróżnienie między tymi dwiema dziedzinami, np. J. Xiong
[43] proponuje taki podział:
„Bioinformatyka
różni się od powiązanej z nią dziedziny zwanej biologią ob-
liczeniową, gdyż ogranicza się do analizy sekwencji, struktury oraz funkcji genów
i genomów oraz odpowiadających im produktów ekspresji. Dlatego często określa
WyKŁAD INAuguRACyJNy – BIOINFORMATyKA I JeJ PeRSPeKTyWy
59
się ją mianem molekularnej biologii obliczeniowej. Biologia obliczeniowa natomiast
obejmuje wszystkie obszary biologii, które wymagają obliczeń. Na przykład w mode-
lowaniu matematycznym ekosystemów i dynamiki populacji, w zastosowaniu teorii
gier do analiz behawioralnych i rekonstrukcjach filogenetycznych wykorzystujących
dane kopalne stosuje się narzędzia obliczeniowe, które nie muszą mieć związku
z makrocząsteczkami biologicznymi”.
Wydaje nam się jednak, że pierwszy podział lepiej pasuje do ogólnej meto-
dologii nauk, przypomnianej niedawno na jednym z wykładów inauguracyjnych
przez l. Pacholskiego [29]. Trawestując cytowaną tam anegdotę pochodzącą
od prof. Jana Kaczmarka,
biologia obliczeniowa zajmuje się poznaniem tego co jest,
natomiast bioinformatyka – tworzeniem tego, czego jeszcze nie ma.
Zatem przyj-
miemy dalej, iż bioinformatyka rozwija narzędzia do analiz sekwencji (kwasów
nukleinowych i białek), strukturalnych, funkcjonalnych oraz systemowych
(por. zmodyfikowany podział dziedziny na Rys. 2, pierwotnie zaproponowany
w [43]), a także narzędzia do ekstrakcji informacji przechowywanej w bazach
danych.
Rys. 2. Podział bioinformatyki.
Celem bioinformatyki jest pomoc w zakresie zrozumienia funkcjonowania
mechanizmów organizmów żywych poprzez budowę i wykorzystanie narzędzi
ilościowych. Zastosowania tych badań znacząco wykraczają jednak poza na-
kreślony powyżej obszar, obejmując także wiele pokrewnych dziedzin jak bio-
technologię czy medycynę, przyczyniając się np. do szybszego projektowania
leków, wykonywania analiz DNA w medycynie sądowej, czy też przybliżając
moment, w którym każdy z nas będzie mógł korzystać z dobrodziejstw
medycy-
ny spersonalizowanej.
60
BIuleTyN INAuguRACyJNy PP – PAŹDZIeRNIK 2011
W niniejszym studium znajdą się, choć oczywiście omówione bardzo skró-
towo, powyższe aspekty dotyczące zakresu badawczego i zastosowań bioinfor-
matyki, ze szczególnym uwzględnieniem wyników środowiska poznańskiego
i perspektyw jej rozwoju na Politechnice Poznańskiej.
2. Biologiczne podstawy
Biorąc pod uwagę fakt, że wykład ma miejsce na Politechnice Poznańskiej,
niezbędne wydaje się przypomnienie podstawowych praw i odkryć biologii.
W świetle tych ostatnich można stwierdzić, że wszystkie żyjące organizmy
składają się z jednej lub wielu
komórek.
Stąd jednym z najważniejszych działów
biologii jest
biologia komórkowa
(a idąc dalej tym śladem
obliczeniowa biologia
komórkowa,
którą niektórzy utożsamiają z bioinformatyką). Jednym z najważ-
niejszych obiektów, którymi zajmuje się biologia są
łańcuchy DNA
(molekuły
kwasu nukleinowego DNA), kodujące informację genetyczną opisującą bu-
dowę i funkcjonowanie nie tylko pojedynczych komórek, ale i całych organi-
zmów. Należy podkreślić, że budowa komórek różnych organizmów, a jeszcze
bardziej kodujących je łańcuchów DNA wykazuje zadziwiające podobieństwa.
DNA jest
ciągiem nukleotydów
(dla wygody informatyk może o nich myśleć jak
o literach), przybierających zaledwie cztery wartości:
A, C, G, T.
Nie anali-
zując bliżej ich budowy, możemy powiedzieć, iż różnią się one zasadą azotową
wchodzącą w ich skład. Krótkie, pojedyncze łańcuchy DNA nazywane są
oli-
gonukleotydami.
Cała informacja genetyczna organizmu skupiona w jednym lub kilku łań-
cuchach DNA, nazywana jest
genomem.
Dzięki wspomnianemu, fundamen-
talnemu odkryciu Watsona i Cricka [41] wiadomo, że łańcuch ten ma postać
podwójnej helisy,
a co więcej zawsze naprzeciwko A w jednym łańcuchu wystę-
puje T w drugim, a naprzeciwko C mamy g (por. Rys. 1). Znając zatem jeden
z łańcuchów, drugi – komplementarny, można zawsze odtworzyć. Korzysta
z tej właściwości sam organizm przy rozmnażaniu, korzystają też biolodzy w la-
boratoriach. Długość genomu człowieka przekracza trzy miliardy par zasad –
bp
(nukleotydów – w takich jednostkach mierzony jest genom). Warto podkre-
ślić, że kopia genomu znajduje się w każdej komórce organizmu i w przypadku
człowieka jest to ponad 400 bilionów kopii. Jedną z ciekawych właściwości
pojedynczego łańcucha DNA jest jego dążenie do połączenia się w helisę
z łańcuchem komplementarnym. Właściwość ta wykorzystywana bywa bardzo
często w laboratoriach.
Wspomnianym badaczom zawdzięczamy też
Centralny Dogmat Biologii
Molekularnej,
który określa związki miedzy DNA, a białkami będącymi bu-
dulcem organizmu, jak i elementami odpowiedzialnymi za jego działanie.
Otóż,
w procesie transkrypcji
odpowiedni fragment genomu jest
przepisywany
WyKŁAD INAuguRACyJNy – BIOINFORMATyKA I JeJ PeRSPeKTyWy
61
na
łańcuch
RNA
(nietrwały, pośredniczący, pojedynczy łańcuch innego kwa-
su nukleinowego), który przechodząc następnie do rybosomu jest tłumaczo-
ny (podlega
translacji)
na odpowiadający łańcuch białkowy (por. Rys. 3, gdzie
przedstawiono przebieg procesów transkrypcji i translacji). Należy podkreślić,
że fragment łańcucha DNA odpowiadający jednemu łańcuchowi białka nosi
nazwę genu. Warto dodać, że trzem nukleotydom odpowiada jeden amino-
kwas (element budowy białka), chociaż przypisanie to (nazywane
kodem gene-
tycznym)
nie jest wzajemnie jednoznaczne.
Rys. 3. Centralny Dogmat Biologii Molekularnej.
Zadziwiające jest, że powyższy schemat odpowiada w zasadzie wszystkim
organizmom żywym, a stosowany kod genetyczny w dużej mierze jest taki sam
w większości przypadków. Powyższy schemat, powszechnie przyjmowany jesz-
cze kilkanaście lat temu, zakładał, że tylko ok. 5% genomu DNA zawierało
informację kodującą
białko. Resztą było tzw.
DNA śmieciowe.
Komputerową metaforę genetyczną
tego modelu można przedstawić, przyj-
mując, że DNA to
pamięć długookresowa
(np. dyskowa), RNA to pamięć
krótkookresowa (RAM, lub pamięć notatnikowa), a białka to
procesory,
wy-
konujące w systemie różne programy.
Rozwój biologii pokazał jednak, że powyższy schemat jest zdecydowanie
za prosty (trudno było przypuścić, że Natura marnotrawi 95% genomów or-
ganizmów życiowych). Nowe teorie zakładają znacząco większy udział małych
łańcuchów RNA (transkrybowanych z „nieopisanych” dotychczas fragmen-
tów genomu) we wszystkich procesach organizmów żywych. W naszej
kom-
puterowej metaforze,
RNA spełniałoby zatem (oprócz pamięci notatnikowej)
także rolę
specjalizowanych mikroprocesorów
wykonujących różne operacje po-
mocnicze w systemie.
Zgłoś jeśli naruszono regulamin