A bioinformatika alapjai

 

Letölthető előadásjegyzet (diasorozat):

1. Genetika

2. Dinamikus programozás

3. A szekvenciaelemzés alapjai

4. Illesztési algoritmusok

5. PCR

6. Többszörös szekvenciaillesztés

7. Adatbázisok

8. Matlab Bioinformatics Toolbox

9. De novo összefűzés

10. Proteomika

11. Gyakorlati_alkalmazások

 

BLAST_BWA_BFAST

Bowtie_SHRIMP

Szekvenciaadatok_meghatározása

 

Tematika:

 

1.     Tájékoztatás
A félévi tematika rövid áttekintése, a számonkérés menetének megbeszélése. A bioinformatika története. A bioinformatika tárgya, alkalmazási területei.

2.     Genetikai alapok
A genetikai örökítőanyag (DNS), kromoszóma felépítése. Főbb RNS típusok. Replikáció, transzkripció, transzláció. Gén, génexpresszió. Fehérjék, fehérjék szerkezetének felépítése.

3.     Dinamikus programozás
Mátrixok, gráfok alkalmazása a bioinformatikában. Az operációkutatás elemeinek felhasználása, súlyfüggvények, konkrét feladatok.

4.     A szekvenciaelemzés alapjai
Szekvenálási adatok kezelése, ellenőrzése. Új szekvencia elhelyezése az elsődleges adatbázisban. Páronkénti összehasonlítások:„dot-plot”. Pontozási módszerek, helyettesítési mátrixok. PAM, BLOSUM mátrixok. Páronkénti szekvenciaillesztések: optimális illesztések. Globális és lokális illesztés

5.     Illesztési algoritmusok I. 
Needleman-Wunsch
algoritmus, Smith-Waterman algoritmus.

6.     Szekvenciaadatok meghatározása
Szekvenátorok, biotechnológiai eljárások: PCR, microarray és típusai (ChIP-chip, ChIP-Seq)

7.     Illesztési algoritmusok II. (Többszörös szekvenciaillesztés)
Módszerek. A progresszív illesztés módszere a ClustalW program példáján. Többszörös illesztések vizualizálása

8.     Adatbázisok
Molekuláris biológiai adatbázisok. Elsődleges szekvencia-adatbázisok. Nukleotidszekvencia adatbázisok: EMBL, GenBank. Fehérjeszekvencia adatbázisok: PIR, SWISS-PROT, TrEMBL. Bibliográfiai adatbázis: PubMed. Keresés az adatbázisokban, Genom-böngészők: Ensembl, Sanger, UCSC.

9.     Bioinformatikai alkalmazások (programcsomagok)
Keresés optimális illesztési algoritmusokkal: webes implementációk. Heurisztikus keresési módszerek: FASTA és BLAST algoritmusok. PERL nyelv használata adatok előkészítéséhez. AZ R nyelv használata statisztikai elemzésekhez. A Matlab Bionformatics toolbox.

10.  Algoritmikus problémák
De novo és reference assembly.

11.  Proteomika, Génexpressziós elemzések 
A
térszerkezeti adatok megjelenítése. Reprezentációs formák. A leggyakrabban használt megjelenítő szoftvercsomagok.

12.  Gyakorlati alkalmazások
Genom projektek. Trendek. Összehasonlító genomika, farmakogenomika, sportgenomika, személyre szabott gyógyszerek.

13.  Számonkérés

 

Tantárgyi sillabusz

 

Irodalom:

·       T.K. Attwood, D.J. Parry−Smith: Introduction to bioinformatics. AddisonWesley Longman 1999.

·       A.D. Baxevanis, B.F.F. Oulette: Bioinformatics. A practical guide to the analysis of genes and proteins. John Wiley Sons 1998.

·       D. Mount: Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor, 2001.

·       G.R. Grant, W.J. Ewens: Statistical Methods in Bioinformatics: An Introduction,  Springer-Verlag, 2005.

·       P. Baldi, S. Brunak, S. Brunak: Bioinformatics: The Machine Learning Approach, Second Edition (Adaptive Computation and Machine Learning), MIT Press, 1998.

·       S. Letovsky: Bioinformatics: Databases and Systems, Springer-Verlag, 1999.

·       L.J. Heyer, A.M. Campbell, Genomika, proteomika, bioinformatika - CD-ROM melléklettel, Medicina (Budapest) kiadó (magyar nyelvű), 2004.

 


Követelmények


 

Előfeltétel:

Valószínűségszámítás és statisztika, Adatbázisrendszerek

 

Vizsgakövetelmények:

A félév során a vizsgált témákhoz kapcsolódó algoritmus implementálása, illetve alternatív lehetőségként zárthelyi dolgozat a félév végén.

 


Ajánlott feladatok


 

1. Térkitöltő görbék alkalmazása genetikai adatok vizualizációjához

Genetikai adatelemzés során gyakran merül fel igény nagyméretű szekvenciák annotációinak vizualizációjára. Jelenleg ezen adatok az esetek döntő többségében lineárisan kerülnek megjelenítésre, azonban az érdekes pontok kiemelése, bizonyos előre definiált szempontok szerinti elrendezése hatékonyabbá teheti az adatok áttekintését és az azok által hordozott információk megértését. Ilyen vizualizáció konstruálására alkalmasak lehetnek a térkitöltő görbék. Egy térkitöltő görbét rekurzívan adhatunk meg, bizonyos lépések végtelen sokszori alkalmazásával. Ezek önaffin viselkedése lehetővé teszi az adatok tetszőleges skálázhatóságát.

 

2. Sejtvideók feldolgozása

A különböző képalkotókkal való adatkinyerés egy meglehetősen egyszerű és viszonylag olcsó technika, ezért nagy népszerűségnek örvend különböző beavatkozások sejtekre történő hatásának ellenőrzéséhez. Gyakori megközelítés például sejtek/sejtkultúrák folyamatos képi rögzítése genetikai és gyógyszeres beavatkozások, vagy pl. fényre való reagálás elemzéséhez. Ezen a területen újszerű, kellő pontossággal rendelkező videó feldolgozó algoritmusok kidolgozására és implementálására van szükség, pl. sejtek szegmentálására vagy sejtek és sejtcsoportok külső hatásokra bekövetkező alaktani változásának mérésére.

 

3. Genetikai vizsgálatok microarray (DNS-chip) adatok feldolgozásával

A microarray (vagy DNS chip) egy üveglapra szintetizált különböző, ismert szekvenciájú DNS darabokat tartalmazó eszköz. Ezen chipek alkalmazási területe a gén kifejeződés mértékének vizsgálata, de emellett alkalmasak komparatív genomi hibridizációs (CGH) elemzésekre, valamint a sejtbeli genomátrendeződés vagy az egyedi nukleotid változatok (SNP) vizsgálatára is. 

A feladat DNS chipekről származó adatok elemzése és összehasonlítása.

 

4. Nagy mennyiségű genetikai adat feldolgozása elosztott környezetben

Napjainkban nagy jelentőséggel bír a genetikai (genomikai, metagenomika, proteomikai) adatelemzés, illetve az így kapott eredmények más információkkal történő összekapcsolása, ezért olyan módszerek kifejlesztésére van szükség, amelyek lehetővé teszik ezen adatok hatékony feldolgozását. Az implementált módszereknek alkalmasnak kell lennie elosztott környezetben (pl. Hadoop) történő működésre.

 

5. Metagenomikai adatfeldolgozás

A metagenomika a természetes környezetből vett mintákban található örökítő anyag vizsgálata. A genetikai kutatásnak ezen új ága lehetővé teszi olyan élőlények genetikai kutatását, amelyek nehezen vizsgálhatók laboratóriumi körülmények között, illetve lehetőséget nyújt eddig ismeretlen életformák feltárására is.

Az egyszerűbb metagenomikai vizsgálatokhoz a megfelelő létező eszközök kiválasztására és összekapcsolására van szükség, mint például a minták de novo összeállítása, az ORF-ek meghatározása és annotálása, az egyes kódoló szakaszok azonosítására, stb.

 

6. Retinafelvételek feldolgozására szolgáló algoritmusok adaptálása mobil platformokra

Nemzetközi szinten komoly és régen megfogalmazott elvárás, hogy hatékony automatikus klinikai szűrőrendszerek készüljenek. A motivációt az adja, hogy egyrészt így csökkenteni lehetne az igen költséges orvos-beteg találkozók számát, illetve olyan fejlődő országok is eszközökhöz juthatnának, ahol nem áll rendelkezésre a megfelelő szintű szakorvosi ellátás. Ilyen speciális terület a cukorbetegség szemszövődményeinek vizsgálata. A mobileszközökhöz csatlakoztatható fundus kamerák megjelenésével lehetővé vált egy mobil eszközökön is működő automatikus szűrőrendszer létrehozása is, amelyhez szükséges a már létező algoritmusok adaptálása.

 


Tételsor


 

1)         Genetikai alapok 1.

A genetikai örökítőanyag (DNS), kromoszóma felépítése. Főbb RNS típusok. Replikáció, transzkripció, transzláció.

 

2)         Genetikai alapok 2.

 Gén, génexpresszió. Fehérjék, fehérjék szerkezetének felépítése.

 

3)         Dinamikus programozás

Dinamikus programozás előnyei, problémamegoldás lépései, Manhattan-i turista problémája

 

4)         A szekvenciaelemzés alapjai

Páronkénti összehasonlítások:„dot-plot”. Pontozási módszerek, helyettesítési mátrixok. PAM, BLOSUM mátrixok. Páronkénti szekvenciaillesztések: optimális illesztések.

 

5)         Illesztési algoritmusok I. 

Needleman-Wunsch algoritmus, Smith-Waterman algoritmus.

 

6)         Szekvenciaadatok meghatározása

     Szekvenátorok, biotechnológiai eljárások: PCR, microarray és típusai

 

7)         Illesztési algoritmusok II. (Többszörös szekvenciaillesztés)

Módszerek. A progresszív illesztés módszere a ClustalW program példáján. Többszörös illesztések vizualizálása

 

8)         Adatbázisok

Molekuláris biológiai adatbázisok. Elsődleges szekvencia-adatbázisok. Nukleotidszekvencia adatbázisok: EMBL, GenBank. Bibliográfiai adatbázis: PubMed. Keresés az adatbázisokban, Genom-böngészők, adatbázis rekordok

 

9)         Algoritmikus problémák

De novo és reference assembly.

 

10)       Proteomika, gyakorlati alkalmazások

Genom projektek. Trendek. Összehasonlító genomika, farmakogenomika, sportgenomika, személyre szabott gyógyszerek.