PUMA
Istituto di Scienza e Tecnologie dell'Informazione     
Vitale D. Sviluppo di software per l'analisi statistica di sequenze di D.N.A.
 
 
Abstract
(English)
The study of the statistical uctuations in a DNA sequence can shows some important characteristics on its structure. In a previous work Sthepan Beirer found long range correlations (LCR), for nucleotides, in chromosomes 20, 21 and 22 of the human genome. The occurence of LRC implies that the underlying system shows fracttal properties and self-affinity. The aim of this work was rst of all to conrm Beirer's results and then to extend his work, searching correlation beetwen triplets of nucleotides on the sequence. Correlations in DNA sequences were studied and quantied using two measures taken from information theory: the mutual information function and different correlation functions. A software in C++ was implemented to calculate the functions and then the results were processed and showed graphically by Octave. The values obtained confirm Beirer's results. The analysis on nucleotides triplets reveal LRC for chromosome 20 and 21. Moreover some triplets that contain only nucleotides adenine and thymine showed correlation significantly higher than others. These outcomes show the importance of a deeper study on the nucleotides triplets. In particular it's important to verify the existance of a relationship beetwen generic nucleotides triplets and coding triplets(codons).
Abstract
(Italiano)
Lo studio delle fluttazioni statistiche all'interno di una sequenza di DNA può rivelare importanti caratteristiche sulla sua struttura. Un lavoro precedente di Sthepan Beirer ha messo in evidenza l'esistenza di correlazioni a lungo raggio (LRC), tra nucleotidi all'interno dei cromosomi 20, 21 e 22 del genoma umano. Le LRC sono ritenute di particolare importanza poichè la loro presenza implica caratteristiche di autosimilarità della sequenza e di conseguenza una struttura di tipo frattale nell'organizzazione del genoma. Nel corso di questo studio ci è posti l'obiettivo,in primo luogo, di verificare i risultati del precedente lavoro di Beirer e successivamente, è stata proposta una possibile estensione dell'analisi eseguita dividendo la sequenza in triplette non sovrapponibili di nucleotidi Per studiare e quanticare le correlazioni all'interno della sequenza sono state usate due misure provenienti dalla teoria dell'informazione, la funzione di Mutua Informazione e la funzione di Auto-Correlazione. Per il calcolo delle suddete funzioni è stato realizzato un software in C++ e i risultati sono stati successivamente trattati e visualizzati con il supporto del sotware Octave. I valori ottenuti hanno confermato i risultati ottenuti da Beirer sui singoli nucleotidi e hanno permesso di individuate LRC tra triplette di nucleotidi sui cromosomi 20 e 21. Si è potuta inoltre constatare una correlazione signicativamente alta tra triplette contenenti i nucleotidi adenina e timina. Questi ultimi risultati sono in parte aderenti a quelli ottenuti sui singoli nucleotidi ma mettono in evidenza l'interesse di uno studio della sequenza sulle triplette di nucleotidi anche per verificare se esiste una relazione tra generiche triplette e triplette che codificano per una proteina (codoni).
Subject Bioinformatics
Long range dependence
Mutual information
Codons
DNA
J.3 Life and Medical Sciences. Biology and genetics
94A17 Measures of information, entropy


Icona documento 1) Download Document PDF


Icona documento Open access Icona documento Restricted Icona documento Private

 


Per ulteriori informazioni, contattare: Librarian http://puma.isti.cnr.it

Valid HTML 4.0 Transitional