Genomica: studi strutturali e funzionali della genomica

Genomica: studi strutturali e funzionali della genomica!

Il termine genoma fu introdotto da H. Winkler (1920) per indicare l'insieme completo di geni cromosomici ed extra cromosomici presenti in un organismo, incluso un virus.

Il termine genomica coniato da TH Roderick (1987) significa mappatura e sequenziamento per analizzare la struttura e l'organizzazione dei genomi. Ma attualmente la genomica include il sequenziamento dei genomi, la determinazione dell'insieme completo di proteine ​​codificate da un organismo e il funzionamento dei geni e delle vie metaboliche in un organismo.

Lo studio della genomica è suddiviso nei seguenti due domini:

1. La genomica strutturale si occupa della determinazione della sequenza completa di genomi o dell'insieme completo di proteine ​​prodotte da un organismo. Le varie fasi coinvolte sono: (i) costruzione di mappe genetiche e fisiche ad alta risoluzione, (ii) Sequenziamento del genoma e (iii) determinazione dell'insieme completo di proteine ​​in un organismo. Include anche la determinazione delle strutture tridimensionali delle proteine ​​interessate.

2. La genomica funzionale studia il funzionamento dei geni e delle vie metaboliche, cioè i pattern di espressione genica negli organismi.

Sequenziamento dei genomi:

Il sequenziamento dei genomi è un processo altamente sofisticato e tecnicamente impegnativo. In una volta, un frammento di 500-600 bp può essere sequenziato. Al contrario, i genomi sono estremamente grandi, ad esempio, 4, 2 x 10 6 per E. coli e 3, 2 x 10 9 bp per gli esseri umani. Pertanto, la sequenza di genoxne deve essere ottenuta in un numero estremamente grande di piccoli pezzi, questi pezzi vengono quindi assemblati in una sequenza per il genoma.

I pezzi usati per il sequenziamento sono generati rompendo il DNA genomico in frammenti a punti casuali. Di conseguenza, la posizione del frammento nel genoma deve essere determinata sperimentalmente. Tutti i frammenti ottenuti dal DNA genomico di un organismo sono clonati in un vettore adatto che genera una libreria genomica dell'organismo. I due approcci al sequenziamento dei genomi sono: (a) sequenziamento clone-clone e (b) sequenziamento shot-gun.

(a) Clone-by Clone Sequencing:

In questo metodo, i frammenti vengono dapprima allineati in contigs chiamati anche sequenziamento diretto dei contigs BAC. Un contig consiste in una serie di cloni che contengono pezzi sovrapposti di DNA che convertono una regione specifica di un cromosoma o addirittura l'intero cromosoma. Solitamente sono costruiti usando BAC (cromosoma artificiale batterico) e cloni cosmici.

L'approccio generale nella creazione di contigs è quello di identificare i cloni che hanno segmenti di DNA adiacenti dal cromosoma, ad esempio, il cromosoma che cammina, il salto del cromosoma, ecc. Quindi i membri di un contig devono contenere la stessa regione di sovrapposizione per consentire la determinazione precisa della loro posizione -nel contingente. L'obiettivo finale delle procedure di mappatura fisica è ottenere un controllo completo per ciascun cromosoma del genoma.

I frammenti di DNA clonato di un contig possono essere correlati con le posizioni lungo un cromosoma ottenuto dal linkage o dalla mappatura citogenetica. Ciò può essere ottenuto identificando i membri del contig che contengono inserti con tali geni che sono già stati mappati mediante linkage o metodi citologici. Ciò consentirebbe l'allineamento degli altri membri del contig lungo il cromosoma. In alternativa, è possibile utilizzare il RFLP (polimorfismo della lunghezza del frammento di restrizione) e altri marcatori del DNA per correlare le posizioni in una mappa di collegamento con i membri di un contig.

(b) Sequenziamento delle mitragliatrici:

In questo approccio, i cloni selezionati casualmente vengono sequenziati fino a quando tutti i cloni nella libreria genomica vengono analizzati. Il software Assembler organizza le informazioni sulla sequenza nucleotidica così ottenute in una sequenza del genoma. Questa strategia funziona molto bene con genomi procariotici che hanno poco DNA ripetitivo. Ma i genomi eucariotici hanno molte sequenze ripetute che creano confusione nell'allineamento della sequenza. Questi problemi vengono risolti utilizzando enormi potenze di calcolo, software specializzati ed evitando tali regioni che sono ricche di DNA ripetitivo (ad esempio regioni centromeriche e telomeriche).

Compilazione della sequenza del genoma:

I progetti di sequenziamento del genoma hanno reso necessario lo sviluppo di tecnologie ad alto rendimento che generano dati ad un ritmo molto veloce. Ciò ha reso necessario l'uso del computer per gestire questa inondazione di informazioni e ha dato vita a una nuova disciplina chiamata bioinformatica. La bioinformatica si occupa di archiviazione, analisi, interpretazione e utilizzo delle informazioni sui sistemi biologici (attività come la compilazione di sequenze di genomi, l'identificazione di geni, l'assegnazione di funzioni ai geni identificati, la preparazione di database, ecc.).

Al fine di garantire che la sequenza nucleotidica di un genoma sia completa e priva di errori, il genoma viene sequenziato più di una volta. Una volta che il genoma di un organismo viene sequenziato, compilato e corretto (correzione degli errori), inizia la fase successiva della genomica, cioè l'annotazione.

Gene Prediction and Counting:

Dopo che una sequenza del genoma è stata ottenuta e controllata per verificarne l'accuratezza, il prossimo compito è trovare tutti i geni che codificano per le proteine. Questo è il primo passo nell'annotazione. L'annotazione è un processo che identifica i geni, le loro sequenze normative e le loro funzioni. Identifica anche geni codificanti non proteici compresi quelli che codificano per R-RNA, t-RNA e piccoli RNA nucleari. Inoltre, gli elementi genetici mobili e le famiglie di sequenze ripetitive sono identificati e caratterizzati.

La localizzazione dei geni codificanti le proteine ​​avviene ispezionando la sequenza, utilizzando un software o un occhio. I geni codificanti le proteine ​​sono identificati da frame a lettura aperta (ORF). Un ORF ha una serie di codoni che specificano una sequenza amminoacidica, inizia con un codone di iniziazione (solitamente ATG) e termina con un TAG o TGA codone di terminazione (TAA). Gli ORF sono generalmente identificati da un computer ed è un metodo efficace per i genomi batterici.

I geni nei genomi eucariotici (compreso il genoma umano) hanno diverse caratteristiche che rendono meno utile la ricerca diretta. In primo luogo, la maggior parte dei geni eucariotici hanno un pattern di esoni (regioni codificanti) alternati a introni (regioni non codificanti). Di conseguenza, questi geni non sono organizzati come ORF continui. In secondo luogo, i geni nell'uomo e negli altri eucarioti sono spesso molto distanziati, aumentando così le possibilità di trovare geni falsi. Ma le versioni più recenti del software di scansione ORF per i genomi eucariotici rendono la scansione più efficiente.

Dopo aver analizzato una sequenza genomica e predetto i geni, ciascun gene viene esaminato uno alla volta per identificare la funzione del prodotto genico codificato e classificato in gruppi funzionali. Questa analisi coinvolge diversi programmi. Ad esempio, si possono cercare database come Gene Bank, per trovare geni simili isolati da altri organismi. Gli ORF previsti possono essere confrontati con quelli di geni batterici noti e ben caratterizzati. Infine, si possono cercare tali sequenze nucleotidiche per motivi di funzione che codificano domini proteici coinvolti con funzioni specifiche.

Pertanto, l'obiettivo dell'analisi del genoma è determinare le funzioni di tutti i geni e capire come questi geni interagiscono nello sviluppo e nella funzione dell'organismo.

Genomica funzionale:

Può essere definito come la determinazione della funzione di tutti i prodotti genici codificati dal genoma di un organismo. Comprende i seguenti parametri: (1) quando e dove sono espressi determinati geni (profilo di espressione), (ii) le funzioni di specifici geni mediante la mutazione selettiva dei geni desiderati e (iii) le interazioni che avvengono tra proteine ​​e tra proteine e altre molecole. La genomica funzionale tenta di esaminare tutti i geni presenti nel genoma in una volta sola. Pertanto, le tecniche utilizzate nella genomica funzionale consentono analisi ad alto rendimento che consentono un rapido accumulo di dati.

(i) Profilo di espressione:

Determinazione dei tipi di cellule / tessuti in cui un gene è espresso così come quando il gene è espresso è chiamato profilo di espressione. Lo scopo della genomica funzionale è quello di studiare il pattern di espressione di tutti i geni presenti nel genoma allo stesso tempo; questo è chiamato profiling dell'espressione globale. Questo può essere fatto a livello di RNA o a livello di proteine. A livello di RNA, si potrebbe utilizzare il campionamento diretto di sequenze o gli array di DNA.

A livello proteico, si può usare l'elettroforesi bidimensionale, seguita dalla spettrometria di massa o dalle matrici proteiche. La profilazione dell'espressione globale fornisce approfondimenti su complessi fenomeni biologici, tra cui la differenziazione, la risposta allo stress, l'insorgenza di una malattia, ecc. Fornisce anche un nuovo modo per definire i fenotipi cellulari.

(ii) Determinazione della funzione genica:

Un aspetto importante della genomica funzionale è determinare la funzione di specifici geni / sequenze anonime. Un modo potente per raggiungere questo obiettivo è clonare il gene, mutarlo in vitro e reintrodurre il gene mutato nell'organismo ospite e analizzarne l'effetto. Il genoma sotto librerie mutanti è stato sviluppato in diversi organismi modello come batteri, lieviti, piante e mammiferi. Questo è a volte indicato come genomica mutazionale. Tale libreria può essere generata in uno dei seguenti tre modi:

(a) Mutazioni sistematiche di ogni singolo gene alla volta che generano una serie di ceppi mutanti specifici.

(b) Nell'approccio casuale, i geni sono mutati indiscriminatamente, le mutazioni individuali sono quindi caratterizzate e catalogate.

(c) In questo approccio, un gruppo di tecniche viene usato per prevenire l'espressione di specifici / gruppi di geni.

(iii) Interazioni proteiche:

La funzione genica riflette il comportamento delle proteine ​​codificate da loro. Questo comportamento può essere visto come una serie di interazioni tra varie proteine ​​e tra proteine ​​e altre molecole. Le interazioni tra proteine ​​sono studiate usando tecniche ad alto rendimento. Un numero di metodi di mappatura delle interazioni proteiche basati su librerie consente di analizzare centinaia o migliaia di proteine ​​alla volta. Queste interazioni possono essere saggiate in vitro o in vivo. I dati di interazione proteica da varie fonti sono assimilati nei database.