LA SCALABILITÀ NELLE SIMULAZIONI DI DINAMICA DELLE BIOMOLECOLE: GROMACS 4 E LE PROTEINE rOBP e GALT
![]() | Newsletter RNBIOLuglio 2009, Anno 1, Numero 3 |
LA SCALABILITÀ NELLE SIMULAZIONI DI DINAMICA DELLE BIOMOLECOLE: GROMACS 4 E LE PROTEINE rOBP e GALT
GROMACS e NAMD sono tra i tool più diffusi per lo studio della dinamica molecolare di sistemi biologici. Sono entrambi codici paralleli open source studiati per simulazioni high performance computer di grandi molecole biologiche. Al Cineca, al momento, sono disponibili sul cluster IBM BCX/5120 nelle versioni GROMACS.4.0RC3 e NAMD.2.7b1.
La scelta dell’uno o dell’altro software, al momento di intraprendere una simulazione di dinamica molecolare, dipende da vari fattori, tra questi la complessità del sistema che si vuole studiare e le performance dell’ambiente computazionale disponibile. Solitamente per ottenere informazioni significative sul comportamento dinamico dei sistemi biologici in esame occorre simulare tempi piuttosto lunghi, dell’ordine di decine-centinaia di nanosecondi e in alcuni casi anche di microsecondi, ma questo, soprattutto per proteine molto grandi, composte da molte migliaia di atomi, può richiedere un consumo di tempo macchina e tempi di esecuzione molto elevati. E’ in quest’ottica che divengono fondamentali i requisiti di scalabilità del software e di “high performance" dell’ambiente computazionale.
Studi passati avevano messo in evidenza come fosse preferibile l’utilizzo di NAMD, rispetto a GROMACS versione 3, per simulazioni di grandi complessi proteici. Riportiamo qui di seguito un esempio (Fig.1) di speedup di NAMD e GROMACS versione 3, installati sul cluster linux del Cineca, per la simulazione di una proteina con solvente di circa 30.000 atomi. Si osserva che le performance di NAMD, misurate in picosecondi di simulazione al giorno, migliorano pressoché linearmente all’aumentare del numero dei processori fino ad un massimo di 64 processori.
Fig.1 Speedup di NAMD e GROMACS 3 nella simulazione di un complesso proteico con solvente di circa 30.000 atomi.
Nel 2008 è stata rilasciata la versione 4 di GROMACS che sin dai primi test ha mostrato importanti miglioramenti di performance. Lo stesso complesso proteico che con GROMACS 3 riusciva ad utilizzare vantaggiosamente al massimo 16 processori, dei 2560 di cui il cluster IBM è dotato, per un tempo di simulazione di ns al giorno ben inferiore a NAMD, ora arriva ad utilizzarne ben 128 con tempi di simulazione pari a 40 nanosecondi al giorno superando i 64 processori di NAMD e i tempi di simulazione pari a 10 nanosecondi al giorno (Fig. 2).
Fig. 2 Nanosecondi simulati al giorno con Gromacs 3 e Gromacs 4 in “single e double precision” del complesso proteico solvatato di circa 30.000 atomi.
Sulla base di queste osservazioni si è proceduto a testare i miglioramenti di scalabilità tra le due versioni su altri complessi proteici simulati con GROMACS 3. E’ questo il caso delle proteine rOBP (27000 atomi) e GALT (70000 atomi) entrambe solvatate in acqua.
rOBP (rat Odorant Binding Protein) è una piccola proteina monomerica di circa 160 residui appartenente alla classe delle lipocaline, deputata al legame di piccole molecole organiche associate ad odori e presumibilmente al loro veicolamento al recettore degli odori vero e proprio. La sua struttura è caratterizzata da un beta-barrel centrale che forma una cavità a calice al cui interno viene legata la molecola organica (Fig. 3). Tale proteina si trova in numerosissime specie animali, e presenta interessanti caratteristiche di termostabilità pur provenendo da specie mesofile; inoltre le sue proprietà di legame la rendono un target interessante per il possibile sviluppo di biosensori per il rilevamento di molecole idrofobiche. Precedenti simulazioni di dinamica molecolare con GROMACS 3 effettuate allo scopo di studiare le variazioni conformazionali della proteina in risposta a varie sollecitazioni di tipo fisico (alte temperature e pressioni) erano state limitate in durata proprio per la scarsa scalabilità del codice, che non consentiva di ottenere in tempi rapidi risultati su simulazioni adeguate per lunghezza al fenomeno che si stava studiando.
Fig. 3 Struttura tridimensionale della proteina rOBP ricavata tramite studi di cristallografia a raggi X. I cilindri rossi rappresentano alfa eliche, le frecce gialle beta sheets.
GALT (galattosio-1-fosfato uridiltransferasi) è un enzima dimerico che catalizza la trasformazione di UDP-galattosio in UDP-glucosio all’interno della via metabolica del galattosio. Mutazioni sul gene che hanno impatto anche a livello della proteina provocano una malattia genetica ereditaria rara chiamata galattosemia, che provoca serie conseguenze sui pazienti, tra cui disturbi di tipo nervoso, deficit cognitivo e infertilità femminile. Attualmente l’unico trattamento per limitare i danni della malattia è la totale rimozione del galattosio dalla dieta; malgrado ciò, i disturbi citati si possono comunque manifestare e persistere per l’intera vita della persona. Le mutazioni dell’enzima GALT sono state ampiamente studiate a livello genetico, mentre era assente un loro studio approfondito a livello della proteina, anche a causa dell’assenza di una struttura tridimensionale dell’enzima disponibile tramite metodi sperimentali. In tempi recenti, è stato creato tramite metodi di homology modelling un modello di struttura tridimensionale di GALT (Fig. 4) e sono stati effettuati studi per analizzare da un punto di vista molecolare gli effetti delle mutazioni puntiformi sulla struttura e funzione della proteina.
Oltre che da un punto di vista statico, sarebbe interessante vedere come la dinamica della proteina venga influenzata dalla presenza di queste mutazioni, ma le dimensioni piuttosto elevate (ca. 560 residui, organizzati in un omodimero) dell’intero sistema e la scarsa scalabilità dei calcoli effettuati con GROMACS 3 avevano impedito uno studio sistematico che potesse far luce sulle perturbazioni arrecate dalle mutazioni alla dinamica della proteina stessa.
Fig. 4 Modello della struttura tridimensionale della proteina GALT nativa ottenuto tramite studi di homology modelling. I due diversi colori rappresentano le due subunità dell’enzima, mentre è visibile il ligando UDP-galattosio (in rappresentazione CPK) all’interno dei due siti attivi.
I grafici (Fig. 5 e Fig. 6) qui di seguito riportati mettono a confronto le prestazioni ottenute in termini di scalabilità e nanosecondi simulati, rispettivamente per i due sistemi proteici utilizzando la versione 3 e 4 del codice GROMACS. I risultati confermano la tendenza precedentemente osservata. Con GROMACS 4 aumenta il numero dei processori utilizzabili, fino a 256 per la proteina GALT e a parità di processori utilizzati incrementano significativamente i nanosecondi simulati al giorno.
Fig. 5 Nanosecondi simulati al giorno con Gromacs 3 e Gromacs 4 della proteina rOBP solvatata in acqua (27000 atomi).
Fig. 6 Nanosecondi simulati al giorno con GROMACS 3 e GROMACS 4 della proteina GALT solvatata in acqua ( 70000 atomi).
I risultati ottenuti con GROMACS 4 sono particolarmente incoraggianti perchè mostrano come, utilizzando il codice aggiornato, sarà possibile raggiungere tempi di simulazione molto maggiori del precedente, consentendo in entrambi i casi (specialmente per il sistema GALT) di ottenere risultati più attendibili per lo studio dei fenomeni molecolari alla base della comprensione del dato biologico.
Anna Marabotti (anna.marabotti@isa.cnr.it
Silvia Giuliani (silvia.giuliani@cineca.it)
Rete Nazionale di Bioinformatica OncologicaSito Web: http://www.rnbio.it/Per informazioni: info@rnbio.it - Mailing list annunci: news@rnbio.it |


