Algorithms and comptutational tools for the study of Intrinsically Disordered Proteins - LAAS - Laboratoire d'Analyse et d'Architecture des Systèmes Accéder directement au contenu
Thèse Année : 2020

Algorithms and comptutational tools for the study of Intrinsically Disordered Proteins

Algorithmes et outils informatiques pour l'étude des protéines intrinsèquement désordonnées

Résumé

Intrinsically Disordered Proteins (IDPs) are involved in many biological processes. Their inherent plasticity facilitates very specialized tasks in cell regulation and signalling, and their malfunction is linked to severe pathologies. Understanding the functional roles of IDPs requires their structural characterization, which is extremely challenging, and needs a tight coupling of experimental and computational methods. In contrast to structured/globular proteins, IDPs cannot be represented by a single conformation, and their models must be based on ensembles of conformations representing a distribution of states that the protein adopts in solution. While purely random coil ensembles can be reliably constructed by available bioinformatics tools, these tools fail to reproduce the conformational equilibrium present in partially-structured regions.In this thesis, we propose several computational methods that, combined with experimental data, provide a better structural characterization of IDPs. These methods can be grouped in two main categories: methods to construct conformational ensemble models, and methods to simulate conformational transitions.Contributing to the first type of methods, we propose a new approach to generate realistic conformational ensembles that improves previously existing methods, being able to reproduce the partially-structured regions in IDPs.This method exploits structural information encoded in a database of three-residue fragments (tripeptides) extracted from high-resolution experimentally-solved protein structures.We have shown that conformational ensembles generated by our method reproduce accurately structural descriptors obtained from NMR and SAXS experiments for a benchmark set of nine IDPs. Also exploiting the tripeptide database, we have developed an algorithm to predict the propensity of some fragments inside IDPs to form secondary structure elements. This new method provides more accurate results than those of the most commonly-used predictors available on our benchmark set of well-characterized IDPs.Contributing to the second type of methods, we have developed an original approach to model the folding mechanism of secondary structural elements. The computation of conformational transitions is formulated as a discrete path search problem using the tripeptide database. To evaluate the approach, we have applied the strategy to two small synthetic polypeptides mimicking two common structural motifs in proteins. The folding mechanisms extracted are very similar to those obtained when using traditional, computationally expensive approaches. Finally, we have developed a more general method to compute transition paths between a (possibly large) set of conformations of an IDP. This method builds on a multi-tree variant of the TRRT algorithm, developed at LAAS-CNRS, and which provided good results for small and middle-sized biomolecules. In order to apply this method to IDPs, we have proposed a hybrid strategy for the parallelization of the algorithm, enabling an efficient execution in computer clusters.In addition to the aforementioned methodological work, I have been actively involved in multidisciplinary work, together with biophysicists and biologists,where I have applied these methods to the investigation of important biological systems, in particular the huntingtin protein, the causative agent of Huntington's disease.In conclusion, the work carried out during my PhD thesis has enabled a better understanding of the relationship between sequence and structural properties of IDPs, paving the way to novel applications. For example, this deeper understanding of sequence-structure relationships will enable us to anticipate structural perturbations exerted by sequence mutations, and subsequently, the rational design of IDPs with tailored properties for biotechnological applications.
Les protéines intrinsèquement désordonnées (IDPs) sont impliquées dans de nombreux processus biologiques. Leur plasticité facilite des tâches très spécialisées dans la régulation et la signalisation cellulaires, et leur dysfonctionnement est lié à des pathologies graves. Comprendre les rôles fonctionnels des IDPs nécessite leur caractérisation structurale, qui est extrêmement difficile, utilisant un couplage entre méthodes expérimentales et informatiques. Contrairement aux protéines globulaires, les IDPs ne peuvent pas être représentés par une seule conformation et leurs modèles doivent être basés sur des ensembles de conformations représentant une distribution des états que la protéine adopte en solution. Alors que les régions purement destructurées peuvent être bien modélisés par les outils de bioinformatique disponibles, ces outils ne parviennent pas à reproduire l'équilibre conformationnel présent dans des régions partiellement structurées.Dans cette thèse, nous proposons plusieurs méthodes bioinformatiques qui, combinées avec des données expérimentales, permettent une meilleure caractérisation structurale des IDPs. Elles peuvent être regroupées en deux catégories : les méthodes de construction de modèles d'ensembles conformationnels, et les méthodes de simulation de transitions conformationnelles.Avec le premier type de méthodes, nous proposons une nouvelle approche qui améliore les méthodes existantes afin de générer des ensembles conformationnels réalistes, en permettant de reproduire les régions partiellement structurées dans les IDPs.Cette méthode exploite les informations structurales codées dans une base de données de fragments de trois résidus (tripeptides) extraites de structures protéiques à haute résolution.Nous avons montré que les ensembles conformationnels générés par notre méthode reproduisent avec précision les descriptions structurales obtenues à partir d’expériences de RMN et SAXS pour neuf IDPs de référence. Exploitant également la base de données des tripeptides, nous avons développé un algorithme pour prédire la propension de certaines régions dans des IDPs à former des éléments de structure secondaire. Cette nouvelle méthode fournit des résultats plus précis que ceux de prédicteurs plus couramment utilisés, pour nos IDPs de référence.Avec le second type de méthodes, nous avons développé une approche originale pour modéliser le mécanisme de repliement des éléments de structure secondaire. Le calcul des transitions est formulé comme un problème de recherche de chemin discret utilisant la base de données de tripeptides. Pour évaluer l'approche, nous l'avons appliquée à deux petits polypeptides synthétiques imitant deux motifs structuraux communs. Les mécanismes de repliement extraits sont très similaires à ceux obtenus par des approches traditionnelles coûteuses en calcul. Enfin, nous avons développé une méthode plus générale pour calculer les chemins de transition entre conformations dans un ensemble d'IDPs. Elle repose sur une variante multi-arbres de l'algorithme TRRT, développé au LAAS-CNRS, et qui a donné de bons résultats pour de petites et moyennes biomolécules. Afin d'appliquer cette méthode aux IDPs, nous avons proposé une stratégie hybride pour la parallélisation de l'algorithme, permettant une exécution efficace dans des clusters.Outre les travaux méthodologiques mentionnés, j'ai participé activement à des travaux multidisciplinaires avec des biophysiciens et des biologistes, en appliquant ces méthodes à l'étude de systèmes biologiques importants, comme la protéine huntingtine impliquée dans la maladie de Huntington.En conclusion, les travaux menés au cours de ma thèse ont permis de mieux comprendre la relation séquence-structure des IDPs, ouvrant la voie à de nouvelles applications. En effet, ceci nous permettra, par exemple, d’anticiper les perturbations structurales dues aux mutations et, in fine, à la conception rationnelle d’IDPs spécifiques pour des applications biotechnologiques.
Fichier principal
Vignette du fichier
ESTANA GARCIA Alejandro.pdf (22.48 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-03185221 , version 2 (16-07-2020)
tel-03185221 , version 1 (30-03-2021)

Identifiants

  • HAL Id : tel-03185221 , version 2

Citer

Alejandro Estaña Garcia. Algorithms and comptutational tools for the study of Intrinsically Disordered Proteins. Biochemistry, Molecular Biology. INSA de Toulouse, 2020. English. ⟨NNT : 2020ISAT0012⟩. ⟨tel-03185221v2⟩
150 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More