• Medientyp: E-Book
  • Titel: Local prediction of secondary structures of proteins from viewpoints of rare structure
  • Beteiligte: Siermala, Markku [Verfasser:in]
  • Erschienen: [Erscheinungsort nicht ermittelbar]: Tampere University Press; Tampereen yliopisto, 2002
  • Sprache: Englisch
  • Entstehung:
  • Hochschulschrift: Dissertation, Tampere University Press; Tampereen yliopisto, 2002
  • Anmerkungen:
  • Beschreibung: Proteiinit eli valkuaisaineet ovat elämän ja solun toiminnan kannalta keskeisiä makromolekyylejä. Valkuaisaineiden rakennetutkimus on tärkeätä, kun selvitetään proteiinien rakennetta ja toimintaa geneettisen informaation ja valikuaisaineiden rakennekomponenttien, aminohappojen, järjestäytymisen kautta. Kokeellisesti tapahtuva rakennetutkimus on kuitenkin vaikeiden ongelmien ympäröimä: atomitason rakenteiden selvittäminen on monimutkaista, siihen liittyy monenlaisia epävarmuustekijöitä ja puhtaan proteiiniaineksen hankkiminen on työlästä. Näiden ongelmien takia kokeellinen tutkimus on kallista ja hidasta. Kokeellisen tutkimuksen rinnalle on muodostonut voimakkaasti kasvava biologiseen informaatioon perustuvien menetelmien käytön tutkimus, bioinformatiikka. Tämän alan tutkimus kohtaa puolestaan väistämättä informaatioalojen perustana olevia keskeisiä kysymyksiä: mitä yleensä voidaan laskea, miten biologinen informaatio saadaan ihmisten ja tietokoneiden ymmärtämään muotoon, kuinka luotettavia tehtävät ennusteet ovat ja onko käytettävissä oleva informaation määrä riittävä. Työssäni selvitin tutkimusryhmämme saamia tuloksia sekundaarirakenteiden ennustustyössä. Tarkastelemme sekundaarirakenne-ennustamista koneoppimisen näkökulmasta. Proteiinissa selkäranka muodostaa rakenteellisia elementtejä eli sekundaarirakenteita. Paikallinen sekundaarirakenne-ennustus perustuu lyhyen määrämittaisen sekvenssin sisältämän informaation käyttämiseen. Yksittäinen ennustus määrää sekundaarirakenteen tyypin proteiinin selkärangassa sekvenssin keskimmäisen aminohapon kohdalla. Tyypillisesti bioinformatiikan alan julkaisuissa esitellyt paikalliseen informaatioon perustuvat sekundaarirakenteiden ennustusmenetelmät ennustavat datan kolmeen luokkaan: kierteet, säikeet ja muut. Väitöskirjatutkimuksessa kysymykset kohdistuivat aluksi harvinaiseen polyproliini tyypin II sekundaarirakenteeseen ja lopulta kaikkiin tunnettuihin sekundaarirakennetyyppeihin. Täten työmme tarkastelee sekundaarirakenteiden ennustamista täysin uudesta näkökulmasta. Määrämittaisen sekvenssidatan muodostama avaruus todetaan työssä todella vaikeasti hallittavaksi perinteisillä koneoppimismenetelmillä. Avaruudessa ei ole suuren mittakaavan organisoitumista sekundaarirakennetyyppien suhteen, vaan organisoituminen on hyvin matalalla tasolla luonnossa havaitun sekvenssin lähistöllä. Lisäksi valtava avaruus on melkein tyhjä vaikka mukana on lähes kaikki sekvenssidata, josta tämänhetkinen tiede tuntee rakenteet. Lisäksi työssäni näytetään, miksi ennustus on sitä vaikeampaa, mitä harvinaisempaa tyyppiä yritetään ennustaa. Nämä ongelmat vaikeuttavat erityisesti sekundaarirakenteiden ennustamista perinteisesti menestyksellisillä koneoppimismenetelmillä kuten esim. neuroverkoilla. Tutkimuksessa kehiteltiin ennustusmenetelmä, joka keskittyy pääosin ennustuksen varmuuden parantamiseen käyttäen paikallista organisoitumista hyväkseen. Tämän takia menetelmä tuottaa poikkeuksellisen korkeita ennustustarkkuuksia myös harvinaisille sekundaarirakennetyypeille. Työssä paneuduttiin myös neuroverkon päätöksenteon ymmärtämiseen, datan siroontumiseen muuttuja-avaruudessa sekä biologisten sekvenssien muuttamiseen numeeriseen koneen ymmärtämään muotoon hävittämättä biologisia ominaisuuksia. Avaruuden ominaisuuksien ja datan käyttäytymisen tutkiminen auttoi myös löytämään mielenkiintoisen hypoteesin. Hypoteesin avulla voidaan ymmärtää, miten perinteisten menetelmien ennustustarkkuus muodostuu em. kolmen luokan suhteen. Puolet datasta näyttäisi sisältävän vihjeitä matalan tason organisoitumisesta. Ennustusmenetelmät löytävät helposti tämän. Loppu ennusteista menee oikein sattuman määräämässä suhteessa. ; This dissertation deals with the local prediction of protein secondary structure from the viewpoint of rare secondary structures. Protein three-dimensional structures are needed in the biomedical field because structures indicate something about the functions of proteins, and functions are almost everything that happens in a living cell. Unfortunately, it is difficult to ascertain the structure of a protein, because the details of the structure are located at the level of atoms. However, an amino acid sequence is fairly easy to solve and can also be produced from a DNA sequence. This could be a shortcut to the structure and function of proteins. We searched for ways to better understand the prediction challenge of secondary structures. Our research started with polyproline type II secondary structure prediction. The results showed that a neural network behaved well when the learning and test sets had a uniform class distribution. However, the identification of amino acid sequences that represent a rare class was difficult with class distribution of the real world. In this context, prediction was hampered by imbalanced class distribution. We developed spectrum and response analysis for the neural network which reveal the reasons for a certain decision. The frequencies of prolines affected a major part of decisions and this was almost all that a neural network could learn from the data. Apparently input sequences can take the evolutionary pre-information to the learning process. With the polyproline II structure this was a promosing idea and aroused interest in using the method with other structures and other pre-information types. With hyperspheres we developed a learning algorithm that achieved excellent prediction accuracy with all known secondary structure types. Unfortunately, the method leaves cases unclassified - if uncertain generalization is reduced, hyperspheres can achieve better prediction accuracies. Finally, for all secondary structure types we analyzed the space used and found explanations or how the structure types behave in the sequence space. The results showed that polyproline II is an exception among other types because of its sensitivity to the amino acid proline. We were able to show that for half of sequences the nearest case seek its one's way to the distance as cases were randomly generated. Therefore, in the sequence space there are no large clusters. Rather, around the individual case (sequence) there is a sphere with high probability of achieving the same secondary structure type.
  • Zugangsstatus: Freier Zugang