Bioinformática

A bioinformática, segundo unha das súas definicións máis sinxelas, é a aplicación de tecnoloxía de computadores á xestión e análise de datos biolóxicos.^[1] Os termos bioinformática, bioloxía computacional e, ás veces, biocomputación, utilízanse en moitas situacións practicamente como sinónimos,^[2]^[3] e fan referencia a campos de estudo interdisciplinares moi vinculados que requiren o uso ou o desenvolvemento de diferentes técnicas estudadas na Universidade na Enxeñaría Informática como ciencia aplicada da disciplina informática.^[4] Entre estas poden salientarse as seguintes: matemática aplicada,^[5] estatística,^[6] ciencias da computación,^[7] intelixencia artificial,^[8] química^[9] e bioquímica^[10] coas que o enxeñeiro informático soluciona problemas ao analizar datos, ou simular sistemas ou mecanismos, todos eles de tipo biolóxico, e usualmente (pero non de forma exclusiva) no nivel molecular.^[11] O núcleo principal destas técnicas está na utilización de recursos computacionais para solucionar ou investigar problemas sobre escalas dunha magnitude que superan a comprensión humana. A investigación en bioloxía computacional solápase a miúdo coa bioloxía de sistemas.^[12]

Os principais esforzos de investigación nestes campos inclúen o aliñamento de secuencias, a predición de xenes, montaxe do xenoma, aliñamento estrutural de proteínas, predición da estrutura de proteínas, predición da expresión xénica, interaccións proteína-proteína, e modelización da evolución biolóxica.^[13]

Unha constante en proxectos de bioinformática e bioloxía computacional é o uso de ferramentas matemáticas para extraer información útil de datos producidos por técnicas biolóxicas de alta produtividade, como a secuenciación do xenoma. En especial, a montaxe ou ensamblaxe de secuencias xenómicas de alta calidade a partir de fragmentos obtidos trala secuenciación do ADN a grande escala é unha área de grande interese.^[13]^[14] Outros obxectivos son o estudo da regulación xenética para interpretar perfís de expresión xénica utilizando datos de chips de ADN ou espectrometría de masas.^[15]

Conceptos e alcance

Os termos bioinformática, bioloxía computacional e biocomputación son utilizados a miúdo como sinónimos, e aparecen con frecuencia na literatura básica de forma indiferenciada nos seus usos comúns. Con todo, hai áreas de aplicación propias para cada termo. Os NIH (National Institutes of Health, Institutos Nacionais da Saúde dos Estados Unidos), por exemplo, aínda recoñecendo previamente que ningunha definición podería eliminar completamente o solapamento entre actividades das diferentes técnicas, define explicitamente os termos bioinformática e bioloxía computacional:^[16]

Bioinformática é a investigación, desenvolvemento ou aplicación de ferramentas computacionais e aproximacións para a expansión do uso de datos biolóxicos, médicos, condutuais ou de saúde, incluíndo aquelas ferramentas que sirvan para adquirir, almacenar, organizar, analizar ou visualizar tales datos.
Bioloxía computacional sería o desenvolvemento e aplicación de métodos teóricos e de análises de datos, modelaxe matemática e técnicas de simulación computacional ao estudo de sistemas biolóxicos, condutuais e sociais.

Deste xeito, a bioinformática tería máis que ver coa información, mentres que a bioloxía computacional o faría coas hipóteses. Por outra parte, o termo biocomputación adoita enmarcarse nas actuais investigacións con biocomputadoras e, por exemplo, T. Kaminuma defínea da seguinte forma:

Biocomputación é a construción e uso de computadoras que conteñen compoñentes biolóxicos ou funcionan como organismos vivos.^[17]

Á parte das definicións formais de organismos ou institucións de referencia, os manuais desta materia achegan as súas propias definicións operativas, loxicamente vinculadas en maior ou menor medida coas xa vistas. Como exemplo, David W. Mount, no seu difundido texto sobre bioinformática,^[18] precisa que:

…a bioinformática céntrase máis no desenvolvemento de ferramentas prácticas para a xestión de datos e a análise (por exemplo, a presentación de información xenómica e análise secuencial), pero con menor énfase na eficiencia e na precisión.

Por outra parte, e segundo o mesmo autor:

…a bioloxía computacional xeralmente relaciónase co desenvolvemento de algoritmos novos e eficientes, que se pode demostrar funcionan sobre un problema difícil, tales como o aliñamento múltiple de secuencias ou a montaxe (ou ensamblaxe) de fragmentos de xenoma.

Por último, encóntrase en ocasións unha categorización explícita destes conceptos segundo a cal a bioinformática é unha subcategoría da bioloxía computacional. Por exemplo, a bióloga Cynthia Gibas anota que:^[19]

A bioinformática é a ciencia do uso da información para entender a bioloxía. (...) Falando estritamente, a bioinformática é un subconxunto do campo maior da bioloxía computacional, (sendo esta última) a aplicación de técnicas analíticas cuantitativas no modelado de sistemas biolóxicos.

Porén, e refiríndose ao seu propio texto (Developing Bioinformatics Computer Skills, Desenvolvemento de habilidades computacionais para bioinformática), axiña aclara que:

...pasaremos de bioinformática a bioloxía computacional e viceversa. As distincións entre as dúas non son importantes para o noso propósito aquí.

En moitas ocasións, por tanto, os termos serán intercambiables e, agás en contextos de certa especialización, o significado último manterase claro utilizando calquera deles.

Historia

Neste capítulo, ademais dos feitos relevantes directamente relacionados co desenvolvemento da bioinformática, mencionaranse algúns fitos científicos e tecnolóxicos que servirán para poñer nun contexto axeitado dito desenvolvemento.^[20]

Iníciase esta breve historia na década de 1950, anos nos que Watson e Crick propoñen a estrutura de dobre hélice do ADN (1953),^[21] F. Sanger secuencia a primeira proteína (insulina bovina) (1955),^[22] e constrúese o primeiro circuíto integrado grazas aos traballos de Jack Kilby nos laboratorios de Texas Instruments (1958).^[23]

As primeiras décadas de 1960 e 1970

Na década de 1960, L. Pauling elabora a súa teoría sobre a evolución molecular (1962),^[24] e Margaret Dayhoff, unha das pioneiras da bioinformática, publica o primeiro dos Atlas de Secuencias de Proteínas (1965), que terá continuidade en anos posteriores, e converterase nunha obra básica no desenvolvemento estatístico feito algúns anos máis tarde, das matrices de substitución PAM, e será precursor das actuais bases de datos de proteínas.^[25] Na área da tecnoloxía de computadoras, presentáronse no ARPA (Advanced Research Projects Agency, Axencia de proxectos de investigación avanzados) os protocolos de conmutación de paquetes de datos sobre redes de computadoras (1968), que permitirán enlazar pouco despois varios computadores de diferentes universidades nos Estados Unidos.:^[26] nacera así ARPANET (1969), embrión do que posteriormente será Internet.

En 1970 publícase o algoritmo Needleman-Wunsch para aliñamento de secuencias;^[27] establécese o Brookhaven Protein Data Bank (1971),^[28] créase a primeira molécula de ADN recombinante (Paul Berg, 1972),^[29] E. M. Southern desenvolve a técnica do Southern blot de localización de secuencias específicas de ADN (1976),^[30] comeza a secuenciación de ADN e o desenvolvemento de software para analizalo (F. Sanger, software de R. Staden, 1977),^[31]^[32] e publícase en 1978 a primeira secuencia de xenes completa dun organismo, o fago ΦX174 (5.386 pares de bases que codifican 9 proteínas).^[33] En ámbitos tecnolóxicos vinculados, neses anos asístese ao nacemento do correo electrónico (Ray Tomlinson, BBN, 1971),^[34] ao desenvolvemento de Ethernet (protocolo de comunicacións que facilitará a interconexión entre computadoras, principalmente en redes de ámbito local) feito por Robert Metcalfe (1973),^[35] e ao desenvolvemento do protocolo TCP (Transmission Control Protocol, Protocolo de control de transmisión) feito por Vinton Cerf e Robert Kahn (1974), un dos protocolos básicos para Internet.^[36]

Década de 1980

Nesta década prodúcense en diversas áreas importantes avances:

Nos primeiros anos da década de 1980 publícase como investigar a estrutura terciaria mediante RMN; na seguinte década desenvólvense métodos para predicir de novo algunhas estruturas secundarias.

Científicos: trala secuenciación do fago ΦX174 a finais da década de 1970, en 1982 F. Sanger consegue a secuenciación do xenoma do fago λ (fago lambda) utilizando unha nova técnica, a secuenciación shotgun (secuenciación de escopeta), desenvolvida por el mesmo;^[37] tamén entre 1981 e 1982 K. Wüthrich publica o método de utilización da resonancia magnética nuclear (RMN) para determinar estruturas de proteínas;^[38] Ford Doolittle traballa co concepto de secuencia motivo (similitudes superviventes, tal como as denomina no resumo do seu artigo) en 1981;^[39] o descubrimento en 1983 da PCR (Polymerase Chain Reaction, reacción en cadea da polimerase) leva a poder facer a multiplicación de mostras de ADN, o que permitirá a súa análise;^[40] en 1987, D. T. Burke et al. describen o uso de cromosomas artificiais de lévedo (YAC, Yeast Artificial Chromosome),^[41] e Kulesh et al. sentan as bases dos chips de ADN.^[42]

Bioinformáticos: polo que se refire ao desenvolvemento de algoritmos, métodos e programas, aparece o algoritmo Smith-Waterman (1981),^[43] o algoritmo de busca en bases de datos de secuencias (Wilbur-Lipman, 1983),^[44] FASTP/FASTN (para a procura rápida de similitudes entre secuencias, 1985),^[45] o algoritmo FASTA para comparación de secuencias (Pearson e Lipman, 1988),^[46] e comezan a utilizarse modelos ocultos de Markov para analizar patróns e composición das secuencias (Churchill, 1989),^[47] o que permitirá máis adiante localizar xenes^[48] e predicir estruturas proteicas;^[49] aparecen importantes bases de datos biolóxicas (GenBank en 1982, Swiss-Prot en 1986),^[50]^[51] redes que as interconectan (EMBnet en 1988),^[52] e poténcianse ou créanse diferentes organismos e institucións (o EMBL constitúese en 1974 pero desenvólvese no decurso da década de 1980, o NCBI en 1988);^[53]^[54] tamén nestes anos empeza a estudarse a viabilidade da Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un ano despois polo DoE (Department of Energy, Departamento de enerxía do goberno dos Estados Unidos) e que poñerá en marcha proxectos piloto para desenvolver recursos e tecnoloxías esenciais; en 1987 o NIH (National Institutes of Health, Institutos nacionais da saúde dos Estados Unidos) comeza a achegar fondos para os proxectos xenoma, mentres que en 1988 dá comezo a Human Genome Initiative, máis coñecida finalmente como Human Genome Project (Proxecto Xenoma Humano).^[14]^[55]

Tecnolóxicos: En 1983 aparece o estándar Compact Disc (CD) na súa versión para ser lido por unha computadora (Yellow Book);^[56] Jon Postel e Paul Mockapetris desenvolven en 1984 o sistema de nomes de dominio DNS, necesario para un direccionamento correcto e áxil en Internet;^[57] en 1987 Larry Wall desenvolve a linguaxe de programación PERL, de amplo uso posterior en bioinformática;^[58] e a finais da década aparecen as primeiras compañías privadas importantes con actividades vinculadas ao xenoma, proteínas, bioquímica etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), e que, en xeral, experimentarán importantes transformacións anos máis tarde.^[59]

Década de 1990

Nesta década producíronse os seguintes avances:

Científicos: en 1991 comeza a secuenciación con EST (Expressed Sequence Tags, marcaxe de secuencias expresadas);^[60] ao ano seguinte publícase o mapa de ligamento xenético (a baixa resolución) do xenoma humano completo;^[61] en 1995 conseguiuse secuenciar completamente os primeiros xenomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millóns de pares de bases -Mbps- e 0,58 Mbps, respectivamente);^[62]^[63] en 1996, e en diferentes pasos (por cromosoma), faise o mesmo co primeiro xenoma eucariota, o do lévedo (Saccharomyces cerevisiae, de 12 Mbps),^[64] e en 1997 co xenoma de Escherichia coli (4,7 Mbps),^[65] en 1998 co primeiro xenoma dun organismo multicelular (as 97 Mbp do verme Caenorhabditis elegans),^[66] para rematar a década co primeiro cromosoma humano (o 22), que foi completamente secuenciado en 1999 (33,4 Mbps).^[67]
Bioinformáticos: aparecen a busca rápida de similitudes entre secuencias con BLAST (1990);^[68] a de datos de pegadas de proteínas PRINTS, de Attwood e Beck (1994);^[69] ClustalW, orientado ao aliñamento múltiple de secuencias, en 1994,^[70] e PSI-BLAST en 1997;^[71] a finais da década desenvólvese T-Coffee, que se publica en 2000.^[72] En canto a actividades institucionais e creación de novos organismos, o DoE e os NIH presentan ao Congreso dos Estados Unidos en 1990 un plan de esforzos conxuntos no Human Genome Project para cinco anos;^[73] créanse o Sanger Centre (Hinxton, UK, 1993; agora chamado Sanger Institute) e o European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).^[74]^[75]
Tecnolóxicos: Tim Berners-Lee inventa a World Wide Web (1990) mediante aplicación de protocolos de rede que explotan as características do hipertexto;^[76] en 1991 aparecen os protocolos definitivos de Internet (CERN)^[77] e a primeira versión do sistema operativo Linux,^[78] moi utilizado posteriormente en aplicacións científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará a secuenciación por escopeta de F. Sanger e analizará os resultados con software propio.^[79]

No século XXI

Hai que salientar que na década do 2000 culminaron moitos proxectos de secuenciación de xenomas de diferentes organismos: en 2000 publícanse, entre outros, o xenoma da planta Arabidopsis thaliana (100 Mb)^[80] e o da mosca Drosophila melanogaster (180 Mbp).^[81] Despois do borrador operativo da secuencia de ADN do xenoma humano feita en 2000,^[82] en 2001 aparece publicado o xenoma humano (3 Gbp).^[83] Pouco despois, en 2003, e con dous anos de adianto sobre o previsto, complétase o Human Genome Project.^[84] Algúns dos xenomas analizados nos anos seguintes, foron, en 2004, o borrador do xenoma de Rattus norvegicus (rata),^[85] en 2005 o do chimpancé,^[86] en 2006 o do macaco rhesus,^[87] en 2007 o do gato doméstico,^[88] e en 2008 secuénciase por primeira vez o xenoma dunha muller.^[89] Grazas ao desenvolvemento das técnicas axeitadas, produciuse despois un aluvión de secuenciacións de xenomas de todo tipo de organismos.

En 2003 fúndase no Estado español o Instituto Nacional de Bioinformática,^[90] sostido pola Fundación Genoma España (fundada un ano antes, que pretende constituírse en instrumento do estado para potenciar a investigación neste eido).^[91] En 2004, a FDA estadounidense (Food and Drug Administration, Axencia para os alimentos e fármacos) autoriza o uso dun chip de ADN por primeira vez.^[92] En 2005 complétase o proxecto HapMap (catalogación de variacións xenéticas no ser humano).^[93] En 2008 UniProt presenta o primeiro borrador do proteoma completo humano, con máis de vinte mil entradas.^[94]

Pouco a pouco, vanse perfeccionando os primeiros programas bioinformáticos, e vemos versións máis completas como a 2.0 de ClustalW (reescrito en C++ en 2007).^[95]

Principais áreas de investigación

Análise de secuencias

Artigos principais: Base de datos biolóxica e Aliñamento de secuencias.

Desde que o fago ΦX174 foi secuenciado en 1977 (secuencia provisoria: un ano máis tarde publicaríase a secuencia completa definitiva),^[33] foron descodificadas as secuencias de ADN de centos de organismos e gardadas en bases de datos. Eses datos son analizados para determinar os xenes que codifican certas proteínas, e tamén secuencias reguladoras. Unha comparación de xenes nunha especie ou entre especies pode mostrar similitudes entre funcións de proteínas, ou relacións entre especies (uso da filoxenética molecular para construír árbores filoxenéticas).^[96]

Coa crecente cantidade de datos que se obteñen, desde hai moito fíxose pouco práctico analizar secuencias de ADN manualmente. Hoxe utilízanse programas de computadora para estudar o xenoma de miles de organismos, que conteñen miles de millóns de nucleótidos. Estes programas poden compensar mutacións (con bases intercambiadas, eliminadas ou inseridas) na secuencia de ADN, para identificar secuencias que están relacionadas, pero que non son idénticas.^[39] Unha variante deste aliñamento de secuencias úsase no proceso de secuenciación.

A secuenciación coñecida como "shotgun" (ou de escopeta) foi usada, por exemplo, polo Instituto de Investigación Xenómica (The Institute for Genomic Research, TIGR, hoxe J. Craig Venter Institute) para secuenciar o primeiro xenoma bacteriano, o de Haemophilus influenzae)^[62] non dá unha lista secuencial de nucleótidos, pero a cambio ofrece as secuencias de miles de pequenos fragmentos de ADN (cada un de aproximadamente 600 a 800 nucleótidos de longo). Os extremos destes fragmentos superpóñense (montaxe de secuencias) e, cando son aliñados da maneira correcta, constitúen o xenoma completo do organismo en cuestión.^[97]

A secuenciación shotgun proporciona datos de secuencia rapidamente, pero a tarefa de ensamblar os fragmentos pode ser bastante complicada para xenomas moi grandes. No caso do Proxecto Xenoma Humano, tardáronse varios meses de tempo de procesador (nunha estación DEC Alpha de arredor do 2000) para ensamblar os fragmentos. A secuenciación shotgun é o método de elección para todos os xenomas secuenciados hoxe en día e os algoritmos de ensamblaxe xenómica son unha área crítica da investigación en bioinformática.

Outro aspecto da bioinformática en análises de secuencias é a busca automática de xenes e secuencias reguladoras dentro dun xenoma.^[98] Non todos os nucleótidos dun xenoma son xenes. No xenoma de organismos máis avanzados, unha parte do ADN non serve a ningún propósito claro. Este ADN, coñecido como ADN non codificante (ou ás veces ADN lixo), pode, con todo, conter elementos funcionais aínda non recoñecidos.^[99] A bioinformática serve para estreitar a fenda entre os proxectos de xenoma e proteoma (por exemplo, no uso de secuencias de ADN para identificación de proteínas).

Anotación de xenomas

Artigo principal: Predición de xenes.

En xenómica, enténdese por anotación o proceso de marcado dos xenes e outras características biolóxicas da secuencia de ADN.^[100] O primeiro sistema de software de anotación de xenomas foi o deseñado en 1995 por Owen White, que foi membro do equipo que secuenciou e analizou o primeiro xenoma en ser descodificado dun organismo independente, a bacteria Haemophilus influenzae. White construíu un software para localizar os xenes (lugares na secuencia de ADN que codifican unha proteína), o ARN de transferencia, e outras características, e para realizar as primeiras atribucións de función a eses xenes.^[62] A maioría dos actuais sistemas de anotación xenómica traballan de forma similar, pero os programas dispoñibles para a análise do xenoma encóntranse en continuo cambio e mellora.

Bioloxía evolutiva computacional

A bioloxía evolutiva é o estudo da orixe ancestral das especies, e do seu cambio ao longo do tempo.^[101] A informática serviu de apoio aos biólogos evolutivos en diferentes campos clave. Permitiu aos investigadores:

Seguir a evolución dun alto número de organismos medindo cambios no seu ADN, en lugar de facelo exclusivamente mediante a súa taxonomía física ou observacións fisiolóxicas.^[39]
Máis recentemente, comparar xenomas completos, o que permite o estudo de eventos evolutivos máis complexos, tales como a duplicación de xenes, a transferencia horizontal de xenes, ou a predición de factores significativos na especiación bacteriana.^[102]
Construír modelos computacionais complexos de poboacións para predicir o resultado do sistema a través do tempo.^[103]
Seguir e compartir información sobre un amplo e crecente número de especies e organismos.

Os esforzos futuros centraranse en reconstruír a cada vez máis complexa árbore filoxenética da vida.^[104]A área de investigación das ciencias da computación denominada computación evolutiva confúndese ocasionalmente coa bioloxía evolutiva computacional, pero ambas as áreas non teñen relación. Dito campo céntrase no desenvolvemento de algoritmos xenéticos e outras estratexias de resolución de problemas cunha marcada inspiración evolutiva e xenética.

Medición da biodiversidade

A biodiversidade dun ecosistema pode definirse como o conxunto xenómico completo de todas as especies presentes nun medio ambiente particular,^[105] sexa este unha biopelícula nunha mina abandonada, unha pinga de auga de mar, unha manchea de terra, ou a biosfera enteira do planeta Terra. Utilízanse bases de datos para recoller os nomes das especies, e das súas descricións, distribucións, información xenética, estado e tamaños das poboacións, necesidades do seu hábitat, e de como interacciona cada organismo con outras especies. Úsase software especializado para encontrar, visualizar e analizar a información; e, o que é máis importante, para compartila con outros interesados.^[106] A simulación computacional pode modelar cousas tales como a dinámica de poboación, ou calcular a mellora do acervo xenético dunha variedade (en agricultura), ou a poboación ameazada (en bioloxía da conservación). Un potencial moi excitante neste campo é a posibilidade de preservar as secuencias completas do ADN, ou xenomas, de especies ameazadas de extinción, o que permite rexistrar os resultados da experimentación xenética da Natureza in silico para a súa posible reutilización futura, aínda no caso de que tales especies acabaran finalmente por desaparecer.^[107]

Poden citarse, como exemplos significativos, os proxectos Species 2000 ou uBio.

Análise da expresión xénica

A expresión xénica de moitos xenes pode determinarse pola medición de niveis de ARNm mediante múltiples técnicas, como as micromatrices de ADN, secuenciación de EST (Expressed sequence tag, Marcador de secuencia expresada), SAGE (Serial Analysis of Gene Expression, Análise en serie da expresión xénica), MPSS (Massively Parallel Signature Sequencing, Secuenciación de sinaturas masivamente paralela), ou diversas aplicacións de hibridación in situ. Todas estas técnicas son extremadamente propensas ao ruído e/ou suxeitas a nesgos na medición biolóxica, e unha das principais áreas de investigación na bioloxía computacional trata do desenvolvemento de ferramentas estatísticas para separar o sinal do ruído nos estudos de expresión xénica con alto volume de procesamento.^[108] Estes estudos úsanse a miúdo para determinar os xenes implicados nun trastorno: poderían, por exemplo, compararse datos de micromatrices de células epiteliais cancerosas con datos de células non cancerosas para determinar as transcricións que son activadas ou reprimidas nunha poboación particular de células cancerosas.^[109]

Análise da regulación

A regulación xénica é a complexa orquestación de eventos que comezan cun sinal extracelular como pode ser unha hormona, que dan lugar a un incremento ou diminución na actividade dunha ou máis proteínas.^[110] Aplicáronse técnicas bioinformáticas para explorar varios pasos deste proceso. Por exemplo, a análise do promotor dun xene implica a identificación e estudo das secuencias motivo no ADN nos arredores da rexión codificante dun xene.^[111] Estes motivos inflúen na medida en que esa rexión se vai transcribir a ARNm. Os datos de expresión poden usarse para inferir a regulación xénica: poderían compararse datos de micromatrices procedentes dunha ampla variedade de estados dun organismo para formular hipóteses sobre os xenes implicados en cada estado. Nun organismo unicelular, poderían compararse etapas do ciclo celular en variadas condicións de estrés (choque de calor, inanición etc.). Poderían aplicarse, entón, algoritmos de agrupamento (algoritmos de clustering, ou análises de cluster) a esa información de expresión para determinar que xenes se expresan simultaneamente.^[112] Por exemplo, os promotores destes xenes pódense buscar segundo a abundancia de secuencias ou elementos reguladores.

Análise da expresión de proteínas

Véxase tamén: Expresión xénica.

As micromatrices de proteínas e a espectrometría de masas de alto rendemento poden proporcionar unha instantánea das proteínas presentes nunha mostra biolóxica. A bioinformática é moi importante para darlle soporte a ambos os procedementos. A aproximación ás micromatices de proteínas ten que enfrontarse a problemas similares aos existentes para micromatrices destinadas a ARNm,^[113] mentres que para a espectrometría de masas o problema é casar grandes cantidades de datos de masa coas masas preditas por bases datos de secuencias de proteínas, ademais da complicada análise estatística de mostras onde se detectan múltiples, pero incompletos, péptidos de cada proteína.^[114]

Análise de mutacións no cancro

No cancro, os xenomas das células afectadas son reordenados en complexas e aínda impredicibles maneiras. Realízanse esforzos masivos de secuenciación para identificar substitucións individuais de bases (ou mutacións puntuais de nucleótidos) aínda descoñecidos nunha variedade de xenes no cancro.^[115] Os bioinformáticos seguen producindo sistemas automatizados para xestionar o importante volume de datos de secuencias obtido, e crean novos algoritmos e software para compararen os resultados de secuenciación coa crecente colección de secuencias do xenoma humano e dos polimorfismos da liña xerminal. Estanse a utilizar novas tecnoloxías de detección física, como as micromatrices de oligonucleótidos para identificar perdas e ganancias cromosómicas (técnica denominada hibridación xenómica comparativa),^[116] e os arrays de polimorfismos de nucleótido simple para detectar puntos de mutación coñecidos.^[117] Estes métodos de detección miden simultaneamente bastantes centos de miles de posicións ao longo do xenoma, e cando se usan cunha alta produtividade para analizar miles de mostras, xeran terabytes de datos en cada experimento. Deste xeito, as masivas cantidades e novos tipos de datos proporcionan novas oportunidades para os bioinformáticos. Con frecuencia encóntrase nos datos unha considerable variabilidade, ou ruído, polo que están en desenvolvemento métodos como o dos modelos ocultos de Markov e a análise de puntos de cambio para inferir cambios reais no número de copias dos xenes (número de copias dun xene particular no xenotipo dun individuo, cuxa magnitude pode ser elevada en células canceríxenas).^[118]^[119]

Outro tipo de datos que require novidosos desenvolvementos informáticos é a análise das lesións atopadas de forma recorrente nun bo número de tumores, principalmente por análise automatizada de imaxe clínica.

Predición da estrutura das proteínas

Artigos principais: Predición da estrutura de proteínas e Aliñamento estrutural.

A predición da estrutura de proteínas é outra importante aplicación da bioinformática. A secuencia de aminoácidos dunha proteína, tamén chamada estrutura primaria, pode determinarse doadamente a partir da secuencia de nucleótidos indicada no xene que a codifica.^[120] Na inmensa maioría dos casos, esta estrutura primaria determina unicamente unha estrutura da proteína no seu ambiente nativo. (Hai, por suposto, excepcións, como a encefalopatía esponxiforme bovina, ou "mal das vacas tolas"; ver, tamén, prión.) O coñecemento desta estrutura é vital para entender a función da proteína.^[121] En ausencia de mellores termos, a información estrutural das proteínas clasifícase xeralmente como estrutura secundaria, terciaria e cuaternaria. Unha solución xeral viable para a predición de tales estruturas é aínda un problema non resolto. Polo de agora, a maioría dos esforzos foron dirixidos cara a heurísticas que funcionan ben a maioría das veces.^[122]

Unha das ideas clave en bioinformática é a noción de homoloxía. Na rama xenómica da bioinformática, úsase a homoloxía para predicir a función dun xene: se a secuencia do xene A, de función coñecida, é homóloga á secuencia do xene B, de función descoñeda, pode inferirse que B podería compartir a función de A.^[123] Na rama estrutural da bioinformática, a homoloxía úsase para determinar que partes dunha proteína son importantes na formación da estrutura e na interacción con outras proteínas. Na técnica denominada modelaxe por homoloxía, esta información úsase para predicir a estrutura dunha proteína unha vez coñecida a estrutura dunha proteína homóloga.^[124] Esta é, actualmente, a única vía para predicir estruturas de proteínas dunha maneira fiable.

Un exemplo do anterior é a homoloxía proteica similar entre a hemoglobina en humanos e o equivalente nos legumes (leghemoglobina). Ambas as dúas serven ao mesmo propósito de transportar oxíxeno no organismo. Aínda que as dúas teñen unha secuencia de aminoácidos completamente diferente, as súas estruturas son virtualmente idénticas, o que reflicte os seus propósitos practicamente idénticos.^[125]Outras técnicas para predicir a estrutura das proteínas son o enfiado de proteínas (protein threading)^[126] e a modelaxe de novo (desde cero), baseado nas características físicas e químicas.^[127]

Ao respecto, poden verse tamén as páxinas motivo estrutural e dominio estrutural.

Xenómica comparada

O núcleo da análise comparada do xenoma é o establecemento da correspondencia entre xenes (análise ortólogo) ou entre outras características xenómicas de diferentes organismos. Estes mapas interxenómicos son os que fan posible rastrexar os procesos evolutivos responsables da diverxencia entre dous xenomas. Unha multitude de eventos evolutivos actuando a diferentes niveis organizativos conforman a evolución do xenoma.^[128] Ao nivel máis baixo, as mutacións puntuais afectan a nucleótidos individuais. Ao maior nivel, amplos segmentos cromosómicos experimentan duplicación, transferencia horizontal, inversión, transposición, deleción e inserción. Finalmente, os xenomas enteiros están involucrados en procesos de hibridación, poliploidía e endosimbiose, o que orixina a miúdo unha súbita especiación.

A complexidade da evolución do xenoma formula moitos desafíos excitantes aos desenvolvedores de modelos matemáticos e algoritmos, quen deben recorrer a un espectro de técnicas algorítmicas, estatísticas e matemáticas que van desde exactas, heurísticas, con parámetros fixados, e mediante algoritmos de aproximación para problemas baseados en modelos de parsimonia, ata algoritmos "Markov Chain Monte Carlo" para análise bayesiano de problemas baseados en modelos probabilísticos.^[129]

Moitos destes estudos están baseados na detección de homoloxía e a computación de familias de proteínas.

Modelaxe de sistemas biolóxicos

Artigo principal: Bioloxía de sistemas.

Na bioloxía de sistemas utilízanse simulacións por computadora de subsistemas celulares (tales como redes de metabolitos e encimas que constitúen o metabolismo, vías de transdución de sinais, e redes de regulación xenética), tanto para analizar coma para visualizar as complexas conexións destes procesos celulares.^[130] A vida artificial ou a evolución virtual tratan de entender os procesos evolutivos por medio da simulación por computadora de formas sinxelas de vida (artificial).^[131]

Análise de imaxe de alto rendemento

Estanse usando tecnoloxías de computación para acelerar ou automatizar completamente o procesamento, a cuantificación e a análise de grandes cantidades de imaxes biomédicas con alto contido de información. Os modernos sistemas de análise de imaxes incrementan a habilidade do observador para realizar análises sobre un amplo ou complexo conxunto de imaxes, mellorando a precisión, a obxectividade (independencia dos resultados segundo o observador), ou a rapidez. Un sistema de análise totalmente desenvolvido podería substituír completamente ao observador. Aínda que estes sistemas non son exclusivos do campo das imaxes biomédicas, cada vez son máis importantes tanto para o diagnóstico coma para a investigación. Algúns exemplos:

Cuantificación e localización subcelular con alta produtividade e precisión (high-content screening, citohistopatoloxía).^[132]
Morfometría.^[133]
Análise e visualización de imaxes clínicas.^[134]
Determinación de patróns no fluxo do aire en tempo real da respiración pulmonar de animais vivos.
Cuantificación do tamaño da oclusión a través de imaxes en tempo real, tanto do desenvolvemento coma da recuperación, de lesións arteriais.^[135]
Realización de observacións condutuais baseadas en prolongadas gravacións en vídeo de animais de laboratorio.
Observacións en infravermello (espectroscopia infravermella) para a determinación da actividade metabólica.^[136]

Acoplamento proteína-proteína

Nas últimas dúas décadas, determináronse decenas de miles de estruturas tridimensionais de proteínas por cristalografía de raios X e espectroscopia de resonancia magnética nuclear de proteínas (RMN de proteínas). Unha cuestión central para os científicos é se é viable a predición de posibles interaccións proteína-proteína baseándose soamente nesas formas 3D, sen realizar experimentos identificativos destas interaccións. Desenvolveuse toda unha variedade de métodos para enfrontarse ao problema do acoplamento proteína-proteína, mais parece que queda aínda moito traballo por facer nese campo.^[137]

Ferramentas de software

As ferramentas de software para bioinformática van desde simples ferramentas de liña de comandos ata programas gráficos moito máis complexos e servizos web autónomos situados en compañías de bioinformática ou institucións públicas. A ferramenta máis coñecida de bioloxía computacional entre os biólogos é, probablemente, BLAST, un algoritmo para determinar a similitude de secuencias arbitrarias con outras secuencias,^[68] probablemente residentes en bases de datos de proteínas ou de secuencias de ADN. O NCBI (National Center for Biotechnology Information, dos Estados Unidos), por exemplo, proporciona unha aplicación moi utilizada, baseada en web, que traballa sobre as súas bases de datos.^[138]

Para o aliñamento múltiple de secuencias, o clásico ClustalW,^[70] actualmente na súa versión 2, é o software de referencia. Pode traballarse cunha aplicación do mesmo no EBI (Instituto Europeo de Bioinformática).^[139]

BLAST e ClustalW son só dous exemplos dos moitos programas de aliñamento de secuencias dispoñibles. Existe, por outra parte, multitude de software bioinformático con outros obxectivos: aliñamento estrutural de proteínas, predición de xenes e outros motivos, predición da estrutura de proteínas, predición de acoplamento proteína-proteína, ou modelaxe de sistemas biolóxicos, entre outros.

Servizos web en bioinformática

Desenvolvéronse interfaces baseadas en SOAP e REST (Representational State Transfer, transferencia de estado representacional) para unha ampla variedade de aplicacións bioinformáticas, permitindo que unha aplicación, que está funcionando nunha computadora de calquera parte do mundo, poida usar algoritmos, datos e recursos de computación aloxados en servidores en calquera outra parte do planeta. As principais vantaxes son que o usuario final pode despreocuparse de actualizacións e modificacións no software ou nas bases de datos.^[140] Os servizos bioinformáticos básicos, de acordo coa clasificación implícita do EBI, poden clasificarse en:^[141]

Servizos de obtención de información en liña (consultas a bases de datos, por exemplo).
Ferramentas de análise (por exemplo, servizos que dean acceso a EMBOSS).
Buscas de similitudes entre secuencias (servizos de acceso a FASTA ou BLAST, por exemplo).
Aliñamentos múltiples de secuencias (acceso a ClustalW ou T-Coffee).
Análise estrutural (acceso a servizos de aliñamento estrutural de proteínas, por exemplo).
Servizos de acceso a literatura especializada e ontoloxías.

A dispoñibilidade destes servizos web baseados en SOAP a través de sistemas tales como os servizos de rexistro,^[142] (servizos de distribución e descubrimento de datos a través de servizos web) demostra a aplicabilidade de solucións bioinformáticas baseadas en web. Estas ferramentas varían desde unha colección de ferramentas autónomas cun formato de datos común, e baixo unha única interface autónoma ou baseada en web, deica sistemas integradores e extensibles para a xestión do fluxo de traballo bioinformático.

Notas

Véxase tamén

Bibliografía

Attwood, T.K., e Parry-Smith, D.J (2002). Introducción a la Bioinformática (en espanol). Prentice Hall. ISBN 84-205-3551-6.
Aluru, Srinivas, ed. (2006). Handbook of Computational Molecular Biology (en inglés). Computer and Information Science Series. Chapman & Hall/Crc. ISBN 1-58488-406-1.
Baldi, P and Brunak, S (2001). Bioinformatics: The Machine Learning Approach (en inglés) (2nd edition ed.). MIT Press. ISBN 0-262-02506-X.
Barnes, M.R. and Gray, I.C., eds. (2003). Bioinformatics for Geneticists (en inglés) (first edition ed.). Wiley. ISBN 0-470-84394-2.
Baxevanis, A.D. and Ouellette, B.F.F., eds. (2005). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins (en inglés) (third edition ed.). Wiley. ISBN 0-471-47878-4.
Baxevanis, A.D., Petsko, G.A., Stein, L.D., and Stormo, G.D., eds. (2007). Current Protocols in Bioinformatics (en inglés). Wiley. ISBN 0-471-25093-7.
Cristianini, N. and Hahn, M. (2006). Introduction to Computational Genomics (en inglés). Cambridge University Press. ISBN 978-0-521-67191-0.
Durbin, R., S. Eddy, A. Krogh and G. Mitchison (1998). Biological sequence analysis (en inglés). Cambridge University Press. ISBN 0-521-62971-3.
Michael S. Waterman (1995). Introduction to Computational Biology: Sequences, Maps and Genomes (en inglés). CRC Press. ISBN 0-412-99391-0.
Mount, David W. (2004). Bioinformatics: Sequence and Genome Analysis (en inglés) (2ª ed. ed.). Spring Harbor Press. ISBN 0-87969-712-1.
Pevzner, Pavel A. (2000). Computational Molecular Biology: An Algorithmic Approach (en inglés). The MIT Press. ISBN 0-262-16197-4.

Ligazóns externas

Achuthsankar S Nair Computational Biology & Bioinformatics - A gentle Overview Arquivado 16 de decembro de 2008 en Wayback Machine., Communications of Computer Society of India, xaneiro de 2007
Foundations of Computational and Systems Biology MIT Course
Bioinformatics software resources. Gilbert, D. Briefings in Bioinformatics, 2004 5(3):300-304. Recursos software para bioinformática.
Instituto Europeo de Bioinformática
Bioinformatics

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

Search