Біоінформатика

Біоінформа́тика — це міждисциплінарна галузь науки, яка поєднує принципи біології, інформатики, математики та статистики для збору, аналізу, інтерпретації та керування біологічними даними.

Мапа X-хромосоми людини (дані з сайту NCBI). Розшифрування геному людини — одне з найбільших досягнень біоінформатики.

Біоінформатика тісно пов'язана з обчислювальною біологією, і зосереджена на розробці та використанні обчислювальних методів, алгоритмів і програмних засобів для вилучення значущої інформації з величезних і складних наборів біологічних даних, зокрема в геноміці, епігеноміці, протеоміці та інших дисциплінах оміксних аналізів та мультиоміки. Біоінформатика відіграє ключову роль у вдосконаленні нашого розуміння біологічних процесів, допомагаючи у відкритті ліків, полегшуючи персоналізовану медицину та сприяючи різноманітним аспектам біологічних та біомедичних досліджень.

Біоінформатика охоплює широкий спектр діяльності, включаючи вирівнювання послідовностей, структурну біологію, функціональну анотацію, передбачення структури білків, системну біологію та розробку баз даних і обчислювальних моделей, пошук генів[en], збірку геномів, вирівнювання структур[en] білків, передбачення експресії генів та білок-білкової взаємодії та реконструювання процесу еволюції. Це дає змогу дослідникам досліджувати генетичні варіації, визначати потенційні мішені ліків, розкривати еволюційні зв’язки та отримати уявлення про механізми, що лежать в основі різних захворювань.

Великим напрямком досліджень біоінформатики є отримання високоякісних послідовностей геномів з фрагментів послідовностей, отриманих за допомогою традиційних методів секвенування ДНК та конструювання сигнальних мереж за даними ДНК-мікрочипів. В останньому випадку біоінформатика нерідко перетинається з системною біологією.

Хоча терміни біоінформатика і обчислювальна біологія часто взаємозамінюються, останній указує на ширшу галузь, що також включає розробку алгоритмів і конкретні обчислювальні методи та моделювання біологічних (математична біологія) і біохімічних (обчислювальна хімія, молекулярне моделювання) процесів. Іноді інформатику розглядають як галузь біомедичної інформатики.

Основні галузі досліджень

Аналіз генетичних послідовностей

Відтоді, як в 1977 році був секвенований геном фагу φ-X-174, послідовності ДНК все більшого числа організмів були розшифровані і збережені в базах даних. Ці дані використовуються для визначення послідовностей білків і регуляторних ділянок. Порівняння генів в рамках одного або різних видів може продемонструвати схожість функцій білків або відношення між видами (таким чином, можуть бути складені філогенетичні дерева).

Із зростанням кількості даних вже давно стало неможливим вручну аналізувати послідовності. В наші дні для пошуку по геномах тисяч організмів, що складаються з мільярдів пар основ, використовуються комп'ютерні програми. Програми можуть однозначно зіставити («вирівняти») схожі послідовності ДНК в геномах різних видів, часто такі послідовності несуть схожі функції, а відмінності виникають в результаті дрібних мутацій, таких як заміни окремих нуклеотидів, вставки нуклеотидів і їхнє «випадання» (делецій).

Один з варіантів такого вирівнювання застосовується при самому процесі секвенування. Так звана техніка «дробового секвенування» (яка, наприклад, використовувалася Інститутом генетичних досліджень[en] або TIGR для секвенування першого бактеріального геному Haemophilus influenzae) замість повної послідовності нуклеотидів дає послідовності коротких фрагментів ДНК (кожен завдовжки близько 600–800 нуклеотидів). Кінці фрагментів накладаються один на одного і, суміщені належним чином, дають повний геном. Такий метод швидко дає результати секвенування, але збірка фрагментів може бути досить складним завданням для великих геномів. У проєкті з розшифрування геному людини збірка зайняла декілька місяців часу суперкомп'ютерів. Зараз цей метод застосовується для практично всіх геномів, і алгоритми збірки геномів є однією з щонайгостріших проблем біоінформатики на сьогоднішній момент.

Іншим прикладом застосування комп'ютерного аналізу послідовностей є автоматичний пошук генів[en] і регуляторних послідовностей в геномі. Не все нуклеотиди в геномі використовуються для завдання послідовностей білків. Наприклад, в геномах еукаріотів існують великі сегменти некодуючої ДНК, які явно не кодують білки, а їхня функціональна роль в багатьох випадках невідома. Розробка алгоритмів виявлення ділянок геному, що кодують білки, є важливим завданням сучасної біоінформатики.

Біоінформатика допомагає зв'язати геномні та протеомні проєкти, наприклад, допомагаючи у використанні послідовності ДНК для ідентифікації білків.

Анотація геномів

У контексті геноміки анотація — процес маркування генів і інших об'єктів в послідовності ДНК. Перша програмна система анотації геномів була створена в 1995 році Оуеном Вайтом (Owen White), що працював в команді, яка секвенувала і проаналізувала перший декодований геном вільноживучого організму, бактерії Haemophilus influenzae. Доктор Вайт побудував систему знаходження генів, тРНК і інших об'єктів в геномі, і зробив перші позначення функцій цих генів. Більшість сучасних систем працюють схожим чином, але ці програми постійно розвиваються і поліпшуються.

Обчислювальна еволюційна біологія

Еволюційна біологія досліджує походження і появу видів, також як їхній розвиток з часом. Інформатика допомагає еволюційним біологам в декількох аспектах:

  • вивчення еволюції великого числа організмів, вимірюючи зміни в їхній ДНК, а не тільки в будові або фізіології
  • порівняння цілих геномів (див. BLAST[en]), що дозволяє вивчати більш комплексні еволюційні події, такі як дуплікація генів, горизонтальний перенос генів і передбачати фактори спеціалізації організмів
  • будування комп'ютерних моделей популяцій, щоб передбачити поведінку системи з часом
  • відстеження появи публікацій, що містять інформацію про велику кількість видів

Область інформатики, що використовує генетичні алгоритми, часто плутають з комп'ютерною еволюційною біологією. Робота в цій області використовує спеціалізоване програмне забезпечення для поліпшення алгоритмів і обчислень і ґрунтується на еволюційних принципах, таких, як реплікація, диверсифікация[en] через рекомбінацію або мутації, і виживання за умовами природного відбору.

Оцінка біологічного різноманіття

Біорізноманіття екосистеми може бути визначено як повна генетична сукупність певного середовища, що складається зі всіх видів, що мешкають в ньому, чи це біофільм в покинутій шахті, крапля морської води, жменя землі або вся біосфера планети Земля. Для збору видових назв, описів, ареалу розповсюдження і генетичній інформації використовуються бази даних. Спеціалізоване програмне забезпечення застосовується для пошуку, візуалізації та аналізу інформації, і, що важливіше, її доступності іншим людям. Комп'ютерні симуляції моделюють такі речі, як популяційна динаміка, або обчислюють загальне генетичне здоров'я культури в агрономії. Один з найважливіших потенціалів цієї області полягає в аналізі послідовностей ДНК організмів або повних геномів цілих вимираючих видів, дозволяючи запам'ятати результати генетичного експерименту природи в комп'ютері й можливо використовувати знову в майбутньому, навіть якщо ці види повністю вимруть.

Аналіз експресії генів

Експресія багатьох генів може досліджуватися за допомогою вимірювання рівнів багатьох мРНК з використанням методів ДНК-мікрочипів, експресії міток послідовностей[en] (EST), серійного аналізу експресії генів[en] (SAGE) або інших варіантів мультиплексної гібридизації in-situ[en]. Всі ці методи надзвичайно сприятливі до шуму і схильні до упередженості в отриманих значеннях, тому важлива область досліджень в біоінформатиці займається розробкою статистичних інструментів для розділення сигналу і шуму в генетичних дослідженнях. Ці дослідження часто використовуються для виявлення генів, залучених у хвороби: наприклад, дані мікрочипів ракових епітеліальних клітин порівнюють з нормальними для визначення підвищуючої та понижчуючої регуляції генів.

Типи даних у біоінформатиці

Біоінформатика має справу з різноманітними типами біологічних даних, кожен з яких пропонує унікальне розуміння складності живих організмів. Ці типи даних необхідні для розуміння генетики, біології та суміжних галузей. Ось кілька відомих типів даних у біоінформатиці:

Оміксіні технології

Хронологія основних технологічних розробок і віх в різних аналізах оміксних технологій[1]

«Оміксні технології» — це набори передових, високопродуктивних методологій, які використовуються для аналізу широкого діапазону біологічних молекул та їх взаємодії з метою розуміння структури, функції та динаміки біологічних систем на різних рівнях.[2] Поєднуючи ці «-оми», вчені можуть аналізувати складні біологічні великі дані, щоб знаходити нові асоціації між біологічними об’єктами, точно визначати відповідні біомаркери захворювань і фізіологічних процесів.[3][4] Роблячи це, мультиоміка об’єднує різноманітні дані омік, щоб знайти узгоджено відповідний зв’язок або асоціацію генотип-фенотип-довкілля.[5] Термін «мультіоміка» відображає взаємозв’язок і складну взаємодію між різними типами біологічних даних. Біологічні процеси керуються каскадом подій, які починаються з генома та призводять до функціональних білків і метаболітів, які опосередковують клітинні процеси. Уздовж цього континууму існують різні точки регулювання та зворотного зв’язку, які найкраще зрозуміти, якщо розглядати їх разом.[6]

Геномні дані

  • Секвенування ДНК: визначення точної послідовності нуклеотидних основ у молекулах ДНК. Цей тип даних був революційним завдяки високопродуктивним технологіям секвенування, таким як секвенування наступного покоління[en] (NGS) і секвенування однієї молекули в реальному часі[en].
  • Збірка геномів: реконструкція повних геномів із фрагментованих послідовностей ДНК. Удосконалення алгоритмів і обчислювальних методів підвищили точність і ефективність складання геному.[7]
  • Порівняльна геноміка[en]: порівняння геномів різних видів для виявлення еволюційних зв’язків, збережених елементів і генетичних варіацій. Цей тип даних допомагає зрозуміти еволюцію видів і функціональних елементів у геномах.
  • Функціональна геноміка[en]: вивчення функцій генів і некодуючих елементів у геномах, часто за допомогою таких методів, як CRISPR-Cas9 для редагування генів і функціональної анотації. (див. Геноміка)
  • Фармакогеномічні дані: дослідження того, як генетичні варіації впливають на індивідуальні реакції на ліки. Цей тип даних використовується в персоналізованій медицині та оцінці безпеки ліків.[8][9]

Епігеномні дані

  • Профіль метилювання ДНК: Вивчення статусу метилювання специфічних залишків цитозину в ДНК. Патерни метилювання часто асоціюються з глушінням генів і можуть бути проаналізовані за допомогою таких методів, як бісульфітне секвенування[en] та методи аналізу мікрочипів[en].[10]
  • Дані модифікації гістонів — ChIP-Seq (Секвенування імунопреципітацією хроматину): визначення місць і моделей модифікацій гістонів (наприклад, ацетилювання, метилювання), пов’язаних з регуляцією генів. Секвенування ChIP поєднує імунопреципітацію хроматину з високопродуктивним секвенуванням.
  • Секвенування малих РНК[en]: профілювання малих некодуючих РНК (наприклад, мікроРНК[11], малих інтерферуючих РНК), які відіграють вирішальну роль у регуляції генів після транскрипції.[12]
  • Аналіз довгих некодуючих РНК (lncRNA): Дослідження функцій і регуляторних ролей довгих некодуючих РНК у експресії генів та епігенетичній регуляції.[13]
  • Методи фіксації конформації хромосом — відображення тривимірної організації хроматину в клітинному ядрі. Дані Hi-C дають зрозуміти, як хроматинові петлі та взаємодії впливають на регуляцію генів і архітектуру геному.
  • Повноепігеномне дослідження асоціацій[en] (EWAS) — Епігеномне профілювання метилювання ДНК: виявлення епігенетичних змін, пов’язаних із захворюваннями, ознаками та впливом навколишнього середовища, подібно до загальногеномних досліджень асоціацій (GWAS) для генетичних варіацій. (див. Епігеноміка)

Транскриптомні дані

  • Секвенування РНК[en] (RNA-Seq): профілювання експресії генів шляхом кількісного визначення молекул РНК у зразку. RNA-Seq надає інформацію про рівні експресії генів, альтернативний сплайсинг і посттранскрипційні модифікації.[14]
  • Аналіз транскриптомів: аналіз усього набору транскриптів у клітині чи тканині, включаючи ідентифікацію нових транскриптів, варіантів сплайсингу та регуляторних РНК.[15] (див. Транскприптоміка)

Епітранскриптомні дані

Епітранскриптоміка — це дослідження епітранскриптому[en][16][17] — функціонально відповідних модифікацій транскриптому, які можуть впливати на стабільність, локалізацію та трансляцію РНК.[18][19] Це поле дозволяє досліджувати інший рівень регуляції генів, який впливає на численні клітинні процеси та потенційно сприяє хворобливим станам.[20]

  • Дані про модифікацію РНК: Епітранскриптоміка зосереджена на вивченні посттранскрипційних модифікацій молекул РНК. Ці модифікації, такі як N6-метиладенозин (m6A)[21][22] і 5-метилцитозин (m5C)[23][24][25], можуть впливати на стабільність, локалізацію та ефективність трансляції РНК.
  • Епітранскриптомне секвенування[en]: такі методи, як m6A-seq[26][27] і m5C-seq[28][29], використовуються для профілювання модифікацій РНК у транскриптомі. Ці дані допомагають ідентифікувати модифіковані ділянки РНК і зрозуміти їхню функціональну роль.

Протеомні дані

  • Мас-спектрометрія: вимірювання відношення маси до заряду білків і пептидів для ідентифікації та кількісного визначення білків у складних біологічних зразках. Дані протеоміки життєво важливі для розуміння функції білка та посттрансляційних модифікацій.
  • Передбачення структури білка: використання обчислювальних методів для прогнозування тривимірних структур білків. Цей тип даних допомагає у відкритті ліків, функціональному аналізі та розумінні взаємодії білків.[30]
  • Функціональна протеоміка: дослідження білок-білкових взаємодій, субклітинної локалізації та функцій білка в клітинних шляхах.[31][32] (див. Протеоміка)

Ліпідомні дані

Ліпідоміка — це широкомасштабне всебічний аналіз ліпідів у біологічних системах; дослідження шляхів і мереж клітинних ліпідів у біологічних системах.[33] Ліпідоміка використовує методи аналітичної хімії та мас-спектрометрії[34] для ідентифікації та кількісного визначення різноманітного профілю ліпідів у біологічних системах.[35][36]

  • Рідинна хроматографія-мас-спектрометрія (LC-MS): LC-MS є ключовим методом для ліпідоміки, що дозволяє дослідникам кількісно визначати та характеризувати молекули ліпідів. Ліпідомічні дані сприяють розумінню метаболізму ліпідів та їхньої ролі у здоров’ї та хворобах.[37][38]

Глікомні дані

Глікоміка — це комплексне дослідження всіх гліканових структур (вуглеводів) клітини, тканини або організму.[39] Глікоміка досліджує структуру та функції гліканів (цукрів, сахаридів) у біологічних системах, зокрема, завдяки мас-спектрометрії.[40][41][42]

  • Дані про структуру гліканів: глікоміка передбачає вивчення складних вуглеводів (гліканів), які містяться в глікопротеїнах і гліколіпідах. Дані містять інформацію про гліканові структури, зв’язки та модифікації.[43]
  • Мас-спектрометрія: методи мас-спектрометрії зазвичай використовуються для аналізу гліканів і білків, що зв'язують глікани. Дані, отримані в результаті профілювання гліканів, допомагають зрозуміти функцію гліканів і їх роль у захворюваннях.

Дані метаболоміки

Метаболоміка — це галузь біоінформатики, яка зосереджена на комплексному вивченні малих молекул (метаболітів) у біологічних системах. Ці метаболіти відіграють важливу роль у різних біохімічних процесах і дають змогу зрозуміти метаболічний стан організму. Метаболомічні дані охоплюють широкий спектр аналітичних методів і типів даних:

Ідентифікація метаболітів
  • Мас-спектрометрія: методи мас-спектрометрії, такі як рідинна хроматографія-мас-спектрометрія (LC-MS)[44] і газова хроматографія-мас-спектрометрія[en] (GC-MS)[45][46], використовуються для ідентифікації та кількісного визначення метаболітів.
  • ЯМР-спектроскопія: надає структурну інформацію про метаболіти та може використовуватися для кількісного визначення профілю метаболітів.[47][48]
  • Пікові інтенсивності: дані метаболоміки часто містять пікові інтенсивності або площі під піками в даних мас-спектрометрії.[49][50]
Дані метаболічних шляхів
  • Бази даних метаболічних шляхів: такі бази даних, як KEGG (Кіотська енциклопедія генів і геномів), MetaCyc[en][51] і MetaboAnalyst[en], надають інформацію про метаболічні шляхи, реакції та пов’язані ферменти. Метаболомічні дані можливо відобразити на цих шляхах, щоб зрозуміти зміни метаболічної мережі.
  • Бази даних метаболітів: анотація метаболітів часто передбачає зіставлення мас-спектрів або спектрів ЯМР із записами в базах даних метаболітів, таких як бібліотеки METLIN[en], Human Metabolome Database[en] (HMDB)[52] і баз даних NIST.[53]
Інші типи даних в метаболоміці
  • Дані часових рядів: Дані метаболоміки часових рядів передбачають вибірку протягом серії часових точок для вивчення динамічних змін рівнів метаболітів у відповідь на біологічні процеси або втручання.[54]
  • Багатовимірний статистичний аналіз: такі методи, як метод головних компонент[55][56] і частковий аналіз найменших квадратів-дискримінант (PLS-DA)[57][58], використовуються для аналізу метаболомічних даних з кількома змінними одночасно, визначення закономірностей і розрізнення груп зразків. (див. також Багатовимірна статистика)
  • Дослідження асоціацій: метаболомічні дані використовуються в асоціативних дослідженнях для співвіднесення профілів метаболітів із клінічними або фенотипічними результатами, що полегшує виявлення біомаркерів і аналізує механізми.[59][60]

Дані мікробіоміки

Мікробіоміка передбачає характеристику та аналіз мікробних спільнот, включаючи бактерії, археї, віруси, гриби, найпростіші та водорості, у визначеному середовищі.[61] (Див. також Мікробіом, Мікробіом людини, Мікробіота кишківника)

Метагеноміка

Метагеноміка — це дослідження генетичного матеріалу, отриманого безпосередньо зі зразків навколишнього середовища[62] чи мікробіому певного організму.[63] Це дозволяє охарактеризувати спільноти організмів, які не піддаються культивуванню звичайними мікробіологічними методами.[64] Метагеноміка дає уявлення про структуру та функції мікробних спільнот у різноманітних середовищах, у тому числі в організмі людини.[65]

  • Секвенування 16S рРНК: цей метод зазвичай використовується для профілювання бактеріальних спільнот.[66] Він генерує дані про різноманітність і чисельність таксонів бактерій у зразку.[67][68]
Метатранскриптоміка

Метатранскриптоміка — розділ транскриптоміки та мікробіоміки, який займається вивченням транскриптомів у мікробних спільнотах. Він пропонує розуміння активних функціональних елементів спільноти та може проілюструвати, як громади реагують на подразники навколишнього середовища. Метатранскриптоміка також може допомогти ідентифікувати гени, що експресуються окремими членами спільноти, досліджуючи функціональні ролі різних членів спільноти.[69][70]

Метапротеоміка

Метапротеоміка передбачає вивчення всього мікробного протеому в певний момент часу. Метапротеоміка надає функціональну інформацію про мікробні спільноти, що робить її ключовим інструментом для розуміння взаємодії мікробів і динаміки спільнот у їхньому природному середовищі існування. Такий підхід також допомагає з’ясувати функціональні ролі окремих членів і спільноти в цілому.[71][72][73]

Мультиоміксні дані

Мультиоміксне поєднання даних оміксних технологій з іншими біомедичними даними для цілісного дослідження здоров'я[1]

Мультиоміка — використання та інтеграція великої кількості даних, наданої дослідженнями оміксними технологіями, такими як геном, протеом, транскриптом, епігеном, епітранскриптом, метаболом, інтерактом, мікробіом (метагеном, метатранскриптом, метапротеом) та інші, щоб розвинути комплексне та цілісне розуміння біологічних систем.[1][74][75][76]

Типи даних у мультиоміці
  • Геноміка
  • Транскриптоміка
  • Епігеноміка
  • Епітранскриптоміка
  • Протеоміка
  • Глікоміка
  • Ліпідоміка
  • Метаболоміка
  • Інтерактоміка
  • Мікробіоміка та деякі інші.

Методи інтеграції

Інтеграція даних мультиоміки є вирішальним кроком у дослідженнях мультиоміки, метою якого є надання повного уявлення про біологічні системи на різних молекулярних рівнях. Завдання класифікації методів інтеграції даних мультиоміки є складним через різноманітні методології з різними цілями. Однак їх можна широко класифікувати на основі їхніх базових статистичних стратегій, їхньої біологічної цілі та способу обробки кількох типів даних омік.[77]

Існує два загальні підходи до організації вхідних даних для подальшої їх інтеграції та аналізу: методи ансамблю даних і методи ансамблю моделі. Методи ансамблю даних об’єднують дані мультиоміки з різних молекулярних шарів в єдину матрицю як вхідні дані. Навпаки, методи ансамблю моделі аналізують кожні дані омік незалежно, а потім об’єднують результати для побудови інтегративного аналізу.[78][79][80][81] На основі цих двох методик організації даних класифікують наступні методи інтеграції даних[80]:

Методи на основі регресії/асоціації:

  • Послідовний аналіз
  • Методи на основі канонічного кореляційного аналізу (CCA) і співінерційного аналізу (CIA)
  • Методи на основі факторного аналізу

Методи на основі кластеризації:

  • Кластеризація на основі ядра
  • Метод кластеризації на основі матричної факторизації
  • Метод баєсової кластеризації
  • Багатовимірний метод кластеризації

Методи на основі мереж:

  • Мережі на основі матриці факторизації (MF-Based)
  • Баєсові мережі
  • Мережі на основі поширення (NP-Based)
  • Кореляційні та інші мережі

Застосування даних мультиоміки

  • Виявлення біомаркерів[en] захворювань: визначення діагностичних або прогностичних біомаркерів захворювань.
  • Персоналізована медицина: адаптація медичних процедур і втручань на основі індивідуального мультиомічного профілю.
  • Розуміння складних захворювань: дослідження молекулярних механізмів, що лежать в основі складних захворювань.
  • Розробка ліків: прискорення розробки ліків шляхом виявлення мішеней на ліки та прогнозування реакції на ліки.Виклики та досягнення:

Нейроінформатика

Нейроінформатичне дослідження мереж мозку на основі даних візуалізації фМРТ[82]

Нейроінформатика — це спеціалізована галузь біоінформатики, яка зосереджена на організації, аналізі та інтерпретації складних неврологічних та нейронаукових даних. Нейроінформатика об’єднує обчислювальні та експериментальні підходи для розуміння структури та функції нервової системи на різних рівнях, починаючи від молекулярного та клітинного до системного та когнітивного рівнів.[83]

Дані структурної біології

Структурна біологія досліджує інформацю про тривимірні структури біологічних макромолекул, таких як білки та нуклеїнові кислоти. Ці дані важливі для розуміння молекулярних взаємодій і дизайну ліків.

Філогенетичні дані

  • Філогенетичні дерева: відображення еволюційних зв'язків між видами або генами. Філогенетичний аналіз передбачає порівняння генетичних або молекулярних послідовностей для побудови еволюційних висновків.
  • Філогеноміка[en]: інтеграція геномних даних для реконструкції філогенетичних дерев і вивчення еволюції геному різних видів.[89][90][91]

Дані методів візуалізації

Дані, отримані за допомогою різних методів візуалізації, таких як мікроскопія, магнітно-резонансна томографія (МРТ) і комп’ютерна томографія (КТ) та багато інших. Дані біовізуалізації використовуються для вивчення клітинних і тканинних структур.

Екологічні дані

  • Біоінформатика навколишнього середовища: аналіз екологічних і екологічних даних, включаючи інформацію про клімат, географію та середовище проживання, для вивчення впливу навколишнього середовища на біорізноманіття та екосистеми.[94][95][96]
  • Екологічна геноміка: інтеграція геноміки та даних про навколишнє середовище для розуміння генетичної основи адаптації організмів.[96][97]

Біоекономічні дані

Текстові та літературні дані

  • Інтелектуальний аналіз тексту: вилучення інформації та знань із наукової літератури, патентів і текстових джерел, зокрема завдяки нейролінгвістичним моделям штучного інтелекту, накшталт, ChatGPT.[99] Інтелектуальний аналіз тексту допомагає керувати даними, переглядати літературу та знаходити нові знання та розуміння.[100][101]

Бази даних

Бази даних із біологічною інформацією необхідні для більшості біоінформатичних досліджень. Існує велика кількість таких баз, що містять усе від нуклеотидних послідовностей до опису видів і фенотипів. Багато із них перебувають у вільному доступі, інші закриті. Прикладом вільних баз даних з інформацією про нуклеотидні послідовності є GenBank, DDBJ та ENA[en] (European Nucleotide Archive), сформовані та підтримувані у рамках Міжнародної співпраці баз даних нуклеотидних послідовностей (International Nucleotide Sequence Database Collaboration)[102]. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ[103]. Інші бази даних більш специфічні, наприклад, присвячені окремому типу генів чи білків (таких як кінази), окремій хромосомі чи органелі або організму. В деяких базах зібрані послідовності об'єднані спільною ознакою, наприклад Pfam (Protein Family) містить кілька тисяч родин гомологічних білків[104].

Бази даних літератури містять бібліографічні дані статей присвячених біологічним дослідженням і посилання на повні тексти статей, одним із найважливіших таких сховищ є MEDLINE[104].

Див. також

Література

  • Кеца О. В. Основи біоінформатики: навч.-метод. посібник / О. В. Кеца. – Чернівці: Чернівецький нац. ун-т ім. Ю. Федьковича, 2018. – 192 с.
  • Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. ISBN 978-0-470-08585-1. Процитовано 6 листопада 2015.{{cite book}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  • Леск А. Введение в биоинформатику = Introduction to Bioinformatics. — М. : Бином, 2013. — 318 с.
  • Хаубольд Б., Вие Т. Введение в вычислительную биологию: Эволюционный подход = Introduction To Computational Biology: An Evolutionary Approach. — Ижевск : РХД, 2011. — 456 с.
  • Хельтье Х.-Д., Зиппль В., Роньян Д., Фолькерс Г. Молекулярное моделирование: Теория и практика = Molecular Modeling: Basic Principles and Applications. — М. : Бином, 2012. — 319 с.

Додаткова література

Книги

Журнали

Статті

Примітки