BLAST

BLAST
BLAST
Тип	Биоинформатика
Разработчики	Стивен Альтшуль[en], Уоррен Гиш[en], Вебб Миллер[en], Юджин Майерс и Дэвид Липман[en] (NCBI)
Написана на	C++ и Си
Операционные системы	UNIX, Linux, Apple Macintosh, Microsoft Windows
Последняя версия	2.13.0 (17.03.2022)
Читаемые форматы файлов:
	XML BLAST Output[d]
Создаваемые форматы файлов:
	XML BLAST Output[d]
Лицензия	Public Domain
Сайт	ftp.ncbi.nlm.nih.gov/bla…

BLAST (англ. Basic Local Alignment Search Tool — средство поиска основного локального выравнивания) — семейство компьютерных программ, служащих для поиска сходных аминокислотных или нуклеотидных последовательностей^[1]. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти предполагаемые гомологи. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: Стивен Альтшуль^[en], Уоррен Гиш^[en], Вебб Миллер^[en], Юджин Майерс и Дэвид Липман^[en] в системе Национальных институтов здравоохранения США. Первая публикация с описанием программы вышла в Журнале молекулярной биологии^[en] в 1990 году^[2].

Классификация программ серии BLAST

Семейство программ серии BLAST делится на 4 основные группы:

Нуклеотидные

предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных геномов и их участков:

megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
discontiguous megablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
blastn — поиск относительно коротких последовательностей, обладающих незначительным сходством и др.

Белковые

предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их фрагментов.

blastp — медленное сравнение с целью поиска всех сходных последовательностей,
DELTA-BLAST — поиск последовательностей, обладающих незначительным сходством. Проводится сравнение запроса с базой данных консервативных доменов и построение позиционной таблицы счетов (англ. position-specific score matrix). Итоговый поиск в базах данных проводится с использованием полученной позиционной таблицы^[3].
PSI-BLAST — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
PHI-BLAST — поиск белков, содержащих определённый пользователем паттерн и др.

Транслирующие

способны переводить нуклеотидные последовательности в аминокислотные и наоборот:

blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.

Специальные

прикладные программы, использующие BLAST:

bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
CDART — сравнение с целью поиска гомологичных белков по доменной архитектуре,
magicblast — картирует прочтения (риды) на полный геном или транскриптом,
VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.

Принципы работы BLAST

Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.

После введения изучаемой нуклеотидной или аминокислотной последовательности (запрос) на одну из веб-страниц BLAST, она вместе с другой входной информацией (база данных, размера «слова» (участка), значение величины E и др.) поступает на сервер. BLAST создаёт таблицу всех «слов» (в белке — это участок последовательностей, который по умолчанию состоит из трёх аминокислот, а для нуклеиновых кислот из 11 нуклеотидов) и сходных «слов».

Затем в базе данных проводится их поиск. Когда обнаруживается соответствие, то делается попытка продлить размеры «слова» (до 4 и более аминокислот и 12 и более нуклеотидов) сначала без гэпов (пробелов), а затем с их использованием. После максимального продления размеров всех возможных «слов» изучаемой последовательности, определяются выравнивания с максимальным количеством совпадений для каждой пары запрос — последовательность базы данных, и полученная информация фиксируется в структуре SeqAlign. Форматер, расположенный на сервере BLAST, использует информацию из SeqAlign и представляет её различными способами (традиционным, графическим, в виде таблицы).

Для каждой обнаруженной в базе данных программами BLAST последовательности необходимо определить, насколько она сходна с изучаемой последовательностью (запрос) и значимо ли это сходство. Для этого BLAST вычисляет число битов и величину Е (expected value, E-value) для каждой пары последовательностей.

При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).

С помощью модифицированных алгоритмов Смита-Уотермана или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).

Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:

B=(P\cdot S-\ln {K})/\ln {2}

Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:

E=m\cdot n\cdot 2^{-B}

Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HSP с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.

Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.

Теоретически локальное выравнивание может начинаться с любой пары нуклеотидов или аминокислот выровненных последовательностей. Однако HPS, как правило, не начинаются близко к краю (началу или концу) последовательностей. Для коррекции такого краевого эффекта необходимо вычислять эффективную длину последовательностей. В случае последовательностей длиной более 200 остатков происходит нейтрализация краевого эффекта.

См. также

PSI Protein Classifier

Примечания

Ссылки

NCBI Blast (англ.)
Презентация о BLAST на русском

[1]

[2]

[3]