Анализ последовательности ДНК

Анализ последовательности ДНК в молекулярной биологии и биоинформатики является автоматизированным, системой автоматизированного определения характерных сечений , в частности известных генов и подозреваемых генов , на ДНК - последовательности . Исследуется информация, полученная в результате секвенирования ДНК о последовательности и положении пар оснований . Результаты этого действия также называются аннотациями , при этом анализ последовательности не ограничивается методами аннотации.

Анализ последовательностей ДНК был обусловлен наличием большого количества геномных данных и необходимостью их интерпретации. Многие из методов , разработанных для нуклеотидных последовательностей , также могут быть применены к аминокислотным последовательностям, то есть первичная структура из белков , в том же способе или с незначительными изменениями . Методы, которые по большей части могут быть отнесены к так называемым строковым алгоритмам , могут - если пренебречь биологическими ограничениями - даже быть перенесены в любые последовательности символов .

Анализ последовательности может быть мотивирован следующими проблемами:

  • При секвенировании генома данные, полученные в виде тысяч относительно коротких последовательностей: как их соединить?
  • Аналоговые гены , т. Е. Гены , белковые продукты которых имеют схожие функции, могут иметь сходные паттерны у разных видов; Гомологичные гены могут расходиться в ходе эволюции : можно ли найти неизвестные гены у людей, зная гомологичные гены у мышей? Как далеко организмы генетически отделены друг от друга? Сколько времени прошло в генеалогическом древе с тех пор, как они расстались ?
  • Интроны и экзоны имеют разные паттерны и статистику, а контрольные области генов часто очень консервативны: могут ли эти области автоматически дифференцироваться только посредством сравнения паттернов и статистического анализа частот n- кортежей ?
  • Большая часть геномной ДНК состоит из некодирующей ДНК , которая характеризуется относительно короткими, очень часто повторяющимися единицами ( повторами ): как вы их отфильтруете, чтобы алгоритмы поиска не давали ложных или вводящих в заблуждение результатов из- за ложноположительных результатов ?

Алгоритмы

Строковые алгоритмы

Одна из наиболее частых проблем - это поиск определенных частичных последовательностей в базе данных. Вы можете искать точные совпадения ( алгоритмы сопоставления строк ) или все приблизительные совпадения в пределах определенного расстояния Левенштейна от строки поиска. В англоязычном мире эти адаптации двух строк называются выравниванием последовательностей , что, в свою очередь, дало название целому семейству алгоритмов выравнивания . Этот термин становится все более популярным в немецком языке в непереведенной форме. Безусловно, наиболее известными реализациями выравнивания являются алгоритм Нидлмана-Вунша (глобальное выравнивание), алгоритм Смита-Уотермана (локальное выравнивание) и алгоритм BLAST (эвристическое попарное выравнивание).

веб ссылки