Полная версия

Главная arrow Экология arrow Ключ к генетическому коду в структуре объединенных молекул воды

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

ПРИМЕР БАЙЕСОВСКОЙ ПРОЦЕДУРЫ РАСПОЗНАВАНИЯ (ПРЕДСКАЗАНИЯ) ВТОРИЧНОЙ СТРУКТУРЫ БЕЛКОВ

Существует две теории предсказания белковых структур. Согласно первой, белковая структура определяется как результат кинетического процесса сворачивания. Согласно второй-она определяется как струк-тура с минимально возможной для данной цепи свободной энергией. Обе эти стратегии могут привести к правильному результату, так как самая стабильная структура белковой цепи, несмотря на опасения Левинталя, образуется достаточно быстро. Поэтому при предсказании белковых структур можно рассматривать как результат стабильную структуру белка.

В работе [Филькенштейн А.В. Введение в физику белка. Курс лекций. 1999-2000] выделены наиболее важные из оценок, полученных этими методами. Отмечается, что а - спирали стабилизируют амино-кислоты:А1а, Leu, Met; ss -структуры стабилизирующие, Val, Thr, Leu, Met, Cys, Phe, Tyr, Trp и ss - изгибы и петли стабилизируют: Gly, Pro.

Следует учесть и факты подтверждающие существования белков, имеющих различные функции, но очень похожие структуры. Эти данные пока представляют загадку для специалистов [Карасев В.А. Генетический код: новые горизонты. -Санкт-Петербург. Лесса, 2003].

В ряде работ отмечается, что абсолютно надёжных и точных методов предсказания белковых структур сейчас пока не существует. В этом две причины: 1) ограниченная точность энергетических оценок, на которых базируется теоретический расчет белковых структур, и 2) сравнительно малая разность между «правильно» и «неправильно» уложенными белковыми цепями.

Зная первичную структуру белка, т.е. линейную последовательность аминокислот, необходимо каждой аминокислоте поставить в соответствие один из возможных типов регулярной структуры: альфа-спираль, бета-слой, или бета-изгиб. В качестве обучающих выборок используются открытые базы данных экспериментально установлен-ных вторичных структур белков. Рассмотрим применение формулы Байеса для распознавания вторичной структуры белков аналогично тому, как это сделано в [7 и 8]. Для этого структуры белков: альфа, бета-слой и бета-изгиб обозначим соответственно: «а» — для альфа-спиралей; «ss-слой» и «ss-изгиб» для бета-структур. Они будут отвечать значениям: Аь А2, А3 соответственно. Распознавание будем проводить по шести обобщающим признакам: хь х2, х3, х4, х5, х6. Все шесть признаков относятся к одной из аминокислот, но так как каждая аминокислота состоит из последовательности трех нуклеотидов, то каждому нуклеотиду будет соответствовать пара значений, представ-ляющих один признак. Ранее было принято следующее соответствие нуклеотидов бинарным числам: А = 00; Г = 01; Т = 10; Ц = 11. Итак, в рассматриваемом случае искомое событие состоит в том, что измерения объекта (в нашем случае аминокислоты) принимают совокупности значений (признаков) хь х2, х3, х4, х5, х6. Тогда распределение вероятностей будет удовлетворять условию:

Р (As) -P(aAAs) ? P(a2As) •...• Р (anAs)

Р (Asab a2,...an) =- (6.17)

P (a i,.... aj... an)

где ab a2, ..., an - последовательность аминокислот;

As — состояние аминокислоты, P (a^VAg) условные вероятности,

P(AS) - априорная вероятность состояния аминокислоты.

Число классов As = 60, так как 20-количество аминокислот, 3 — число вторичных структур; хь х2, х3, х4, х5, х6 образуют последовательность, каждой паре которых соответствует одно основание. Каждое из Xj может принимать значение 0 или 1 и значит каждая аминокислота, например состоящая из последовательности нуклеотидов AAA или АГЦ, будет представлять в булевом виде: ААА =000000, а АГЦ = 000111. Итак, на вход задачи поступает аминокислота, а на выходе мы получаем соответству-ющую ей вторичную структуру данного белка. Таким образом, первичная и соответстующая ей вторичная структура белка может быть пред став-лена в виде:

VYGSAI N К I HAGRKI F

Ри Ри а а а а а а а а а ри Ри рс Рс Рс где а - альфа спираль; рс - бета-слой; ри - бета-изгиб.

Априорные вероятности должны быть заданы на основании пре-дыдущих испытаний. Допустим, они распределены следующим образом: P(Ai) = 0,4; Р(А2) = 0,15; Р(А3) = 0,45.

В режиме обучения определяются условные вероятности.

Исходные данные для расчета условных вероятностей P(xjAs), не-обходимых для определения соответствующих структур белка, заданы в табл. 6.8-6.10.

Таблица 6.8

Исходные данные для расчета условных вероятностей _Структура «а » = А1_

Номер

аминокисло

ты

Измерения

XI

х2

хз

х4

Х5

Хб

1

0

0

0

1

0

1

2

0

0

0

1

1

1

3

1

0

0

0

1

1

4

1

1

0

0

1

1

5

0

1

1

0

1

1

Таблица 6.9

Исходные данные для расчета условных

вероятностен Структура «Зс» = А2

Номер

аминокисло

ты

Измерения

Xl

Х2

хз

х4

х5

Хб

6

0

0

1

1

1

0

7

0

1

1

1

0

0

8

1

0

1

1

0

1

9

1

1

1

0

0

0

10

0

1

0

1

0

0

Таблица 6.10

Исходные данные для расчета условных

вероятностей

Структура «ри» = АЗ

Номер

аминокисло

ты

Измерения

XI

Х2

хз

Х4

Х5

Хб

11

0

0

0

0

1

0

12

0

0

1

0

1

0

13

1

0

0

1

1

0

14

1

1

1

1

1

0

15

0

1

1

1

0

1

На примере столбца хі табл. 6.8 покажем, как подсчитываются условные вероятности. В столбце хі из пяти значений два значения равны 1. Таким образом, вероятность наличия признака элемента Р(хіАі) = 0,4. Соответственно, вероятность отсутстия признака элемента будет равна:

Р(Х1А0=0,6.

Условные вероятности для случаев, представленных в табл. 6.8 - 6.10, распределены следующим образом:

Р (х,А,) = 0,4

Р(хААі) = 0,6;

Р(х,А2) = 0,4

Р(хАА2) = 0,6;

Р(х2А,) = 0,4

Р(х2А,) = 0,6;

Р(х2А2) = 0,6

Р(х2А2) = 0,4;

Р(х3А,) = 0,2

Р(хзА[) = 0,8;

Р(х3А2) = 0,8

Р(х3А2) = 0,2;

Р(х4А,) = 0,4

Р(х4А,) = 0,6;

Р(Х4А2) = 0,8

Р(х4А2) = 0,2;

Р(х5А,) = 0,8

Р(х5А[) = 0,2;

Р(х5А2) = 0,2

Р(х5А2) = 0,8;

Р(х6А,) = 1

Р(хбА[) = 0;

Р(х6А2) = 0,2

Р(х6А2) = 0,8;

Р(х,А3) = 0,4

Р(хДА3) = 0,6;

Р(х3А3) = 0,6 Р(х4А3) = 0,6

Р(х5А3) = 0,8

Р(х6А3) = 0,2

Р(х3А3) = 0,4; Р(х4А3) = 0,4; Р(хМз) = 0,2 Р(х6А3) = 0,8;

Учитель заранее знает, что аминокислоты с номерами 1-5 (табл. 6.8) относятся к структуре «а» = Аь номера аминокислот 6-10 (табл.6.9) и 11-15 (табл.6.10) относятся соответственно к структурам <фс» = А2 и «ри» = А3. Эти данные выражают «опыт учителя», хранящийся в его памяти. Каждую из этих партий аминокислот (по пять аминокислот в каждой партии) назоваются выборками. «Учитель» направляет эти выборки на вход системы распознавания, при этом система рассчитывает все условные вероятности и фиксирует их в памяти. Кроме того, в память системы вводятся значения априорных вероятностей.

Выбор априорного распределения в прикладных вопросах байесовского оценивания является одной из наиболее важных задач. Определение априорного распределения, и все дальнейшие рассуждения проводятся в рамках этой процедуры (байесовского подхода).

Сейчас можно говорить о существовании трех направлений, даю-щих рекомендации по выбору априорного распределения. Эти направ-ления основаны на: 1) принципе сопряженности; 2) отсутствии априорной информации; 3) информационном критерии [Савчук В.П. Байесовские методы статистического оценивания. Надежность технических систем.-М.: Прогресс, 1993].

После того, как система прошла обучение, она готова к распознаванию (предсказанию вторичной структуры).

В качестве предсказуемой вторичной структуры может быть выбрана любая аминокислота того типа, по которому система прошла обучение.

Допустим, требуется определить вторичную структуру аминокис-лоты, характеризуемый набором параметров: Х1=1, х2=1, х3=0; х4 = 1, х5 = 0, х6 = 1. По имеющимся в памяти условным вероятностям для этих значений система осуществляет расчеты в соответствии с формулой (6.17). Входящая в знаменатель формулы (6.17.) вероятность:

г 6

Р(аь ...ар...ап)=1 Р(АХ) • ПР(х]Ах)

  • • •
  • 1 )

называется полной вероятностью. Находим числитель (6.17), поставив в соответствие каждой аминокислоте все её шесть пизнаков (где каждой аминокислоте соответствует совокупность XI, состоящая из шести признаков):

Р(А0 х Р(Х1 АО х Р(х2 АО х Р(Х3 АО х Р(х4 АО х Р(х5 АО х X Р(х6 АО = 0,4 х 0,4 х 0,4 х 0,8 х 0,4 х 0,2 х 1 = 0,0041

Р(А2) X P(Xl А2) х Р(х2 А2) х Р(х3 А2) х Р(х4 А2) х Р(х5 А2) X X Р(х6 А2) = 0,15 х 0,4 х 0,6 х 0,2 х 0,8 х 0,8 х 0,2 = 0,0009;

Р(Аз) х Р(Х1 Аз) х Р(Х2 Аз) х Р(Х3 Аз) х Р(х4 А3) * Р(х5 А3) х X Р(х6 Аз) = 0,45 х 0,4 х 0,4 х 0,4 х 0,6 х 0,2 х 0,2 = 0,0007.

г 6

Далее находим: Р (аь.. .,aj,.. .an)=Z nP(xjAs)P(As) =

i=l j=l

=0,0041 +0,0009+0,0007=0,005 7.

В итоге получаем: Р (АД хь х2, х3, х4, х5, х6) = 0,0041 : 0,0057 = 0,72;

Р (А2 хь х2, х3, х4, х5, х6) = 0,0009 : 0,0057 = 0,16;

Р (А3 хь х2, х3, х4, х5, х6) = 0,0007: 0,0057 = 0,12. где i (1-г) - число классов; j (1- 6) — число признаков.

Подсчитав, таким образом, вероятности для прогнозируемой структуры, система сравнивает их и указывает на тот вид вторичной структуры, для которого вероятность оказалась наибольшей. В нашем при-мере компаратор указывает на структуру Аь

Подробно показан расчет вероятности в режиме предсказания, относящейся к структуре А]. Вероятности, относящиеся к структурам А2 и А3, рассчитываются аналогичным образом.

Глубина анализа генетической информации вполне оправдана, так как, иногда для отдельных белков удается найти почти детерминированную зависимость вторичной структуры белка от ее нуклеотидной последовательности.

Так, в лаборатории «Наномир» научно-производственного объединения «Пикотехнология» МГТУ им. Н.Э. Баумана с помощью физического

моделирования была теоретически предсказана, экспериментально обнаружена и статистически подтверждена сильная корреляционная зависимость между пространственной структурой белка и его нуклеотидной последовательностью. Обнаружено, что в процессе биосинтеза третий нуклеотид кодона контролирует ориентацию аминокислоты, формируя конкретный пространственный изомер, т.е. конформацию белковой молекулы, отсекая конкурирующие пути формирования вторичной и третичной структур [Кулешов А.Ю., Пмсаржевский С.А. Построение масштабной модели структуры белка// Биофизика,2010]. В программе «Пикотехнология» учтены 4 основных варианта композиции. Вариант 1 соответствует вхождению остатка в 4/10 альфа-спираль, вариант 2 соответствует вхождению остатка в классический ss-слой, вариант 3 соответствует вхождению остатка в бета-поворот и вариант 4 соответствует вхождению остатка в 3/10 альфа-спираль. Оказалось, что третий нуклеотид кодона кодирует конфигурацию пептидной связи в композиции смежных аминокислотных остатков. Он взаимодействует с первым нуклеотидом антикодона тРНК, образуя криковскую пару, и в конечном итоге, определяет скелет пространственной структуры белка. Под композиционным кодом А.Ю.Кулешов понимает соответствие между третим нуклеотидом любого кодона и значением компо-зиционного кода (от 1 до 4 по числу вариантов нуклеотидов), которые детерминируют ориентацию присоединяемого аминокислотного остатка относительно растущей полипептидной цепи. Экспериментально установлено, что разновидностей правых и левых спиралей больше, чем это задается структурным шаблоном пептидных связей: 2/7, 3/10, а, к и др.[Филькенштейн М.В., Птицин О.Б.Физика белка.Курс лекций.2002]. Поэтому, последовательность конфигурации пептидных связей в спирали определяет только направление закручивания: правая или левая спираль, а разнообразие спиралей определяется свойствами белковых цепей аминокислотных остатков, формирующих виток спирали. Отсюда следует, что на основе структурного шаблона правой спирали, благодаря взаимодействию боковых цепей аминокислотных остатков, может быть сформирована правая спираль 3/10, правая а-спираль, правая л-спираль, правая 2/7 спираль и никогда - (3-тяж или любая разновидность левой спирали. Конфигурация пептидной связи Я или Ь вида является только необходимым условием формирования витка правой или левой спирали. Достаточным условием существования спиральной структуры есть

система водородных связей между атомами пептидных групп соседних витков, стабилизирующих вторичную структуру, наличие 3-4 и более подряд аминокислотных остатков, кодирующих триплетами с G/C(U) в третьем положении кодона, а также свойства белковых цепей аминокислот. Наиболее полная разработка проблемы достаточного условия для пра-вых а и 3/10спиралей представлена в работе Карасева В.А. [Карасев В.А., Лучинин В.В.Введение в констркирование бионических наносистем. М.Физмптлит.2009], где автор привлекает модели графов связности / антисвязности для диф-ференциации аминокислотных остатков по характеристикам боковых цепей [Соколик В. В. Способ моделирования пространственной структуры белка по

детерминированной его нуклеотидной последовательности// Молекулярная биофизика, 2010].

В качестве примера для перекрывающихся генов рассмотрим матричную РНК вируса MS2 и по ее первичной структуре построим вторичну структуру белков, используя байесовскую процедуру распознавания. К настоящему времени это одна из самых больших вторичных структур по количеству нуклеотидов.

Фаг MS2 сферический, он имеет диаметр 2,5 нм и молекулярную массу 3,6-106 дальтон. Фаг построен из 180 субъединиц белка оболочки с молекулярной массой 14700 дальтон каждая, одной молекулы так называемого А-белка с молекулярной массой 38000 дальтон и одной молекулы РНК с молекулярной массой 106 дальтон. Цепь начинается с G, имеющей трифосфат на своем 5' - гидроксиле. Далее следует длинная некодирующая нуклеотидная последовательность. Общая длина 5' -кольцевой нуклеотидной последовательности 129 остатков; в ней встречаются триплеты AUG и GUG, которые, однако, не являю-тся инициаторными. Первый инициаторный кодон, GUG, начинает кодирующую последовательность А-белка (А-цистрон). А-цистрон имеет длину 1179 остатков и заканчивается терминаторным кодоном UAG. Затем идет некодирующая вставка длиной 26 остатков. Следую-щая кодирующая последовательность начинается с AUG и имеет дли-ну 390 остатков, это цистрон белка оболочки (С-цистрон). Он оканчивается терминаторным кодоном UAA, и за ним непосредственно следует второй терминирующий кодон UAG. Последовательность длиной 36 остатков отделяет С-цистрон от S-цистрона, кодирующего субъединицу РНК-синтазы. S- цистрон начинается с AUG, имеет дли-ну 1635 остатков и заканчивается UAG. За ним через один остаток (т.е. не в фазе) имеется еще один терминирующий триплет

UGA. 3' - концевая некодирующая последовательность имеет общую длину 174 остатка и заканчивается аденозином со свободной цис-гликольной группировкой. Полная первичная структура РНК фага MS2 была определена В.Фирсом с сотрудниками в 1971-1976 гг. [Спирин А.С. Молекулярная биология,структура рибосомы и биосинтез белка. Москва.»Высшая школа»,1986]. MS2 РНК кодирует еще и четвертый белок, названный белком лизиса, или L-белком. Этот белок закодирован участком РНК, начинающимся в конце С- цистрона, захватывающим всего 36-нуклеотидную вставку между С- цистроном и S-цистроном и заканчивается в пределах S-цистрона; рамка считывания этого перекрывающегося L-цистрона сдвинута вправо на один остаток (+1 сдвиг), так, что никакие его участки не транслируются при синтезе С-белка и S-белка. L-цистрон имеет свой инициаторный кодон AUG, не в фазе с кодоном С-цистрона, и, соответственно, свой терминаторный кодон UAA, не в фазе с кодоном S- цистрона.

В работе [103] также анализируется вторичная структура матричной РНК MS2 и представлен текст линейной последовательности этой мРНК. Интеросно было сравнить результаты проведенного анализа в настоящей работе и анализа представленного в работе [103]. Не будем использовать всю последовательность этой структуры, а ограничимся участком, включающим два белка: L-белок и S-белок. Аминокислот-ная последовательность L-белка (начало этого белка соответствует 1678 -му нуклеотидному остатку) указана под, а последовательность S-белка (с его началом 1761) над нуклеотидной последовательностью. При этом нуклеотиды в последовательности представлены, соответ-ственно, малыми буквами: а, с, g, t, вместо стандартных обозначений А, С, G, Т. Принятое здесь обозначение неоднократно было использо-вано в современной научной литературе. Выбранного участка цепи мРНК MS2, состоящего из 141 основания (с 1761 по 1902) будет до-статочно для анализа и сравнения полученных результатов с данными у Н.Н.Козлова [103].

Используем нуклеотидную последовательность выбранного участка мРНК MS2 и байесовскую процедуру распознавания. На вход системы поступает последовательность нуклеотидов, а на выходе мы получили его вторичную структуру (альфа-спираль, бета-слой или бета-изгиб). Таким образом, первичная и соответствующая ей вторич-ная структура белка выгладит так:

1761

Met Ser Lys Thr Thr Lys Lys PheAsnSerLeuCysIleAspLeuProArgAspLeuSerLeuGluIle Tyr Gin atg tcg aag аса аса aag aag ttc aac tct tta tgt att gat cta cet cgc gat ctt tct etc gaa att tac caa CysArgArg Gin Gin Arg Ser SerThrLeuTyrValLeuIle PheLeuAla Ile PheLeuSerLysPheThr Asn

CL CL CL ssc ssc Cl CL CL CL ssM ssH ssH ssH ssH ssH ssH CL ssH ssH ssH CL ssH ssH CL ssH

serlle Ala Ser ValAlaThe Gly Ser Gly Asp Pro His Ser Asp Asp PheThr Ala Ile Ala Tyr Leu tea att get tct gtc get act gga age ggt gat ccg cac agt tga tga ctt аса gca att get tac taa GlnLeuLeuLeuSer LeuLeuGlu Ala Val Ile Arg Thr Val Thr ThrLeuGln GlnLeuLeuThr 1902

ssc ssn ssn ssn ss ssn ssn ssn cx ssn ssn a a ss„ a cx ssH ssc ssc ssH ssH ex ssH

где a-альфа - спирали, ssc и ssH - бета-слои и бета-изгибы, соответ-ственно.

В рамке считывания сдвинутой на один нуклеотид влево (-1 сдвиг) формирования белков не происходит. В этой рамке встречаются терминирующие кодоны, обозначенные в нуклеотидной последо-вательности жирным шрифтом.

Анализ вторичных структур в сравнении с работой [103] показал, что совпадение ss-структур соответствует почти 75%.

Для прокариотических мРНК иногда одна полинуклеотидная цепь включает кодирующие последовательности для нескольких белков, как и в структуре мРНК MS2. Такие мРНК получили название полицистронных мРНК (происходит от термина «цистрон», введенного С.Бензером как эквивалент гена) [Спирин А.С. Молекулярная биология,структура рибосомы и биосинтез белка. Москва.»Высшая школа», 1986].

Тип вторичной структуры может определяться окружением хь х2, ...,хп из соседних аминокислот, расположенных слева и справа от ис-следуемой аминокислоты . Можно осуществлять распознавание пар и троек состояний для двух и трех текущих аминокисло. Формула Байеса для пары текущих аминокислот имеет вид:

Р(х!,х2,..., x„As,s+1)P(As,s+1)

Р(А

S5 S+1

Хь х2, ...,х„)

(6.18)

Р(хь х2,...хп)

Здесь Аб, б+1 — состояние пары аминокислот х8, х8+ь число различ-ных классов Аэ, б+1 составляет 3600, так как 400 — количество раз-личных пар аминокислот, а 9 — число вторичных структур пары амиинокислот. Численные расчеты показали, что байесовские процедуры распознавания на цепях Маркова первого порядка успешно предсказывают вторичную структуру белков.

Поскольку аминокислотые остатки входящие в состав белка являются зависимыми, имеет смысл прогнозировать вторичную структуру сразу нескольких соседних наиболее значимых оснований.

Итак рассмотрим участок цепи состоящий из трех звеньев:

М(Ме1:) А(А1а) Е(С1и)

-------о-•-о-------

В процессе распознавания вторичной структуры текущей амино-кислоты А (тёмный кружок) использовались подсчитанные по формуле (6.18) оценки вероятности пар состояний для пар аминокислот МА и АЕ в последовательности соседних аминокислот МАЕ.

Итак, определим состояние аминокислоты А из тройки: МАЕ на основе оценок вероятностей пар состояний для пар аминокислот МА и АЕ. Обозначим:

А

РмА(ша) - оценки вероятностей пар состояний та аминокислот МА, вычисленных по формуле 6.18. Здесь и далее символом с «шапочкой» обозначены оценки вероятностей.

АЛА А

Получаем: РМд(А)= РМА(аА)+РМАсА)+РмА(РиА).

Аналогично для пары аминокислот АЕ получим:

А А А А

Рае(А)= РлЕ(Аа)+РАЕ(Арс)+ Рае(АРи).

А А А А _ А

Вычисляем: Р(а)= РМл(а)+ РАе(сО= 1 - Рмл(а) - РАе(сО,

А А А А _ А

Р(Р)= Рма(Рс)+Рае(Рс)= 1 - Рма(Рс) - Рае(Рс),

Р(Р„)= Рма(Р„)+Рае(Р„)= 1 - Рма(Ри) - Рае(Ри),

где:

л_лл л л л л

РмА(а)=РмА(сфс)+РмА(РсРс)+РмА(РиРс)+РмА(ари)+РмА(РсРи)+РмА(РиРи)+

Л Л

+ Р(Рса) + Р(Риа).

А _ А _ А _ Л Л

Аналогично определяются РАЕ(а), Рма(Рс), Рде(Рс), Рма(Рс), Рае(Ри)-Эта стратегия, предложенная в работе [163] очень громоздкая. Оценки вероятностей для каждой структуры встречаются по 6 раз. Поэтому рассмотрим более простой вариант стратегии выбора аминокислоты по оценкам вероятностей соседних пар состояний и оценки вероятностей их отрицаний с числовым расчетом.

По результатам оценок с использованием обучающих выборок нам известно, что пары соседних аминокислот формируют вторичные структуры а, рс, ри с вероятностями в сумме равными единице.

Л Л Л

Пусть: РМЛ(аА)=0,477; Рма(РсА)=0,3215; РМа(РиА)=0,2015.

АЛЛ Л

Тогда: Рма (А)= Рма(^А)+Рма(РсА)+Рма(РиА)=0,477+0,3215+092015=1;

л л л

РАе(Асх)=0,442; РАЕ(Арс)=0,2715; РАЕ(Ари)=0,2865.

АЛЛ А

Тогда: Рае(А)= РАЕ(Аа)+ РАЕ(Арс)+РАЕ(Ари)=0,442+0,2715+0,2865=1.

В процессе прогнозирования вторичных структур текущей аминокислоты получим следующие оценки вероятностей:

Л Л Л

РА(а)=РМА(а) + РАЕ(а)=0,477 + 0,442= 0,919.

А А А

Аналогично: Рас)=Рма(Рс) + Рае(Рс) = 0,3215 + 0,2715 = 0,593;

А А А

Ра(Р„)= Рма(Ри) + Рае(Ри) = 0,2015 + 0, 2865 = 0,488.

Каждая из структур в парах встречается дважды, поэтому:

А А А

РА(а) + РАс) + РАи) = 0,919 + 0,593 + 0,488 =2.

Оценки вероятностей для каждой структуры разделим на 2.

АЛЛ

Получим: РА(а) = 0,4595; РАС) = 0,2965; РАИ)=0,244.

Состояние для текущей аминокислоты А(А1а) задается формулой:

А А А

А= argmax{P(a), Р((3С), Р((3„)}.

Таким образом состоянию одиночной аминокислоты А(А1а) соот-ветствует а -спираль.

Наилучшие результаты получены при распознавании троек состояний для трёх текущих аминокислот.

Для модели марковской цепи при распознавании пар состояний вероятность цепочки хь х2,..., хп задается соотношением:

Р(хь х2, х„А5,8+ 1 )=Р(х,А$, $+1)-Р(х2хь А$, 8+1)- .....-Р(хпхп.1, Аа $+1),

где Р(х1ск-1, А5,5-| 1), к=2,..., п, - переходные вероятности.

В численных расчетах используются оценки переходных вероятностей, построенные в виде частот:

Л п(хы= ц хк=ь А$, 5-и)

Р(хк=]Лхк_1=ц А8,8+0 =-

п (хк.1= , А8,5+1),

где п(хк_1=ц хк=р А8,8+0 — число пар аминокислот (у), где на (к-1)-м месте находится аминокислота [, а на к-м аминокислота ] при заданном состоянии пары А§, 8+1;

п(хк_1=^ А5, 8+0 - число последовательностей, для которых на (к-1)-м месте находится аминокислота { при условии Аб, 1

Как мы уже отмечали, циклический 4-х звенный фрагмент образуется за счет водородных связей ЬШ-СЮ- групп, расположенных между ьой - М - ой и КЗ -ей - ь4-ой аминокислотами. Для формирования этого фрагмента необходимо наличие по крайней мере четырех звеньев белка, начиная с N - конца. В последующих исследаваниях связан-ных с предсказанием вторичной структуры белка мы будем использовать граф, состоящий из пяти звеньев.

Исследуемый метод отностится к методам машинного обучения и работает на обучающих выборках. В качестве обучающих выборок используются открытые базы данных экспериментально установлен-ных вторичных структур белков.

Одной из основных сложностей в анализе нуклеотидных последовательностей является то, что частоты появления соседних нуклеотидов не являются независимыми. В частности, частоты пар соседних оснований, как правило, отличаются от произведений частот самих этих оснований. Ограничения, налагаемые на соседние основания, приводят к тому, что взаимозависимыми оказываются и более удаленные друг от друга основания. Марковская цепь порядка к предполагает, что нахождение основания в определенном месте последовательности зависит только от оснований, находящихся в предыдущих к положениях. Цепь порядка 1 предполагает, что вероятность нахождения какого-либо основания в позиции зависит только от вероятности присутствия одного из четырех оснований в позиции - 1. Последовательность, состоящая из независимых оснований, будет соответствовать марковской цепи 0-го порядка. Проводя исследования, можно предсказать частоту некоторых интересующих нас участков и оценить ожидаемое число фрагментов, полученных при расщеплении ДНК. Если последовательность можно рассматривать как марковскую цепь порядка к, то п-е основание зависит только от предшествующих к ос-нований. Вероятность перехода в последовательности можно определить. Например, если имеется последовательность: ГАТАТТАТ, то вероятность того что за ТАТ следует Т, равна

л пТАТТ 1

Р(Т I TAT)

nTAT

Для цепи порядка к правдоподобие какой-либо последовательности равно произведению вероятности первых к оснований и вероятностей каждой последующей группы из k + 1 оснований. Например, правдоподобие в случае цепи 2-го порядка, будет:

L = Р(ГА)Р(Т |ГА)Р(А |АТ)Р(Т |ТА)Р(Т |АТ)Р(А |ТТ)Р(Т |ТА)Р(Ц 1ат)

где Р(Т |ГА) означает вероятность того, что за парой ГА следует Т. Эта вероятность оценивается как число триплетов Г АТ, деленное на число пар Г А.

Чем выше порядок, тем больше параметров учитывается и тем лучше соответствие реальным данным, но цепи более высокого порядка учитывают больше параметров.

Катц (Katz, 1981) [Вейр Б.Анализ генетических данных.-М.:Мир,1995] показал целесообразность введения «штра-фа» при слишком большом числе учитываемых параметров. Для этого он предложил использовать информационный критерий Байеса (Bayesian Information Criterion — BIC):

BIC(k)= Const - 21n L(k) + 3-4k ln nk,

где щ — это число подпоследовательностей длины k + 1, находя-щихся в рассматриваемой последовательности. То значение к, для которого BIC(k) минимально, принимается за оценку. Наименьшая BIC — оценка получена для порядка k = 1. Это подтверждает вывод, основанный на отношении

правдоподобий, о том, что цепь порядка 1 лучше всего соответствует данным. После того как установлен по-рядок цепи, можно с ее помощью оценить частоты встречаемости определенных последовательностей, как это было сделано для ДНК дрожжей Арнольдом и др. (Arnold et ai., 1988)[Вейр Б.Анализ генетических данных.-М.:Мир,1995 ]. Авторы использовали цепи третьего порядка и оценили вероятность получения последовательности GCGGCCGC, узнаваемой ферментом Notl, который делает наибольшее число разрывов. Эта вероятность оценивается как отношение числа различных тетра- и тринуклеотидов в данной последовательности.

Как уже отмечалось, многие биологические процессы включают в себя специфическое взаимодействие между ДНК - связывающими белками и сайтами ДНК. Для связывания с ДНК, поверхность белка, причем на большом протяжении, должна быть приблизительно комплементарна поверхности двойной спирали. Тогда выступы белковой поверхности смогут глубоко внедриться в желобок ДНК, и уже там его белковые группы смогут провести тонкое опознание конкретной последовательности и связаться с той, для которой этот белок предназначен. ДНК - связывающие а - спирали в белковом димере анти-параллельны друг другу, а расстояние между ними близко к периоду двойной спирали ДНК, так что димер садится на один бок двойной спирали ДНК. Однако разный угол наклона этих а -спиралей к соединяющей их центры оси приводит к тому, что все эти белки по-разному изгибают ДНК при связывании. ДНК - связывающие белки могут принадлежать к разным структурным классам (есть и а, и а+р белки), и что даже само связывание с ДНК может осуществляться как а-, так и р - структурой. «Общий код» выборочного опознавания белками фрагментов ДНК пока не выяснен. Рассматривая детали каждого расшифрованного ДНК-ового контакта, можно увидеть, какие водородные связи между боковыми группами белка и нуклеотидами, и какие их другие плотные контакты способствовали образованию ДНК-белкового контакта именно в этом месте [Филькенштейн А.В. Введение в физику белка.Курс лекций Л 999-2000].

В работе [Федонин Г.Г.,Рахманинова А.Б., Корестелев Ю.Д.,Лайкова О.Н. Гельфанд М.С. Изучение связывания ДНК факторами транскрипции семейства LacI методами машинного обучения. Молекулярная биология, 2011, том 45, №4] отмечается, что при анализе экспериментально определённых структур белок -ДНК можно выделить ряд закономерностей: предпочтительно образуются пары аланин - тимин (за счёт взаимодействия метальных групп), а также пары водородных связей между аргинином и гуанином, и аспарагином и аденином.

Отмечено, что область контакта белок - ДНК обогащена полярными аминокислотами; пурины избирательны в большей степени в отношении аминокислот, чем пиримидины, а ароматические аминокислоты могут иметь различные предпочтения. В работе отмечается, что во многих случаях предпочтение белком конкретного нуклеотида в конкретной позиции, зависит от того, имеются ли некие специфические остатки в нескольких других позициях белка. Это требует выбора оптимальной сложности модели. В статье приводятся методы, используемые для решения этой задачи. Вероятности редко встречающихся остатков оказываются статистически не значимыми. Чтобы избежать этого эффекта, остатки, встречающиеся в выборке в одной позиции реже некоторого порогового значения, объединяли в одну группу и считали одним типом остатка. При этом р —1/mj, где nij - количество групп остатков в позиции j после группировки. В задаче классификации пар «АП - сайт», с учётом равновероятности классов, формула Байеса принимает вид:

0,5 -P(AAS, NS | с)

P(cAAS, NS) =- , (6.19)

?0,5 -P(AAS, NS|cj)

J

где AAS - аминокислотная последовательность;

NS - последовательность нуклеотидов сайта; с- класс.

Далее предполагается, что пары позиций в аминокислотной последовательности и в сайте условно независимы в совокупности:

P(AAS, NSc) = Ц Р(аь nj | с),

У

где aj- аминокислотный остаток в позиции i; nj - нуклеотид в позиции j.

Условные вероятности пар позиций вычислялись с использовани-ем псевдоотсчетов и группировки редких аминокислотных остатков (а.о.):

Wjj(ai, iij | с) + kVwp

Р(аь nj | с) ---- , (6.20)

W+kVw

где aj - тип аминокислотного остатка ;

П|- тип нуклеотида;

Wij(ai, nj | с) - сумма весов пар класса с, содержащих а.о. aj в

позиции i аминокислотной последовательности и нуклеотид nj - в

позиции] сайта;

  • ? = - суммарный вес всех аминокислотных последовательностей;
  • 1=1

р=1/т; т-число возможных аминокислотных остатков; к - коэффициент, регулирующий вклад псевдоотсчетов.

В [80] предлагаются два матода, позволяющие быстро оценивать предсказательную силу данной позиции в АП для предсказания нуклеотида в заданной позиции в сайте. Первый метод Мь достоинство М1 - быстрота вычисления, что позволяет использовать его для отбора признаков. Этот метод позволяет избавиться от неинформативных признаков, но не учитывает зависимость между ними.

Другой метод отбора - перебор подмножеств признаков с обучением алгоритма на части обучающей выборки и оценкой ошибки на оставшейся части. Выбирается множество, дающее наименьшую ошибку. В работе был использован, так называемый «жадный» алгоритм. Используемый алгоритм выбирал тот признак, добавление которого давал наилучший классификатор. «Жадный» алгоритм может быть усовершенствован несколькими способами, в частности, путём последовательного добавления и удаления признаков, либо путём сохранения нескольких лидеров.

Опыты с использованием байесовского классификатора (обучающегося быстрее всего) показали, что усовершенствованные алгоритмы отбирают те же множества признаков, что и простой «жадный» алгоритм.

 
<<   СОДЕРЖАНИЕ   >>