СТАТИСТИЧЕСКИЙ АНАЛИЗ ГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ

После расшифровки генетического кода начался новый этап его изучения, связанный с исследованием системных свойств генетического кода: симметрии, регулярности, универсальности и др., базирующихся на статистическом анализе.

Все белковые последовательности представляют собой наборы из аминокислот, число которых равно 20.

Каждая из таких аминокислот кодируется триплетами: одним - триптофан, метионин;

двумя - лизин, глутамин, гистидин, фенилаланин, цистин, тирозин, аспарагин, глутаминовая кислота, аспарагиновая кислота; тремя - изолейцин;

четырьмя - глицин, треонин, валин, аланин, пролин; шестью - серин, лейцин, аргинин.

Три триплета - кодоны терминации: ТАА, ТАГ, ТГА.

Часть аминокислот кодируется, как мы уже отмечали, четырьмя триплетами, т.е. третье основание полностью вырождено, часть — двумя триплетами, имеющими в третьем положении Ц, Т для одной аминокислоты и Г, А — для другой. Отсюда можно сделать вывод, что наиболее существенны первые два основания в триплете (дуплет), а третье — не очень сильно влияет на характер аминокислоты и несет меньше информации. Исходя из этого, опустим третье основание и построим табл. 6.1. Из таблицы 6.1. видно, что на одной из диагоналей от левого верхнего угла к правому нижнему расположены попарно дуплеты АА-ГГ и следом комплементарные им ТТ-ЦЦ. Относительно этой диагонали слева и справа расположены дуплеты: ГА и АГ, ТА и АТ, ЦА и АЦ, ТГ и ГТ, ЦГ и ГЦ, ЦТ и ТЦ образованные заменой первой буквы на вторую в дуплетах.

Таким образом, при анализе генетического кода прослеживаются определенные закономерности и можно отметить следующие особенности:

  • • триплеты, имеющие во втором положении пуриновые основания А и Г кодируют полярные аминокислоты (Лиз, Аси, Apr, Глу, Асп, Гли, Тир, Три, Цис, Глун, Тис, Сер);
  • • триплеты, имеющие во втором положении пиримидиновые

основания Т и Ц кодируют главным образом неполярные аминокислоты (Фел, Лей, Иле, Вал, Ала, Про, Мет) и слабополярные аминокислоты (Сер, Тре).

Таблица 6.1

АА(Лиз, Асн)

АГ (Apr, Сер)

АТ (Иле, Мет)

АЦ(Тре)

ГА (Глу, Асп)

ГГ (Гли)

ГТ (Вал)

ГЦ (Ала)

ТА (Стоп, Тир)

ТГ(Стоп, Три, Цис)

ТТ (Лей, Фел)

ТЦ(Сер)

ЦА (Глун, Гис)

ЦГ(Арг)

ЦТ (Лей)

ЦЦ (Про)

Вместе с тем из анализа следует, что аминокислота серин (Сер) входит, как в область полярных, так и в область слабополярных амии- нокислот. Это связано с тем, что у серина боковая цепь находится на нижнем пределе, ограничивающем размер аминокислоты как оператора связности [119]. Некоторые авторы относят глицин (Гли) к числу неполярных аминокислот, а треонин (Тре) к числу полярных [131] Триптофан к числу неполярных аминокислот относят Березов Т.Т. и Коровкин Б.Ф.[132]. Отдельные авторы цистин относят неоднозначно, одни к числу полярных, другие к числу неполярных [117, 31].

В табл. 6.1. можно выделить две группы. Так, в первой группе (в тёмных ячейках) оказалось восемь дуплетов, кодирующих по одной аминокислоте. Во вторую группу, состоящую также из восьми дуплетов (светлые ячейки), вошли дуплеты, кодирующие по две аминокислоты.

Причем, если в первой группе происходит замена оснований по принципу Г-Т и Ц-А, то она полностью превращается во вторую группу. Такое преобразование получило название «правило Румера» [133]. Эти две группы образовали поворотносимметричные области, разделенные ломаной линией преобразующихся друг в друга по правилу Румера. Например, дуплет ЦЦ, находящийся справа внизу, преобразуется в дуплет АА, находящийся слева вверху.

Если разделить матрицу 6.1. на 4 квадрата по 4 ячейки (посредине по горизонтали и вертикали), то в правых квадратах отношение ячеек двойных аминокислот к одинарным в каждом квадрате составляет 1:3, а в левых квадратах отношение 3:1. Отношение двойных и одинарных ячеек верхней и нижней половины матрицы кода равно 1:1. Отношения 1:3 или 3:1 являются информационными аналогами полного доминирования по законам Менделя, а отношения 1:1 - информационным аналогом по закону Харди-Вайнберга. Английский математик Харди и немецкий врач Вайнберг независимо друг от друга показали, что при свободном скрещивании, отсутствии миграции особей и отсутствии мутаций относительная частота индивидуумов в каждом из аллелей будет оставаться в популяции постоянной из поколения в поколение, т.е. в популяции не будет дрейфа генов.

Ю.Б. Румер обосновал «алфавит» генетического кода - каноническую последовательность нуклеотидов и высказал общую гипотезу о соответствии между свойствами системы кодонов и способами разбиения 16-ти «корней» нуклеотидных триплетов на октеты.

Генетический код можно представить в виде следующей табл. 6.2.

В столбце 1 - краткое обозначение аминокислот, в столбце 2 - их буквенное обозначение, в столбце 3 указаны триплеты соответсвую- щие аминокислотам, в столбце 4 указано количество триплетов, соответствующее указанным аминокислотам.

_Таблица 6.2._

1

2

3

4

1

Три (Тгр)

W

AT Г

1

2

Мет (Met)

M

ТГГ

1

3

Лиз (Lys)

К

AAX

2

X: A,Г

4

Глун (Gin)

Q

ЦАХ

2

5

Глу (Glu)

E

TAX

2

6

Фел (Phe)

F

TTY

2

Y:T,U

7

Тир (Туг)

У

TAY

2

8

Тис (His)

H

UAY

2

9

Асн (Asn)

N

AAY

2

10

Асп (Asp)

D

TAY

2

11

Цис (Cys)

C

TTY

2

12

Иле (Не)

I

ATM

3

M: A, T, Ц

13

Вал (Val)

V

TTN

4

N: T, Ц, A, Г

14

Про (Pro)

P

nm

4

15

Тре (Thr)

T

AUN

4

16

Ала (Ala)

A

TUN

4

17

Тли (Gly)

G

TTN

4

18

Сер (Ser)

S

ТЦЫ , ATY

6

19

Лей (Leu)

L

UTN, TTX

6

20

Apr (Arg)

R

UTN, ATX

6

ter *

TAX, ТГА

3

Нам известно, что фрагменты ДНК хранят информацию о последовательности аминокислот в белках. Эта последовательность обеспечивает формирование системы внутримолекулярных связей. На одном конце белковой цепи молекулы находится группа NH2 (аминогруппа), на другом — карбоксильная группа СООН. Это означает, что последовательность аминокислотных остатков в белках направленная, т.е. молекулы какой-либо пары аминокислот можно соединить друг сдругом двумя способами. В первом из этих соединений остаток одной аминокислоты участвует в образовании пептидной связи своей аминокислоты, во втором - с карбоксильной группой.

Проводя анализ принадлежности аминокислот к той или иной группе связей, замечаем, что, например, лизин и аргинин — это аминокислоты с выраженными свойствами основания. Лизин имеет в своей структуре четыре СГЬ-группы. В конце его структуры находится С-ЫГГ-группа. Лизин, как правило, образует пару с аргинином. Лизин и аргинин относятся к полярной группе аминокислот и способны образовывать водородные связи. У лизина и аргинина самые длинные цепи. Статистика показывает, что лизин и аргинин чаще встречаются именно в альфа-спиральных фрагментах.

Глутаминовая и аспарагиновая кислоты относятся к полярным. Боковые цепи этих аминокислот в белках могут образовывать водородные связи, как с основной цепью, так и с другими боковыми цепями аминокислот.

Пролин, ни при каких условиях не может образовывать водородные связи, более того эта аминокислота прерывает спиральные альфа- структуры.

Аланин может вклиниваться в область возможной водородной связи и влиять на вероятность образования водородной связи.

Лейцин и похожая по физическим свойствам аминокислота валин чаще встречаются в бета-структурах.

Изолейцин также часто встречается в бета-структурах.

Фенилаланин образует операторы антисвязности.

Метионин хотя и относится к неполярным аминокислотам, однако атом серы, входящий в ее состав, может образовывать водородные связи.

Две аминокислоты серин и близкий аналог треонин относятся к слабополярным аминокислотам. Их боковые цепи образуют водородные связи (поэтому серин включен и в группу полярных аминокислот) с растворителем (водой) с основной цепью и боковыми цепями белка. У серина и треонина боковые цепи с полярными группами самые короткие, поэтому образование водородной связи у этих аминокислот на пределе. Эти две аминокислоты чаще встречаются в бета-структурных участках.

Глутаминовая и аспарагиновая кислоты - кислые;

Фенилаланин, тиразин, триптофан, гистидин - обладатели ароматических боковых радикалов.

Итак, определены две группа аминокислот: полярные — способные образовывать водородные связи; неполярные и слабополярные, не способные, как правило, образовывать водородные связи.

Рассмотрим более подробно, что такое полярные связи и полярные молекулы. Для этого обратимся к определению электроотрицательно- сти[13]. Электроотрицательность атома - условная величина, характеризующая способность атома в молекуле приобретать отрицательный заряд (притягивать электроны). Зная электроотрицательность, можно определить полярность ковалентной связи, вычислить эффективные заряды атомов и др. Например, в молекулах НС1 или СО один из двух атомов гораздо сильнее «тянет на себя» электрон, чем другой, т.е. этот атом более электроотрицательный, чем второй. В молекуле хлороводорода таким атомом является хлор, в молекуле угарного газа - кислород. В итоге электроны, образующие химическую связь, смещаются к одному из ядер, создавая на нем избыточный отрицательный заряд, а на другом - положительный. Такая химическая связь (а вместе с ней - и вся молекула) называется полярной, несущей ненулевой электрический дипольный момент. В макромолекуле белка также есть полярные и неполярные связи и образуемые ими полярные и неполярные группы. Например, связь двух атомов углерода — С — С — , это неполярная связь. Связь водорода с углеродом, — С — Н —, тоже, практически, неполярная, поскольку эти атомы обладают близкими значениями электроотрицательности. А вот связи этих атомов с кислородом или азотом, — С — О —, — С= О, — О — Н , — N— Н, —С — N, — С = N—, относятся к полярным.

Немецкий философ XIX века Артур Шопенгауэр писал: «Полярность, или разделение силы на две равные и противоположные половины - это основополагающий тип всех явлений природы, начиная от кристалла и магнита, и заканчивая самим человеком».

Белки выполняют все жизненно важные функции в организме. Белки - ферменты, способные ускорять разнообразные химические реакции. Сейчас уже известно, что для ускорения химических реакций белки - ферменты «используют» разные способы (более подробно [134]). Они, начиная с размещения в организме тех или иных органов, управляют всеми жизненными процессами. Например, руки, ноги, глаза и легкие у человека симметричны, а сердце и печень нет. Размещением организма вправо-влево распоряжаются особые гены. Они вырабатывают белки. В каком направлении будут двигаться эти белки, таким и будет положение того или иного органа. Если команды, поступающие от ДНК, предполагают, что селезенка должна формироваться слева, то по сигналу о том, что начинается формирование селезенки, деятельность «правых» факторов роста блокируется [87]. Белки переносят кислород и запасают его, обеспечивая дыхание. Они служат основой движения внутри организма и движение организма как целого. Они защищают организм от болезней. Короче говоря, белки умеют все, что необходимо организму. Но вот синтезировать сами себя они не могут. Для синтеза белков нужны другие биополимеры, именуемые нуклеиновыми кислотами. Объединение аминокислот в белковую цепь происходит за счет групп NH2 и СООН с отщеплением воды. Однотипны лишь сочленения аминокислотных звеньев, это всегда пептидная группа CO-NH.

Разнообразие химических элементов в аминокислотах невелико: углерод, водород, азот, кислород и в двух аминокислотах — сера.

Но разнообразие строения и свойств аминокислот, фигурирующих в белках, значительно. Это разнообразие очень важно для структуры и свойств белка. Указанные в табл. 5.1. кодоны: № 10 — АТГ, соответствующий аминокислоте метионин (Мет) и № 26 — ГТГ, соответствующий аминокислоте валин (Вал) — это особые триплеты. Они кодируют указанные аминокислоты в середине белковой цепи, но, вообще говоря, служат для инициирования, для начала построения цепи [135]. Более того, оказалось, что первый метионин в белке в некоторых случаях включается не на метиониновом кодоне АТГ, а на кодоне ГТГ (валин). У эукариот инициация происходит чаще всего с первого АТГ, однако только в том случае, если этот АТГ находится в оптимальном контексте: за два нуклеотида до него обязательно должен находиться пурин (А или Г), а непосредственно за ним должен следовать Г. Если первый АТГ в эукариотической иРНК находится не в оптимальном контексте, он пропускается и инициация начинается со следующего АТГ. Такая инициация получила название «кэп - зависимая инициация» по сканирующему механизму [136].

Как мы уже отмечали, из анализа генетического кода следует, что хотя код и триплетный, главную смысловую нагрузку несет дуплет, стоящий в начале кодона. Иными словами, код квазидуплентный. Но дуплетов может быть не 20, а всего лишь 16. Поэтому третий нуклеотид в кодоне должен нести некоторую смысловую нагрузку. Существует, однако, правило, которому код подчиняется почти строго. Правило вырожденное™ кода формулируется так: если два кодона имеют два одинаковых первых нуклеотида и их третьи нуклеотиды принадлежат к одному классу (пуриновому или пиримидиновому), то они кодируют одну и ту же аминокислоту. Можно убедиться, что это правило выполняется. Но все же существуют два исключения. Если бы правило выполнялось строго, то кодон АТА должен был бы отвечать метионину, а не изолейцину, а кодон ТГА — триптофану, а не был бы сигналом окончания синтеза. Из-за вырожденное™ генетического кода большинство из 20 аминокислот кодируются более, чем одним кодоном. Итак, некоторым аминокислотам соответствуют не один кодон, а несколько. Такие кодоны называются синонимическими. Чаще всего они различаются только по третьим позициям.

Например, для валина все 4 кодона исползуются примерно одинаково, хотя ГТТ и используется в 2 раза чаще, чем ГТЦ. Для аргинина у большинства организмов преимущественно используются кодоны ЦГТ и ЦГЦ, а кодоны ЦГА, ЦГГ, АГА и АГГ остаются почти незад ейственными. Для кодирования аспарагина гораздо чаще прибегают к кодону ААЦ, чем к ААТ. Из шести кодонов отвечающих аргинину, у человека чаще всего используется АГА и АГГ. E.coli же использует кодон АГА очень редко и при его трансляции часто делает ошибки. Причина такого поведения заключается в том, что клетки выбирают один синонимический кодон из всех возможных потому, что при этом повышается скорость синтеза соответствующего белка или его точность. Обнаружилось также, что тРНК, соответствующие синонимическим кодонам, обычно присутствуют в клетках в неодинаковом количестве. В дальнейшем статистика показала, что родственные организмы имеют сходный тип предпочтений кодонов. Явление, когда частота использования одного кодона из серии синонимических больше, чем для другого, называется предпочтением кодо- нов. Предпочтение кодонов связано с количеством соответствующих кодону тРНК и со степенью экспресии данного гена. Высоко экспрес- сионные гены показывают гораздо более резкое предпочтение кодо- нов по сравнению с низко экспрессивными генами. Таким образом, синонимические кодоны попадают под действие отбора, использование наиболее частых кодонов повышает точность и скорость транскрипции. Ген, который содержит больше кодонов, отличающихся относительно избыточной тРНК, должен транслироваться быстрее других, чтобы обеспечивать эту избыточность. Известны и другие случаи: одна из разновидностей тРНК соответствующая нескольким синонимическим кодонам, может охотнее связываться с одним из них — тем, который обеспечивает максимальную точность трансляции. Следовательно, у клетки есть достаточно оснований для того, чтобы использовать синонимические кодоны с разной частотой. Многие тРНК способны опознавать не только «свой» кодон, но и некоторые другие. Это явление называется воблингом (wobbling). Как правило, тРНК распознает синонимические кодоны с разной эффективность. Мутации в ДНК, заменяющие кодоны на синонимические, не приводят к изменению аминокислотной последовательности соответствующего белка. Такие мутации называются молчащими [137].

Замещение третьего азотистого основания в триплете, почти никогда не будет иметь каких - либо последствий. Подобные мутации называются еще молчащими заменами.

При формировании третичной структуры белка важную роль играет полярность аминокислотных остатков. Неполярные аминокислоты формируют ядро белковой глобулы, избегающее контактов с молекулами воды. Полярные остатки формируют оболочку, контактирующую с молекулами воды, окружающими глобулу. Поместив аминокислотные остатки первичной структуры белка в узлах трехмерной решетки с длиной ребра, равной длине пептидной связи, можно оценить количество контактов между неполярными остатками (НН-кон- такты). Задача сводится к нахождению такой конфигурации ш, которая бы максимизировала количество НН-контактов. Энергия конфигурации 05 записывается в виде:

где Пнн (05) — количество НН-контактов в конфигурации 05,

?2 — множество всех возможных конфигураций белка с заданной первичной структурой.

Для минимизации энергии используется, как правило, весь арсенал современных методов оптимизации.

Гидрофобный эффект обычно моделируется как некая функция, пропорциональная площади поверхности контакта белка с растворителем. Тем не менее, существует ряд эффектов, замеченных в реальных белках, для которых такая модель не работает. Например, в случае, когда различные слои белка разделены лишь мономолекулярным слоем растворителя, атомы белка по обе части растворителя взаимодействуют между собой.

Существующие модели учета подобных эффектов неточны, ресурсоемки и более того требуют дополнительной аппроксимации и оптимизации алгоритма. Предполагается что, основываясь только на внутреннем молекулярном взаимодействии между атомами белка, невозможно построить процедуру распознавания его структуры. Для более точного предсказания структуры необходимо учитывать взаимодействие белка с растворителем. При этом гидрофобный эффект, вследствие которого отдельные аминокислоты белка стремятся занять положение ближе к его ядру, играют второстепенную роль [10].

Фишером была проведена грубая оценка влияния гидрофобных взаимодействий на форму глобулы [138]. Он разделил все аминокислотные остатки на две группы - полярные, или гидрофильные (Apr, Асп, Гис, Глу, Лиз, Сер, Тир, Тре) и неполярные, или гидрофобные (остальные 12). Он полагал, что все аминокислотные остатки имеют примерно одинаковые объемы. Гидрофобные взаимодействия заставляют расположиться внутри глобулы гидрофобные остатки. Гидрофильные остатки располагаются на её поверхности. Приближенную формулу глобулы можно найти путем элементарного расчета. Фишер считает, что внешний слой глобулы, состоящий из гидрофильных остатков, мономолекулярен и имеет постоянную толщину d. Если глобула сферична, то объем этого слоя равен:

Внутренний объем глобулы, т.е. объем гидрофобных остатков:

Отношение числа гидрофильных остатков к числу гидрофобных :

Ь = УД.

Для сферической глобулы

Получаем

где Vt = Ve + Vj - полный объем глобулы. Вместе с тем Ve~Ad,

где А - поверхность гидрофобного ядра глобулы. Фишер считает

d~ 4А. Следовательно

(здесь А измеряется в А, V - в А3).

Чем меньше Vt, чем меньше молекулярный вес (м.в.) белка, тем больше должна быть его относительная гидрофильность (полярность).

Для сферы с радиусом г—>d bs—юо. Глобула может быть сферической лишь при b = bs. Обычно b>bs и глобула принимает форму элипсоида уже не отвечающего условию минимума поверхности при данном объеме.

При b > bs число гидрофильных остатков больше минимального, необходимого для защиты гидрофобного ядра от водного окружения. Если b»bs, то возникает не глобулярная, а фибриллярная структура. Напротив, при bs гидрофильные остатки не закрывают гидрофобные. На поверхности глобулы располагаются теперь и гидрофобные остатки, не защищенные от растворителя. Гидрофобные взаимодействия этих остатков могут привести к слипанию глобул.

Очевидно, что неполярные гидрофобные остатки могут фигурировать и на поверхности глобулы, если в цепи они соседствуют с гидрофильными остатками. С другой стороны, можно думать, что ядро глобулы должно быть преимущественно гидрофобным, так как это стабилизирует структуру.

Различают аминокислоты, обладающие большой, средней и малой гидрофобностью. Сильной гидрофобностью обладают аминокислоты: фенилаланин, лейцин, изолейцин, метионин, валин, цистин. Средней гидрофобностью обладают аминокислоты: серин, пролин, треонин, аланин, тирозин, глицин, триптофан. Малой гидрофобностью обладают: гистидин, глутамин, аспарагин, лизин, аспарагиновая кислота, глутаминовая кислота, аргинин.

Разделение аминокислотных остатков на гидрофобные и гидрофильные до некоторой степени условно. В сущности, следует говорить о степени гидрофобности остатка и ввести ее количественную меру. Учет степени гидрофобности аминокислотных остатков дает информацию о степени стабильности глобулярной макромолекулы белка гидрофобными взаимодействиями. Однако такого рода оценки недостаточно. Необходимо рассматривать реальную структуру глобулы и учитывать весь баланс происходящих в ней взаимодействий. Упрощенная теория Фишера не обеспечивает этого. Брандте развил и уточнил идею Фишера [139].

Он рассматривал три типа остатков: гидрофобные, находящиеся преимущественно внутри глобулы (Вал, Лей, Фен и т.д.), гидрофильные, преимущественно располагающиеся на поверхности (в частности, все заряженные остатки), и нейтральные (Гли, Сер, Цис, и, вероятно, Асн, Глун, Тир и Тре), локализующиеся внутри и снаружи глобулы. К полярным заряженным относятся: Apr, Гис, Лиз - как положительно заряженные и Глу и Асп - как отрицательно заряженные аминокислоты.

Изучение структур генов у человека и ряда организмов показало наличие в них модификаций и различного рода перестановок генетического материала. Перестановки и изменения генов проводятся в некодирующих участках генома. Белок - кодирующие гены, наоборот, весьма стабильны и имеют древнее происхождение. В ходе эволюции они меняются медленнее, чем окружающие их некодирующие участки генома. Такие перестройки не должны нарушать процесс репликации (размножения) ДНК. Поскольку этот процесс протекает в водной среде, то изменения в геноме не должны радикально нарушать статистические характеристики всех четырёх нуклеотидов (их частот) и соответствовать концентрации нуклеотидов водного раствора.

Каждый нуклеотид состоит из трёх частей - моносахарида, остатка фосфорной кислоты и азотистого основания. Все азотистые основания: A, T(U), Г, Ц имеют плоскую конфигурацию. В основаниях: Ц, Г, T(U) есть атом кислорода, но его нет у аденина (А). У оснований A, T(U), Г имеется по 5 атомов углерода в их молекулярных конструкциях, а в Ц (цитозине) - только 4 атома углерода. Тимин отличается от урацила наличием метальной группы (-СНз), которая отсутствует у урацила. Тимин (Т) это единственное из всех оснований, которое меняется на урацил (U) при переходе от ДНК к РНК. Эта взаимозаменяемость букв Т и U в текстах ДНК и РНК сопряжена с особенностью генетического кода, так как она касается всех живых организмов. Остальные три основания в цепях ДНК и РНК одинаковы, причем, А, Г и Ц имеют по одной аминогруппе NH2, а тимин (Т) и урацил(и) не имеют её вовсе. Аминогруппа являются базовой составляющей для обеспечения функции узнавания аминокислоты ферментами. С N -конца нуклеотидной цепи всегда начинается синтез белков.

Более половины размера генома занимают различные виды повторяющихся последовательностей, их роль пока не ясна. В оставшейся половине 1,1% генома составляют экзоны, 24% - нитроны, 75% - межгенная ДНК. Большинство нитронов высших организмов начинается с последовательности нуклеотидов аденин-гуанин (АГ) и заканчиваются последовательностью гуанин-тимин (ГТ). Первый экзон гена всегда начинается с цепочки ATT.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >