ЛОГИКА РАСПОЗНАВАНИЯ ГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ

Роль признаков в процессе распознавания и их выбор

Для распознавания некоторой структуры нам потребуются признаки. Среди возможных признаков можно выбрать: элементарные молекулярные признаки — нуклеотидные позиции, которые могут иметь четыре состояния в зависимости от нуклеотида, который ее образует. Четыре азотистых основания: А, Г, T(U), Ц представляют собой специфические полиатомные конструкции с особыми биохимическими свойствами. Например, две из букв Ц и Т (U) эквивалентны друг другу по признаку как пиримидины (имеют одно кольцо в их молекулярном строении), а две другие буквы А и Г — эквивалентны между собой с точки зрения его отсутствия (они являются пуринами). По признаку сильных или слабых водородных связей в комплементарных парах азотистых оснований образуется еще один вид пар эквивалентности: Г=Ц (образуют комплементарную пару с тремя водородными связями), А=Т (образуют комплементарную пару с двумя связями).

При делении на эквивалентные пары по конкретному признаку каждой букве может соответствовать символ бинарной оппозиции: например единице — в случае наличия буквы данного признака и нулю — при ее отсутствии. В качестве молекулярных признаков можно рассматривать и комплексы нуклеотидов: нуклеотидные последовательности, аминокислоты, целые гены или белки.

Математико-статистические методы (максимального правдоподобия и Байесовский метод) обладают рядом несомненных преимуществ по сравнению с классическим подходом: они дают возможность использовать гораздо большее число признаков и осуществлять статистическую оценку результатов расчетов.

При наличии недостаточной информации о химической, биологической структуре, строится гипотетическая модель. Гипотеза — это мысленное предположение, логическое развитие системы суждений, дающее объяснение сущности явления, достоверность которого остается приближенной. Гипотеза входит в структуру каждого метода биологического исследования (прежде всего экспериментального). Она является, следовательно, необходимой составной частью биологического познания [169].

Гипотетические модели активизируют работу мысли в познании окружающего мира. В середине XVII в. в науке стали появляться статистические модели. Для их количественного изучения необходимо было разработать новые математические методы на основе теории вероятностей и математической статистики.

Если объекты описываются в терминах двоичных признаков и представляются затем как булевы векторы, то наиболее простым способом построения модели является поиск закономерностей.

Процесс определения закономерности является индуктивным процессом. Если гипотеза подтверждается, то это и есть искомая закономерность, а если нет, то надо строить новую гипотезу и повторять ее проверку. Предположение закономерности (гипотезы) по выбранному списку фактов— это и есть индукция. Число возможных структур объекта бывает велико и следует решить, каким образом представить структуру такого объекта. Очень удобным средством описания структуры является граф.

Составим из оснований два вектора:

в виде вектора строки.

и вектора столбца.

Произветение этих векторов будет матрица дуплетов:

Если каждое основание характеризовать числом, например: А = 0; Г = 1; Т = 2; Ц = 3, то сумму каждого дуплета можно предстамить как djj = dj + dj, и тогда матрицу А можно представить в цифровом виде:

В этой матрице просматривается явная симметрия — ее определитель равен нулю. Следовательно, эта матрица особая. След матрицы равен 12 и совпадает с суммой элементов боковой диагонали.

Очевидно, что операция произведения матрицы А на один из векторов воспроизведет трехмерную матрицу состоящую из всех

64-х триплетов. Фактически это будет трёхмерный куб. Ребра этого куба будут состоять из 4-х триплетов, а грани — из 16-ти триплетов. Структура такого триплетного генетического кода представлена на рис. 7.3.

На основе полного списка симметрий и числовых закономерностей отдельных элементов кубической версии генетического кода можно сделать выводы:

  • • алгебраический подход дает возможность по-новому взглянуть на проблему генетического кода;
  • • симметрии, наблюдаемые в коде, проявляют себя в процессе выбора кодонов для определения различных аминокислот.

Нуклеотиды способны однозначно детерминировать аминокислоту. Введение понятия степени детерминации нуклеотидов позволяет представить генетические тексты, как последовательность чисел от 1 до 4.

В [170] предлагается четырехзначная логика, представленная базисными функциями: 0 — нет; j — не может быть никогда, i — может быть, 1 — да.

В.И. Лобанов обращает внимание на комплементарность (взаимодополняемость) значений переменных: 0 + l = l,i + j=l,0 & 1 =0, i & j = 0. В связи с этим, отмечает он, вполне естественно назвать такую логику комплементарной. Для приведенных базисных функций комплементарной логики, как и для трех значной, справедлив закон Де Моргана (связывающий отрицание с операциями конъюнкции и дизъюнкции).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >