Полная версия

Главная arrow Информатика

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Кодирование информации

Информация — произвольная последовательность символов, для которой любое слово и каждый новый символ увеличивает количество информации. Для измерения количества информации нужен эталон. Эталоном считается слово, состоящее из одного символа двухсимвольного алфавита (цифры 0 или 1). Количество информации, содержащееся в этом слове, принимают за единицу, названную битом. Имея эталон количества информации, можно сравнить любое слово с эталоном. Проще сравнивать те слова, которые записаны в том же двухсимвольном алфавите.

Для определения количества информации необходимо найти способ представления любой ее формы (символьной, текстовой, графической) в едином виде. Этим видом стала двоичная форма представления информации — записи любой информации в виде последовательности только двух символов.

Благодаря введению понятия «единица информации» появилась возможность определения размера любой информации числом битов. Образно говоря, если, например, объем грунта определяют в кубометрах, то объем информации — в битах. Условимся каждый положительный ответ на заданный вопрос представлять цифрой 1, а отрицательный — цифрой 0. Тогда запись ответов образует многозначную последовательность цифр, состоящую из нулей и единиц, например 0100.

Так, если лекция состоится, вывешиваем табличку с цифрой 1, если не состоится — с цифрой 0. В 1 бите можно закодировать одно событие (свершилось или нет) — совершение одного из двух событий: есть лекция или нет лекции. Для кодировки двух событий потребуется одна ячейка, для кодировки четырех событий нужны две ячейки: 00 — лекции нет; 01 — лекция есть; 10 — лабораторная работа; 11 — контрольная работа.

Когда известно, сколько будет событий, можно выбрать необходимое количество ячеек для их хранения. Для восьми событий нужно три ячейки, так как 23= 8. Для 16 событий потребуется четыре ячейки, так как 24= 16. В 1 байте, т. е. в восьми ячейках, может храниться 256 событий, так как 1 байт = 8 бит.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко, поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений — 00, 01, 10, 11, чем одноразрядная последовательность (0 и 1). Трехразрядная последовательность имеет еще больше значений — 000, 001, 010, 011, 100, 101, 110, 111, чем двухразрядная, и т. д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить таблицу информационной емкости чисел (табл. 1.5).

Таблица 1.5. Информационная емкость чисел

Число разрядов

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Количество различных значений

2

4

8

16

32

64

128

256

512

1024

2048

4096

8192

16 384

32 768

65 536

Например, для того, чтобы закодировать 32 буквы русского алфавита, достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения. Так, буквы русского алфавита представляются восьмиразрядными последовательностями следующим образом:

А- 11000001, И-11001011, Я-11011101.

Перед тем как кодировать любую информацию, нужно договориться о том, какие коды используются, в каком порядке они записываются, хранятся и передаются. Это называется языком представления информации.

Персональная электронная вычислительная машина — это прибор, который управляется с помощью электрических сигналов. Поэтому любые данные должны быть некоторым универсальным образом представлены в виде электрического сигнала. Подобным свойством обладает двоичная форма целых чисел. Символы 0 и 1 легко поставить в соответствие некоторому фиксированному значению напряжения в электрических схемах ПЭВМ (рис. 1.18).

Таким образом, все данные, с которыми работают ПЭВМ, представлены в виде двоичных чисел, а все действия с данными сводятся к комбинации трех логических операций (табл. 1.6).

Число, представленное N битами, называется А-битным или А-разрядным. Количество информации, соответствующее 8 би-

-?

О

ґ

Рис. 1.18. Поток данных в двоичной форме

Таблица 1.6. Операции с двоичными числами

У

ИЛИ (сложение)

И (умножение)

НЕ х (отрицание)

0

0

0

0

1

0

1

1

0

1

і

0

1

0

0

і

1

1

1

0

там, называется байтом. Кроме того, используются группы, называемые словом. Размер слова зависит от характеристик конкретной ПЭВМ, но, как правило, он равен 2 или 4 байтам.

Представление числовой информации. В ЭВМ используются три вида чисел: с фиксированной точкой (запятой), с плавающей точкой (запятой) и двоично-десятичное представление[1].

У чисел с фиксированной точкой в двоичном формате предполагается строго определенное место точки (запятой). Обычно это место определяется или перед первой значащей цифрой числа, или после последней значащей цифры числа. Если точка фиксируется перед первой значащей цифрой, то это означает, что число по модулю меньше единицы. Диапазон изменения значений чисел определяется неравенством:

2“" <|Л2| <1 -2~п.

Если точка фиксируется после последней значащей цифры, то это означает, что «-разрядные двоичные числа являются целыми. Диапазон изменения их значений составляет:

0<Ы[2]| <2~п -1.

Знак двоичного числа фиксируется перед самым старшим из возможных его разрядов. Положительные числа имеют нулевые значения знакового разряда, отрицательные — единичные.

Другая форма представления чисел — представление их в виде чисел с плавающей точкой (запятой). Числа с плавающей точкой представляются в виде мантиссы та и порядка ра, иногда это представление называют полулогарифмической формой числа. Например, число (Д)|0 = 373 можно представить в виде (Д)10 = (0,373 • 100), при этом т = 0,373, р = 3, основание системы счисления подразумевается фиксированным и равным десяти. Для двоичных чисел (А)2 в этом представлении также формируется та и порядок ра при основании системы счисления равный двум:

0<|Д2| <2“" -1, что соответствует записи Р™ах =2Г -1.

Порядок числа ра определяет положение точки (запятой) в двоичном числе. Значение порядка лежит в диапазоне -Р™х < ра < />™ах ? где величина />х определяется числом разрядов к, отведенных для представления порядка Р™я* = 2Г -1. Положительные и отрицательные значения порядка значительно усложняют обработку вещественных чисел. Поэтому во многих современных ЭВМ используют не прямое значение ра, а модифицированное р'а, приведенное к интервалу 0 < р'а <2 ? Р™х.

Значение р'а носит название «характеристика числа». Обычно под порядок (модифицированный порядок, характеристику) выделяют 1 байт. Старший разряд характеристики отводится под знак числа, а семь оставшихся разрядов обеспечивают изменение порядка в диапазоне: -64 < ра <63.

Модифицированный порядок р'а вычисляется по зависимости р'а = ра + 64. Этим самым значения р'а формируются в диапазоне положительных чисел 0 < р'а <127. Мантисса числа та представляется двоичным числом, у которого точка фиксируется перед старшим разрядом, т. е. 0<| та | <1 -2к, где к — число разрядов, отведенных для представления мантиссы.

Если — а <1 -2~к, то старший значащий разряд ман-N

тиссы в системе счисления с основанием N отличен от нуля. Такое число называется нормализованным. Например, (Л)2 = = (0.101101)2 — нормализованное число, а (Л)2= 1011.01 или (А)ю= 11.25 и число (А)2 = (101.0101101) — числа ненормализованные, так как старший разряд мантиссы равен нулю.

Диапазон представления нормализованных чисел с плавающей точкой определяется

2-1 •2"-1) <|Д2| <(1 -2-*)-2(2,"1),

где г и к — соответственно количество разрядов, используемых для представления порядка и мантиссы.

Наиболее употребимая форма представления двоичных чисел — двоично-десятичная. Ее появление объясняется следующим. При обработке больших массивов десятичных чисел приходится тратить существенное время на перевод этих чисел из десятичной системы счисления в двоичную для последующей обработки и обратно — для вывода результатов. Каждый такой перевод требует выполнения двух—четырех десятков машинных команд. С включением в состав ЭВМ функциональных специальных блоков или процессоров десятичной арифметики появляется возможность обрабатывать десятичные числа напрямую, без их преобразования, что сокращает время вычислений. При этом каждая цифра десятичного числа представляется двоичной тетрадой. Например, (Д)10 = 3759 = (0011 0111 0101 1001 )2. Положение десятичной точки (запятой), отделяющей целую часть от дробной, обычно заранее фиксируется.

Представление других видов информации. Различные виды информации могут быть разделены на две группы: статические и динамические. Так, числовая, логическая и символьная информация является статической — ее значение не связано со временем. В отличие от перечисленных типов вся аудиоинформация имеет динамический характер. Она существует только в режиме реального времени, ее нельзя остановить для более подробного изучения. Если изменить масштаб времени (увеличить или уменьшить), аудиоинформация искажается. Это свойство иногда используется для получения звуковых эффектов.

Видеоинформация может быть как статической, так и динамической. Статическая видеоинформация включает текст, рисунки, графики, чертежи, таблицы и др. Рисунки делятся также на плоские (двухмерные) и объемные (трехмерные).

Динамическая видеоинформация — это видео-, мульт- и слайд-фильмы. В их основе лежит последовательное экспонирование на экране в масштабе реального времени отдельных кадров в соответствии со сценарием. Динамическая видеоинформация используется либо для передачи движущихся изображений (анимация), либо для последовательной демонстрации отдельных кадров вывода (слайд-фильмы).

Для демонстрации анимационных и слайд-фильмов применяются различные принципы. Анимационные фильмы демонстрируются так, чтобы зрительный аппарат человека не мог зафиксировать отдельных кадров. В современных высококачественных мониторах и в телевизорах с цифровым управлением электронно-лучевой трубкой кадры сменяются до 70 раз в секунду, что позволяет высококачественно передавать движение объектов. При демонстрации слайд-фильмов каждый кадр экспонируется на экране столько времени, сколько необходимо для восприятия его человеком (обычно от 30 с до 1 мин).

По способу формирования видеоизображения бывают растровые, матричные и векторные.

Растровые изображения используются в телевидении, а в ЭВМ практически не применяются.

Матричные изображения получили в ЭВМ наиболее широкое распространение. Изображение на экране рисуется электронным лучом точками. Информация представляется в виде характеристик значений каждой точки — пикселя, рассматриваемого как структурная наименьшая единица изображения. Количество высвечиваемых одновременно пикселей на экране монитора определяется его разрешающей способностью. В качестве характеристик графической информации выступают: координаты точки (пикселя) на экране, цвет пикселя и цвет фона (градация яркости). Вся эта информация хранится в видеопамяти монитора. При выводе графической информации на печать изображение также воспроизводится по точкам.

Изображение может быть и в векторной форме. Тогда оно составляется из отрезков линий (в простейшем случае — прямых), для которых задаются: начальные координаты, угол наклона и длина отрезка (может указываться и код используемой линии). Векторный способ имеет ряд преимуществ перед матричным: изображение легко масштабируется с сохранением формы, является «прозрачным», может быть наложено на любой фон и т. д.

Способы представления информации в ЭВМ, кодирование и преобразование кодов в значительной степени зависят от принципа действия устройств, в которых эта информация формируется, накапливается, обрабатывается и отображается.

Для кодирования символьной или текстовой информации применяются различные системы: при вводе информации с клавиатуры кодирование происходит при нажатии клавиши, на которой изображен требуемый символ, при этом в клавиатуре вырабатывается так называемый scan-код, представляющий собой двоичное число, равное порядковому номеру клавиши.

Номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише. Опознание символа и присвоение ему внутреннего кода ЭВМ проводятся специальной программой по специальным таблицам: ДКОИ, КОИ-7, ASCII (Американский стандартный код передачи информации).

Набор ASCII был разработан в США Американским национальным институтом стандартов (ANSI), но может быть использован и в других странах, поскольку вторая половина из 256 стандартных символов, т. е. 128 символов, могут быть с помощью специальных программ заменены на другие, в частности на символы национального алфавита, в нашем случае — буквы кириллицы.

Каждому символу ASCII соответствует 8-битовый двоичный код, например:

А - 01000001, В - 01000010, С - 01000011, D - 01000100 и т. д.

Пр и мер 1.2. Сколько бит памяти компьютера занимает слово «МИКРОПРОЦЕССОР»?

Решение. Слово состоит из 14 букв. Каждая буква — символ компьютерного алфавита и поэтому занимает 1 байт памяти.

Слово займет 14 байт =112 бит памяти, так как 1 байт = = 8 бит.

Пр имер 1.3. Что зашифровано последовательностью десятичных кодов: 108 105 ПО 107, если буква / в таблице кодировки символов имеет десятичный код 105?

Решение. При последовательном кодировании алфавита прописные и строчные буквы располагаются в таблице в алфавитном порядке, а цифры упорядочены по возрастанию значений. Вспомним порядок букв в латинском алфавите. Буква j будет иметь код 106, к — код 107 и т. д. Следовательно, закодировано слово link.

Пример 1.4. С помощью последовательности десятичных кодов: 225 232 242 зашифровано слово «бит». Найти последовательность десятичных кодов этого же слова, записанного прописными буквами.

Решение. Учтем, что разница между десятичным кодом строчной буквы кириллицы и десятичным кодом соответствующей прописной буквы равна 32. Если букве «б» соответствует код 225, то прописная буква «Б» имеет десятичный код 225 - 32 = = 193. Следовательно, слову «БИТ» соответствует последовательность кодов: 193 200 210.

Если пользователь создает текстовый файл и записывает его на диск, то каждый введенный человеком символ хранится в памяти компьютера в виде набора из восьми нулей и единиц. При выводе этого текста на экран или на бумагу специальные схемы — знакогенераторы видеоадаптера (устройства, управляющего работой монитора) или принтера образуют в соответствии с этими кодами изображения соответствующих символов.

Высвечивание символа на экране монитора 1ВМ РС осуществляется с помощью точек, образующих символьную матрицу. Каждый пиксель в такой матрице — элемент изображения и может быть ярким или темным. Темная точка кодируется цифрой 0, светлая (яркая) — 1. Если изображать в матричном поле знака темные пиксели точкой, а светлые — звездочкой, то можно графически изобразить форму символа.

Кодирование аудиоинформации — процесс более сложный. Аудиоинформация является аналоговой. Для преобразования ее в цифровую форму используют аппаратурные средства: аналого-цифровые преобразователи (АЦП), в результате работы которых аналоговый сигнал оцифровывается — представляется в виде числовой последовательности. Для вывода оцифрованного звука на аудиоустройства необходимо проводить обратное преобразование, которое осуществляется с помощью цифро-аналоговых преобразователей (ЦАП).

Любая информация (числа, команды, записи и т. п.) представляется в ПЭВМ в виде двоичных кодов фиксированной или переменной длины.

Бит в теории информации — количество информации, необходимой для различения двух равновероятных сообщений. На практике чаще применяется более крупная единица — байт, позволяющая закодировать любой из 256 символов алфавита клавиатуры компьютера (256 = 28).

Для записи чисел также используют 32-разрядный формат (машинное слово), 16-разрядный формат (полуслово) и 64-раз-рядный формат (двойное слово).

Ниже приведены производные единицы, которые входят в употребление в последнее время в связи с увеличением объемов обрабатываемой информации.

  • 1 бит — 0 или 1 8 бит
  • 210 байт = 1024 байт 210 Кбайт = 1024 Кбайт = 220 байт 210 Мбайт = 1024 Мбайт = 230 байт
  • 210 Гбайт = 1024 Гбайт = 240 байт
  • 210 Тбайт = 1024 Тбайт = 250 байт 210 Пбайт = 1024 Пбайт = 260 байт
  • 1 бит (минимальная единица информации)
  • 1 байт (1 байт — один символ)
  • 1 Килобайт (Кб, КЬ, К) (одна страница машинописного текста = 2 Кб)
  • 1 Мегабайт (Мб, МЬ, М) (соответствует примерно 500 страницам текста)
  • 1 Гигабайт (Гб, вЬ, Г) (соответствует примерно двум комплектам энциклопедии)
  • 1 Терабайт (Тб, ТЬ, Т) (соответствует примерно 2000 комплектам энциклопедии)
  • 1 Петабайт
  • 1 Эксабайт

Пример 1.5. Книга содержит 100 страниц, на каждой странице — 35 строк, в каждой строке — 50 символов. Рассчитаем объем информации, содержащейся в книге.

Страница содержит 1750 байт (35 • 50) информации. Объем всей информации в книге (в разных единицах):

  • 1750-100 = 175 000 байт;
  • 175 000/1024= 170,8984 Кбайт;
  • 170,8984/1024 = 0,166893 Мбайт.

Пр и мер 1.6. Осуществить преобразование:

1 984 546 281 байт = 1 Гбайт 984 Мбайта 546 байт 281 байт.

Примечание. В информатике смысл приставок кило-, мега- и других в общепринятом смысле выполняется не точно, а приближенно, поскольку соответствует увеличению не в 1000, а в 1024 раза.

Скорость передачи информации по линиям связи измеряется в бодах: 1 бод = 1 бит/с.

В частности, если говорят, что пропускная способность какого-то устройства составляет 28 Кбод, то это значит, что с его помощью можно передать по линии связи около 28 тыс. нулей и единиц за 1 секунду.

  • [1] Под точкой (запятой) подразумевается граница целой и дробной
  • [2] частей числа.
 
<<   СОДЕРЖАНИЕ   >>