Состав и структура информационного обеспечения АИС
Информационное обеспечение (ИО) составляют:
- • типы, форматы, структуры информации (данных, записей, документов);
- • файлы операционной системы (именованные совокупности данных, находящиеся под управлением ОС в процессе реализации ею функции управления данными (см. выше));
- • базы данных (БД). БД — именованная взаимосвязанная совокупность физических файлов операционной системы (ОС) ЭВМ, поддерживающая информационную модель предметной области.
Типы, структуры, форматы данных и документов в информационных системах.
Дадим вкратце определения данных компонент ИО:
- • типы данных — совокупность соглашений о программно-аппаратурной форме представления и обработки, а также ввода, контроля и вывода элементарных данных;
- • структуры данных — способы композиции простых данных в агрегаты и операции над ними;
- • форматы файлов — представление информации на уровне взаимодействия операционной системы с прикладными программами;
- • форматы данных — соглашения о представлении агрегатов информации при их передаче (поэтому часто говорят о коммуникативных или обменных форматах), в том числе:
- — библиотечных и справочных БД;
- — полнотекстовых документов.
Типы данных (табл. 1.12). Ранние языки программирования (ЯП), а точнее, системы программирования (СП) — Фортран, Алгол, будучи ориентированы исключительно на вычисления, не содержали развитых систем типов и структур данных.
Таблица 1.12. Типы и структуры данных в некоторых системах программирования и управления данными
Характеристика информации |
Система — язык программирования, СУБД, ИПС |
||||||
Algol |
Cobol |
PL/1 |
FoxBase/ Clipper |
Adabas/ Natural |
Oracle/ SQL |
STAIRS, IRBIS, ISIS |
|
Целое короткое (2 байта) |
— |
— |
— |
— |
— |
Smallint |
— |
Целое нормальное (4 байта) |
Integer |
Computa- tonal |
Int |
N(x) |
N(x) |
Int |
— |
Целое длинное (8 байт) |
— |
— |
Double |
— |
— |
— |
— |
Действительное нормальное (4 байта) |
Real |
Computational |
Float |
N(x.y) |
N(x.y) |
Float Real |
— |
Действительное двойное (8 байт) |
— |
— |
— |
— |
— |
Float Double |
— |
Двоичное |
— |
— |
Binary |
— |
В (x) |
— |
— |
Десятичное упакованное (2 цифры на байт) |
PIC(9) |
Decimal |
P(x) |
||||
Десятичное распакованное (1 цифра на байт) |
PIC(X) |
N (x) |
U(x) |
||||
Логическое |
Boolean |
— |
+ |
Logical |
— |
— |
— |
Символьное |
— |
PIC(A) |
Char |
C (x) |
A (x) |
Char |
+ |
Длинный текстовый или бинарный объект (BLOB) |
Memo |
VarGrafic VarChar |
|||||
Дата |
— |
— |
— |
Date |
— |
Date |
— |
Время |
— |
— |
— |
— |
— |
Time |
— |
Массивы |
Array |
— |
Dim |
Dimention |
VAR(n) |
— |
— |
Записи (структуры) |
— |
+ |
+ |
+ |
+ |
+ |
— |
Множественные (векторные) поля записи |
MU |
+ |
|||||
Групповые поля записи |
— |
+ |
+ |
— |
GR |
— |
+ |
Окончание табл. 1.12
Характеристика информации |
Система — язык программирования, СУБД, ИПС |
||||||
Algol |
Cobol |
PL/1 |
FoxBase/ Clipper |
Adabas/ Natural |
Oracle/ SQL |
STAIRS, IRBIS, ISIS |
|
Повторяющиеся группы в записи |
— |
— |
— |
— |
PE |
— |
— |
Текстовые поля (параграфы, предложения, слова) |
+ |
В Алголе символьные величины и переменные вообще не предусматривались, в некоторых реализациях строки (символы в апострофах) могли встречаться только в операторах печати данных.
Типы числовых данных Алгола — integer (целое число), real (действительное) — различаются диапазонами изменения, внутренними представлениями и применяемыми командами процессора ЭВМ (соответственно арифметика с фиксированной и плавающей точкой). Нечисловые данные представлены типом boolean — логические, имеющие диапазон значений {true, false}.
Позже появившиеся ЯП (СП) COBOL, PL/1, Pascal предусматривают новые типы данных:
- • символьные (цифры, буквы, знаки препинания и пр.);
- • числовые символьные для вывода;
- • числовые двоичные для вычислений;
- • числовые десятичные (цифры 0—9) для вывода и вычислений.
Разновидности числовых данных здесь соответствуют внутреннему представлению и машинным (или эмулируемым) командам обработки. Кроме того, вводятся числа двойного формата (два машинных слова), для обработки которых также необходимо наличие в процессоре (или эмуляция) команд обработки чисел двойной длины (точности).
Понятие типа данных ассоциируется также с допустимыми значениями переменной и операциями над ними, например, данные типа время (чч:ММ:СС) или дата (гг/мм/дд) предполагают определенные диапазоны значений каждого из разрядов, а также машинные или эмулируемые операции (сложение/вычи- тание дат и/или моментов времени).
Структуры данных. В языке Алгол были определены два типа структур: элементарные данные и массивы (векторы, матрицы, тензоры, состоящие из арифметических или логических переменных — рис. 1.13, а, б, в). Основным нововведением, появившимся первоначально в Коболе (затем ПЛ/1, Паскаль и пр.), являются агрегаты данных (структуры, записи), пред-

Рис. 1.13. Структуры данных:
а, б — одномерный массив (вектор); в — двумерный массив (матрица); г — запись (структура, агрегат данных); д — массив в записи (множественное поле
записи) ставляющие собой именованные комплексы переменных разного типа, описывающих некоторый объект или образующих некоторый достаточно сложный документ (рис. 1.13, г).
Термин запись подразумевает наличие множества аналогичных по структуре агрегатов, образующих файл (картотеку), содержащих данные по совокупности однородных объектов, элементы данных образуют поля, среди которых выделяются элементарные и групповые (агрегатные). В языках ПЛ/1, Паскаль появляются массивы агрегатов/записей (рис. 1.13, д).
С появлением СУБД и ЛИПС возникают новые разновидности структур (см. табл. 1.12):
- • множественные поля данных;
- • периодические групповые поля;
- • текстовые объекты (документы), имеющие иерархическую структуру (документ — сегмент — предложение — слово, см. рис. 1.15).
Проблема обмена информацией и коммуникативные (обменные) форматы. Данные форматы связаны с проблемой передачи информации между системами с различной организацией и структурой данных. Даже в простейшей ситуации — считывание записей из внешнего файла при загрузке информации в БД, возникают две проблемы:
- • идентификация данных (определение начала/окончания каждой записи и/или элемента данных);
- • локализация описания данных (в программе и/или файле).
Коммуникативные форматы разделяются на следующие категории:
- • форматы обмена библиографической информацией (МЕКОФ, карточный формат и пр.);
- • форматы обмена библиотечно-справочной информацией (семейство MARC);
- • форматы обмена полнотекстовой документальной информацией (языки процедурной и описательной разметки документов, средства моделирования документов) — RTF, О DA, SGML, HTML.
Форматы первой группы удовлетворяют так называемым спецификациям ISO 2709 — рекомендациям Международной организации по стандартизации — и различаются наполнением и применением. МЕКОФ предназначен для распространения библиографических БД, a MARC — для онлайновых библиотечных каталогов (ОРАС) [12].
Карточный формат (рис. 1.14) представляет каждый документ (запись) БД как совокупность строк с одинаковым номером (RN), в каждой из которых указана метка (три цифры), идентифицирующая поле или группу полей.

Рис. 1.14. Пример документа БД INIS (International Nuclear Information System), представленного в карточном формате:
RN — номер реферата; VID — вид документа; TITLE — заглавие; AUTH — автор; CORP — корпоративный автор; YEAR — дата публикации; ABSTR — реферат; DESCR — дескрипторы тезауруса INIS; CLASS — рубрика INIS; CTRY — страна
публикации