Регрессионное моделирование на основе агрегированных данных
Регрессионное моделирование представляет собой способ исследования объектов на основе использования информационного подхода для выявления факта существования различных зависимостей между входными и выходными данными. Регрессионный анализ может рассматриваться как метод моделирования измеряемых данных и исследования их свойств. Данные представляются в виде пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Регрессионный анализ предназначен для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинно-следственной связи. Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи. Поэтому важной задачей для исследователя является с помощью различных методов выявить скрытые зависимости и закономерности, содержащиеся в данных и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. В регрессионном анализе имеют место следующие допущения: количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей; обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов; матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.
В условиях «больших» данных предполагается целесообразным имеющиеся наблюдения или «сырые данные» подвергнуть процедуре обработки, в частности агрегации.
С этой целью применим гистограммный подход и, только после этого, на агрегированных данных будем строить регрессионные модели. Такой подход уже на стадии подготовки данных к моделированию позволяет провести предварительный анализ данных с целью их «сжатия», извлечения полезной информации и ориентировать вычислительный процесс на оптимизацию численных процедур, необходимых для построения регрессионных моделей. Ниже сформулируем «классическую» постановку задачи регрессионного моделирования и далее перейдем к постановке задачи для «гистограммной» регрессии.