close

Вход

Забыли?

вход по аккаунту

?

bd000102530

код для вставкиСкачать
На правах рукописи
iP.f^T
Бистерфельд Ольга Александровна
МЕТОДЫ ПРЕДСТАВЛЕНИЯ КАТЕГОРИРОВАННЫХ
ОТНОШЕНИЙ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ
ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ
СИСТЕМ
05.13.11 - Математическое и программное обеспечение вычислитель­
ных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Рязань 2005
Работа выполнена на кафедре САПР В С
государственная радиотехническая академия»
Научный руководитель:
ГОУВПО
«Рязанская
доктор технических наук, профессор
Корячке Вячеслав Петрович
Официальные оппоненты: доктор технических наук, профессор
Попов Юрий Алексеевич
кандидат технических наук, доцент
Логинов Александр Анатальевич
Ведушая организация:
4-й Центральный научноисследовательский институт
Министерства обороиы Российской
Федерации (г. Юбилейный
Московской области)
Защита состоится « 30 » ноября
в 12 часов на заседании
диссертационного совета
Д212.211.01 в ГОУВПО «Рязанская
государственная радиотехническая академия» по адресу: 390005, г. Рязань,
ул. Гагарина, 59/1.
С диссертацией можно ознакомтъся в библиотеке ГОУВПО «РГРТА».
Автореферат разослан « 21 » октября 2005 г.
Ученый секретарь
диссертационного совета
канд. техн. наук, доцент
^^^?^Si
В.Н.Пржегорлинский
Ш^
М5&3
21\77П
Общая характеристика работы
Актуальность работы. Информационно-телекоммуникационные
технологии (ИКТ) интенсивно внедряются во все сферы человеческой дея­
тельности. Вопросам ИКТ на государственном уровне в Российской Феде­
рации придается особое значение, принята Федеральная целевая программа
«Электронная Россия».
Тенденции развития ИКТ, диктуемые потребностями общества в
информационном обеспечении всех сторон человеческой деятельности, вле­
кут за собой рост сложности профамм и баз данных (БД). Объемы БД - от
сотен мегабайт до десятков гигабайт и выше. Трудоемкость создания профаммных комплексов и БД измеряется сотнями и тысячами человеко-лет, а
длительность жизненного цикла - десятком и более лет.
Важнейшим направлением повышения эффективности промышлен­
ного сектора экономики России, повышения качества и конкурентоспособ­
ности на внешнем рынке наукоемкой продукции являются CALSтехнологии. Стратегией C A L S является создание единого информационного
пространства для всех участников жизненного цикла наукоемкой продук­
ции. В этих условиях возрастает роль территориально-распределенных ин­
формационных систем (ИС).
С другой стороны, динамика общественных процессов фебует зна­
чительного ускорения разработки прикладных профамм и БД, снижения
фудоемкости и обеспечения возможности их совершенствования при экс­
плуатации, наращивания или изменения функций при изменении фебований к ним со стороны пользователей. Поэтому поиск путей реализации не­
прерывно растущих фебований составляет одно из актуальных направлений
современной информатики.
При создании и эксплуатации ИС, как никогда ранее в инженерной
практике, широко используются модели: информационные, функциональ­
ные, процессов, объектов, потоков данных и др.
На протяжении последних фидцати-сорока лет постоянно создают­
ся и развиваются все новые и новые методы моделирования, формируются
международные, национальные и фирменные стандарты, выпускаются на
рынок многочисленные профаммные средства поддержки технологии мо­
делирования. Теоретические основы ИКТ, технологии реляционных БД,
технологий моделирования информационных систем определились в рабо­
тах Кодда Е., Чена П., Буча Г., Дейта К. и др. зарубежных ученых.
Большой вклад в теорию создания ИС внесли российские ученые
Костофызов А.И., Корячко В.П., Мамиконов А.Г., Норенков И.П., Филинов
Е.Н. и др., которые проводят исследования в области посфоения ИС, авто­
матизации проектирования, технологии БД, CALS, моделирования ИС и в
других направлениях. Вместе с тем, несмофя на бурное развитие моделиро­
вания ИС, растущие потребности УДОвлетвор]^д^яЛ]^]^у5^Щ^^:5,
БИБЛИОТЕКА.
3j
II n V I ЬКЛ) /
Cnet*|^*»>-v(//' »
•S
Переход в рамках CALS-технологий на электронное документиро­
вание продукции на всех стадиях жизненного цикла - одно из направлений,
предъявляющих более высокие требования к моделированию, чем те, кото­
рые могут быть удовлетворены известными методами. Сложная, наукоемкая
продукция (транспортная: автомобильная, морская, железнодорожная; ра­
кетная; компьютерная и т.п. техника, в основном именно для такой продук­
ции актуальна CALS-технология) отличается использованием в одном изде­
лии десятков тысяч видов комплектующих изделий. Для представления ви­
дов изделий, имеющих различные наборы характеризующих их свойств,
широко используются категорированные отношения в реляционных БД.
Однако создавать структуры БД, отражающие особенности каждого типа
изделий, не представляется возможным из-за слишком большого числа ти­
пов. На практике применяются эвристические приемы, позволяющие при
внесении в БД данных по изделиям формировать произвольный набор их
свойств. Такие приемы позволяют создавать в БД «скрытые» (не отражен­
ные в моделях) формы данных, которые не предусмотрены в известных ме­
тодах моделирования.
Для создания научной основы решений задач представления «скры­
тых» категорированных отношений необходимо дополнение известных ме­
тодов моделирования новыми методами. Новые методы должны сочетать в
себе возможность, с одной стороны, ограничения числа таблиц в БД, а с дру­
гой - описания структуры данных (например, на уровне специальных
средств, которые именуют «метаданными» - данными о данных).
Другой принципиальной особенностью CALS является манипули­
рование информационными ресурсами, накапливаемыми различными уча­
стниками жизненного цикла продукции. Используемый в рамках CALSстандартов метод моделирования (язык Express) часть проблем решает, но
не позволяет моделировать физическое размещение информационных ре­
сурсов. Новые методы должны решать эту задачу.
При одном и том же представлении категорированных данных на
уровне модели существует много вариантов их реализации в структуре БД.
В многотомном описании методологии проектирования Oracle, которая счи­
тается наиболее совершенным руководством по проектированию БД, приве­
дены только словесные описания вариантов с кратким перечнем достоинств
и недостатков каждого. Выбор варианта реализации методически не под­
держивается. Вариантность представлений ставит еще одну задачу - оценки
их эффективности и разработки методики выбора варианта при проектиро­
вании ИС.
Цель работы - сокращение сроков проектирования, уменьшение
материальных затрат и повышение качества функционирования территори­
ально распределенных ИС за счет рациональной организации категориро­
ванных данных в реляционных БД, достигаемой разработкой новых методов
моделирования категорированных информационных ресурсов.
Для реализации этой цели должно быть разработано математиче­
ское и профаммное обеспечение решения следующих проблем:
информационного моделирования ресурсов территориально распре­
деленных ИС;
оценки необходимых объемов памяти для хранения категорированных информационных ресурсов;
оценки производительности вариантов хранения категорированных
информационных ресурсов;
создания инженерной методики выбора вариантов реализации.
Задачи исследований. Для достижения целей диссертационной ра­
боты необходимо решение следующих задач.
1. Разработка метода моделирования информационных ресурсов
распределенных автоматизированных систем.
2. Разработка профаммы моделирования информационных ресур­
сов системы.
3. Исследование представления категорированных данных в реля­
ционных БД и разработка аналитических моделей этих данных.
4. Исследование зависимостей ресурсов памяти для категорирован­
ных данных и разработка аналитического метода их оценки.
5. Разработка имитационной профаммы для проверки достоверно­
сти аналитических моделей и уточнения их параметров.
6. Исследование зависимостей времени доступа к категорированным данным в БД и разработка аналитических моделей времени доступа.
7. Разработка имитационных профамм для определения параметров
аналитической модели времени доступа.
8. Разработка критериев интефальной оценки эффективности фраг­
ментов БД с категорированными данными для инженерной методики выбо­
ра вариантов представления. Разработка инженерной методики рациональ­
ного выбора вариантов представления.
Методы исследования. Основные теоретические положения, выво­
ды и экспериментальные результаты диссертационной работы получены с
использованием теории фафовых моделей, теории аналитических функций,
теории вероятностей, теории имитационного моделирования.
Публикации. По итогам исследований опубликовано 11 работ, в
том числе 6 материалов всероссийских и международных научнотехнических конференций. В Российском агентстве по патентам и товарным
знакам зарегистрирована профамма для моделирования информационных
ресурсов автоматизированных систем.
Апробация работы. Результаты настоящей работы докладывались
на семи научно-технических конференциях, в том числе на всероссийской
научно-технической конференции студентов, молодых ученых и специали­
стов "Новые информационные технологии в радиоэлектронике", г. Рязань,
1998 г., международной молодежной научной конференции " X X V Гагарин-
ские чтения", г. Москва, 1999 г., 4-й всероссийской научно-технической
конференции студентов, молодых ученых и специалистов, г. Рязань, 1999 г.,
3-й Международной научно-технической конференции "Космонавтика. Ра­
диоэлектроника. Геоинформатика.", г. Рязань, 2000 г., межвузовской науч­
но-технической конференции студентов, молодых ученых и специалистов
«Новые технологии в учебном процессе и производстве», г. Рязань, 2003 г.
Научная новизна. В диссертации разработаны новые метод моде­
лирования информационных ресурсов системы и аналитико-имитационные
методы оценки необходимых ресурсов памяти для реализации фрагментов
БД с категорированными отношениями и их временных характеристик. Ме­
тоды основаны на аналитических моделях требуемых ресурсов памяти для
фрагментов БД, аналитических моделях времени доступа к фрагментам БД.
Получены зависимости требуемых ресурсов, времени доступа от различных
параметров категорированных данных и вариантов организации категориро­
ванных отношений и синтезированы критерии интегральной оценки, позво­
ляющие существенно сократить сроки проектирования и выбрать рацио­
нальные варианты организации БД.
При проведении исследований в рамках диссертационной работы
получены новые научные результаты.
1. Разработан новый метод моделирования информационных ресур­
сов системы.
2. Разработаны аналитические модели требуемых ресурсов памяти
для фрагментов БД с различными вариантами организации.
3. Разработаны аналитические модели времени доступа к фрагмен­
там БД с различными вариантами организации.
4. Получены критерии интегральной оценки фрагментов БД с раз­
личными вариантами организации категорированных данных, учитывающие
ресурсы памяти и время доступа к данным фрагментов.
Достоверность научных положений определяется:
корректностью использования математического аппарата;
сравнением результатов, полученных на основе теории аналитиче­
ских функций и на основе имитационного моделирования;
оценкой точности экспериментальных данных методами математи­
ческой статистики.
Пра1сгическая значимость работы. На основе полученных резуль­
татов автором создана инженерная методика оценки проектных решений по
фрагментам БД. Наибольший эффект может быть достигнут при проектиро­
вании БД ИС средней и большой сложности следующего назначения:
информационная поддержка изготовления, испытаний и эксплуата­
ции сложных технических изделий;
PDM-системы (при реализации CALS-технологий);
управление проектами для организаций и предприятий, связанных с
созданием сложной наукоемкой продукции;
компьютеризированные системы менеджмента качества для про­
ектных организаций и предприятий, связанных с созданием сложной науко­
емкой продукции.
Гибкость и универсальность методов делают возможным их приме­
нение при создании инженерных методик оценки проектных решений по
фрагментам баз данных с произвольными структурами данных.
Реализация и внедрение результатов работы. Результаты иссле­
дований внедрены в Ф Г У П ОКБ «Спектр» (г. Рязань) при выполнении
НИОКР по созданию информационных систем различного назначения, в
учебный процесс студентов специальностей 220100 и 075200 Рязанской го­
сударственной радиотехнической академии и Рязанского института (филиа­
ла) Московского государственного открытого университета.
Структура работы. Диссертация содержит 145 страниц основного
текста и состоит из введения, пяти глав, заключения, библиографического
списка из 87 наименований и 4 приложений на 42 листах. В диссертацию
включены 84 рисунка и 4 таблицы.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, определены цели и за­
дачи исследований.
В первой главе приведена обобщенная структура ИС, их классифи­
кация. Выполнена классификация моделей, методов и принципов, исполь­
зуемых при создании ИС (рис. 1). Проведен обзор применяемых на практике
методов информационного моделирования и вариантов представления в
этих моделях категорированных отношений. Детализированы задачи иссле­
дований и направления их решения.
1) в части создания нового метода информационного моделиро­
вания.
Комплексная реализация принципов, примененных в отдельных из­
вестных методах информационного моделирования:
а) представление в модели типов объектов предметной области
сущностями (ER-моделирование); известные методы - 1DEF1X; метод Баркера; язык Express из CALS-стандартов;
б) фрагментарное представление модели; полная информационная
модель представляется совокупностью отдельных, связанных между собой
фрагментов, формируемых произвольно (свободная декомпозиция); извест­
ный метод- язык Express;
в) представление пользователям (персоналу) текстовой нотации мо­
дели; известный метод - язык Express;
г) представление профаммным средствам структурированных дан­
ных модели; известный метод - язык Express.
Клаестфткащкопмые пртзнлгш:
По назначенк»
Рис.1
Реализация не применявшихся в информационном моделировании, но
известных принципов, использующихся в методах для других типов моделей
информационных систем:
а) представление в модели объектов предметной области 2-го по­
рядка (тип типа объекта предметной области); 2-й и более высокий порядок
объектов известен в методе IDEF3; по предлагаемому методу с объектов 2го порядка реализуются возможности представления в модели «скрытых»
(не отраженных в явном виде в структуре БД) структур данных; детализация
показывает структуру данных в таких фрагментах;
б) фрагментапьное представление модели; модель представляется
совокупностью отдельных, связанных между собой фрагментов, фрагмента­
ция по иерархическому принципу известна в методе IDEFO;
в) реализация детализации информационной модели (иерархическая
и свободная декомпозиция); иерархия известна в методе IDEFO, свободная
декомпозиция - в схематиках процессов по методу IDEF3;
г) моделирование физического размещения информационных ре­
сурсов системы; известно в методе UML (диафаммы размещения);
2) в части исследований представлений категорированных дан­
ных в БД.
1. Разработка модели категорированных данных.
2. Разработка аналитического метода оценки ресурсов памяти, тре­
буемых для хранения категорированных данных.
3. Разработка имитационной профаммы для проверки достоверно­
сти и уточнения параметров аналитической модели.
4. Разработка аналитических моделей времени доступа к категорированным данным.
5. Разработка имитационных профамм для определения параметров
аналитических моделей времени доступа.
6. Разработка критериев оценки эффективности фрагментов катего­
рированных данных для инженерной методики выбора вариантов представ­
ления категорированных данных.
7. Разработка инженерной методики выбора вариантов представле­
ния категорированных данных.
Во второй главе рассматривается предлагаемый метод моделиро­
вания информационных ресурсов системы.
Излагаются принципы, реализованные в методе (эти принципы по­
казаны на рис. 1), содержание, элементы и правила метода.
Основные свойства метода:
- независимость от предметной области;
- поддержка модульности (фрагментация и детализация) моделей
информационных ресурсов и связей между модулями;
- воспринимаемость модели человеком и компьютером.
Независимость от предметной области. Метод задает представ­
ление данных о различных предметных областях, поэтому элементы модели,
использующиеся в качестве формы представления, должны быть нейтраль­
ными по отношению к предметной области.
Поддержка модульности (фрагментация и детализация) моде­
лей информационных ресурсов и связей между модулями. Модель инфор­
мационных ресурсов системы может быть очень велика и обладать значи­
тельной сложностью. Модели частично пересекаются. Возникает потреб-
8
ность в разделении больших моделей на более мелкие части, чтобы, с одной
стороны, упростить модели, а с другой - избежать избыточности, задав схо­
жие части модели один раз. Для идентификации таких частей используется
понятие «схема интефируемых ресурсов». Взаимосвязи между ее элемента­
ми, попавщими в разные «куски», должны быть сохранены. Метод связыва­
ет между собой несколько более мелких модулей моделей в единое целое
заданием связей между элементами.
Основные элементы метода. Независимость от предметной облас­
ти обеспечивается использованием известного подхода - модели «сущностьотношение» (ER-модель) с основным элементом «сущность».
Сущность - абстрактное понятие, выражающее класс (тип) объектов
реального мира, имеющих общие характеристики. Если для предметной об­
ласти важно множество объектов, имеющих общие свойства, то в модели
это множество представляется в виде сущности.
Сущность выражает класс (тип) объектов - объект 1-го порядка,
имеющих общие характеристики. Характеристики объектов выражаются ат­
рибутами сущности - абстрактным понятием, выражающим отдельную ха­
рактеристику класса (типа) объектов реального мира. Каждый атрибут сущ­
ности имеет имя, описывающее выражаемую атрибутом характеристику в
контексте сущности.
Сущность выражает некоторый абстрактный, модельный образец
объекта реального мира. Сами объекты выражаются с помощью экземпля­
ров сущностей. Сущности, атрибуты сущностей, отношения между сущно­
стями (ER-модели) последние несколько десятилетий служили концепту­
альной основой технологии реляционных баз данных и определили бурное
развитие информационно-коммуникационных технологий. Вместе с тем в их
определениях существуют некоторые противоречия.
В предлагаемом методе важна концепция объектов первого и второ­
го порядков. Семантически в предметной области можно выделить двух-,
трех- и многоуровневые связи между объектами. Каждый уровень многих из
них может быть определен, например, отношением типа «супертип-тип».
Несколько уровней определяются как супертип - тип (супертип) - тип (супертип) -.... С точки зрения семантики предметной области «супертип» это тип типа. Но по концепции информационного моделирования «супер­
тип» - это также подмножество, тип объектов (материальных или абстракт­
ных) и, если оно значимо с точки зрения необходимости знания информации
об этом подмножестве, это подмножество является типом и претендует на
представление сущностью в информационной модели. С точки зрения ин­
формационного моделирования «супертип» (семантически в предметной
области) также является объектом первого порядка (по концепции инфор­
мационного моделирования). В новом методе, в отличие от известных, вве­
ден еще один элемент, по иному представляющий в модели объекты пред­
метной области - как тип типов объектов - объект второго порядка. Объект
второго порядка однозначно не связан с «супертипом» из семантики пред­
метной области. Объект второго порядка - дополнительный вид представле­
ния объектов предметной области в информационной модели.
В известных информационных моделях упоминавшиеся «скрытые»
формы, эвристические отклонения явным образом не представлены и нераз­
личимы. В предлагаемом методе для этого предназначен объект второго по­
рядка - представляемый вершиной (объект первого порядка представляется
сущностью).
Для дополнительной идентификации объектов второго порядка в
предлагаемом методе используется элемент «отдельная схема». Элементы
отдельной схемы (вершины), точно так же как и сущности, реализуются в
виде таблиц в БД. Отдельные схемы могут быть детализированы. Метод по­
зволяет показать структуру данных, для хранения которых предназначена
отдельная схема, но эта детализация не реализуется таблицами в БД.
Для представления физического размещения добавлен элемент «база данных». Для фрагментации добавлены элементы (точнее, типы эле­
ментов, так как в реальной модели может быть для каждого типа несколько
экземпляров, имеющих индивидуальные имена): «прикладной протокол»,
«схема прикладного протокола», «интегрируемый ресурс», «схема интегри­
руемого ресурса». Из дополнительных элементов, называемых в методе
«элементами структуризации модели», формируется иерархия модели ин­
формационных ресурсов системы (рис. 2).
Разработана информационная модель метода. Для инструменталь­
ной поддержки метода разработана программа, имеющая внутреннюю
базу данных, структура которой соответствует информационной модели ме­
тода (рис. 3). Структура программы и основные функции составных частей
профаммы показаны на рис. 4.
«Базы данных»
♦
<Mirapf9(Mbc раурсьи
<4^pnowK>e гф01а«п>»>
♦
t
<4Св1иы ингетц^емьп
pajpan>
пюоашвхжзв'У
♦
Сшнхяи
Реализуются в
ПМ
i
1
<et-MDIK«»>
11
Ошюот
> виде
таолии
Рис.2
<Огае1»месж1«*>
*
<eC|IIIH>t>
t
Рсаш19«мьк п р а с в ц ы е
1ЧППЮГ1>1,СЖМ>1,
илорТ^оалрп^рсы
Ои^шты
10
3JIEf«mbl_MEVEnH_H_OBbEK7bl_CTPyKTyPinAlf«
CWEfMCKT
(Ъяг-гченп
^МСИМС^ЛрНПТ!
В ч й л г г в о б ь е г г с т л е и с о м . У т к & ъ н ы й . м и е к с (FK)
Атт»Ат_сУ1шюстп_с_тце«ажУмп&1ышй_пиемс(РК)
СВЯда_ЭЛЕМЕНТОВ
ГЬрядюмЛ_мяср
Эгг1ипгг_с_1каек(»н_ооаер)нггУмпса.'»иый и н х к с ( Г К )
'%1ечсит_с нккксомвчолл-Уюпс11Ы1ЫЙ_тиекс(FK)
O61MT ooacfnsrr 7'гменг / i-RtcKT к « о л п жобъпгт
й K.iO'^XKBfnioovrfi oiNDucmc с ппностъю / cvnffoCTb HMDBf uinuiucnc
ОПИСАН№ А7ПСУГА
■П€1 АТРИБУТА
№ии1С.Т11и яцдиб^'я
СВОЙПВА.ТИИ
О п ю с н к я ««ipMSyn
^А т й г У т
Инхкт
•С
'W
■ лря№т1<ГК}
■?ПАРАЛСП» СВОЙСТВА
АТРИ6УТА
flUJEIL Ь Ш Й Ы И
Атр>1б1т(Ж>
Икавяс_сяойст (FK)
■_^я Р > ^ П1 И|1шехс_.'п*м_л ■ | Я ^ и (ЛС)
Рис.3
Программа ииструментальной поддержки метода
моделирования информационных ресурсов системы
I
Форма «Навигатор»
[
J
Вкладка «Типы описаний»
^
Внутренняя база дан­
ных программы
/ Ияод даннмх я 6ii6womeky тмюв
атрибутов
Вкладка «Подтипы описаний»
►
/ Ввод данных в бнбwomen} ceoficme
атрибутов
Вкладка «Объекты»
I Bfnyd данных я бибттпеку
►
1(1 it W
I
2 Ввод данных гюэ1еиентаммо()е VI
3 Переход к ф<грме «Объекты>* Цы6(}р фрагмента
^
Modeiu д1Я просмотра в форме
лОбьекты»
1 ^ / ввод данных по Э1ементам иодет
2 Ввод данных по связям t ie ментов моде т
3 Навнгаг^ня 1ю Э1е ментам моде VI
Пр(К«отр состава м входчм<ктн лементов
^
^
Вкладка «Отчеты»
/ Выбор
►
.
►
отчета
фра'иента(гн1)
с текстоаЫ!
Отчеты
M<xievi д1Я
н
Присоединенная форма иОбъскты»
жмеитов
cmpypffttyptiiatfmi uodevi
^^
г
формирования
нотацией фрагмента(ов)
2 Перех.нифорт,р,ттию,тнетастенст,нШ,шт,т,неи
уойеттнеефра,,,енпав
Рис.4
• ■►
/ flpedcmaaieHue tHiibstwameiaM
теустовЫ, н,та„т
фрагиентов
ш,1е1„HWее
1
II
в третьей главе рассматривается предлагаемый аналитический ме­
тод оценки требуемых ресурсов памяти.
Наиболее развиты варианты реализации категорированных отноше­
ний в СУБД Oracle (рис. 5). Получены аналитические выражения для каждо­
го варианта реализации. Обозначения: N - число записей в БД; Nm,, ■ макси­
мально возможное число записей в БД; Ку„ - размер уникального идентифи­
катора; Ао, - размер общих атрибутов; к|< - число категорий; А, - размер ча­
стных атрибутов (для категории i); N, - число записей категории i; N,m„максимально возможное число записей категории i; Ку„, - размер уникально­
го идентификатора для категории i.
Объем памяти по варианту а: Оа = N(K„ + А,„ +1 Ai).
(1)
Объем по варианту б: Об = I N,(K„ + А<, + А,)
(2)
Объем по варианту в: О. = Н(Куи + Ао,)+1 N,(KyH + А», + А,) (3)
Объем по варианту г: Ог = Ы(К», + A,« + z к,„)+ s N,(K,„ + А,) (4)
Для анализа эффективности вариантов более полезны относитель­
ные оценки: (О, - Об)/ О,; (Оа - О^)/ О»; (О, - Or)/ О» и абсолютные оценки:
О.; (О.-Об);(О.-О.);(О.-Or).
(Oa-06)/Oa=Aoa[i:Ai/Aoa-Z(Ni/N)(Ai/Aoa)]/[Aoa( 1 +5:Ai/Aoa)+logl ONmax] (5)
Oa-06=NAoa[XAi/Aoa-S(Ni/N)(Ai/Aoa)]
(6)
(Оа-Ов)/Оа=
={Aoa[IAi/Aoa-1-ICNi/N)(Ai/Aoa)]-loglONmax}/[Aoa(I +IAi/Aoa)+loglONmax] (7)
ВАРИАНТЫ
A
#
Al
^
rв
It
Bl
■•
/
( с
#
CI
РЕАЛИЗАЦИИ
\
J
Вариант б
Вариант в
Вариант г
Рис.5
12
Oa-OB=N{Aoa[IAi/Aoa-l-r(Ni/N)(Ai/Aoa)]-loglONmax}
(Oa -Or)/Oa={Aoa[I Ai/Aoa-I (Ni/N)(Ai/Aoa)]-
(8)
IloglONimax-loglO Nmax }/[ Aoa(I+5; Ai/Aoa)+IoglO Nmax]
(9)
(Oa-Or)=N {Aoa[SAi/Aoa-I(Ni/ N)(Ai/Aoa)]-I logl 0 Nimax-log 10 Nmax(
(10)
Oa= N[ Aoa( I + Z Ai/Aoa) + log 10 Nmax].
(11)
0 6 = NIAoa{ 1 + I ( N i / N)(Ai/Aoa)} + logl 0 Nmax]
(12)
OB = N[Aoa {2 + I(Ni/N)(Ai/Aoa)} +2IoglONmax]
(13)
Or = N[Aoa { I +r(Ni/N)(Ai/Aoa)}+Slogl0Nimax + 2logI0Nmax]
(14)
Для уменьшения трудоемкости проектных работ был проведен ряд
преобразований. Обращено внимание на набор компонентов выражений (5)
- (14): N; N „ „ ; N,„„; А„.; S A/A».; Е (N,/ N)(A,/A„.).
Набор N;N„ax:\ Mmoil-' ^oal 1^1 I/ I "; I пспользувтся как модель категорированных данных для исследований зависимостей объемов памяти, не­
обходимых для реализации в БД.
Эти компоненты достаточно адекватно представляют реальную БД
и особенности структуры данных. С вводом обозначений: а^ = К\1\„,; п\ = N-J
N, формулы (5) - (14) преобразуются.
(Oa-06)/Oa=Aoa(Iai - I n i ai)/[ А о а ( 1 + Z a i ) +loglONmax]
(15)
Oa-06 = NAoa(Iai - S n i a i )
(16)
(Оа-Ов)/Оа=[Лоа(1а1-1 -Eni ai)-log 10 Nmax ]/[Aoa( 1+E ai)+logl 0 Nmax]
(17)
Oa - O B = N[Aoa ( l a i -1 - 1 ni ai) - logl 0 Nmax]
(18)
(Oa-Or)/Oa=[Aoa(Iai-Iniai)-IloglONimax-loglONmax]/(Aoa(l+5;ai+logIONmax)]
(Oa -Or)=N[Aoa(Z:ai-Zni ai) - EloglO Nimax - loglO Nmax]
Oa= N[Aoa( 1 + Z ai) + logl 0 Nmax]
06 = N[Aoa(l + I n i a O + loglONmax]
(19)
(20)
(21)
(22)
O B = N[Aoa (2 + 1 ni ai) + 21og 10 Nmax ]
(23 )
Or = N[Aoa ( I + 1 ni ai)+ IloglO Nimax + 21oglO Nmax ]
(24)
Формулы (15) - (24) положены в основу аналитического метода
оценки требуемых объемов памяти по вариантам реализации в БД.
По моделям получены зависимости, одна из которых представлена
на рис. 6. Зависимости показывают потенциальные возможности минимиза­
ции затрат памяти с помощью выбора вариантов представления. Ресурсы
памяти могут быть сокращены на 60-70 % .
Уточнение моделей. В аналитических выражениях единицей изме­
рения является символ данных - 8д. Это удобно для определения параметров
модели по анализу ER-моделей проектируемых БД, но при оценке затрат ре­
сурсов памяти общепринятыми являются: кбит, Мбит и Гбит. В Э В М и в
СУБД используются методы сжатия данных. Современные СУБД обладают
развитыми средствами повышения производительности БД. Ряд методов по­
вышения производительности предусматривает избыточность (например,
методы индексации записей). Для практического применения аналитических
выражений (15) - (24) необходимо определить коэффициент учета сжатия и
избыточности данных к« размерностью бит/символ данных.
13
Экономия ресурсов памяти
(Siii'=IO;Saini=S;Aoa=64cHMB;
loglONmax^)
400,00
-0«-06
300.00
-0«-0в
200,00
0«-0г
100,00
0,00'1
1000
100000
I0OOOOO
Число мписсй в БД (N)
Рис.6
При этом оценки (в единицах измерения - бит) затрат ресурсов па­
мяти вариантов следующие: 0,б„= к^мО,; Оббит = К:сб Ов; 0 ^ „ = к „ , 0 , ; О^ит
= кесг Or. Для определения к^с необходимо учесть особенности кодирования
символов данных - 8д. 5д представляется кодом, содержащим несколько
символов (символов кода - S,). Наиболее употребительным является стан­
дарт ASCII. Таким образом, одними из компонентов к«с являются Ns» - чис­
ло символов и коэффициент (ns,) представления символа кода S». Учитыва­
ются также коэффициент учета сжатия (ксж) данных при записи в Э В М и из­
быточность данных (кид). Общий вид ке^: к:с= Кж кид Пхк NSK. Значения ns, и
к„д могут быть определены при анализе вариантов. Аналитически опреде­
лить к<;ж и NSK гораздо сложнее. Предлагается использовать для оценки к^^
имитационную профамму.
Шаги процедуры определения значения к^с:
- внесение набора тестовых записей (ряд значений N) и фиксация
затрат (в битах) ресурсов памяти - Оа„„„т (N); Оби„„т (N); 0,„м„т (N); Or„„HT(N);
- расчет затрат ресурсов по аналитическим моделям (в символах 8д)
для каждого значения из ряда N - Oa(N); Об(К); 0 B ( N ) ; Or(N);
- расчет кес для каждого N,:
(N) = 0
аимит
(N)/ 0.(N); k,,6(N) = Обимиг (N) / 06(N);
k.c.(N) = 0.„„„, (N) / 0.(N); k„r(N) = 0™„„T ( N ) / О^Щ;
- определение среднего значения к^са; Ка', кесв! к^сг;
- построение зависимостей Оабит Оббит 0,бит Orf„T.
Сравнение данных уточненных аналитических моделей и экспери­
ментальных показало, что среднеквадратичное отклонение не превышает
нескольких процентов от величины 0,битВ четвертой главе рассматривается предлагаемый аналитикоимитационный метод оценки времени доступа к фрагментам БД.
С момента создания первых СУБД и до настоящего времени одним
из постоянных направлений их соверщенствования является повышение
производительности. Однако рост объемов данных в БД не снимает пробле-
14
му и при проектировании БД также разрабатывается и реализуется комплекс
мер по обеспечению требований по производительности. Оценка произво­
дительности на проектных стадиях обеспечивает своевременное определе­
ние эффективности принимаемых решений.
Предлагается использовать оценки времени исполнения запроса
(время доступа - Т). Сложные процессы, реализуемые в СУБД, операцион­
ных системах и в телекоммуникациях системы, постоянно меняющееся ко­
личество записей в таблицах БД приводят к тому, что время исполнения за­
проса имеет характер сложной функции от системы случайных величин.
С другой стороны, Т, очевидно, является функцией нескольких пе­
ременных и зависит от числа записей, от числа таблиц и от числа колонок
таблиц. Т = f(N,k,l), где N - число записей в БД, к - число полей в записях, I
- число таблиц в БД, из которых необходима выборка данных. Для проверки
гипотезы разработана имитационная SQL-процедура и получены зависимо­
сти для тестовой таблицы СУБД (рис. 7). Анализ показывает, что зависимо­
сти линейны. Для аппроксимации использовался метод наименьших квадра­
тов в соответствии с линейными уравнениями: ys = nis х + bj, где т^ — угол
наклона и bj — координата пересечения оси абсцисс, причем т^ и bj такие,
что для каждого значения числа колонок s
i^\T„ - у„ |'= mm,
1^1
где i - число измерений по каждой зависимости.
Полученное семейство зависимостей позволяет оценить производи­
тельность вариантов. Вместе с тем в инженерной практике пользоваться по­
лученными зависимостями неудобно. Построение аналитических моделей
упрощает оценочные расчеты и снижает вероятность ошибок.
Экспериментальные данные характеризуются линейными зависимо­
стями времени доступа к таблице Т = fi(N) и Т = f2(k) от числа записей и от
числа колонок. Зависимости коэффициентов m и b линейных (у = т х + Ь)
уравнений семейства регрессий Т = fi(N) представлены на рис. 8. На зави­
симости m = f (к) и b = f(k) также построены линейные рефессии. Коэффи­
циенты последних двух рефессии вида у = т х + b обозначим соответствен­
но Шш; Ьп,; ть; ЬьПредлагается использовать в качестве аналитической модели вре­
мени доступа к таблице данных функцию двух переменных N и к (число за­
писей и число колонок таблицы):
T, = (m„k + b J N + (mbk + bb).
(25)
15
i i I I I i §§I I 1I
Число wMceA • т«01М4е
и попиого Aociynt ot числа и
Рис.7
4,5 1
4
3,5 \
■ 3 -
* =025514 *■ 18022
R'-0.9923
* » « ^
4
i 2,5 - ^ * * m
^
f '■• ^
^ 1,5 1
0,5 0
Ч
Л271Н
R
1 2 3 4 5 6 7 8 9
40572
-09J52
Линейный (in)
Лтк:Н|шЛ(Ь|
Чисмко-имок
Рис.8
Оценки достоверности аппроксимации моделью эксперименталь­
ных данных проведены с помощью коэффициентов Пирсона (R). Для каждо­
го значения к дополнительно определены среднее значение отклонения
данных модели от экспериментальных (Asr), максимальное (Ащ,,) и система­
тическое отклонение (Aotki)- Отклонения не превысили нескольких процентов.
Следующим шагом исследований является разработка аналитиче­
ских моделей для различных вариантов представления категорированных
отнощений. Определены модели для оценок (по вариантам а, б, в и г):
Та, Та, Т„ Т,, - арифметическое среднее время доступа (АСВД);
Таос, Типе Т„„е, Т^с " АСВ при УСЛОВИИ ПОЛНОГО выбора данных (об­
щие и частные атрибуты);
16
Та№ Тбо, Tg„, Tf„ - АСВД при выборе общих атрибутов записей;
Тас Тбс, Тес, Tfc - АСВД при выборе частных атрибутов;
Та,, Тб„ Г,,, Т„ - АСВД к данным категории i;
Taioc Тб,ос Т„ос Тг,ос - время доступз К данным категории i (ВДК) при
выборе общих и частных атрибутов;
Тто, Тб,„, Т„„, Т„„ - ВДК при выборе общих атрибутов;
Та,с TfiK, Т„с Т„с - ВДК при выборе частных атрибутов.
Tai =Та,ос = Та,,, =Ta,c=fm„(k,„+Ik,a)+bJN+mb(k,„+i:kJ+bi,.
(26)
Та=Тв,„с=Тй,„=Тб,с = [m„(k„ +kj + Ьщ]М, + ш*^^ + A J + Ьь.
(27)
L,oc= Т„с^ [m„(k,„ +к,а} + bJN, + тн(к„а + kj + Ь^.
(28)
L,o=(m„k„a + bJN + тьк,^ + Ьь.
(29)
T„„c=(m„k,a+bJN,+mb к,а+Ьь+[т,„(к,^+кО+Ь^М+ть(к„а+кО+Ьь.
(30)
Т,.„= [т„(к„а +кО + b„JN + ть(к„а + k/J + Ьь.
(31)
Т„с= (mjc,a + bJN, + ть к,а + Ьь.
(32)
С учетом распределений вероятностей обращения к категориям
\Рп.•Р<},, ''« . I и распределений вероятностей типов обращений для каж­
дой из к категорий (р - обращение за общими и частными атрибутами; о - за
общими; с - за частными)
' в ~ ' аос ~ ' ао ~ 'ас ~
у^ Р
' аюс
W-'/
/=1
Тб = Tf„c =Tf„-Tgc= V / ^
Т'= Z
Tg,„c-
Ро, [( Р,^ + ^л- )Т„„„ + Р^. Т„„ ].
(34)
(35)
С учетом теоремы гипотез (формулы Бейеса):
(36)
/ , "о, "в' ' »"«
г«„
= ^
I
''оА.
(37)
Z
Ро.Р,.
1=1
т
S Ро.Р,'
1'1
-
во -
t
1=1
Ро,Р,,Т,„
к,
/=|
(38)
17
Т.= {Р,,+Р„,)Т,„^
+Р^,Т
' = *»
^= ZPn,(P„.Tr„.
i>
Z
««
(39)
Ню
^Р,.Т.. + ^ / ™ ) -
Ро,Р,,Т.
(40)
(41)
i fo.P.;
1*1
' «^ =
(42)
/•1
Л
I
Pn.P,.
/= 1
т
T
'"
= p
^ B'
=
A
t PoK
go
T
"Ж
(43)
/=1
A. p
^
'
H'
T
ric
Л. p
^
^ B'
T
(44)
"o
Формулы (26 - 44) - совокупность аналитических моделей для
оценки производительности фрагментов БД с категорированными отноше­
ниями. Получен и проанализирован ряд зависимостей, одна из них приведе­
на на рис. 9. Варианты организации могут отличаться по времени доступа
более чем в 5 раз.
Р'
- Вариант А
^
^ч
"
_У>
их»
ц
15(Ю
Ч н с ю MflMcci
- Вариант Б
Вариант В
'
Вариант Г'
Рис.9
В ПЯТОЙ главе рассматриваются критерии интефальной оценки вариантов
(одновременного учета затрат памяти и времени доступа). Критерии (Л", К„ и
К^) синтезированы исходя из требований по чувствительности критериев к
изменениям времени доступа {АТ/Т), затрат памяти {AV/V) и к изменениям
18
«удельных» времени доступа (Jt/t, где / = T/N, N - число записей) затрат па­
мяти (Jv/v где V = F//V) в соответствии с весовыми коэффициентами кт и ку.
&к
А:
Д|/
АК^
*■
' г
Критерии имеют вид:
-*rv-*'
/: = г
N^'
Ду
ДА'.
Д_/_
V
Jf.
Г
+ *,
*,
^
(45)
N
(46)
;^, =
* г Ь' *г
Y ^т у ^^
Критерием К удобно пользоваться в случаях, когда варианты срав­
ниваются при одном и том же числе записей N. К„ оценивает варианты при
оценках Т и V для различных Л' (даже в случаях когда для одних вариантов
реализации известны оценки при одних значениях Л'^, а для других вариантов
- при других). Критерием К^ адекватно оцениваются варианты с индексиро­
ванием записей.
Получен ряд критериальных оценок вариантов организации категорированных данных. На рис. 10 представлена одна из оценок.
^ „
=
Ко варнянтов oprMHiauHH кятегорнрованныж данных
(2000 млисеП)
%
100
g
«0
S
60
1 •w
^
20.
0
« 9 1
# варнакт А
# вариант Б с поиском
^„^^
11 л
^^ш!\
&щ1^ж
0 вариант В
Щ^Щк^
0 вариант Г
Т,з.о ]
\Zy
|()00
2000
3(НЮ
4000
5(ХЮ
Объем ПАМЯТИ, кбит
Рис. 10
Разработанные аналитические модели для оценки ресурсов памяти
для реализации фрагментов категорированных данных и временных харак­
теристик доступа к таким фрагментам являются функциями нескольких пе­
ременных. В конечном итоге для рационального выбора варианта реализа­
ции в БД фрагментов с категорированными данными должны учитываться
несколько десятков параметров. Технология организации коллекции данных
и проведения их анализа в современных системах поддержки принятия ре­
шений (и, в частности, в многомерных БД) хорошо согласуется с потребно­
стями организации компьютерного хранения и многомерного анализа дан­
ных, формируемых в соответствии с разработанными аналитическими моде­
лями. Экспериментальные данные, получаемые с помощью разработанных
имитационных программ, должны превращаться в постоянно пополняемую
19
коллекцию данных и многократно использоваться для решения проектных
задач. На настоящий момент в отечественной практике еще не распростра­
нено использование специальных многомерных СУБД (MOLAP-серверов,
Multidimensional OLAP). Для организации прототипа многомерной базы
данных и OLAP-среды в диссертации использован процессор электронных
таблиц Microsoft Excel.
На основе разработанных аналитических моделей и среды анализа
создана инженерная методика выбора рациональной организации категорированных данных в реляционных БД. Разработана функциональная модель,
приведено описание процедур и шагов инженерной методики, оценена
трудоемкость основных шагов.
В заключении подведены итоги проведенной работы и сформули­
рованы основные научные и практические результаты. В диссертации со­
держится решение задачи разработки новых методов моделирования баз
данных информационных систем, имеющей существенное значение для со­
кращения сроков, уменьшения материальных затрат и повышения качества
проектирования информационных систем.
Приложения содержат описания профаммы моделирования ин­
формационных ресурсов системы, имитационной профаммы для получения
экспериментальных данных для уточнения аналитических моделей ресурсов
памяти и среды для анализа многомерных данных инженерной методики
выбора рациональных вариантов организации в БД категорированных дан­
ных. Прилагаются копии актов о внедрении результатов работы и данные о
регистрации профаммы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Разработаны аналитические, имитационно-аналитические методы,
модели и профаммы для решения следующих задач:
моделирования информационных ресурсов систем;
оценки затрат ресурсов памяти, требуемых для различных вариан­
тов организации фрагментов категорированных данных в БД информацион­
ных систем;
оценки времен доступа к фрагментам категорированных данных и к
отдельным категориям данных при различных вариантах организации фраг­
ментов;
интефальной оценки эффективности для выбора рациональных ва­
риантов организации фрагментов категорированных данных.
П У Б Л И К А Ц И И ПО Т Е М Е Д И С С Е Р Т А Ц И И
1. Артамонов М.М., Бистерфельд О.А., Новиков Ю.А., Пресняков
А.Н. Способ контроля и диагностики многопараметрических объектов по
данным телеизмерений с использованием технологий баз данных // Тезисы
20
докладов 3-ей Международной научно-технической конференции "Космо­
навтика. Радиоэлектроника. Геоинформатика." Рязань, 2000.
2. Атаманова Н.В., Бистерфельд О.А., Решетников М.А. Анализ раз­
личий российских и зарубежных правил оформления конструкторской до­
кументации радиоэлектронной аппаратуры // Материалы межвузовской на­
учно-технической конференции студентов, молодых ученых и специалистов
«Новые технологии в учебном процессе и производстве». Рязань, 2003.
3. Бистерфельд О.А., Сидоров М.В., Таганов Р.А. Исследование за­
висимости затрат памяти на представление категорированных отношений в
реляционных базах данных // Новые информационные технологии в науч­
ных исследованиях и в образовании: Тез. докл. 4-й Всероссийской НТК. Ря­
зань, 1999.
4. Бистерфельд О.А., Таганов Р.А. Метод конвертации данных о
технической документации в интегрированные базы данных предприятия //
Тезисы докладов всероссийской научно-технической конференции студен­
тов, молодых ученых и специалистов "Новые информационные технологии
в радиоэлектронике". Рязань, 1998.
5. Бистерфельд О.А., Таганов Р.А. Метод идентификации и прослеживаемости продукции в системе качества // Тезисы докладов международ­
ной молодежной научной конференции " X X V Гагаринские чтения". М.,
1999.
6. Бистерфельд О.А., Таганов Р.А. Модель автоматизированной ин­
формационной системы поддержки процесса проектирования научнотехнической продукции // Тезисы докладов международной молодежной на­
учной конференции " X X V Гагаринские чтения". М., 1999.
7. Бистерфельд О.А. Вариант концепции моделирования деятельно­
сти при создании автоматизированных информационных систем // Военнонаучный сборник. Рязань, 1999.
8. Бистерфельд О.А. Исследование зависимостей затрат памяти и
быстродействия на представление категорированных отношений в реляци­
онных базах данных // Военно-научный сборник. Рязань, 1999.
9. Бистерфельд О.А., Преснякова Т.Д. Моделирование информаци­
онных потребностей исследований влияния военно-прикладной направлен­
ности преподавания технических дисциплин на изучение специальных во­
енных дисциплин // Военно-научный сборник. Рязань, 2001.
10. Бистерфельд О.А., Преснякова Т.Д. Концепция моделирования
информационных потребностей ИС // Военно-научный сборник. Рязань,
2002.
11. Бистерфельд О.А. Свидетельство о регистрации профаммы ин­
струментальной поддержки метода моделирования информационных ре­
сурсов системы, № 2005611848 от 25.07.2005 г.
Бистерфельд Ольга Александровна
МЕТОДЫ ПРЕДСТАВЛЕНИЯ КАТЕГОРИРОВАННЫХ
ОТНОШЕНИЙ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ
ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ
СИСТЕМ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Подписано в печать 10.10.05. Формат бумаги 60x84 1/16.
Бумага газетная. Печать трафаретная. Усл. печ. л. 1,25.
Уч.-изд. л. 1,25. Тираж 100 экз.
Рязанская государственная радиотехническая академия
390005, Рязань, ул. Гагарина, 59/1.
Редакционно-издательский центр РГРТА.
IS 21140
РНБ Русский фонд
2006-4
22589
и
Документ
Категория
Без категории
Просмотров
1
Размер файла
968 Кб
Теги
bd000102530
1/--страниц
Пожаловаться на содержимое документа