Статистика государственных финансов
Правила переоформления студенческих работ
Требования к оформлению студенческих работ

Система Deductor Warehouse

ГлавнаяИнформатикаБазы данных и экспертные системы
ДисциплинаБазы данных и экспертные системы
ВУЗМГУ

Содержание

Лабораторная работа 1 
Создание хранилища данных и загрузка данных
Цель работы: Приобретение практических навыков по созданию хранилища данных Deductor Warehouse, собирающего информацию из разнородных источников, импорту данных и настройке параметров хранилища.
Задание: 
1)	Подготовить исходные таблицы данных в формате допустимом для импорта в аналитическую платформу Deductor, заполнив их тестовыми значениями.
2)	Выполнить импорт всех таблиц в аналитическую платформу.
3)	Выполнить отображение информации в виде таблицы, статистики, диаграммы, гистограммы.
4)	Создать локальное хранилище данных, включив в него все таблицы.
5)	Создать отчеты по всем таблицам. 
6)	Продемонстрировать проект преподавателю и защитить работу.
Краткая теория и методические указания
Мастер импорта
Мастер импорта системы Deductor Studio поможет в интерактивном пошаговом режиме выбрать тип источника данных и настроить соответствующие параметры. На первом шаге Мастера импорта открывается список всех предусмотренных в системе типов источников данных, сгруппированных по способу доступа к данным.
Для анализа необходимо получить табличные данные из стороннего источника. Природа источника данных значения не имеет. Поддерживаются следующие типы источников:
	Хранилище данных Deductor Warehouse.
	Текстовый файл с разделителями.
	Microsoft Excel.
	Microsoft Access.
	dBase.
	CSV-файлы.
	1С: Предприятие.
	Промышленные СУБД (Oracle, MS SQL).
	ADO источники данных.
	ODBC источники данных.
Выбор источника  исходных данных
Для вызова Мастера импорта можно воспользоваться кнопкой «Мастер импорта» на панели инструментов «Сценарии» или выбрав соответствующую команду из контекстного меню.
Из доступных источников щелчком мыши следует выбрать один из следующих: 
1)	Deductor Warehouse – для осуществления импорта данных из хранилища данных платформы Deductor;
2)	Бизнес-приложение – для выполнения импорта данных из учетной системы 1С:Предприятие;
3)	Базы данных – для загрузки данных из баз данных различных типов;
4)	Прямой доступ к файлам – для доступа к данным, находящимся в текстовом файле с разделителями или в файле плоских баз данных типа DBF, который поддерживается такими приложениями как dBase, FoxBase, FoxPro;
5)	Механизм MS ADO – для обеспечения импорта данных из:
	книга Microsoft Excel (*.xls);  
	файл СУБД Microsoft Access (*.mdb);  
	доступ через ADO к файлам плоских баз данных типа DBF, который поддерживается такими приложениями как dBase, FoxBase, FoxPro;  
	текстовый файл с разделителями, доступ к которому производится через механизм ADO;
	импорт данных непосредственно с помощью системных настроек механизма ADO.  
Число шагов Мастера импорта, а также набор настраиваемых параметров различен для разных типов источников. На каждом шаге Мастера импорта доступны кнопки «Далее» и «Назад», которые соответственно позволяют перейти к следующему шагу или вернуться на предыдущий шаг для внесения изменений в ранее настроенные параметры. Кнопка «Отмена» позволит отказаться от использования Мастера импорта.
Импортировать данные из выбранного файла можно двумя способами – из отдельной таблицы путем открытия файла, или с помощью SQL-запроса. Чтобы выбрать один из способов, нужно активизировать соответствующий пункт. 
Если выбрать пункт «Запрос к базе данных», то в нижней части окна станет доступным поле, в которое следует ввести текст SQL-запроса.
После настройки параметров импорта запускается сам процесс импорта данных.
Настройка параметров столбцов
На данном шаге нужно настроить следующие параметры столбцов импортируемых данных, указав соответствующие значения в полях: 
1)	Имя столбца – отображается имя столбца, т.е. его идентификатор, используемый в базе данных. Изменить имя столбца здесь нельзя;
2)	Метка столбца – указывается название (метка), под которым данный столбец будет виден в таблице, кросс-таблице или на диаграмме после импорта. Желательно, чтобы оно отражало содержание столбца;
3)	Размер – указывается ширина столбца в символах;
4)	Тип данных – указывается тип данных, содержащихся в столбце. Он также задается в базе данных, и изменить его здесь нельзя;
5)	Вид данных – указывается вид данных, дискретный или непрерывный. Изменить здесь его нельзя;
6)	Назначение – определяет порядок использования столбца при дальнейшей обработке импортированных данных: 
	неиспользуемое – запрещает использование поля в обработке данных и исключает его из выходного набора. В отличие от непригодного поля, такие поля в принципе могут использоваться, просто в этом нет необходимости;  
	используемое – поле будет использоваться в процедурах обработки данных;
	непригодное – данные в поле не пригодны для обработки;  
	входное – поле таблицы, построенное на основе столбца, будет являться входным полем обработчика (нейронной сети, дерева решений и т.д.);
	выходное – поле таблицы, построенное на основе столбца, будет являться выходным полем обработчика (например, целевым полем для обучения нейронной сети);
	информационное – поле содержит вспомогательную информацию, которую часто полезно отображать, но не следует использовать при обработке;  
	измерение – поле будет использоваться в качестве измерения в многомерной модели данных;  
	свойство – поле содержит описание свойств или параметров некоторого объекта;  
	факты – значения поля будут использованы в качестве фактов в многомерной модели данных;  
	транзакция – поле, содержащее идентификатор событий, происходящих совместно (одновременно). Например, номер чека, по которому приобретены товары. Тогда покупка товара – это событие, а их совместное приобретение по одному чеку – транзакция; 
	элемент – поле, содержащее элемент транзакции (событие).  
Способы отображения данных
Для представления информации необходимо выбрать, в каком виде будут отображены импортированные данные. Для выборки данных, полученных в результате импорта из различных источников, доступны следующие виды отображения: 
	Таблица. В таблице каждое поле выборки данных размещается в отдельном столбце. Столбцы озаглавлены метками полей, а если метка не была задана, то именами полей. Ширину столбцов можно менять.
	Статистика. В данном варианте представления будет отображаться набор основных статистических характеристик выборки данных текущей ветви сценария обработки (минимум, максимум, среднее, стандартное отклонение, сумма, сумма квадратов, количество уникальных значений, количество пустых значений).
	 Диаграмма. При работе с диаграммой предусмотрена возможность увеличения масштаба просмотра всей диаграммы или ее произвольной области, а также доступен широкий набор различных действий и настроек, вызываемых с помощью кнопок на панели инструментов в окне диаграммы или в контекстном меню, вызываемом для поля диаграммы.
	Гистограмма. Действия при работе с гистограммой аналогичны действиям, выполняемым над диаграммой.
	Куб. Куб представляет собой один из распространенных методов комплексного многомерного анализа данных, получивших название OLAP (On-Line Analyzing Process). В его основе лежит представление данных в виде многомерных кубов, называемых также OLAP-кубами или гиперкубами. По осям многомерной системы координат откладываются те или иные параметры анализируемого бизнес-процесса.
	Описание. Позволяет просмотреть все параметры, с которыми был выполнен тот или иной процесс преобразования данных, в результате которого была сформирована новая выборка: импорт, обработка одним из методов или экспорт. Такими параметрами являются: время и длительность выполняемого процесса, условия остановки, наличие первичного ключа, ограничители столбцов, разделители целой и дробной частей чисел, элементов даты и т.д. В описании все параметры представлены компактно и наглядно, что позволяет оперативно анализировать текущие настройки и искать ошибки. Предусмотрено два вида представления описания: в виде дерева и текстовый. По умолчанию устанавливается вид дерева.
Отчеты
Панель «Отчеты» предусмотрена для того, чтобы конечный пользователь мог легко получить нужную информацию, даже не обладая специальными знаниями в области обработки данных и навыками работы в пакете Deductor. Пользователю достаточно просто выбрать нужный отчет и он будет автоматически сформирован по соответствующему сценарию. 
Отчеты также представлены в виде древовидного иерархического списка, каждым узлом которого является отдельный отчет или папка, содержащая несколько отчетов. 
Чтобы добавить новый отчет нужно щелкнуть по кнопке «Добавить узел» или выбрать соответствующую команду из контекстного меню. В результате откроется окно «Выбор узла», в котором следует выделить узел дерева сценария, где содержится нужная выборка данных и щелкнуть по кнопке «Выбрать». Следует отметить, что операция добавления нового отчета доступна только если выделена папка или корневой пункт «Отчеты» списка отчетов. Если выделить узел, содержащий отдельный отчет, команда создания нового отчета будет недоступна.
Чтобы добавить новую папку нужно щелкнуть по кнопке «Добавить папку» или выбрать соответствующую команду в контекстном меню. В результате в списке отчетов появится новая папка с открытым полем имени, куда следует ввести имя папки. После ввода имени для его сохранения щелкнуть по любому узлу списка. Чтобы поместить отчет в папку, нужно перед вызовом команды «Добавить узел», выделить эту папку.
Создание файла хранилища и организация доступа к нему
Для создания и подключения хранилища данных необходимо выполнить следующие шаги. 
1) В меню «Вид» выбрать команду «Источники данных». В результате будет открыта панель «Источники данных».  
2) Вызвать контекстное меню щелчком правой кнопки мыши в любом месте панели «Источники данных» и из списка «Хранилище данных» выбрать команду «Создать локальное хранилище данных». В результате будет открыто окно настройки параметров для создания хранилища. В этом окне в поле «Файл базы данных» следует ввести имя файла, в котором должно быть создано новое хранилище. В полях «Имя» и «Метка» можно указать уникальный идентификатор и описание хранилища. Все эти действия можно проделать и в дальнейшем, в редакторе параметров источника данных.  
После выполнения указанных действий, выбранный файл хранилища будет отображен в качестве узла ветви «Хранилище данных» панели «Источники данных». Для выделенного узла можно редактировать параметры подключения, вызвав окно редакторов параметров с помощью пункта всплывающего меню «Показать». Для хранилища данных доступны просмотр и редактирование следующих настроек:
1)	«Имя» – текстовое имя, под которым источник данных будет появляться в Мастерах импорта и экспорта данных. Это имя должно быть уникально в пределах одного типа источников. 
2)	«Описание» – пользовательское текстовое описание источника данных, содержащее любую дополнительную информацию.  
3)	«Описание поставщика» – текстовая строка с именем поставщика данных. Это поле не может быть изменено.  
4)	«Хранилище данных»:  
а)	«Версия» – версия подключаемого хранилища, не может быть изменено, для внутреннего использования.  
б)	«База данных» – здесь указываются параметры подключения к базе данных поставщика. Так как любой источник представляется в виде БД, то эти поля есть у всех источников данных:  
	«База данных» – путь к файлу базы данных или имя базы данных; если файл подключаемого хранилища находится на носителе удаленного компьютера (т.е. доступного только через сеть), то нужно установить пункт «Удаленное», в поле «Сервер» ввести сетевое имя удаленного компьютера, а в списке «Протокол», выбрать используемый сетевой протокол. Если файл подключаемого хранилища расположен на дисках локального компьютера, то нужно установить пункт «Локальное».  
	«Кодовая страница» – используемая кодировка для хранения строковой информации;  
	«Логин/Пароль» – имя пользователя и пароль для доступа к базе данных;  
	«Спрашивать логин/пароль при подключении» – при каждом подключении к хранилищу будет выводиться диалоговое окно с запросом имени пользователя и пароля;  
	«Сохранять пароль» – при снятом флаге при каждом подключении к базе данных у пользователя будет запрашиваться пароль. Если флаг установлен, то указанный в поле «Логин/Пароль» пароль будет сохранен в зашифрованном виде в файле настроек, и запрашиваться больше не будет.
Контрольные вопросы
1)	Какие источники данных могут использоваться для создания хранилища данных?
2)	С какой целью создается многомерное хранилище данных?
3)	Какая структура данных называется процессом, что он описывает?
4)	Какие данные называются измерениями, а какие свойствами?
5)	Поясните порядок создания отчета.
6)	Каким образом обеспечивается доступ к хранилищу данных?