Статистика государственных финансов
Правила переоформления студенческих работ
Требования к оформлению студенческих работ

Предварительный анализ данных в Deductor 4

ГлавнаяИнформатикаБазы данных и экспертные системы
ДисциплинаБазы данных и экспертные системы
ВУЗМГУ

Содержание

Лабораторная работа 3 
Предварительный анализ данных
Цель работы: Освоение основных методов и способов предварительного анализа при подготовке их к аналитической обработке, приобретение практических навыков по использованию инструментария Deductor 4 по корреляционному, факторному анализу, фильтрации данных.
Задание: 
1)	Для таблицы, содержащей зависимые столбцы с числовыми данными разработать и включить в систему сценарии понижения размерного пространства факторов.
2)	Для наборов данных - процессов разработать и включить в систему сценарии корреляционного анализа основных полей - факторов.
3)	Для наборов данных процессов разработать и включить в систему сценарии фильтрации данных по времени (например, за последний год, за последний месяц).
4)	Создать отчеты по всем разработанным сценариям.
5)	Продемонстрировать проект преподавателю и защитить работу.
Краткая теория и методические указания
Факторный анализ
Цель факторного анализа заключается в понижении размерности пространства факторов. Понижение размерности необходимо в случаях, когда входные факторы коррелированны друг с другом, т.е. взаимозависимы. В факторном анализе речь идет о выделении из множества измеряемых характеристик объекта новых факторов, более адекватно отражающих свойства объекта. 
Первым этапом факторного анализа является выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости входных факторов. Поэтому они содержат большую часть информации, заключенной в первоначальных данных.
В нашем примере подходящей является таблица продаж, где стоимость определенного товара зависит от количества. 
В обработчике «Факторный анализ» это осуществляется с помощью метода главных компонент. Этот метод сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив данных имеет наибольший разброс. Выбор каждой последующей главной компоненты происходит так, чтобы разброс данных вдоль нее был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным прежде. 
Обычно факторы, полученные методом главных компонент, не поддаются достаточно наглядной интерпретации. Поэтому следующим шагом факторного анализа служит преобразование (вращение) факторов таким образом, чтобы облегчить их интерпретацию.
Поле может быть использовано в факторном анализе, если выполнено несколько условий: 
	оно имеет числовой тип данных;  
	в нем не содержатся пропуски;  
	стандартное отклонение столбца не равно нулю, то есть в столбце содержатся различные значения.  
В противном случае, поле будет автоматически помечено как непригодное. 
Для понижения размерности пространства факторов необходимо наличие хотя бы двух входных полей.
Если выделить в списке непрерывное (числовое) поле, для него будет отображен набор основных статистических характеристик в секции «Статистика» – минимальное, максимально и среднее значения, а также стандартное отклонение. Если выделенное поле является дискретным, т.е. принимающим конечное число значений, для него в секции «Уникальных значений» будет указано количество уникальных значений в данном поле, а также список самих уникальных значений.
Корреляционный анализ
Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.
На предыдущем шаге обработки были рассчитаны значения функции корреляции между каждым входным и каждым выходным столбцами. Эти значения отображаются в таблице в центре окна. На пересечении строки с именем входного поля и столбца с именем выходного поля находится значение рассчитанной между ними корреляции. 
Исключение незначащих факторов производится на основании рассчитанной корреляции. Возможны два варианта принятия решения, определяемых выбором соответствующего пункта в нижней части окна: 
	при ручном выборе незначащих факторов нужно отметить галочками те столбцы, которые будут включены в выходной набор, и снять пометки напротив тех столбцов, которые надо исключить из набора;  
	в автоматическом режиме становится активной полоса «Порог значимости». Передвигая по ней ползунок, можно задать необходимый уровень значимости. Столбцы, у которых максимальное из рассчитанных значений корреляции меньше порога значимости, будут исключены из выходного набора. Рекомендуемые значения порога значимости выделены синим цветом.  
В выходной набор попадут информационные поля, столбцы, отмеченные на этом шаге, и все выходные столбцы.
Фильтрация данных
С помощью операции фильтрации можно оставить в таблице только те записи, которые удовлетворяют заданным условиям, а остальные удалить.
Параметры фильтрации задаются в виде списка условий, который содержит следующие столбцы: 
1)	Операция – позволяет установить функцию отношения «И» или «ИЛИ» между полями, для каждого из которых выполняется фильтрация. Возможна фильтрация по нескольким условиям для нескольких полей одновременно. В результате фильтрации по каждому из полей или условий будет получено отдельное множество значений. Тогда функция из поля «Операция» устанавливает отношение между этими множествами. Если используется отношение «И», то в результирующий набор будут включены записи, удовлетворяющие условиям фильтрации по обоим полям. При использовании отношения «ИЛИ» в выходной набор включаются записи, удовлетворяющие хотя бы одному из условий.  Установка отношений возможна, только если настроены два или более условий фильтрации. Для этого следует выполнить двойной щелчок в столбце «Операция» для соответствующего условия и из списка выбрать нужную функцию отношения. По умолчанию устанавливается отношение «И».  
2)	Имя поля – позволяет выбрать поле, по значениям которого должна быть выполнена фильтрация. Для этого надо дважды щелкнуть в столбце «Имя поля» и с помощью кнопки  открыть список полей текущей выборки, из которого выбрать нужное поле. Одно и то же поле может быть использовано в нескольких условиях.  
3)	Условие – указывается условие, по которому нужно выполнять фильтрацию для данного поля. Для выбора условия достаточно дважды щелкнуть мышью в соответствующей ячейке и в списке условий, открываемом кнопкой, выделить нужное условие. Доступны следующие условия фильтрации:  
	«=» (равно), «<» (меньше), «<=» (меньше или равно), «>» (больше), «>=» (больше или равно), «<>» (не равно) – отбираются только те записи, значения которых в данном поле соответственно равны содержимому столбца «Значение», меньше, меньше или равны, больше, больше или равны, не равны ему.  
	«пустой» – отбираются только те записи, для которых в данном поле содержится пустое значение. В этом случае поле «Значение» не используется.  
	«не пустой» – отбираются только те записи, для которых в данном поле не содержится пустое значение. В этом случае поле «Значение» не используется.  
	«в интервале», «вне интервала» – отбираются только те записи, значения которых в данном столбце лежат в выбранном диапазоне (вне выбранного диапазона), то есть между (не между) верхней и нижней границами.  
	«в списке», «вне списка» – отбираются только те записи, которые в данном столбце лежат в выбранном списке (вне выбранного списка).  
	«содержит», «не содержит» – отбираются только строки, содержащие (не содержащие) указанную подстроку.  
	«начинается на», «не начинается на» – для строковых полей отбираются записи, значения которых в данном столбце начинаются (не начинаются) на введенную последовательность символов.  
	«заканчивается на», «не заканчивается на» – для строковых полей отбираются записи, значения которых в данном столбце заканчиваются (не заканчиваются) на введенную последовательность символов.  
	«первый», «не первый» – для полей типа «Дата/время» – по данному полю отбираются первые (не первые) N периодов от выбранной даты. Периодом может быть день, неделя, месяц, квартал, год. Например, если выбрать условие «первые 3 дня от 29.11.2004», то будут отобраны записи, в которых значение данного поля равно «29.11.2004», «30.11.2004», «01.12.2004».  
	«последний», «не последний» – для полей типа «Дата/время» – по данному полю отбираются последние (не последние) N периодов от выбранной даты. Периодом может быть день, неделя, месяц, квартал, год. Например, если выбрать условие «последние 3 дня от 29.11.2004», то будут отобраны записи, в которых значение данного поля равно «29.11.2004», «28.11.2004», «27.11.2004».  
4)	Значение – значение, по которому будет производиться фильтрация записей в соответствии с заданным условием. Способ ввода значения будет различным в зависимости от типа данных и условия. Допустим, в качестве условия выбрана операция отношения «=», «<>», «>» и т.д. Если данные в поле являются непрерывными (т.е. числовыми), то достаточно дважды щелкнуть мышью в соответствующей ячейке, чтобы появился курсор, затем ввести значение (число). Если поле, по которому выполняется фильтрация, имеет тип «строка» (т.е. является дискретным), то в результате двойного щелчка в столбце «Значение» появится кнопка выбора, которая откроет окно «Список уникальных значений», где будут отображены все уникальные значения поля и их количество. Чтобы выбрать значение для условия отбора достаточно выделить его и щелкнуть «Ok», либо просто выполнить двойной щелчок. Если выбрано условие «между» или «не между», тогда при нажатии кнопки выбора (справа от поля) откроется окно, в котором необходимо выбрать верхнюю и нижнюю границы интервала. Если выбрано условие «в списке» или «вне списка», тогда по кнопке выбора откроется окно, в котором необходимо выбрать список значений, установив галочки рядом с необходимыми значениями из списка. Если выбрано условие «первый», «не первый», «последний», «не последний», тогда по кнопке выбора откроется окно, где необходимо указать дату, от которой вести отсчет, тип периода и количество периодов. Дата может быть текущей, от имеющихся данных, либо дата, указанная вручную. Дата от имеющихся данных означает либо минимальную дату во всем наборе исходных значений обработчика (если выбрано условие «первый», «не первый»), либо максимальную (если выбрано условие «последний», «не последний»). 
Изначально в окне настройки фильтрации появляется новая строка с пустым условием. Чтобы ввести новое условие фильтрации нужно щелкнуть по кнопке  на панели инструментов, расположенной справа от списка условий. При этом в окне появится новая пустая строка, в которой необходимо последовательно задать операцию отношения (кроме первой строки), имя поля, само условие и значение для отбора. Если хотя бы один из параметров задан не будет, при попытке перейти на следующий шаг Мастера обработки, будет выдано сообщение об ошибке с указанием строки, в которой она была допущена. Для работы с уже введенными условиями можно использовать следующие кнопки (условие, в строке которого находится курсор или маркер является текущим): 
	перемещает текущее условие на одну позицию вверх по списку;  
	перемещает текущее условие на одну позицию вниз по списку;  
	удаляет текущее условие;  
	очищает список условий.  
По мере заполнения списка условий, в правой нижней части окна отображается общее выражение, описывающее параметры фильтрации. Установка флажка «Учитывать регистр» позволяет учитывать регистр при отборе записей по значению.
Контрольные вопросы
1)	Поясните основные цели и назначение факторного и корреляционного анализа в предварительном анализе данных.
2)	Для каких целей используется порог значимости? Каковы основные критерии его выбора?
3)	Каким образом фильтрацию данных можно использовать для исключения записей, содержащих пропуски?
4)	Каким должно быть количество входных и выходных полей при проведении факторного и корреляционного анализа?
5)	Каким образом осуществляется настройка составных условий при фильтрации данных?