Разбиение набора данных

С помощью разбиения производится попытка выявить скрытые популяции данных, если исследуемый образец составлен из данных, извлечённых из ряда нормально или лог-нормально распределённых популяций. Набор данных, извлечённый из нормально распределённой популяции, на графике вероятности примет форму прямой линии. (Если он наносится из логнормального распределения, он образует прямую линию на логнормально (Ln) преобразованном графике вероятности, проще говоря, на логнормальном графике вероятности.)

К примеру, если образцы почв были отобраны с различных типов пород, распределение данных обычно находится под влиянием этих пород. Графики вероятности подобных наборов данных могут демонстрировать несколько участков прямых линий, разделённых точками перегибов (участки искривления). Похожие черты могут наблюдаться в данных структурно-контролируемых месторождений. На таких месторождениях оруденение происходит вдоль линии разлома. Впоследствии, минерализованный материал может быть перенесён вновь с концентрацией вдоль разломов меньшего порядка.

Конец одной популяции и начало следующей будет наблюдаться как “прерывание” в данных. Как правило, эти прерывания выглядят на графике вероятности как зазубрины или изломы.

Выше описывается то, каким образом данные появляются в Графике вероятности. Опция Разбить также доступна для работы, если график - это гистограмма или кривая накопленной частоты. Изменив режим просмотра (в панели инструментов График) с Графика вероятности на Гистограмму или График накопленной частоты, вы можете увидеть, как одинаковые характеристики отображаются для каждого типа графика.

Чтобы разбить данные на популяции:

  1. Щелкните по опции Разбить (из выпадающего меню в панели инструментов График) и выберите количество компонентов, на которое вы хотите разбить диаграмму.
  1. Нажмите ОК.
  2. В области просмотра Графика нажмите на каждую точку разрыва, то есть на точки между популяциями. Вам необходимо самостоятельно решить, где они находятся.
  3. После того как на экране появится окно Параметры популяции, нажмите кнопку Оптимизировать, чтобы просмотреть результат.

Параметры популяции

Для каждой популяции отображается среднее, стандартное отклонение и проценты. Эти параметры можно редактировать. Часто, когда делается выбор популяции с использованием точек ступеней в нижней части графика вероятности, происходит завышение среднего. (В верхней части, наоборот - занижение.)

Факторы

Вы можете изменить число факторов, используемых функцией Разбиение, выбрав опцию в колонке Факторы. Если вы увеличите количество факторов, вам необходимо будет ввести новое среднее, стандартное отклонение и процент для дополнительных факторов.

Среднее

Каждое из пяти полей среднего в диалоговом окне Разбиение показывает среднее одной из популяций. Поля ввода будут активны только для заданного количества популяций. Указание этих значений изменит форму линии декомпозиции.

Если данные логнормально преобразованы (Ln), значения будут средними логнормально преобразованных значений.

Стандартное отклонение (SD)

Каждое из пяти полей стандартных отклонений (популяция) во вкладке Анализ диалогового окна Гистограммы отображает Стандартное отклонение (SD) одной из популяций.

SD - стандартное отклонение Логнормальных значений, если данные были логнормально преобразованы (Ln)

Процент %

Поля % показывают процент измерений в наборе данных, используемом для оценки среднего и стандартного отклонения популяции. Поля ввода будут активны только для заданного количества популяций.

Если вы подобрали значение среднего и выбрали Запустить, линия декомпозиции на графике будет перемещена, чтобы показать изменение среднего.

Разрыв

На экране будут отображаться значения полей, связанных с точками разрыва, которые вы задали.

Качество подгонки

Статистика теста Хи-квадрат (Хи-квадрат) обновляется каждый раз, когда вы загружаете, создаете или настраиваете разбиение. Вы можете использовать это число для оценки качества подгонки модели и данных. Цель этого теста - минимизировать число Хи-квадрат, что является очень удобным, если вы сравниваете разные версии одной и той же модели. Более тщательной проверкой будет сравнить р-значение с уровнем значимости вашего выбора (например 0,05 или 5%); если р-значение больше, чем уровень значимости, вы можете принять то, что модель соответствует данным.

Опции набора цветов

После того как гистограмма была разбита, а набор цветов был определен (см. ниже), вы можете применить цвета к графику:

Запустить

Нажмите на кнопку Запустить, чтобы разбить данные с использованием заданных вами параметров. На графике прорисовывается линия, разделяющая разложенные данные. Если вы выбрали Показать популяции во вкладке Анализ диалогового окна Гистограммы, также будут отображаться графики отдельных популяций.

При работе с графиком вероятности вы увидите, как линии этих отдельных популяций будут рассеяны по графику. Каждая линия отдельной популяции показывает вероятность нахождения пробы любого другого значения на графике вероятности, при условии, что данные происходят из распределения (нормального или логнормального) со средним и стандартным отклонением. Просмотр этих же данных на гистограмме даст лучшую (видимую) корреляцию точек на графике.

Оптимизировать

Функция оптимизации делает попытку вписать разложенную кривую в фактический график, используя алгоритм наименьших квадратов. Эта опция не гарантирует достижения наилучшего результата, и вам, вероятно, понадобится произвести несколько попыток подгонки, корректируя среднее значение каждой популяции.

При использовании параметров разбиения нет необходимости запускать функцию Оптимизации.

Набор цветов

Нажмите на кнопку Набор цветов, чтобы редактировать набор цветов на основании разбиения данных. Смотрите: Создание наборов цветов с использованием разбиения на популяции

Формы

Нажмите на кнопку Формы, чтобы выбрать и открыть сохраненный набор форм или, если набор форм был загружен, сохранить текущий набор форм.

Значок ссылки на концепциюСм. также