), и др. Более того, появление быстрых современных компьютеров и свободного программного обеспечения (вроде R) сделало все эти требующие вычислительных ресурсов методы доступными практически для каждого исследователя. Однако такая доступность еще больше обостряет хорошо известную проблему всех статистических методов, которую на английском языке часто описывают как "rubbish in, rubbish out ", т.е. "мусор на входе - мусор на выходе". Речь здесь идет о следующем: чудес не бывает, и если мы не будем уделять должного внимания тому, как тот или иной метод работает и какие требования предъявляет к анализируемым данным, то получаемые с его помощью результаты нельзя будет воспринимать всерьез. Поэтому каждый раз исследователю следует начинать свою работу с тщательного ознакомления со свойствами полученных данных и проверки необходимых условий применимости соответствующих статистических методов. Этот начальный этап анализа называют разведочным (Exploratory Data Analysis ).

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). Два года назад в журнале Methods in Ecology and Evolution была опубликована отличная статья, в которой эти рекомендации сведены в единый протокол по выполнению РДА: Zuur A. F., Ieno E. N., Elphick C. S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1(1): 3-14 . Несмотря на то, что статья написана для биологов (в частности, для экологов), изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. В этом и последующих сообщениях блога я приведу выдержки из работы Zuur et al. (2010) и опишу предложенный авторами РДА-протокол. Подобно тому, как это сделано в оригинальной статье, описание отдельных шагов протокола будет сопровождаться краткими рекомендациями по использованию соответствующих функций и пакетов системы R.

Предлагаемый протокол включает следующие основные элементы:

  1. Формулировка исследовательской гипотезы. Выполнение экспериментов/наблюдений для сбора данных.
  2. Разведочный анализ данных:
    • Выявление точек-выборосов
    • Проверка однородности дисперсий
    • Проверка нормальности распределения данных
    • Выявление избыточного количества нулевых значений
    • Выявление коллинеарных переменных
    • Выявление характера связи между анализируемыми переменными
    • Выявление взаимодействий между переменными-предикторами
    • Выявление пространственно-временных корреляций среди значений зависимой переменной
  3. Применение соответствующего ситуации статистического метода (модели).

Zuur et al. (2010) отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические тесты.

Рассмотрение приведенного РДА-протокола начнем с выявления точек-выбросов . Чувствительность разных статистических методов к наличию выбросов в данных неодинакова. Так, при использовании обобщенной линейной модели для анализа зависимой переменной, распределенной по закону Пуассона (например, количество случаев какого-либо заболевания в разных городах), наличие выбросов может вызвать избыточную дисперсию, что сделает модель неприменимой. В то же время при использовании непараметрического многомерного шкалирования , основанного на индексе Жаккара , все исходные данные переводятся в номинальную шкалу с двумя значениями (1/0), и наличие выбросов никак не сказывается на результат анализа. Исследователь должен четко понимать эти различия между разными методами и при необходимости выполнять проверку на наличие выборосов в данных. Дадим рабочее определение: под "выбросом" мы будем понимать наблюдение, которое "слишком" велико или "слишком" мало по сравнению с большинством других имеющихся наблюдений.

Обычно для выявления выбросов используют диаграммы размахов . В R при построении диаграмм размахов используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР). Верхний "ус" простирается от верхней границы "ящика" до наибольшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Аналогично, нижний "ус" простирается от нижней границы "ящика" до наименьшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Наблюдения, находящиеся за пределами "усов", рассматриваются как потенциальные выбросы (Рисунок 1).

Рисунок 1. Строение диаграммы размахов.

Примеры функций из R, служащих для построения диаграмм размахов:
  • Базовая функция boxplot() (подробнее см. ).
  • Пакет ggplot2 : геометрический объект ("geom ") boxplot . Например:
    p <- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Другим очень полезным, но, к сожалению, недостаточно используемым графическим средством выявления выборосов является точечная диаграмма Кливленда . На таком графике по оси ординат откладывают порядковые номера отдельных наблюдений, а по оси абсцисс - значения этих наблюдений. Наблюдения, "значительно" выделяющиеся из основного облака точек, потенциально могут быть выбросами (Рисунок 2).

Рисунок 2. Точечная диаграмма Кливленда, изображающая данные о длине крыла у 1295 воробьев (Zuur et al. 2010) . В этом примере данные предварительно были упорядочены в соответствии с весом птиц, и поэтому облако точек имеет примерно S-образную форму.


На Рисунке 2 хорошо выделяется точка, соответствующая длине крыла 68 мм. Однако это значение длины крыла не следует рассматривать в качестве выброса, поскольку оно лишь незначительно отличается от других значений длины. Эта точка выделяется на общем фоне лишь потому, что исходные значения длины крыла были упорядочены по весу птиц. Соответственно, выброс скорее стоит искать среди значений веса (т.е. очень высокое значение длины крыла (68 мм) было отмечено у необычно мало весящего для этого воробья).

До этого момента мы называли "выбросом" наблюдение, которое "значительно" отличается от большинства других наблюдений в исследуемой совокупности. Однако более строгий подход к определению выбросов состоит в оценке того, какое влияние эти необычные наблюдения оказывают на результаты анализа. При этом следует делать различие между необычными наблюдениями для зависимых и независимых переменных (предикторов). Например, при изучении зависимости численности какого-либо биологического вида от температуры большинство значений температуры может лежать в пределах от 15 до 20 °С, и лишь одно значение может оказаться равным 25 °С. Такой план эксперимента, мягко говоря, неидеален, поскольку диапазон температур от 20 до 25 °С будет исследован неравномерно. Однако при проведении реальных полевых исследований возможность выполнить измерения для высокой температуры может представиться только однажды. Что же тогда делать с этим необычным измерением, выполненным при 25 °С? При большом объеме наблюдений подобные редкие наблюдения можно исключить из анализа. Однако при относительно небольшом объеме данных еще большее его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. Если удаление необычных значений предиктора по тем или иным причинам не представляется возможным, помочь может определенное преобразование этого предиктора (например, логарифмирование).

С необычными значениями зависимой переменной "бороться" сложнее, особенно при построении регрессионных моделей. Преобразование путем, например, логарифмирования, может помочь, но поскольку зависимая переменная представляет особый интерес при построении регрессионных моделей, лучше попытаться подобрать метод анализа, который основан на распределении вероятностей , допускающем больший разброс значений для больших средних величин (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). Такой подход позволит работать с исходными значениями зависимой переменной.

В конечном счете решение об удалении необычных значений из анализа принимает сам исследователь. При этом он должен помнить о том, что причины для возникновения таких наблюдений могут быть разными. Так, удаление выбросов, возникших из-за неудачного планирования эксперимента (см. выше пример с температурой), может быть вполне оправданным. Оправданным будет также удаление выбросов, явно возникших из-за ошибок при выполнении измерений. В то же время необычные наблюдения среди значений зависимой переменной могут потребовать более тонкого подхода, особенно если они отражают естественную вариабельность этой переменной. В этой связи важно вести подробное документирование условий, при которых происходит экспериментальная часть исследования - это может помочь интерпретировать "выбросы" в ходе анализа данных. Независимо от причин возникновения необычных наблюдений, в итоговом научном отчете (например, в статье) важно сообщить читателю как о самом факте выявления таких наблюдений, так и о принятых в их отношении мерах.

1. Понятие интеллектуального анализа данных. Методы Data Mining.

Ответ: Интеллектуальный анализ данных (англ. Data Mining) - выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

2. Понятие разведочного анализа данных. В чем отличие процедуры Data Mining от методов классического статистического анализа данных?

Ответ: Разведочных анализ данных (РАД) применяется для нахождения систематических связей между переменными в ситуациях, когда отсутствуют (или имеются недостаточные) априорные представления о природе этих связей

Традиционные методы анализа данных в основном ориентированы на проверку заранее сформулированных гипотез и на "грубый" разведочный анализ, в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.

3. Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных.

Ответ: С помощью графических методов можно находить зависимости, тренды и смещения, "скрытые" в неструктурированных наборах данных.

Средства Statistica для проведения графического разведочного анализа: категоризованные радиальные диаграммы, гистограммы (2D и 3D).

Ответ: Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, круговые диаграммы), по одному графику для каждой выбранной категории (подмножества) наблюдений.

5. Какую информацию о природе данных можно получить при анализе диаграмм рассеяния и категоризованных диаграмм рассеяния?

Ответ: Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных (например, прибыль и фонд заработной платы), поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции.

6. Какую информацию о природе данных можно получить на основе анализа гистограмм и категоризованных гистограмм?

Ответ: Гистограммы используются для изучения распределений частот значений переменных. Такое частотное распределение показывает, какие именно конкретные значения или диапазоны значений исследуемой переменной встречаются наиболее часто, насколько различаются эти значения, расположено ли большинство наблюдений около среднего значения, является распределение симметричным или асимметричным, многомодальным (т.е. имеет две или более вершины) или одномодальным и т.д. Гистограммы также используются для сравнения наблюдаемых и теоретических или ожидаемых распределений.

Категоризованные гистограммы представляют собой наборы гистограмм, соответствующих различным значениям одной или нескольких категоризующих переменных или наборам логических условий категоризации.

7. Чем принципиально отличаются категоризованные графики от матричных графиков в системе Statistica?

Ответ: Матричные графики также состоят из нескольких графиков; однако здесь каждый из них основывается (или может основываться) на одном и том же множестве наблюдений, и графики строятся для всех комбинаций переменных из одного или двух списков. Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

8. В чем достоинства и недостатки графических методов разведочного анализа данных?

Ответ: + Наглядность и простота.

- Методы дают приближенные значения.

9. Какие аналитические методы первичного разведочного анализа данных вы знаете?

Ответ: Статистические методы, нейронные сети.

10. Как проверить гипотезу о согласии распределения выборочных данных с моделью нормального распределения в системе Statistica?

Ответ: Распределение x 2 (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Хи-квадрат - это мера различия. Задаем уровень ошибки, равный a=0,05. Соответственно, если значение p>a , то распределение оптимально.

- для проверки гипотезы о согласии распределения выборочных данных с моделью нормального распределения с помощью критерия хи-квадрат выберите пункт меню Statistics/Distribution Fittings. Затем в диалоговом окне Fitting Contentious Distribution задайте вид теоретического распределения - Normal, выберите переменную - Variables, задайте параметры анализа - Parameters.

11. Какие основные статистические характеристики количественных переменных вы знаете? Их описание и интерпретация в терминах решаемой задачи.

Ответ: Основные статистические характеристики количественных переменных:

математическое ожидание (средний объем производства среди предприятий)

медиана

среднее квадратичное отклонение (Квадратный корень из дисперсии)

дисперсия (мера разброса данной случайной величины, т.е. её отклонения от математического ожидания)

коэффициент асимметрии (Определяем смещение относительно центра симметрии по правилу: если B1>0, то смещение влево, иначе - вправо.)

коэффициента эксцесса (близость к нормальному распределению)

минимальное выборочное значение, максимальное выборочное значение,

разброс

Частный коэффициент корреляции (измеряет степень тесноты между переменными, при условии что значения остальных переменных зафиксированы на постоянном уровне).

Качественные:

Коэффициент ранговой корреляции Спирмена (используется с целью статистического изучения связи между явлениями. Изучаемые объекты упорядочиваются в отношении некоторого признака т. е. им приписываются порядковые номера - ранги.)

Литература

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: "Финансы и статистика", 1983. - 471 с.

2. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. - СПб.: Питер, 2003. - 688 с.

3. Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. - М.: "Филин", 1997. - 608 с.

4. Электронный учебник StatSoft по анализу данных.

STATISTICA предлагает широкий выбор методов разведочного статистического анализа. Система может вычислить практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики. Возможен выбор критериев для тестирования нормальности распределения (критерий Колмогорова-Смирнова, Лилиефорса, Шапиро-Уилкса). Широкий выбор графиков помогает проведению разведочного анализа.

2. Корреляции.

Этот раздел включает большое количество средств, позволяющих исследовать зависимости между переменными. Возможно вычисление практически всех общих мер зависимости, включая коэффициент корреляции Пирсона, коэффициент ранговой корреляции Спирмена, Тау (Ь,с) Кендалла, Гамма, коэффициент сопряженности признаков С и многие другие..

Корреляционные матрицы могут быть вычислены и для данных с пропусками, используя специальные методы обработки пропущенных значений.

Специальные графические возможности позволяют выбрать отдельные точки на диаграмме рассеяния и оценить их вклад в регрессионную кривую или любую другую кривую, подогнанную к данным.

3. t - критерии (и другие критерии для групповых различий).

Процедуры позволяют вычислить t-критерии для зависимых и независимых выборок, а также статистика Хоттелинга (см. также ANOVA/MANOVA).

4. Таблицы частот и таблицы кросстабуляций.

В модуле содержится обширный набор процедур, обеспечивающих табулирование непрерывных, категориальных, дихотомических переменных, переменных, полученных в результате многовариативных опросов. Вычисляются как кумулятивные, так и относительные частоты. Доступны тесты для кросстабулированных частот. Вычисляются статистики Пирсона, максимального правдоподобия, Иегс-коррекция, хи-квадрат, статистики Фишера, Макнемера и многие другие.

Модуль «Множественная регрессия»

Модуль «Множественная регрессия» включает в себя исчерпывающий набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы, а также ридж-регрессию.

Система STATISTICA позволяет вычислить всесторонний набор статистик и расширенной диагностики, включая полную регрессионную таблицу, частные и частичные корреляции и ковариации для регрессионных весов, матрицы прогонки, статистику Дарбина-Ватсона, расстояния Махаланобиса и Кука, удаленные остатки и многие другие. Анализ остатков и выбросов может быть проведен при помощи широкого набора графиков, включая разнообразные точечные графики, графики частичных корреляций и многие другие. Система прогноза позволяет пользователю выполнять анализ "что - если". Допускаются чрезвычайно большие регрессионные задачи (до 300 переменных в процедуре разведочной регрессии). STATISTICA также содержит «Модуль нелинейного оценивания», с помощью которого могут быть оценены практически любые определенные пользователем нелинейные модели, включая логит, пробит регрессию и др.

Модуль «Дисперсионный анализ». Общий ANOVA/MANOVA модуль

ANOVA/MANOVA модуль представляет собой набор процедур общего одномерного и многомерного дисперсионного и ковариационного анализа.

В модуле представлен самый широкий выбор статистических процедур для проверки основных предположений дисперсионного анализа, в частности, критерии Бартлетта, Кохрана, Хартли, Бокса и других.

Модуль «Дискриминантный анализ»

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь. Выбор критерия определяется пользователем из соображений ущерба, который он понесет из-за ошибок классификации.

Модуль дискриминантного анализа системы STATISTICA содержит полный набор процедур для множественного пошагового функционального дискриминантного анализа. STATISTICA позволяет выполнять пошаговый анализ, как вперед, так и назад, а также внутри определенного пользователем блока переменных в модели.

Модуль «Непараметрическая статистика и подгонка распределений»

Модуль содержит обширный набор непараметрических критериев согласия, в частности, критерий Колмогорова-Смирнова, ранговые критерии Манна-Уитни, Валь-да-Вольфовица, Вилкоксона и многие другие.

Все реализованные ранговые критерии доступны в случае совпадающих рангов и используют поправки для малых выборок.

Статистические процедуры модуля позволяют пользователю легко сравнить распределение наблюдаемых величин с большим количеством различных теоретических распределений. Вы можете подогнать к данным нормальное, равномерное, линейное, экспоненциальное, Гамма, логнормальное, хи-квадрат, Вейбулла, Гомпертца, биномиальное, Пуассоновское, геометрическое распределения, распределение Бернулли. Точность подгонки оценивается с помощью критерия хи-квадрат или одновыборочного критерия Колмогорова-Смирнова (параметры подгонки могут контролироваться); также поддерживаются тесты Лиллифорса и Шапиро-Уилкса.

Модуль «Факторный анализ»

Модуль факторного анализа содержит широкий набор методов и опций, снабжающих пользователя исчерпывающими средствами факторного анализа.

Он, в частности, включает в себя метод главных компонент, метод минимальных остатков, метод максимального правдоподобия и др. с расширенной диагностикой и чрезвычайно широким набором аналитических и разведочных графиков. Модуль может выполнять вычисление главных компонент общего и иерархического факторного анализа с массивом, содержащим до 300 переменных. Пространство общих факторов может быть выведено на график и просмотрено либо "ломтик за ломтиком", либо на 2- или 3-мерных диаграммах рассеяния с помеченными переменными-точками.

После того как решение определено, пользователь может пересчитать корреляционную матрицу от соответствующего числа факторов для того, чтобы оценить качество построенной модели.

Кроме того, STATISTICA содержит модуль «Многомерное шкалирование», модуль «Анализ надежности», модуль «Кластерный анализ», модуль «Лог-линейный анализ», модуль «Нелинейное оценивание», модуль «Каноническая корреляция», модуль «Анализ длительностей жизни», модуль «Анализ временных рядов и прогнозирование» и другие.

Численные результаты статистического анализа в системе STATISTICA выводятся в виде специальных электронных таблиц, которые называются таблицами вывода результатов - ScroHsheets ™. Таблицы Scrollsheet могут содержать любую информацию (как численную, так и текстовую), от короткой строчки до мегабайтов результатов. В системе STATISTICA эта информация выводится в виде последовательности (очереди), которая состоит из набора таблиц Scrollsheet и графиков.

STATISTICA содержит большое количество инструментов для удобного просмотра результатов статистического анализа и их визуализации. Они включают в себя стандартные операции по редактированию таблицы (включая операции над блоками значений, Drag-and-Drop - "Перетащить и опустить", автозаполнение блоков и др.), операции удобного просмотра (подвижные границы столбцов, разделение прокрутки в таблице и др.), доступ к основным статистикам и графическим возможностям системы STATISTICA. При выводе целого ряда результатов (например, корреляционной матрицы) STATISTICA отмечает значимые коэффициенты корреляции цветом. Пользователь так же имеет возможность выделить при помощи цвета необходимые значения в таблице Scrollsheet.

Если пользователю необходимо провести детальный статистический анализ промежуточных результатов, то можно сохранить таблицу Scrollsheet в формате файла данных STATISTICA и далее работать с ним, как с обычными данными.

Кроме вывода результатов анализа в виде отдельных окон с графиками и таблицами Scrollsheet на рабочем пространстве системы STATISTICA, в системе имеется возможность создания отчета, в окно которого может быть выведена вся эта информация. Отчет - это документ (в формате RTF), который может содержать любую текстовую или графическую информацию. В STATISTICA имеется возможность автоматического создания отчета, так называемого автоотчета. При этом любая таблица Scrollsheet или график могут автоматически быть направлены в отчет.

В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.

Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

Постановка задачи

Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать ), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация

На первом этапе выясним, формируют ли автомобили "естественные" кластеры, которые могут быть осмыслены.

Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ . В этом диалоге выберем Иерархическая классификация и нажмем OK .

Нажмем кнопку Переменные , выберем Все , в поле Объекты выберем Наблюдения (строки ). В качестве правила объединения отметим Метод полной связи , в качестве меры близости - Евклидово расстояние . Нажмем ОК .

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма .

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

Как только вы начнете двигаться вниз, автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Шаг 2. Кластеризация методом К средних

Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних .

Нажмем кнопку Переменные и выберем Все , в поле Объекты выберем Наблюдения (строки ), зададим 4 кластера разбиения.

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.

Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

Первый кластер:

Второй кластер:

Третий кластер:

Четвертый кластер:

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.

Обновлено 29.07.2008

Мои достаточно сумбурные мысли на тему применения статистических методов при обработке протеомных данных.

ПРИМЕНЕНИЕ СТАТИСТИКИ В ПРОТЕОМИКЕ

Обзор методов для анализа экспериментальных данных

Пятницкий М.А.

ГУ НИИ биомедицинской химии им. В.Н. ОреховичаРАМН

119121, Москва, Погодинская ул. д.10,

e -mail : mpyat @ bioinformatics . ru

Протеомные эксперименты требуют тщательной продуманной статистической обработки результатов. Существует несколько важных черт, характеризующих протеомные данные:

  • имеется большое количество переменных
  • сложные взаимосвязи между этими переменными. Подразумевается, что эти взаимосвязи отражают биологические факты
  • число переменных много больше числа образцов. Это очень затрудняет работу многих статистических методов

Впрочем, подобные признаки присущи и многим другим данным, полученных с помощью high-throughput технологий.

Типичными задачами протеомного эксперимента являются:

  • сравнение профилей экспрессии белков между разными группами (например, рак/норма). Обычно задачей является построение решающего правила, позволяющего отделить одну группу от другой. Также представляют интерес переменные, обладающие наибольшей дискриминаторной способностью (биомаркеры).
  • изучение взаимосвязей между белками.

Здесь я сосредоточусь в основном на применении статистики для анализа масс-спектров. Однако многое из сказанного относится и к другим типам экспериментальных данных. Здесь почти не рассматриваются сами методы (за исключением более подробного описания ROC -кривых), а скорее очень кратко обрисован арсенал методов для анализа данных и даются наметки к осмысленному его применению.

Разведочный анализ

Важнейшим шагом при работе с любым массивом данных является разведочный анализ, exploratory data analysis (EDA). На мой взгляд, это едва ли не самый главный момент при статистической обработке данных. Именно на этом этапе нужно получить представление о данных, понять какие методы лучше применять и, что более важно, каких результатов можно ожидать. В противном случае, это будет игра “вслепую” (а давайте попробуем такой-то метод), бессмысленный перебор арсенала статистики, data dredging. Статистика тем и опасна, что всегда выдаст какой-либо результат. Сейчас, когда запуск сложнейшего вычислительного метода требует всего пары щелчков мышью, это особенно актуально.

Согласно Tukey, целями разведочного анализа являются:

  • maximise insight into a data set;
  • uncover underlying structure;
  • extract important variables;
  • detect outliers and anomalies;
  • test underlying assumptions;
  • develop parsimonious models; and
  • determine optimal factor settings.

На этом этапе разумно получить как можно больше информации о данных, используя в первую очередь графические средства. Постройте гистограммы для каждой переменной. Как это не банально, взгляните на описательную статистику. Полезно посмотреть на графики рассеяния (при этом рисуя точки различными символами, индицирующими принадлежность к классам). Интереснопосмотретьнарезультаты PCA (principal component analysis) и MDS(multidimensional scaling). Итак, EDA - это в первую очередь широкое применение графической визуализации.

Перспективно применение методов projection pursuit для поиска наиболее “интересной” проекции данных. Обычно, возможна некоторая степень автоматизации этой работы (GGobi ). Произволом является выбор индекса для поиска интересных проекций.

Нормировка

Обычно, данные не являются нормально распределенными, что не удобно для статистических процедур. Часто встречается лог-нормальное распределение. Простым логарифмированием можно сделать распределение куда более приятным. Вообще не стоит недооценивать такие простые методы как логарифмирование и другие преобразования данных. На практике не раз встречаются случаи, когда после логарифмирования начинают получаться осмысленные результаты, хотя до предобработки результаты были малосодержательными (здесь пример про масс-спектрометрию вин).

Вообще, выбор нормировки - это отдельная задача, которой посвящены многие работы. Выбор метода предобработки и шкалирования может существенным образом повлиять на результаты анализа (Berg et al, 2006). На мой взгляд, лучше всегда по умолчанию проводить простейшую нормировку (например , если распределение симметрично или логарифмирование в другом случае), чем вообще не пользоваться этими методами.

Приведем несколько примеров графической визуализации и применения простых методов статистики для разведочного анализа данных.

Примеры

Ниже приведены примеры графиков, которые, возможно, имеет смысл строить для каждой переменной. Слева показаны оценки плотности распределения для каждого из двух классов (красный - рак, синий - контроль). Обратите внимание, что под графиками представлены и сами значения, по которым строится оценка плотности. Справа приведена ROC -кривая, и показана площадь под ней. Тем самым сразу можно видеть потенциал каждой переменной как дискриминаторной между классами. Ведь именно дискриминация между классами обычно является конечной целью статистического анализа протеомных данных.

На следующем рисунке показана иллюстрация нормировки: типичное распределение интенсивности пика на масс-спектре (слева) при логарифмировании дает распределение близкое к нормальному (справа).

Далее покажем применение heatmap для разведочного анализа данных. По столбцам - пациенты, по строкам - гены. Цвет показывает численное значение. Видно четкое разделение на несколько групп. Это отличный пример применения EDA , который сразу дает наглядную картину о данных.

На следующей картине показан пример gel -view графика. Это стандартный прием для визуализации большого набора спектров. Каждая строка - образец, каждый столбец - пик. Цветом закодирована интенсивность значения (чем ярче тем лучше). Такие картинки можно получить, например, в ClinProTools . Но там имеется большой недостаток - строки(образцы) идут в том порядке, в котором они были загружены. Гораздо правильнее переставлять строки(образцы) таким образом, что близкие образцы располагаются рядом и на графике. Фактически это heatmap без сортировки столбцов и дендрограмм по бокам.

На следующей картинке приведен пример применения многомерного шкалирования. Кружки - контроль, треугольники - рак. Видно, что рак имеет существенно большую дисперсию и построение решающего правила вполне возможно. Такой любопытный результат достигается всего для двух первых координат! Глядя на такую картинку, можно преисполнится оптимизмом относительнорезультатов дальнейшей обработки данных.

Проблема пропущенных значений

Следующей проблемой, с которой сталкивается исследователь, является проблема пропущенных значений. Опять-таки, этой теме посвящено множество книг, в каждой из которых описаны десятки способов решения этой задачи. Пропущенные значения часто встречаются в данных, которые получают путемhigh -throughput экспериментов. Многие же статистические методы требуют полных данных.

Приведу основные способы решения проблемы пропущенных значений:

. убрать строки/столбцы с пропущенными значениями. Оправдано, если пропущенных значений относительно немного, иначе придется убирать все

. генерировать новые данные взамен пропущенных (заменять на среднее, получать из оцененного распределения)

. использовать методы нечувствительные к пропущенным данным

. поставить эксперимент еще раз!

Проблема выбросов

Выброс - это образец с резко отличающимися показателями от основной группы. Опять,эта теме глубоко и обширно разработана в соответствующей литературе.

В чем опасность наличия выбросов? В первую очередь, это может существенным образом повлиять на работу неробастных (не устойчивых к выбросам) статистических процедур. Наличие даже одного выброса в данных может существенно изменить оценки среднего и дисперсии.

Выбросы трудно заметны в многомерных данных, поскольку могут проявляться только в значениях одной-двух переменных (напомню, что в типичном случае протеомный эксперимент описывается сотнями переменных). Здесь и пригодится анализ каждой переменной в отдельности - при просмотре описательных статистик или гистограмм (вроде тех, которые были приведены выше) такой выброс легко обнаружить.

Возможны две стратегии для поиска выбросов:

1) вручную - анализ графиков рассеяния, PCA ,и другие методы разведочного анализа. Попробуйте построить дендрограмму - на ней выброс будет виден в виде отдельной ветки, которая рано отходит от корня.

2) 2) разработано множество критериев для обнаружения (Yang , Mardia , Schjwager ,…)

Средства борьбы с выбросами

. удаление выбросов

. применять устойчивые к выбросам(робастные) статистические методы

При этом нужно держать в голове, что возможно выброс - это не ошибка эксперимента, а некий существенно новый биологический факт. Хотя такое, конечно, случается крайне редко, но все же…

На следующем рисунке показаны возможные типы выбросов по типу их влияния на статистики.

Проиллюстрируем, как влияют выбросы на поведение коэффициентов корреляции.

Нас интересует случай (f ) . Видно, как наличие всего 3 выбросов дает значение коэффициента корреляции Пирсона равным 0.68, в то время как коэффициенты Спирмена и Кендалла дают гораздо более разумные оценки (корреляции нет). Правильно, коэффициент корреляции Пирсона - неробастная статистика.

Покажем применение метода PCA для визуального обнаружения выбросов.

Конечно, всегда полагаться на такие “кустарные” методы обнаружения не стоит. Лучше обратиться к литературе.

Классификация и снижение размерности

Обычно, основной целью анализа протеомных данных является построение решающего правила для отделения одной группы образцов от другой (например, рак/норма). После проведения разведочного анализа и нормировки обычно следующим шагом является уменьшение размерности пространства признаков (dimensionality reduction ).

Отбор переменных

Большое число переменных (а это стандартная ситуация в протеомных экспериментах):

. усложняет анализ данных

. обычно не все переменные имеют биологическую интерпретацию

. часто целью работы является отбор “интересных” переменных (биомаркеры)

. ухудшает работу алгоритмов классификации. Из-за этого - переобучение (overfitting ).

Поэтому стандартным шагом является применение dimensionality reduction перед классификацией

Методы dime nsionality reduction можно разделить на 2 типа:

1) Filter

Задачами этой группы методов является либо удаление уже существующих “малоинтересных” переменных, либо создание новых переменных как линейных комбинаций старых. Сюда относятся

PCA , MDS ,

методы теории информации и т.д.

Другой идеей является направленный отбор “интересных переменных”: например, бимодальные переменные всегда интересны для просмотра (в идеале каждый пик соответствует своему классу для бинарной классификации). Впрочем, это можно отнести к разведочному анализу.

Еще одним подходом является исключение сильно скоррелированных между собой переменных. При таком подходе переменные группируются используя коэффициенты корреляции в качестве меры расстояния. Можно использовать не только корреляцию Пирсона, но и другие коэффициенты. Из каждого кластера скорреллированных переменных оставляется только одна (например, по критерию наибольшей площади под ROC -кривой).

На рисунке приведен примервизуализации такого кластерного анализа пиков с помощью heatmap . Матрица симметрична, цвет показывает значения коэффициента корреляции Пирсона (синий - высокие значения корреляции, красный - низкие значения). Четко выделяется несколько кластеров сильно зависимых между собой переменных.



2) Wrapper

Здесь используются алгоритмы классификации в качестве меры качества набора отобранных переменных. Оптимальным решением является полный перебор всех сочетаний переменных, поскольку при сложных взаимосвязях между переменными

вполне возможны ситуации, когда две переменные по отдельности не являющиеся дискриминаторными при добавлении третьей становятся таковыми. Очевидно, что полный перебор вычислительно не возможен при сколько-нибудь значительном числе переменных.

Попыткой преодолеть это “проклятие размерности” является применение генетических алгоритмов для поиска оптимального набора переменных. Другой стратегией является включение/исключение переменных по одной с одновременным контролем значения Akaike Information Criteria или Bayes Information Criteria .

Для этой группы методов обязательно применение кросс-валидации. Подробнее об этом написано в разделе о сравнении классификаторов.

Классификация

Задача - построить решающее правило, которое позволит относить вновь обработанный образец в тот или иной класс.

Обучение без учителя - кластерный анализ. Это поиск наилучших (в некотором смысле) группировок объектов. К сожалению, обычно нужно задавать число кластеров a priori, либо выбирать порог отсечения (для иерархической кластеризации). Это всегда вносит неприятный произвол.

Обучение с учителем : нейронные сети, SVM, decision trees, …

Требуется большая выборка с заранее отклассифицированными объектами.

Обычно работает лучше, чем обучение без учителя.Кросс-валидация - при отсутствии тестовой выборки. Возникает проблема переобучения (overfitting)

Важным и простым тестом, который редко проводят, является запуск обученного классификатора на случайных данных. Сгенерируйте матрицу с размером равным размеру исходной выборки, заполните случайным шумом или нормальным распределением, проведите все методики, включая нормализацию, отбор переменных и обучение. В случае, если получаются разумные результаты (т.е. вы научились распознавать случайный шум) - будет меньше оснований верить и в построенный классификатор.

Есть и более простой способ - просто измените случайным образом метки классов для каждого объекта, не трогая при этом остальные переменные. Тем самым опять получится бессмысленный набор данных, на котором стоит прогнать классификатор.

Мне кажется, что доверять построенному классификатору можно лишь в том случае, если был выполнен хотя бы один из приведенных тестов на распознавание случайных данных.

ROC - кривая

Receiver-Operating Characteristic curve

. Используется для представления результатов классификации на 2 класса при условии, что известен ответ, т.е. известно правильное разбиение.

. Предполагается, что у классификатора имеется параметр(точка отсечения), варьируя который получается то или иное разбиение на два класса.

При этом определяется доля ложно положительных (FP ) и ложноотрицательных результатов (FN ). Рассчитывается чувствительность и специфичность, строиться график в координатах (1-специфичность, чувствительность). При варьировании параметра классификатора получаются различные значения FP и FN , и точка перемещается по ROC -кривой.

. Точность = (TP +TN ) / (TP +FP +FN +TN )

. Чувствительность = TP / TP+FN

. Специфичность = TN / TN+FP

Что является “положительным” событием - зависит от условий задачи. Если прогнозируется вероятность наличия заболевания, то положительный исход - класс “больной пациент”, отрицательный исход - класс “здоровый пациент”

Самое наглядное объяснение (с отличными java -апплетами иллюстрирующими суть идеи ROC ) я видел на http://www.anaesthetist.com/mnm/stats/roc/Findex.htm

ROC-curve:

. Удобно использовать для анализа сравнительной эффективности двух классификаторов.

. Чем ближе кривая к левому верхнему углу, тем выше предсказательная способность модели.

. Диагональная линия соответствует “бесполезному классификатору”, т.е. полной неразличимости классов

. Визуальное сравнение не всегда позволяет точно оценить какой классификатор предпочтительнее.

. AUC - Area Under Curve -численная оценка, позволяющая сравнивать кривые ROC .

. Значения от 0 до 1.

Сравнение двух ROC- кривых

Площадь под кривой (AUC ) как мера для сравнения классификаторов.

Другие примеры ROC -кривых приведены в разделе посвященном разведочному анализу.

Сравнительный анализ классификаторов

Существует множество вариантов в применении методов распознавания образов. Важной задачей является сравнение между собой различных подходов и выбор наилучшего.

Наиболее распространенный сегодня способ сравнения классификаторов в статьях по протеомике (и не только) - это кросс-валидация. На мой взгляд, смысла в однократном применении процедуры кросс-валидации немного. Более разумный подход состоит в запуске кросс-валидации несколько раз (в идеале чем больше - тем лучше) и построении доверительных интервалов для оценки точности классификации. Наличие доверительных интервалов позволяет обоснованно решать является ли, например, улучшение качества классификации на 0.5% статистически значимым или нет. К сожалению, только в малом числе работ встречаются доверительные интервалы для точности, чувствительности и специфичности. Цифры же приводимые в других работах по этой причине трудно сравнивать между собой, поскольку не указан размах возможных значений.

Другим вопросом является выбор типа кросс-валидации. Мне больше нравится 10-fold или 5-fold кросс-валидация вместо leave -one -out .

Конечно, использование кросс-валидации это “акт отчаяния”. В идеале, выборка должна быть разбита на 3 части: на первой части строится модель, на второй части оптимизируются параметры этой модели, на третьей части производится проверка. Кросс-валидация - это попытка избежать этих построений, и оправдана лишь при малом числе образцов.

Из многочисленных запусков процедуры кросс-валидации можно почерпнуть и другую полезную информацию. Например, интересно посмотреть на каких объектах процедура распознавания ошибается чаще. Возможно, это ошибки в данных, выбросы или другие интересные случаи. Изучив на характерные свойства этих объектов иногда можно понять, в каком направлении стоит улучшать вашу процедуру классификации.

Ниже приведена таблица сравнения классификаторов для работы Moshkovskii et al , 2007. В качестве классификаторов использовались SVM и логистическая регрессия (LR ). Методамиотборапризнаковявлялись RFE (Re сursive Feature Elimination) и Top Scoring Pairs(TSP). Использование доверительных интервалов позволяет обоснованно судить о значимых преимуществах различных схем классификаций.

Литература

Здесь приведены некоторые книги и статьи, которые могут оказаться полезными при анализе протеомных данных.

C. Bishop, Neural Networks for Pattern Recognition

* Berrar, Dubitzky, Granzow. Practical approach to microarray data analysis (Kluwer, 2003). Книга посвящена обработке microarray (хотя я бы не стал рекомендовать ее для знакомства с предметом), но есть и пара интересных глав. Иллюстрация с влиянием выбросов на коэффициенты корреляции взята оттуда.

Литература, обозначенная знаками * есть в электронном виде, и автор делится ею безДвозДмездно (т.е. даром)