Правила ранжирования. Корреляционный анализ

1 Краткая история возникновения корреляционного анализа

Начало применения математико-статистических приемов для изучения корреляционных зависимостей относится к 70 годам девятнадцатого столетия. Многие историки – статистики историю развития корреляции ведут от сороковых годов девятнадцатого столетия – от того времени, когда французский математик О. Браве предложил формулу для распределения двух случайных величин, удовлетворяющих требованиям закона нормального распределения.

Однако истинным основателем корреляционной теории считается английский математик – статистик К. Пирсон, создавший в конце девятнадцатого начале двадцатого веков данную теорию. В ней корреляция выступает как форма диалектической связи, при которой действует множество различных причин, как необходимых, так и случайных, как общих для обеих корреляционных величин, так и частных, влияющих только на одну из них. Причем, не все закономерные связи – причинные.

Развитие теории осуществлялось с помощью других исследований, когда основные положения теории корреляции были уже созданы. Причем в области изучения корреляций практика резко расходилась с теорией, ставя исследователей в такие условия, которые не удовлетворяли ее требованиям.

Основой формирования способов изучения корреляций и регрессий были данные, характеризующие какие-либо, количественно выраженные признаки. Поэтому исследователи на первых же шагах встретились с задачей корреляции качественных признаков, например, связь между цветом глаз у отцов и сыновей. Общий принцип, который был положен в основу конструкции показателей корреляции качественных признаков, заключался в том, что два качественных признака можно считать взаимосвязанными, если действие одного из них А при действии признака Б таково же, как и при действии признака не Б. В развитие этого принципа, и предлагались различные конструкции таких показателей, как, например, коэффициент средней квадратичной сопряженности Пирсона или коэффициент взаимной сопряженности Чупрова.

Изучение корреляции качественных признаков породило в общем учении о корреляции так называемую теорию рангов и основанную на ней теорию ранговой корреляции. Английский математик-статистик М. Кендалл, автор монографии, посвященной проблемам ранговой корреляции, указывал, что теория рангов впервые возникла как ответвление теории случайных процессов. На начальной стадии в рангах чаще всего видели просто удобный аппарат, благодаря которому удается обойтись без измерения абсолютной величины переменных и тем самым сэкономить время и усилия. Позднее статистика рангов смогла завоевать признание благодаря своим собственным достоинствам. Кендалл сконструировал показатель, который применим и для изучения частной корреляции между рангами. Современную теорию ранговой корреляции невозможно представить без наиболее полно ее освещающих исследований М. Кендалла.

Таким образом, уже к началу двадцатого столетия математико-статистические методы измерения корреляций и регрессий сложились в общем в достаточно стройную целостную систему, включающую в себя методы непараметрической статистики и непараметрические ранговые методы.

2 Непараметрические ранговые методы

Непараметрические ранговые методы – это бурно развивающаяся область математической статистики. История современных непараметрических методов, основанных на рангах, довольно коротка – всего лишь около 40 лет. Ранговые методы выделились в особое направление непараметрической статистики не только вследствие природы исходного материала, но и по идеям его дальнейшего использования. Сегодня этими методами решаются многие задачи анализа экономических, статистических, инженерных, естественнонаучных, социологических, медицинских данных.

Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Как показали статистические исследования, проведенные за последние 10-15 лет, ранговые методы в значительной мере лишены ряда недостатков для работы с малыми выборками, распределение которых неизвестно. Как известно, переход от самих наблюдений к их рангам сопровождается определенной потерей информации. Однако, эти потери не слишком велики. К сожалению, в настоящее время все еще сказывается нехватка специальной литературы по данному вопросу.

В последнее время в прогнозировании и при решении ряда других задач стали широко применяться экспертные оценки. Методы ранговой корреляции в этой области является едва ли не единственным путем обобщения экспертных оценок.

Теория рангов впервые возникла как ответвление теории случайных процессов. На начальной стадии в рангах чаще всего видели просто удобный аппарат, благодаря которому удается обойтись без изменения абсолютной величины переменных и тем самым сэкономить время или усилия. Благодаря использованию рангов можно было избежать трудностей, связанных с построением объективной шкалы абсолютных значений. Позднее статистика рангов смогла завоевать признание благодаря своим собственным достоинствам.

Ниже будут рассмотрены наиболее распространенные способы упорядочения изучаемых объектов:

Задача может сводиться просто к упорядочению объектов по месту, которое они занимают в пространстве или во времени. Например, карты были расположены в колоде в некотором порядке, а затем перетасованы. Новое расположение карт также характеризуется определенным порядком, ранжированием. Сравнив его со старым, можно увидеть, насколько тщательно были перетасованы карты. В этой задаче интересно только общее расположение карт в колоде, и нет необходимости упорядочить объекты в соответствии с “возрастанием” или “убыванием” того или иного присущего всем им признака;

Упорядочить объекты можно и по некоторому качеству, для которого не существует объективной абсолютной шкалы изменения. Можно, например, ранжировать образцы горных пород по твердости, исходя из следующего простого критерия: А тверже Б, если А оставляет царапину на Б, когда они соприкасаются. Если А оставляет царапину на Б, а Б – на В, то А будет оставлять царапину на В. Таким образом, прибегнув к ряду сопоставлений, можно с достаточной точностью упорядочить рассматриваемые объекты (если только набор не включает такие два объекта, которые обладают одинаковой твердостью). Однако подобный способ не позволяет измерить абсолютную величину твердости горных пород. Всегда можно установить, что А тверже Б. Однако до тех пор, пока не построена та или иная шкала измерения абсолютных величин, нельзя утверждать, что А, скажем, вдвое тверже Б;

Упорядочение может проводиться в соответствии с измеряемой (или теоретически исчисляемой) величиной некоторого признака. Например, можно располагать людей в том или ином порядке в зависимости от их роста, а города по численности населения. При этом не всегда требуется прибегать к самому процессу измерения: можно «на глаз» построить группу студентов по росту; однако в таких случаях критерий, по которому происходит ранжирование, должен допускать возможность непосредственных сопоставлений.

Можно упорядочить объекты по некоторому признаку, величину которого, в принципе, можно измерить, но на практике (или даже теоретически) не удается прибегнуть к такому измерению в силу тех или иных причин. Например, можно упорядочить ряд лиц по их интеллектуальным способностям, полагая, что такое качество действительно существует и что можно разместить людей в том или ином порядке в соответствии с интенсивностью этого признака.

В практических приложениях методов, основанных на ранжировании, иногда сталкиваются со случаями, когда два или несколько объектов настолько подобны, что не удается отдать предпочтение одному из них. Когда эксперт ранжирует объект на основе субъективных суждений, то это свойство (отсутствие предпочтений) связано с истиной их неразличимостью или неспособностью исследователя найти существенные различия. В этом случае говорят, что такой объект называется связанным.

Например, студентов расположили в соответствии с их достоинствами или экзаменационными баллами. Метод, который принимается для предписания числовых значений рангов связанных объектов, заключается в усреднении рангов, которые они имели бы, если были различимы. Например, если связывают третий и четвертый объекты, то каждому приписывают ранг, равный 3,5, если же связывают объекты от второго до седьмого, то получаемый ранг равен 4,5.

Иногда такой подход называется “методом средних рангов”. Когда нет основания для выбора между объектами, то ясно, что в этом случае нужно приписать всем одинаковые ранги. Преимуществом данного метода является то, что сумма рангов для всех объектов остается точно такой же как и при ранжировании без связей.

В анализе социально – экономических явлений часто приходится прибегать к различным, условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

3 Коэффициент конкордации рангов Кендалла

Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент корреляции (коэффициент конкордации).

В практике статистических исследований встречаются случаи, когда совокупность объектов характеризуется не двумя, а несколькими последовательностями рангов, необходимо установить статистическую связь между несколькими переменными. В качестве такого измерителя используют множественный коэффициент корреляции (коэффициент конкордации) рангов Кендалла, определяемой по следующей формуле:

где W – коэффициент конкордации;

D – сумма квадратов рангов рассчитывается по формуле (2);

n – число объектов ранжируемого признака (число экспертов);

m – число анализируемых порядковых переменных.

В некотором смысле W служит мерой общности.

, (2)

где r ij – расставленные ранги суждений группы экспертов;

n – число объектов(число экспертов).

Значения коэффициентов конкордации заключены на отрезке .

Увеличение коэффициента от 0 к 1 означает проявление большей согласованности суждений. Если все эти суждения совпадают, то W=1.

Проверка значимости коэффициента основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при n>7 статистика m(n-1)* W имеет приближенно – распределение с k=n-1 степенями свободы. Поэтому коэффициент конкордации значим на уровне =0,05, если m(n-1)W> .

В анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест, которые они определяют. Данные ранги называются связными.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты корреляции Спирмена (р1?/) и Кендалла (т^). Эти коэффициенты могут быть использованы для определения тесноты связи между как количественными, так и качественными признаками.

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывают по формуле

где (11 - квадраты разности рангов; п - число наблюдений (число пар рангов).

Коэффициент Спирмена принимает любые значения в интервале [-1; 1].

Пример. 11о данным о покупке и продаже гражданами субъектов Приволжского федерального округа РФ валюты через кредитные организации в 2010 г. определим зависимость между этими признаками с помощью коэффициента Спирмена (табл. 7.14).

Таблица 7.14. Расчет коэффициента Спирмена

Субъект

Покупка валюты х, млн руб.

Продажа валюты у, млн руб.

Ранг

поп а рангов

Квадрат разности рангов

$

К

Ry

1. Республика Башкортостан

2. Республика Марий Эл

3. Республика Мордовия

4. Республика Татарстан

5. Удмуртская Республика

6. Чувашская

Республики

7. Пермский край

8. Кировская область

9. Нижегородская область

10. Оренбургская область

11. Пензенская область

12. Самарская область

13. Саратовская область

14. Ульяновская область

Рассчитаем коэффициент корреляции рангов Спирмена:

В результате расчета мы определили, что связь между покупкой и продажей валюты гражданами субъектов Приволжского федерального округа РФ через кредитные организации в 2010 г. сильная, близкая к функциональной.

Ранговый коэффициент корреляции Кендалла также используют для измерения степени тесноты и направления связи между качественными и количественными признаками, характеризующими однородные объекты и ранжированными по одному принципу. Расчет рангового коэффициента Кендалла осуществляют но формуле

где 5 - сумма разностей между числом последовательностей и числом инверсий по второму признаку; п - число наблюдений.

Расчет данного коэффициента выполняется в такой последовательности.

  • 1. Значения х ранжируются в порядке возрастания или убывания.
  • 2. Значения у располагаются в порядке, соответствующем значениям х.
  • 3. Для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Таким образом, путем сложения чисел определяется величина Р как мера соответствия последовательностей рангов пох и у, которая учитывается со знаком "+".
  • 4. Для каждого ранга у определяется число следующих за ним значений рангов, меньших его величины. Суммарная величина обозначается через (2 и фиксируется со знаком "-".
  • 5. Определяется сумма баллов по всем членам ряда.

Связь между признаками признается статистически значимой, если коэффициенты ранговой корреляции Спирмена и Кендалла больше 0,5.

По данным табл. 7.14 получены результаты, представленные в табл. 7.15.

Таким образом, ранговый коэффициент корреляции Кендалла составит

Таблица 7.15.

что также свидетельствует о сильной связи между покупкой и продажей валюты гражданами субъектов Приволжского федерального округа РФ через кредитные организации в 2009 г.

Множественный коэффициент ранговой корреляции (коэффициент конкордации) применяют для определения тесноты связи между произвольным числом ранжированных признаков. Его вычисляют по формуле

где 5 - отклонение суммы квадратов рангов от средней квадратов рангов; т - количество факторов; п - число наблюдений.

Пример. Определим степень тесноты связи между такими основными показателями торговли технологиями со странами СНГ в 2010 г., как число экспортных соглашений, стоимость предмета соглашения и поступление средств (табл. 7.16).

Таблица 7.16. Расчет коэффициента конкордации

Страна

Число соглашений

X

Стоимость предмета соглашения у, млн долл.

Поступление средств за год г, млн долл.

К

Сумма строк

Квадрат суммы

1. Азербайджан

2. Армения

3. Беларусь

4. Казахстан

5. Киргизия

6. Республика Молдова

Рангом элемента выборки называется порядковый номер этого элемента в вариационном ряду или, другими словами, число элементов выборки меньших или равных

Следовательно, выборочному значению соответствует порядковая статистика вариационного ряда.

Ранговым вектором выборки называется перестановка чисел 1, 2, которая получается при замене элементов выборки их рангами. Ранговой статистикой называется произвольная функция от рангового вектора. Ранговый алгоритм предписывает сравнение некоторой ранговой статистики с порогом.

Исходную выборку можно восстановить, если известен вектор порядковых статистик и ранговый вектор R. Отдельно любой из этих двух векторов представляет необратимое нелинейное преобразование исходной выборки. Для однородной независимой выборки случайные векторы и R независимы.

Ранг элемента выборки размером при помощи функции единичного скачка или знаковой функции можно представить следующим образом:

(13.168 а)

Из (13.168 a и б) следует, что ранги являются знаковыми статистиками от разностей выборочных значений.

Для однородной независимой выборки функция правдоподобия инвариантна к группе перестановок аргументов. Отсюда следует, что для указанной выборки все ранговые векторы равновероятны, каково бы ни было распределение, которому принадлежит выборка. Общее число возможных ранговых векторов, соответствующих выборке размером , равно числу перестановок чисел, т. е. Следовательно, выборочное пространство ранговых векторов состоит из дискретных точек -мерного эвклидового пространства. Вероятность попадания рангового вектора R наблюдаемой выборки в любую точку этого дискретного множества равна , т. е. для любого распределения однородной независимой выборки

Таким образом, ранговый алгоритм - непараметрический по отношению гипотезе Н о том, что выборка из произвольного распределения однородная и независимая. Для альтернативы К о том, что независимая выборка неоднородная, ранги перестают быть равновероятными. Для определения функции распределения рангового вектора при альтернативе К необходимо вычислить интеграл

где область включает те точки выборочного пространства, которым при упорядочивании соответствует заданный вектор

Этот интеграл

(13.170)

Практическое использование формулы (13.170), за исключением специальных случаев, сопряжено с трудно выполнимыми вычислениями. Из-за сложности распределения (13.170) синтез оптимального по критерию Неймана - Пирсона рангового алгоритма проверки гипотез при конечном размере выборки практически нереализуем. Это также одна из причин того, что указанный синтез осуществляют на эвристической основе (см. п. 13.7.4).

Отметим, что ранговый вектор однородной независимой выборки инвариантен к безынерционному преобразованию выборки

так как такое преобразование не изменяет относительного расположения элементов выборки . Из (13.171) следует, что ранговый алгоритм сохраняет непараметрическое свойство и после указанного нелинейного преобразования.

При выставлении экспертных оценок или в других случаях ранжирования возникают ситуации, когда двум или большему числу качеств приписываются одинаковые ранги. В этом случае правила ранжирования таковы:

1. Наименьшему числовому значению приписывается ранг 1.

2. Наибольшему числовому значению приписывается ранг, равный количеству ранжируемых величин.

3. В случае если несколько исходных числовых значений оказались равными, то им приписывается ранг, равный средней величине тех рангов, которые эти величины получили бы, если бы они стояли по порядку друг за другом и не были бы равны.

Отметим, что под этот случай могут попасть как первые, так и последние величины исходного ряда для ранжирования.

4. Общая сумма реальных рангов должна совпадать с расчетной, определяемой по формуле (1).

Например, психолог получил у 11 испытуемых следующие значения показателя невербального интеллекта: 113, 107, 123, 122, 117, 117, 105, 108, 114, 102, 104. Необходимо проранжировать эти показатели.

№ испытуемых п/п Показатели интеллекта Условные ранги Ранги
(8) 8,5
(9) 8,5

Т.к. у 5 и 6 испытуемых показатели интеллекта равные, то им необходимо поставить условные ранги, обязательно идущие по порядку друг за другом – и отметить эти ранги круглыми скобками – (). Но так как они должны иметь одинаковые ранги. То в столбец ранги мы должны поместить среднее арифметическое рангов, проставленных в скобках, т.е. . Часто условные и реальные ранги записывают в одном столбце

Проверим правильность ранжирования по формуле (1):

Просуммируем реальные ранги: 6+4+11+10+8,5+8,5+3+5+7+1+2=66.

Т.к. суммы совпали, то ранжирование выполнено верно.

В ранговой шкале применяется множество статистических методов. Наиболее часто к измерениям, полученным в этой шкале применяются коэффициенты корреляции Спирмена и Кэндалла, кроме того, применительно к данным, полученным в этой шкале, используют разнообразные критерии различий.


Шкала интервалов

В шкале интервалов каждое из воз­можных значений измеренных величин отстоит от ближайшего на равном расстоянии. Главное понятие этой шкалы - интервал , который можно определить как долю или часть измеряемого свойства между двумя соседними позициями на шкале.

Размер интервала - величина фиксированная и постоянная на всех уча­стках шкалы. Для измерения посредством шкалы интервалов ус­танавливаются специальные единицы измерения, в психологии это стены . При работе с этой шкалой измеряемому свойству или предмету присваивается число, равное количеству единиц измерения, эквивалентное количеству имеющегося свойства. Важной особенностью шкалы интервалов является то, что у нее нет естественной точки отсчета (нуль условен и не ука­зывает на отсутствие измеряемого свойства).

Так, в психологии часто используется семантический диффе­ренциал Ч.Осгуда, который является примером измерения по интервальной шкале различных психологических особенностей личности, социальных установок, ценностных ориентации, субъективно-личностного смысла, различных аспектов само­оценки.

3 - 2 - 1 0 +1 +2 +3

Абсолютно Не знаю Совершенно

не согласен (не уверен) согласен

Однако, как подчеркивают С. Стивенс и ряд других исследо­вателей, психологические измерения в шкале интервалов по сущности нередко оказываются измерениями, выполненными в шкале порядков. Основанием для этого утверждения служит тот факт, что функциональные возможности человека меняются в зависимости от разных условий. При измерении, например, силы с помощью динамометра или устойчивости внимания с помощью секундомера, результаты измерения в начале и в кон­це опыта по причине усталости испытуемого не будут квантифицироваться равными интервалами.

Только измерение по строго стандартизированной тестовой методике, при условии того, что распределение значений в реп­резентативной (см. ниже) выборке достаточно близко к нормаль­ному (см. ниже), может считаться измерением в интервальной шкале. Примером последнего могут служить стандартизованные тесты интеллекта, где условная единица измерения IQ эквивален­тна как при низких, так и при высоких значениях интеллекта

Принципиально важным является и то, что к эксперимен­тальным данным, полученным в этой шкале, применимо доста­точно большое число статистических методов.

Шкала отношений

Шкалу отношений называют также шкалой равных отноше­ний. Особенностью этой шкалы является наличие твердо фикси­рованного нуля, который означает полное отсутствие какого-либо свойства или признака. Шакала отношений является наибо­лее информативной шкалой, допускающей любые математичес­кие операции и использование разнообразных статистических методов.

Шкала отношений по сути очень близка интервальной, по­скольку если строго фиксировать начало отсчета, то любая ин­тервальная шкала превращается в шкалу отношений.

Именно в шкале отношений производятся точные и сверх­точные измерения в таких науках, как физика, химия, микро­биология. Измерение по шкале отношений производятся и в близких к психологии науках, таких, как психофизика, психо­физиология, психогенетика.

События С

эксперт j = 1

экспертов a ij

эксперт j = 2

эксперт j = 1

важности а ij

эксперт j = 2

Суммарный ранг важности а i

Среднее значение для суммарных рангов рассматриваемого ряда

Суммарное квадратическое отклонение Sсуммарных событий от среднего значения а есть

называемое коэффициентом конкордации. Величина Wизменяется в пределах от 0 до 1. При W = 0 согласованности совершенно нет, т.е. связь между оценками различных экспертов отсутствует. Наоборот, при W = 1 согласованность мнений экспертов полная.

В том случае, если последовательность (5.2) кроме строгих нера­венств имеет равенства, т.е. существует совпадение рангов, то формула для вычисления коэффициента конкордации имеет вид

Когда ранги повторяются, то для получения нормальной ранжи­ровки, имеющей среднее значение ранга, равное

необходимо приписать событиям, имеющим одинаковые ранги, ранг, равный среднему значению мест, которые эти события поделили между собой.

Например, получена следующая ранжировка событий:

Ранги а i

События 2 и 5 поделили между собой второе и третье места. Зна­чит, им приписывается ранг

события 3, 4 и 6 поделили между собой четвертое, пятое, шестое места, и им приписывается ранг

Таким образом, получаем нормальную ранжировку:

Ранги а" i

Пример. Рассмотрим ранжированиеm= 10 событий р = 3 экспер­тами;N,Q,R. Результаты расчетов представлены в табл. 5.3.

Для крайних значений коэффициента конкордации могут быть вы­сказаны следующие предположения. Если W= 0, то согласованности в оценках нет, поэтому для получения достоверных оценок следует уточ­нить исходные данные о событиях и (либо) изменить состав группы экс­пертов. При W = 1 далеко не всегда можно считать полученные оценки объективными, поскольку иногда оказывается, что все члены экспертной группы заранее сговорились, защищая свои общие интересы.

Необходимо, чтобы найденное значение W было больше заданного значения W 3 (W >W 3). Можно принятьW 3 = 0,5, т.е. при W > 0.5 дейст­вия экспертов в большей степени согласованы, чем не согласованы. При W < 0,5 полученные оценки нельзя считать достоверными, и поэтому следует повторить опрос заново. Жесткость данного утверждения опреде­ляется важностью проводимого исследования и возможностью повторной экспертизы. Практика показывает, что очень часто этим требованием пренебрегают.

Расчет коэффициента W при учете компетентности экспертов при­водится в работе .



Просмотров