Содержание
ВВЕДЕНИЕ
Линейная регрессия описывается простейшей функциональной зависимостью в виде уравнения прямой линии и характеризуется прозрачной интерпретацией параметров модели (коэффициентов уравнения). Правая часть уравнения позволяет по заданным значениям регрессора (объясняющей переменной) получить теоретические (расчетные) значения результативного (объясняемого) переменного. Эти значения иногда называют также прогнозируемыми, т.е. получаемыми по теоретическим формулам. Однако при выдвижении гипотезы о характере зависимости коэффициенты уравнения остаются неизвестными. Вообще говоря, получение приближенных значений этих коэффициентов возможно различными методами.
Но наиболее важным и распространенным из них является метод наименьших квадратов (МНК). Он основан на требовании минимизации суммы квадратов отклонений фактических значений результативного признака от расчетных (теоретических). Вместо теоретических значений (для их получения) подставляют правые части уравнения регрессии в сумму квадратов отклонений, а затем находят частные производные от этой функции (суммы квадратов отклонений фактических значений результативного признака от теоретических). Эти частные производные берутся не по переменным х и у, а по параметрам а и b. Частные производные приравнивают к нулю и после несложных, но громоздких преобразований получают систему нормальных уравнений для определения параметров. Коэффициент при переменном х, т.е. b, называется коэффициентом регрессии, он показывает среднее изменение результата с изменением фактора на одну единицу. Параметр a может не иметь экономической интерпретации, особенно если знак этого коэффициента отрицателен.
Выдержка из текста работы
Построение множественной линейной регрессии с помощью программы Statistiсa. Построение расстояний Махалонобиса и Чебышева с помощью программы Specstat.
Новосибирск 2016
СОДЕРЖАНИЕ
Введение 3
1. Построение множественной линейной регрессии с помощью программы Statistiсa. 3
2. Построение расстояний Махалонобиса и Чебышева с помощью программы Specstat. 10
Список использованных источников 14
Приложения 15
ВВЕДЕНИЕ
В реальности при анализе различных процессов каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают десятки признаков. Для удобства исследований и реализации на практике больших вычислительных операций применяют программы, помогающие без долгих и мучительных расчетов получать точные результаты анализа. Одними из таких систем являются программы Statistica и Specstat.
Данные программы избавляют пользователя от рутинных вычислений, наглядно отображают результаты анализа, помогают оптимально спланировать будущие эксперименты.
Система Statistica содержит полный набор классических и современных методов анализа данных, что позволяет гибко организовать работу. Помимо общих статистических и графических средств, в системе имеются специализированные модули, например, для проведения социологических исследований, решения промышленных и других задач, при решении которых возникает проблема анализа статистических данных.
1. Построение множественной линейной регрессии с помощью программы Statistiсa.
Задачей множественной линейной регрессии является построение линейной модели связи между набором непрерывных предикторов и непрерывной зависимой переменной. Часто используется следующее регрессионное уравнение:
Y=?_(i=1)^n-?b_i x_i ?+b_0+e (1)
Здесь bi — регрессионные коэффициенты;
b0 — свободный член (если он используется);
е — член, содержащий ошибку.
Такой линейной моделью хорошо описываются многие задачи в различных предметных областях, например, экономике, промышленности, медицине. Это происходит потому, что некоторые задачи линейны по своей природе.
Рассмотрим построение множественной линейной регрессионной модели на примере развития здравоохранения в России за период 1995-2013 гг.. (Приложение А). Для построения модели будем использовать программу Statistiсa. Будем строить регрессионную модель зависимости числа больничных организаций от числа больничных коек, амбулаторно-поликлинических организаций, численности врачей, среднего медицинского персонала, числа станций скорой помощи и численности лиц, которым была оказана помощь. (Рисунок 1)
Рисунок 1 – Исходные данные для анализа
Линейный регрессионный анализ выполняется в модуле Statistics/Multiple Regression. В стартовом диалоговом окне этого модуля при помощи кнопки Variables указываются зависимая (dependent) и независимые (ая) (independent) переменные. В поле Input file указывается тип файла с данными:
Raw Date — данные в виде строчной таблицы;
Correlation Matrix — данные в виде корреляционной матрицы.
В нашем примере мы выбираем тип файла Raw Date. Указываем зависимую и независимую переменные. В нашем примере зависимой переменной будет число больничных организаций, а независимыми будут переменные 2-7. (Рисунок 2)
Рисунок 2 – Модуль Multiple Regression
В стартовом окне можно задать и дополнительные опции и параметры анализа. Например, можно выбрать определенное подмножество наблюдений для анализа или приписать вес переменным. Также можно задать и опции, которые относятся непосредственно к статистической процедуре: задать правило обработки пропущенных данных, выбрать метод анализа по умолчанию и др.
Для того, чтобы вывести результаты и их анализ нажимаем на кнопку ОК. Система производит вычисления, и на экране появится окно результатов. (Рисунок 3)
Рисунок 3 – Окно результатов
Окно имеет простую структуру: верхняя ее часть – информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.
Рассмотрим вначале информационную часть окна. В ней содержится краткая информация о проведенном анализе.
Dependent – имя зависимой переменной. В нашем случае это число больничных организаций.
No. of cases – число наблюдений, по которым построена регрессия. В примере число равно 19.
Multiple R – коэффициент множественной корреляции. Эта статистика полезна в множественной регрессии, когда исследователь хочет описать зависимости между переменными. Она может принимать значения от 0 до 1 и характеризует тесноту линейной связи между зависимой и всеми независимыми переменными.
R? – квадрат коэффициента множественной корреляции (R2), называемый коэффициентом детерминации. Рассчитывается он следующим образом:
R^2=SSR/SST (2)
где SSR – сумма квадратов, объясненная уравнением регрессии (Sum of Squares about Regression),
SST – полная сумма квадратов (Total Sum of Squares).
Коэффициент детерминации показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией. Чем ближе коэффициент детерминации к единице, тем качественнее найдена модель, т.е. она объясняет поведение большего числа точек.
Коэффициент детерминации, определяемый выражением (2), обладает одним существенным недостатком. При равенстве числа независимых переменных q числу наблюдений n величина R2 равна 1. По мере добавления переменных в уравнение значение R2 неизбежно возрастает. Это ведет к неоправданному предпочтению моделей с большим числом независимых переменных. Отсюда следует, что необходима поправка к R2, которая бы учитывала число переменных и наблюдений. В результате получаем скорректированный коэффициент детерминации (adjusted R?) R2 :
R ?^2=1-(n-1)/(n-q-1)*(1-R^2) (3)
Включение новой переменной в регрессионное уравнение увеличивает R2 не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение коэффициентов детерминации. Таким образом, скорректированный R2 можно с большим успехом (по сравнению с R2) применять для выбора наилучшего подмножества независимых переменных в регрессионном уравнении.
F-критерий используется для оценки адекватности регрессионной модели, определяет отношение дисперсии оценки модели к дисперсии остатка и равен:
F=(SSR/q)/(SSE/(n-q-1)) (4)
где SSE – сумма квадратов остатков.
Всякая сумма квадратов связана с числом степеней свободы. Это разность между числом различных опытов и числом констант, найденных по этим опытам независимо друг от друга. Например, для SSE число степеней свободы равно числу опытов n минус (q + 1) коэффициентов регрессии.
Standard Error of estimate – стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Intercept – оценка свободного члена регрессии. Значение коэффициентаb0 в уравнении регрессии.
Std. Error – стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии.
F – значения F-критерия для проверки гипотезы b1 = 0.
df – число степеней свободы F-критерия.
p – уровень значимости.
t –t-критерий для проверки гипотезы о равенстве нулю свободного члена уравнения. Если p больше заданного уровня значимости Alpha, то гипотезаb0 = 0 принимается.
b*– коэффициенты b уравнения.
В информационной части прежде всего нужно смотреть на значение коэффициента детерминации. В нашем примере он равен 0,98005641.
Это значит, что построенная регрессия объясняет 98 % разброса значений переменной «Число больничных организаций» относительно среднего. Это хороший результат.
Далее смотрим на значение F-критерия и уровень его значимости p. В данном примере значение F-критерия равно 48,64645 и даваемый в окне уровень значимости p = 0,0000 показывают, что построенная регрессия значима.
При помощи кнопок диалогового окна Multiple Regressions Results результаты регрессионного анализа можно просмотреть более детально. Щелкаем далее на кнопку Summary:Regression rezults. Мы увидим таблицу с результатами анализа.( Рисунок 4)
Рисунок 4 – Таблица с результатами анализа данных
Во втором столбце таблицы (b*) выводятся стандартизованные коэффициенты регрессии, в третьем (Std.Err. of b*) – их стандартные отклонения. В случае множественной регрессии стандартизованные коэффициенты регрессии используются для сравнения влияния на зависимую переменную факторов, имеющих различную размерность.
В четвертом столбце таблицы имеются оценки неизвестных параметров модели:
b0 =1,058664;
b1 = 0,002655;
b2 = 0,315544;
b3=-0,036290
b4=0,003683
b5=0,000430
b6=0,000279
В пятом столбце (St.Err. of b) – их стандартные отклонения.
Итак, искомая модель зависимости числа больничных организаций от других факторов имеет вид:
Y=1,058664+0,002655*X_1+0,315544*X_2-0,036290*X_3+0,003683*X_4+0,000430*X_5+0,000279*X_6+e
В шестом и седьмом столбцах таблицы выводятся t-статистикии соответствующие уровни значимости для проверки гипотезы о равенстве нулю коэффициентов регрессии. Для нашего примера гипотеза для b2 отклоняется.
Полученное уравнение регрессии в своем полном виде является значимым, однако значимая переменная в данной модели одна – это Х2 – число амбулаторно-поликлинических организаций. Остальные переменные не вносят заметного вклада в общую модель линейной регрессии.
2. Построение расстояний Махалонобиса и Чебышева с помощью программы Specstat.
В данном разделе рассмотрим алгоритм построения расстояний Махалонобиса и Чебышева с помощью программы Specstat.
В многомерной статистике расстояния, или их еще называют метрики, используют для количественной оценки сходства объектов по наблюдаемым признакам. Сходство между объектами определяется в зависимости от расстояния в выбранном метрическом пространстве. Если объект, описываемый m признаками представить точкой в k – мерном пространстве, то сходство объектов друг с другом будет определяться как расстояние в данном метрическом пространстве.
В кластерном анализе используется большое разнообразие способов измерения расстояний (метрик). Рассмотрим 2 метрики:
Расстояние Махалонобиса;
Расстояние Чебышева.
Расстояние Махалонобиса – это мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния. Предложено индийским статистиком Махаланобисом в 1936 году. С помощью расстояния Махаланобиса можно определять сходство неизвестной и известной выборки. Оно отличается от расстояния Евклида тем, что учитывает корреляции между переменными и инвариантно к масштабу.
Формально, расстояние Махаланобиса от многомерного вектора до множества со средним значением и матрицей ковариации определяется следующим образом:
Ковариационная матрица в теории вероятностей — это матрица, составленная из попарных ковариаций элементов двух случайных векторов и являющаяся обобщением дисперсии для многомерной случайной величины. Если матрица ковариации является единичной, то расстояние Махаланобиса становится равным расстоянию Евклида. Если матрица ковариации диагональная (но необязательно единичная), то получившаяся мера расстояния равна нормализованному евклидовому расстоянию.
Расстояние Чебышева – это метрика, основанная на векторном пространстве, названная в честь русского математика Пафнутия Чебышёва.
Расстоянием Чебышёва между n-мерными числовыми векторами называется максимум модуля разности компонент этих векторов.
Формула расчета расстояния Чебышева выглядит следующим образом:
С помощью программы Specstat построим расстояния Махалонобиса и Чебышева на примере развития здравоохранения в России за 1195-2013 гг.. (Приложение А).
Стартовое окно в программе Specstat выглядит следующим образом:
Рисунок 5 – Стартовое окно в программе Specstat
Среди модулей, представленных в стартовом окне, выбираем модуль: Корреляция и расстояния. Открыв данный модуль, перед нами появляется диалоговое окно. Нажав на кнопку Ввод и редакт. данных мы выводим на экран исходные данные. В нашем случае это параметры здравоохранения в России. Далее заполняем графы Всего наблюдений, Начиная с и Номера признаков. В нашем случае соответственно это будет 19, 1 и 1-7. Далее мы должны выбрать в модуле Вывод результатов то, что требуется рассчитать, в нашем случае это расстояние Махалонобиса, ставим напротив этой строчки галочку. В графе Расстояния ставим расчет по стандартизованным данным. .( Рисунок 6)
Рисунок 6 – Исходные данные для анализа
Выполнив все операции, нажмем кнопку Начало расчета и получим матрицу расстояний Махалонобиса:
Рисунок 7 – Расстояние Махалонобиса
Чтобы получить матрицу расстояний Чебышева, нам нужно проделать заново все операции, только теперь галочку поставить напротив строчки с Расстоянием Чебышева. На выходе получаем следующие результаты:
Рисунок 7 – Расстояние Чебышева
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Российский статистический ежегодник 2014: Стат.сб/ФСГС.-М., 2014.
Российский статистический ежегодник 2005: Стат.сб/ ФСГС.-М., 2005
Стукач О.В. Программный комплекс Statistica в решении задач управления качеством: учебное пособие / Томский политехнический университет. – Томск: Изд-во Томского политехнического университета, 2011. – 163 с.
Электронный учебник по статистике [Электронный ресурс] URL: home/textbook/default.htm
StatSoft Russia [Электронный ресурс] URL: products/STATISTICA_Base/
ПРИЛОЖЕНИЕ А
Годы Число больничных организаций на 10000 человек Число больничных коек на 10000 человек Число врачебных амбулаторно-поликлинических организаций на 10000 человек Численность врачей на 10 000 человек Численность среднего медицинского персонала на 10 000 человек Число станций (отделений) скорой медицинской помощи на 10 000 человек Численность лиц, которым оказана помощь амбулаторно и при выездах на 1000 человек
1995 0,815 125,8 1,422 44,4 110,8 213,7 357
1996 0,796 123,4 1,490 45,6 112,3 213,4 347
1997 0,777 120,1 1,466 45,9 110,9 212,8 347
1998 0,751 117,3 1,428 46,4 110,7 212,1 344
1999 0,739 114,7 1,431 46,8 110,6 213,0 346
2000 0,728 115,0 1,450 46,8 107,6 215,9 359
2001 0,725 114,4 1,456 46,9 106,8 219,5 361
2002 0,709 112,6 1,474 47,4 108,2 224,0 364
2003 0,697 111,5 1,483 47,9 108,3 225,4 369
2004 0,679 112,2 1,532 48,2 108,3 226,3 361
2005 0,661 110,9 1,516 48,6 107,7 227,8 361
2006 0,524 109,0 1,313 49,1 108,1 225,1 361
2007 0,476 106,6 1,282 49,6 108,1 216,5 363
2008 0,455 98,0 1,085 49,3 105,9 212,1 358
2009 0,456 96,2 1,072 49,8 106,2 209,7 359
2010 0,441 93,8 1,099 50,1 105,6 205,9 355
2011 0,441 94,2 1,141 51,2 107 203,8 352
2012 0,434 92,9 1,154 49,1 106,1 198,7 350
2013 0,412 90,6 1,151 48,9 105,7 188,7 335
ПРИЛОЖЕНИЕ Б
Расстояние Махалонобиса:
Расстояние Чебышева