Выдержка из текста работы
В настоящее время существует представление, что все явления природы носят статистический характер, так как все вероятностно — статистические представления и методы являются наиболее эффективными средствами познания и моделирования окружающего мира, природных и социальных явлений.
Вероятностно — статистическими представлениями занимается особый раздел математики и информатики — математическая статистика. Этот раздел посвящен математическим методам сбора, систематизации, обработки и интерпретации статистических данных.
Но статистика используется не только в математике и информатике. Во многих областях науки: медицины, биологии, а также в различных исследованиях статистический анализ занимает далеко не последнее место. И везде он анализирует связи между объектами, изучает закономерности и влияющие факторы.
Существует два вида проявления количественных взаимосвязанностей между признаками — функциональные и корреляционные.
Определение и формулы характеристик
Корреляционная (лат. correlatio — соответствие, взаимосвязь) или статистическая связь, при которой значения одной величины соответствуют вероятные значения другой.
Термин «корреляция» впервые применил французский зоолог и палеонтолог Кювье при анализе связей между размерами органов для реконструкции вымерших животных.
Корреляционные связи бывают двух типов:
— положительная, когда увеличение (уменьшение) значений одного признака сопровождается увеличением (уменьшением) значений другого признака, т.е. изменения однонаправленные (рост и масса).
— отрицательная, при которой увеличению (уменьшению) значений одного признака соответствует снижение (увеличение) значений другого признака, т.е. изменения разнонаправленные.
Коэффициент корреляции
Количественной мерой силы связи варьирующих признаков служат специальные коэффициенты. Например, коэффициент парной линейной корреляции.
Коэффициент парной линейной корреляции — это средняя сумма произведений нормированных отклонений. Обозначается буквой r
Формула коэффициента корреляции
бx, бy — средние квадратические отклонения для признаков X и Y.
Учитывая, что: ,
для выборочного коэффициента корреляции можно записать:
Коэффициент корреляции, r, предоставляет нам как силу, так и направление связи между независимой и зависимой переменными. Значения r находятся в диапазоне между — 1.0 и + 1.0. Когда r имеет положительное значение, связь между х и у является положительной, а когда значение r отрицательно, связь также отрицательна. Коэффициент корреляции, близкий к нулевому значению, свидетельствует о том, что между х и у связи не существует.
Условно считается, что связь сильная, когда , при
— связь средняя, если — слабая.
Причем приведенные соображения о коэффициенте корреляции справедливы только, когда характер связи между варьирующими признаками пропорциональный или линейный. При нелинейной даже явной связи коэффициент корреляции между X и Y может оказаться равным нулю.
Линейная корреляция между двумя переменными х и у определяется знаком и величиной Уi (xi-мx )(yi-мy), где мx и мy среднее значение х и у.
Вычисление коэффициента в MS Excel
В MS Excel для вычисления коэффициента корреляции используется функция КОРРЕЛ со следующими характеристиками:
КОРРЕЛ (массив 1; массив 2),
где:
массив 1 — диапазон данных для первой переменной,
массив 2 — диапазон данных для второй переменной.
В данном случае использована функция КОРРЕЛ для вычисления коэффициента корреляции у мужчин и женщин.
А) Вычисление коэффициента корреляции у мужчин.
Б) Вычисление коэффициента корреляции у женщин.
Вычисление ошибки.
Выборочный коэффициент корреляции r, как и всякая выборочная характеристика, имеет свою среднюю ошибку, которая вычисляется по формуле:
и отличается от «генерального» коэффициента корреляции ?.
При оценке достоверности выборочного коэффициента корреляции в качестве нулевой гипотезы принимается, что в генеральной совокупности нет никакой корреляции, т.е. ?=0.
В) Вычисление ошибки в MS Excel.
Определение значимости
Для чего нужна значимость.
В большинстве случаев вычисление коэффициента корреляции осуществляется по небольшому объему исходных данных. Вследствие этого может оказаться, что корреляция во всей генеральной совокупности близка к нулю, т.е. связи между двумя изучаемыми признаками нет. Хотя арифметически коэффициент корреляции вычислений по исходным данным одной выборки отличается от нуля.
Поэтому после вычисления коэффициента корреляции нужно выяснить, является ли он значимым, т.е. фактически проверить гипотезу о том, что коэффициент корреляции генеральной совокупности отличен от нуля. Для решения такой задачи используется статистическая гипотеза.
Пусть в (статистическом) эксперименте доступна наблюдению случайная величина , распределение которой известно полностью или частично. Тогда любое утверждение, касающееся называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:
Статистическая гипотеза, однозначно определяющая распределение , то есть , где какой-то конкретный закон, называется простой.
Статистическая гипотеза, утверждающая принадлежность распределения к некоторому семейству распределений, то есть вида , где — семейство распределений, называется сложной.
На практике обычно требуется проверить какую-то конкретную и как правило простую гипотезу . Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза , называемая конкурирующей или альтернативной.
Проверка этой гипотезы проводится по t — критерию Стьюдента при заданном уровне значимости p и числе степеней свободы (n — число коррелируемых пар).
Коэффициент Стьюдента
t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента.
Выборочный критерий tв вычисляется как отношение выборочного коэффициента корреляции к его ошибке:
Если выборочное значение критерия равно или превышает теоретически ожидаемое: , то нулевая гипотеза опровергается, значение r признается достоверным или значимым. В противном случае, когда , нулевая гипотеза подтверждается, а значение r считается недостоверным.
Г) Вычисление t — критерия в MS Exсel.
Характеристики данных
В данной работе использовались данные роста, веса мужчин и женщин в зависимости от возраста.
Эти данные заносились в таблицы программы MS Excel.
Таблица 1. Таблица данных мужчин.
рост\возраст |
18-24 |
25-34 |
35-44 |
45-54 |
55-64 |
65-74 |
75-79 |
|
157 |
60 |
64 |
66 |
64 |
61 |
74 |
73 |
|
160 |
63 |
68 |
72 |
68 |
69 |
70 |
63 |
|
163 |
58 |
67 |
72 |
72 |
72 |
73 |
62 |
|
165 |
63 |
71 |
75 |
73 |
68 |
70 |
73 |
|
168 |
69 |
73 |
73 |
73 |
75 |
72 |
68 |
|
170 |
68 |
74 |
74 |
75 |
76 |
72 |
83 |
|
173 |
69 |
72 |
72 |
79 |
78 |
68 |
87 |
|
175 |
73 |
79 |
79 |
78 |
78 |
68 |
67 |
|
178 |
74 |
81 |
81 |
83 |
73 |
80 |
79 |
|
180 |
74 |
82 |
84 |
85 |
80 |
83 |
81 |
|
183 |
75 |
85 |
83 |
83 |
78 |
81 |
83 |
|
185 |
83 |
85 |
87 |
81 |
97 |
83 |
86 |
|
188 |
79 |
83 |
96 |
85 |
87 |
84 |
88 |
В таблице 1 представлены данные роста и веса мужчин в зависимости от возраста. В первый столбец занесен рост мужчин в см. В первую строку — возраст. В остальных ячейках находится информация о весе мужчин, в зависимости от того, как меняется их возраст или рост.
Рост размещен в диапазоне от 157 до 188, возраст — от 18 до 79, вес — от 58 до 97.
Таблица 2. Таблица данных женщин.
рост\возраст |
18-24 |
25-34 |
35-44 |
45-54 |
55-64 |
65-74 |
75-79 |
|
145 |
53 |
51 |
57 |
63 |
57 |
65 |
57 |
|
147 |
49 |
50 |
54 |
53 |
62 |
64 |
61 |
|
150 |
51 |
54 |
51 |
59 |
62 |
64 |
59 |
|
152 |
53 |
56 |
53 |
60 |
68 |
63 |
69 |
|
155 |
55 |
54 |
54 |
66 |
65 |
66 |
68 |
|
157 |
57 |
58 |
54 |
63 |
69 |
69 |
61 |
|
160 |
55 |
58 |
57 |
64 |
68 |
65 |
66 |
|
163 |
57 |
60 |
57 |
68 |
68 |
71 |
70 |
|
165 |
60 |
61 |
55 |
68 |
68 |
66 |
69 |
|
168 |
62 |
62 |
60 |
71 |
63 |
74 |
71 |
|
170 |
61 |
67 |
60 |
72 |
81 |
75 |
73 |
|
173 |
59 |
67 |
59 |
70 |
71 |
77 |
74 |
В таблице 2 находятся данные роста и веса женщин в зависимости от возраста. В первом столбце представлен рост. В первой строчке — их возраст.
В остальном массиве присутствует вес женщин в зависимости от возраста.
Рост женщин представлен в диапазоне от 145 до 173, возраст, также как и у мужчин, а вес — от 49 до 81.
Результаты исследований
На основе результатов исследований построен график.
При рассмотрении данного графика можно отметить то, что у мужчин коэффициент корреляции в зависимости от возраста снижается, а у женщин он идет скачкообразно, так как существуют другие факторы, которые будут влиять на вес женщины в течении жизни. Например, беременность женщины.
Поэтому у женщины точно проследить зависимость коэффициента корреляции от возраста не удалось.
Рис.2 Корреляция мужчин
Рис.3 Корреляция женщин.
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией.
Выводы
В ходе научной работы корреляционная связь между ростом и весом у мужчин и женщин была исследована в следующей последовательности:
Выявление связи между весом и ростом.
Описание связи в табличной, графической формах.
Измерение тесноты связи ее изменение с возрастом.
По исходным данным можно сделать выводы:
Существует значительная связь между ростом и весом как у мужчин, так и у женщин.
Во — вторых, коэффициенты корреляции у мужчин и женщин разные.
Связь между ростом и весом изменяется с возрастом.
Список используемой литературы и источников
корреляция выборочный зависимость
В.М. Колдаев «Лекционные записки по высшей математике и информатике» //Владивосток, 1998//
http://ru.wikipedia.org/wiki/T-критерий_Стьюдента
А.В. Литвинов «Норма в медицинской практике» справочное пособие //МЕДпресс-информ, 2012//
Размещено на