Дисперсионный анализ
Дисперсионный анализ
ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ НОВГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Имени ЯРОСЛАВА МУДРОГО ИНСТИТУТ ЭКОНОМИКИ И УПРАВЛЕНИЯ Кафедра: Статистики и экономико-математических методов Лабораторная работа По дисциплине статистика по теме: Дисперсионный анализ Выполнила студентка гр.8431 Гарбузова Ю. Егарева Т.Н Ерошенко Н.Н Великий Новгород 2010 Введение Цель работы: Получение практических навыков статистической обработки многовариантных, многофакторных экспериментов, когда анализируются влияние одного, двух, трех и большего числа факторов на изменение величины какого-либо признака. Ход работы: 1. Установление основных источников варьирования и определение объемов вариации по источникам образования. 2. Определение числа степеней свободы вариации 3. Вычисление дисперсий и анализ соотношений между ними 4. Интерпретация полученных результатов Дисперсионный анализ - метод оценки существенности различий не скольких средних. Его применяют при статистической обработке многовариантных, многофакторных опытов. Задание 1 Таблица 1. Данные о прибыли 24 предприятий, млн. руб. |
№банка | Вложения млрд. руб. | | 1 | 1,9 | | 2 | 2,4 | | 3 | 2,5 | | 4 | 2,7 | | 5 | 2,8 | | 6 | 3,20 | | 7 | 3,2 | | 8 | 3,4 | | 9 | 3,4 | | 10 | 3,7 | | 11 | 3,7 | | 12 | 4 | | 13 | 4 | | 14 | 4 | | 15 | 4 | | 16 | 4,1 | | 17 | 4,3 | | 18 | 4,3 | | 19 | 4,6 | | 20 | 4,6 | | 21 | 4,8 | | 22 | 4,8 | | 23 | 4,9 | | 24 | 5,6 | | |
Определить степень влияния прибыли на объем вложений в ценные бумаги, если первые 15 банков имели прибыль до 50 млрд.руб., а остальные 9- свыше 50 млрд.руб. Для определения степени влияния при были на объем вложений, определяем группировочный признак и строим таблицу. результативным признаком является объем вложений, факторным - прибыль Таблица 2 .Распределение предприятий в зависимости от объема вложений |
Прибыль до 50 млрд.руб | Объем вложений, млрд.руб | xi-xiср. | (xi-xiср.)^2 | прибыль свыше 50 млрд.руб | объем вложений, млрд.руб | xi-xiср. | (xi-xiср.)^2 | | 1 | 1,9 | -1,36 | 1,8496 | 16 | 4,1 | -0,56666667 | 0,321111111 | | 2 | 2,4 | -0,86 | 0,7396 | 17 | 4,3 | -0,36666667 | 0,134444444 | | 3 | 2,5 | -0,76 | 0,5776 | 18 | 4,3 | -0,36666667 | 0,134444444 | | 4 | 2,7 | -0,56 | 0,3136 | 19 | 4,6 | -0,06666667 | 0,004444444 | | 5 | 2,8 | -0,46 | 0,2116 | 20 | 4,6 | -0,06666667 | 0,004444444 | | 6 | 3,20 | -0,06 | 0,0036 | 21 | 4,8 | 0,13333333 | 0,017777778 | | 7 | 3,2 | -0,06 | 0,0036 | 22 | 4,8 | 0,13333333 | 0,017777778 | | 8 | 3,4 | 0,14 | 0,0196 | 23 | 4,9 | 0,23333333 | 0,054444444 | | 9 | 3,4 | 0,14 | 0,0196 | 24 | 5,6 | 0,93333333 | 0,871111111 | | 10 | 3,7 | 0,44 | 0,1936 | | | | | | 11 | 3,7 | 0,44 | 0,1936 | | | | | | 12 | 4 | 0,74 | 0,5476 | | | | | | 13 | 4 | 0,74 | 0,5476 | | | | | | 14 | 4 | 0,74 | 0,5476 | | | | | | 15 | 4 | 0,74 | 0,5476 | | | | | | Итого | 48,9 | | 6,316 | | 42 | | 1,56 | | |
Внутригрупповые дисперсии определим по формуле: 3,26 4,66 = 0,421 Внутригрупповые дисперсии показывают вариацию объема вложений по группам , вызванные различными факторами, кроме прибыли. Среднюю из внутригрупповых дисперсий определим по формуле: = 0,34 Межгрупповая дисперсия исчисляется по формуле: Определим общую среднюю по формуле средней арифметической: Межгрупповая дисперсия показывает вариацию объема вложений, обусловленную влиянием прибыли. Общую дисперсию определяем на основании правила сложения дисперсий: 0,8 Определим долю межгрупповой дисперсии в общей с помощью эмпирического коэффициента детерминации: =0,575 На 57,5 % вариация объема вложений обусловлена влиянием прибыли, и на 42,5% влиянием прочих факторов, не учтенных в группировке. Эмпирическое корреляционное отношение: = Эмпирическое корреляционное отношение показывает тесноту связи между результативным и факторным признаком. Оно равно 0,76, следовательно, связь между объемом вложений и прибылью - тесная. Задание 2 Дисперсионный анализ при группировке данных по одному признаку (неслучайное распределение наблюдений в группах). Необходимо проанализировать производительность труда рабочих одного из цехов НПО «Виктория». С целью была образована контрольная группа рабочих, имеющих стаж до 1 года, во вторую группу вошли рабочие со стажем от 1 до 3 лет и в третью группу объединили рабочих с большим стажем. Для чистоты эксперимента были сформированы пять групп, приблизительно равноценных по показателям. Таблица 3. Производительность труда рабочих цеха НПО «Виктория» , деталей за смену , штук. |
вариант опыта | Повторность | | | | | суммы | среднее | | | 1 | 2 | 3 | 4 | 5 | | | | 1 группа | 278 | 285 | 200 | 256 | 291 | 1310 | 262 | | 2 группа | 330 | 319 | 344 | 336 | 327 | 1656 | 331,2 | | 3 группа | 378 | 388 | 391 | 387 | 399 | 1943 | 388,6 | | суммы | 986 | 992 | 935 | 979 | 1017 | 4909 | 981,8 | | среднее | 328,6666667 | 330,6667 | 311,6666667 | 326,3333333 | 339 | 1636,333333 | | | |
Ход работы: 1. Выдвигаем гипотезу, что различия в средней производительности труда случайны, и рассчитаем показатели, необходимые для заключения выдвинутой гипотезы. 2. данные таблицы 3 для удобства вычислений целесообразно уменьшить на величину (А), близкую к значению средней. Результаты занесем в таблицу 4. Таблица 4. отклонения от условного начала y = x-A, A=327 |
Вариант опыта | Повторность | сумма | | | 1 | 2 | 3 | 4 | 5 | | | 1 группа | -49 | -42 | -127 | -71 | -36 | -325 | | 2 группа | 3 | -8 | 17 | 9 | 0 | 21 | | 3 группа | 51 | 61 | 64 | 60 | 72 | 308 | | суммы | 5 | 11 | -46 | -2 | 36 | 4 | | |
Проверим правильность вычислений: N=15 k- число вариантов n-число наблюдений в каждом варианте 4909= 4+15*327 Таблица 5.- Таблица квадратов |
вариант опыта | Повторность | сумма квадратов | квадрат суммы | | | 1 | 2 | 3 | 4 | 5 | | | | 1 группа | 2401 | 1764 | 16129 | 5041 | 1296 | 26631 | 105625 | | 2 группа | 9 | 64 | 289 | 81 | 0 | 443 | 441 | | 3 группа | 2601 | 3721 | 4096 | 3600 | 5184 | 19202 | 94864 | | сумма квадратов | 5011 | 5549 | 20514 | 8722 | 6480 | 46276 | 200930 | | квадрат суммы | 25 | 121 | 2116 | 4 | 1296 | 3562 | 16 | | |
Wo= 46274,93 Wст = - =40184,93 Wповт = - =1186,27 Определим остаточную сумму квадратов как разность : Wост = Wo- Wст- Wповт = 4903,73 Далее определяем число степеней свободы вариации для каждой суммы квадратов отклонений: Wo= v=N-1=15-1=14 Wст = vст = k-1 = 3-1=2 Wповт= vповт = n-1 = 5-1=4 Wост =vост = (N-1)-( k-1)-(n-1)=14-2-4=8 Для того чтобы определить дисперсии, следует разделить суммы квадратов отклонений на соответствующее число степеней свободы. Таблица 6. Анализ дисперсий |
Источник вариации | Сумма квадратов отклонений | Степень свободы вариации | Дисперсия | Отношение дисперсии | | | | | | F факт. | F табл. | | Стаж | 40184,93333 | 2 | 20092 | 32 | 4,46 | | Повторности | 1186,266667 | 4 | 296 | 0,483660131 | 3,84 | | Остаточная | 4903,733333 | 8 | 612 | 1 | | | Общая | 46274,93333 | 14 | x | | | | |
Fфакт = Fфакт = 0,483660131 Fфакт = Проведенные расчеты показывают, что дисперсии стажа и повторностей значительно превышают остаточную дисперсию. F табл. определяем с помощью приложения А. Фактическое отношение дисперсии 32 значительно превышает предел возможного случайного колебания 4,46. Приступим к оценке существенности разностей между каждой парой средних. Для этого необходимо вычислить среднюю ошибку разности средних: = 15,65 = 24,738 Обратимся к приложению Б. При вероятности 0,05 и 8 степенях свободы вариации значение нормированного t равно 2,3060~ 2,31. Тогда предельная ошибка составит: = t* = 2,31*15,65= 36,14 Мы определили величину возможных случайных колебаний при заданном уровне вероятности. Сопоставим разность производительность труда рабочих соответствующей стажу работы и размер предельной ошибки. Если разность превышает предельную ошибку, то её принято считать существенной. Возможны следующие сопоставления: = 69,2 = 7,4 = 126,6 Полученные результаты превышают по абсолютной величине предельную ошибку. Это позволяет нам заключить, что они существенны. Двухфакторный дисперсионный анализ с повторениями. Требуется оценить достоверность различий между средними по вариантам опыта, используя дисперсионный метод анализа. Для того чтобы выполнить двухфакторный дисперсионный анализ с повторениями исходные данные необходимо представить в следующем виде: |
| Контроль | 1год | 2года | 3 года | | Прежнее | 16 | 19,5 | 20 | 23,7 | | | 18,4 | 28 | 21,3 | 22,4 | | | 16,8 | 18,9 | 21,7 | 23,9 | | Новое | 22,9 | 25,5 | 27 | 31,1 | | | 22,6 | 28,5 | 28,8 | 29,5 | | | 21,6 | 25,7 | 30 | 31,2 | | |
Это осуществляется при помощи транспортирования. Транспортирование строк и столбцов при вставке данных. Затем выполняется с помощью «Анализ данных» «Двухфакторный дисперсионный анализ с повторениями». |
Двухфакторный дисперсионный анализ с повторениями | | | | | | | | | | | | | ИТОГИ | Контроль | 1год | 2года | 3 года | Итого | | | | Прежнее | | | | | | | | | Счет | 3 | 3 | 3 | 3 | 12 | | | | Сумма | 51,2 | 66,4 | 63 | 70 | 250,6 | | | | Среднее | 17,06667 | 22,13333 | 21 | 23,33333 | 20,88333 | | | | Дисперсия | 1,493333 | 25,90333 | 0,79 | 0,663333 | 11,28515 | | | | Новое | | | | | | | | | Счет | 3 | 3 | 3 | 3 | 12 | | | | Сумма | 67,1 | 79,7 | 85,8 | 91,8 | 324,4 | | | | Среднее | 22,36667 | 26,56667 | 28,6 | 30,6 | 27,03333 | | | | Дисперсия | 0,463333 | 2,813333 | 2,28 | 0,91 | 11,31333 | | | | | | | | | | | | | Итого | | | | | | | | | Счет | 6 | 6 | 6 | 6 | | | | | Сумма | 118,3 | 146,1 | 148,8 | 161,8 | | | | | Среднее | 19,71667 | 24,35 | 24,8 | 26,96667 | | | | | Дисперсия | 9,209667 | 17,383 | 18,556 | 16,47067 | | | | | Дисперсионный анализ | | | | | | | Источник вариации | SS | df | MS | F | P-Значение | F критическое | | | Выборка | 226,935 | 1 | 226,935 | 51,40576 | 2,23E-06 | 4,493998 | | | Столбцы | 167,4217 | 3 | 55,80722 | 12,64156 | 0,000172 | 3,238872 | | | Взаимодействие | 10,52833 | 3 | 3,509444 | 0,794966 | 0,514445 | 3,238872 | | | Внутри | 70,63333 | 16 | 4,414583 | | | | | | | | | | | | | | | Итого | 475,5183 | 23 | | | | | | | |
| |