Средние величины и показатели вариации
39
Содержание
1. Средняя величина в статистике, ее сущность и условия применения. Виды и формы средних величин
2. Средняя арифметическая и условия ее применения
3. Средняя гармоническая и условия ее применения
4. Понятие, виды и показатели вариации
5. Виды дисперсий. Правило сложения дисперсий. Коэффициент детерминации и эмпирическое корреляционное отношение
6. Дисперсия альтернативного признака
7. Изучение формы распределения признака. Основные характеристики закономерностей распределения
Список использованной литературы
1. Средняя величина в статистике, ее сущность и условия применения. Виды и формы средних величин
Средние являются обобщенной характеристикой большого количества индивидуальных значений варьирующего признака. В экономическом анализе их можно считать наиболее употребительными обобщающими показателями. Понимается в статистике под средней величиной обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени. Величины количественного признака у отдельных единиц складываются под действием разнообразных условий (факторов). Одни из этих условий являются общими основными для всех единиц изучаемой совокупности, другие же различны для отдельных единиц и являются поэтому индивидуальными (случайными).
Под влиянием случайных, второстепенных обстоятельств индивидуальные значения признака внутри изучаемой статистической совокупности различаются между собой (варьируют). Например, отдельные работники банка имеют стаж работы различной продолжительности, различный уровень квалификации, различный уровень доходов и т.п.
Сущность средней заключается в том, что в ней взаимопогашаются случайные различия и отражается лишь результат влияния основных факторов и выявляется то общее, типичное, что характерно для всех единиц изучаемой совокупности, т.е. характерный уровень признака.
Способность средней отражать типичный уровень признака и раскрывать общие закономерности называют законом средних чисел. Этот закон действует при определенных условиях.
Остановимся на некоторых общих условиях применения средних величин.
1. При определении средней величины в каждом конкретном случае нужно исходить из качественного содержания осредняемого признака и имеющихся для расчета исходных данных.
2. Средние должны вычисляться на основе массового обобщения факторов. По закону больших чисел при массовом обобщении факторов случайные отклонения индивидуальных величин погашаются в средней величине. Поэтому средняя и выявляет типичный, характерный размер варьирующего признака.
3. Средние должны рассчитываться по качественно однородным совокупностям.
Например, рассчитывают среднюю урожайность конкретного вида культур (среднюю урожайность ржи, картофеля, пшеницы и пр.), среднюю заработную плату работников определенной специальности на конкретном предприятии, средний доход студентов в Государственных вузах и т.п. Средние, полученные для неоднородных совокупностей не характеризуют типичного размера признака. Пример нетипичной средней хорошо показан в рассказе Глеба Успенского «Живые цифры». Там средний доход определялся сложением 1 млн. миллионера Колотушкина и 1 гроша просвирни Кукушкиной и получилось, что он составил 0,5 млн. руб. Такая средняя фиктивна, так как рассчитана по неоднородной совокупности и не дает представления о величине типичного дохода.
А поскольку качественно однородные совокупности позволяет получить метод группировок, то метод средних величин используется в сочетании с методом группировок.
Например, если рассчитаем средний уровень доходов служащих, то получим фиктивную среднюю. Это объясняется тем, что используемая для расчета средней совокупность, включающая служащих государственных, совместных арендных, акционерных предприятий, а также органов государственного управления, сферы науки, культуры, образования и т.п., является крайне неоднородной. В этом и подобных случаях метод средних нужно использовать в сочетании с методом группировок: если совокупность неоднородна - общие средние должны быть заменены или дополнены групповыми средними, т.е. средними рассчитанными по качественно однородным группам. Только при соблюдении этих условий средняя действительно будет отражать типичный уровень варьирующего признака в расчете на единицу совокупности. Однако неправильно сводить роль средних величин только к характеристике типичных значений признаков в однородных по данному признаку совокупностях. На практике современная статистика помимо средних, характеризующих типичные значения признаков в однородных совокупностях довольно часто использует еще так называемые системные средние, обобщающие явно неоднородные явления. Например, характеристики государства, как единой народнохозяйственной системы: средняя величина национального дохода на душу населения, средняя урожайность зерновых по всей стране, среднее потребление разных продуктов питания на душу населения, средний реальный доход на душу населения, производительность общественного труда и др. Системные средние могут характеризовать как пространственные или объектные системы, существующие одномоментно (государство, отрасль, регион, планета Земля и т.п.). Так и динамические системы протяженные во времени (год, десятилетие, сезон и т.п.). Типическая средняя может обобщать системные средние для однородной совокупности, или системная средняя может обобщать типические средние для единой, хотя и не однородной системы. При этом даже типическая средняя не является раз и навсегда данной, неизменной характеристикой. Поэтому «типичность» любой средней величины - понятие относительное, ограниченное как в пространстве, так и во времени.
Виды средних величин
В статистике отказались от поиска универсальной средней в каждом конкретном случае используется тот вид средней величины, который правильно отражает экономическое содержание показателя.
Средние величины делятся на два больших класса: 1) структурные средние и 2) степенные средние.
В качестве структурных (описательных, непараметрических) средних рассматриваются мода, медиана, квартили, квинтили и децили. Они применяются для изучения внутреннего строения последовательностей значений признака.
Мода - это наиболее часто повторяющееся значение признака. Однако определение величины моды в точном соответствии с таким определением возможно только при достаточно большом количестве наблюдений и при условии, что одна из вариант повторяется значительно чаще, чем все другие варианты, что бывает только при прерывном (дискретном) изменении изучаемого признака. Например, тарифный разряд рабочего и др.
Если признак варьирует непрерывно, то для расчета моды прежде всего необходимо представить первичные данные в форме интервального ряда распределения. Интервалы значений признака в этом ряду распределения могут быть либо равными, либо неравными. Для определения моды интервального ряда выбирается модальный интервал.
Если интервалы равные, то модальным называется тот интервал значений признака, в котором наблюдается наибольшая абсолютная или относительная частота повторяемости признака. И значит, для интервального ряда с равными интервалами величина моды определяется по формуле:
(1)
где - нижняя граница модального интервала;
- величина интервала в данном ряду;
- соответственно частоты (частости) в интервалах предшествующем модальному, модальном и следующим за модальным.
Если интервалы неравные, то модальным называется интервал, имеющий наибольшую абсолютную (относительную) плотность распределения. Под абсолютной (или относительной) плотностью распределения понимается отношение частоты (или частости) к величине интервала. Тогда формула расчета моды получит вид:
(2)
где - нижняя граница модального интервала;
- величина модального интервала;
- соответственно абсолютная (или относительная) плотность распределения признака в интервалах предшествующем модальному, модальном и следующим за модальным.
Пример 4.1. Для интервального ряда с равными интервалами построенного в примере 2.1. определим моду.
|
Стаж, г. | Число работников | |
2-5 5-8 8-11 | 4 5 2 | |
Итого | 11 | |
|
Решение.
1. Находим модальный интервал, это - [5-8].
2. По формуле (1) определим моду.
г.
Наиболее часто в бригаде встречаются работники со стажем 5,75 г.
Графически можно определить по гистограмме ряда (см. Рис. 1)
(число
работников)
5
4
2
2 5 8 11 (стаж)
Рис. 1. Гистограмма ряда распределения работников по стажу работы
Мода используется для решения многих практических задач, прежде всего в тех случаях, когда вычисление средней не имеет реального смысла. Например, не реально было бы исчислять средний размер (номер) проданной обуви, однако здесь интересна модальная величина, как размер, пользующийся наибольшим спросом. При принятии менеджерами швейной либо обувной фирмы решения об ассортименте изготовляемой (или реализуемой) одежды или обуви, прежде всего, устанавливается размер продукции, который пользуется наибольшим спросом (модальный размер). В процессе проведения статистического наблюдения за рыночными ценами в расчет берется модальная цена, т.е. цена, по которой продается максимальное количество товаров того или иного вида. При определении результатов соревнования первые места иногда присуждаются тем из его участников, которые чаще побеждали в течение последних лет.
Так как по своим математическим свойствам мода имеет минимальное число отклонений (ошибок) в ряду распределения, то ею широко пользуются при изучении покупательского спроса, режима работы предприятий, обслуживающих население и т.д.
Медиана - это численное значение признака той единицы изучаемой совокупности, которая расположена в середине ранжированного ряда.
В коллективе работников из 11 человек, ранжированных по целому числу лет стажа работы; стаж работы 6-го работника будет медианой.
В интервальном вариационном ряду медиана определяется по следующей формуле:
(3)
где - нижняя граница медианного интервала;
- величина медианного интервала;
- номер медианной единицы;
- накопленная частота интервала предшествующего медианному;
- частота медианного интервала.
Пример 4.3. Определим для ряда распределения работников по стажу работы в примере 2.1.
|
Стаж, г. | Число работников | Накопленные частоты | |
2-5 5-8 8-11 | 4 5 2 | 4 9 11 | |
Итого | 11 | | |
|
Решение
1. Определим номер медианного работника
2. Рассчитаем накопленные частоты .
3. Найдем медианный интервал - 5-8.
4. Определим медиану по формуле (3) и графически.
года
Графически медиану можно определить по кумуляте ряда распределения.
(накопленные
частоты)
11
9
6
4
2 5 8 11 (стаж, годы)
Рис. 2 . Кумулята ряда распределения работников по стажу работы
Медиана также важна в статистической работе. В некоторых случаях (скажем, при контроле качества продукции) медиану используют вместо средней арифметической. При исчислении последней учитываются все значения осредняемого признака, в том числе и исключительные, а величина медианы не зависит от того, какие варианты имеются в начале и в конце вариационного ряда. Получение средней арифметической всегда связано с проведением расчетов; нахождение медианы в первичных рядах не требует никаких расчетов.
Медиана обладает важными свойствами: сумма отклонений вариант от медианы по модулю всегда меньше, чем сумма отклонений вариант от любой другой величины, т.е.
Это свойство медианы широко используется при проектировании расположения пунктов массового обслуживания - бензоколонок, ссыпных пунктов, школ, водозаборных колонок и т.д. Например, если в определенном квартале населения предполагается соорудить водозаборную колонку, то расположить ее целесообразнее в такой точке, которая делит пополам не длину квартала, а число жителей.
Подобно медиане определяются квартили (варианты, делящие ряд на четыре равные части), квинтили (варианты, делящие ряд на пять равных частей) и децили (варианты, делящие ряд на десять равных частей).
Эти характеристики широко используются в социальной статистике. Например, при изучении дифференциации населения по размеру среднедушевого дохода.
Виды и формы степенных средних
Степенные средние в зависимости от представления исходных данных могут быть простыми и взвешенными. Простая средняя считается по первичным (не сгруппированным) данным и имеет следующую общую формулу:
,
где - индивидуальные значения признака (варианты);
- число вариант;
- показатель степени.
Взвешенная средняя считается по вторичным (сгруппированным) данным и имеет общую формулу:
где - веса средней, т.е. значения признака, участвующего в определении экономического содержания рассчитываемого показателя.
В зависимости от того, какое значение принимает показатель степени , различают следующие виды степенных средних (см. табл. 1).
Таблица 1
|
Вид степенной средней | Показатель степени | Формула расчета | |
| | Простая | Взвешенная | |
Арифметическая | 1 | | | |
Квадратическая | 2 | | | |
Гармоническая | -1 | | | |
Геометрическая | 0 | | | |
|
где
Если рассчитать все виды средних для одних и тех же исходных данных, то значения окажутся неодинаковыми. Здесь действует правило мажорантности средних: чем выше показатель степени, тем больше по величине и сама средняя:
И значит, если мы подберем неправильно вид средней, то рискуем или завысить, или занизить истинную среднюю величину данного признака.
Каждый показатель имеет свое, только ему присущее экономическое содержание. В общем виде количественное исходное соотношение, для исчисления средней величины (ИСС) будет следующим:
Объем варьирующего признака
Средняя величина (ИСС)= --------------------------------------------
Объем совокупности
При выборе вида и формы средней величины надо исходить из экономического содержания показателя, среднюю величину которого вычисляем и его взаимосвязи с общим объемом варьирующего признака. Общий объем варьирующего признака не должен изменяться при замене индивидуальных значений признака средней величиной - это определяющее свойство средней. Оно является в статистике критерием для подбора вида средней.
2. Средняя арифметическая и условия ее применения
Средняя арифметическая применяется в тех случаях, когда объем варьирующего признака всей совокупности образуется как сумма значений этого признака у ее отдельных единиц.
Средняя арифметическая представляет собой ту величину признака, которую имела бы каждая единица совокупности, если бы общий итог признака был равномерно распределен между всеми единицами совокупности. Используется две формы средней арифметической. Для первичных данных - простая средняя арифметическая (4), для вторичных данных - средняя арифметическая взвешенная
(5).
Среднюю арифметическую целесообразно использовать в тех случаях, когда разрыв между минимальным и максимальным значениями признака достаточно невелик (они не отличаются друг от друга в несколько десятков или сотен раз.
Свойства средней арифметической.
1. Произведение средней варианты на сумму частот всегда равно сумме произведения вариант на их частоты
.
2. Если к каждому значению признака вариационного ряда добавить (или отнять) одно и то же число А, то это все равно, что прибавить (или отнять) это число к средней арифметической величине этого ряда
.
3. Если каждый признак ряда умножить (или разделить) на постоянное число А, то это все равно, что умножить (или разделить) на это число среднюю арифметическую величину ряда.
4. Если пропорционально изменить частоты, то средняя от этого не изменится (можно частоты умножить (или делить) на одно и то же число средняя арифметическая от этого не изменится). Это свойство дает возможность частоты заменить удельными весами, называемыми частостями, а также, когда частоты всех вариант одинаковы, вычислять средние по формуле простой средней арифметической. Это свойство важно тогда, когда абсолютные числа - частоты не известны, а известны лишь удельные веса, то есть относительные величины структуры совокупности. Тогда средняя вычисляется так , если - в процентах или , если - в долях единицы.
5. Средняя сумма (разности) двух или нескольких величин равна сумме (разности) их средних.
6. Нулевое свойство средней арифметической. Сумма положительных отклонений от средней арифметической равна сумме отрицательных отклонений от средней арифметической. Сумма всех отклонений индивидуальных значений признака от средней арифметической всегда равна нулю. Именно благодаря этому свойству средняя арифметическая широко применяется в статистике как средство для погашения «сглаживания» случайных отклонений изучаемого признака у отдельных единиц наблюдаемой статистической совокупности.
Пример 4.4
По исходным данным примера 2.1. расчет средней сменной выработки осуществляется по средней арифметической простой:
г.
Применение простой средней арифметической объясняется тем, что объем варьирующего признака для всей совокупности - общее число проработанных лет работниками (61 год) образуется как сумма стажей каждого работника.
Пример 4.5. Расчет среднего производственного стажа работников на основе ряда распределения
|
Стаж, г. | Число работников | Середина интервала | | |
2-5 5-8 8-11 | 4 5 2 | 3,5 6,5 9,5 | 14,0 32,5 19,0 | |
Итого | 11 | | 65,5 | |
|
В данном случае следует воспользоваться формулой средней арифметической взвешенной, поскольку данные вторичные. Интервальные значения признака встречаются не один раз (т.е. повторяются) и эти числа повторений (частоты) не одинаковы.
Конкретными значениями признака, которые должны непосредственно участвовать в расчетах служат середины (центры) интервалов, весами - частоты.
Данный результат отличается от результата, полученного на основе средней арифметической простой. Это объясняется тем, что на основе ряда распределения мы уже не располагаем исходными индивидуальными данными, а вынуждены ограничиться лишь сведениями о величине середины (центра) интервала.
Пример 4.6. Просроченная задолженность по кредитам предприятиями фирмы за отчетный год характеризуется следующими данными:
|
№ предприятия фирмы | Задолженность по кредитам, тыс. руб. | Удельный вес просроченной задолженности, % | | |
1 2 3 | 3500 4000 2000 | 15 30 20 | 52500 120000 40000 | |
Итого | 9500 | | 212500 | |
|
Определить средний процент просроченной задолженности фирмы.
Решение: Основой расчета является экономическое содержание показателя.
Удельный вес Объем просроченной задолженности
просроченной = -------------------------------------------------------- • 100
задолженности, , % Объем общей задолженности
Для расчета среднего процента просроченной задолженности фирмы в этом случае воспользуемся формулой средней арифметической взвешенной:
%.
3. Средняя гармоническая и условия ее применения
Среднюю гармоническую взвешенную следует использовать в тех случаях, когда, кроме вариант осредняемого признака , известны показатели, представляющие собой произведения вариант на их частоты . Величиной может быть, например, товарооборот по видам товаров при расчете средней их цены, фонды заработной платы у отдельных категорий работников при расчете средней заработной платы; стоимостные объемы сделок при покупке валют, ценных бумаг, биржевых продаж и т.д. Как видим, ситуаций, когда нам известны не частоты, а произведения частот на соответствующие им варианты при расчете средней величины, более чем достаточно.
Формула средней гармонической взвешенной имеет вид:
(6)
где - значения произведений варианты на соответствующую ей частоту;
- значения вариант.
Пример 4.7. По данным о цене акций и общей стоимости продажи акций рассчитать среднюю цену одной акции.
|
Вид акции | Цена за одну акцию, тыс. руб. | Общая стоимость продажи акций, тыс. руб. | |
А Б В | 2 3,3 2,8 | 1000 2838 3360 | |
Итого | | 7298 | |
|
Решение: Основой расчета является экономическое содержание показателя
Общая стоимость продажи акций
Средняя цена = ----------------------------------------------------
акций Число проданных акций
При этих исходных данных следует воспользоваться формулой (6) для расчета средней цены одной акции
тыс. руб.
При этом следует заметить, что
7298 тыс. руб. - общая стоимость продажи акций;
2560 - общее число проданных акций (500, 860 и 1200 - число проданных акций каждого вида в отдельности).
Если при использовании средней гармонической веса всех вариант равны, то вместо взвешенной можно использовать простую среднюю гармоническую:
(7)
где - число вариант осредняемого признак.
Пример 4.8. Предприятием были выделены одинаковые денежные суммы на приобретение акций 3-х видов. При этом, цена акции вида А составила 500 руб. , вида В - 1000 руб. и Г - 2200 руб.
Рассчитать среднюю цену приобретения акций:
Решение
Воспользуемся для определения средней цены формулой (7):
руб.
В практике реальных расчетов взвешенные средние гармонические используются чаще.
4. Понятие, виды и показатели вариации
Рассматривая зарегистрированные при статистическом наблюдении величины того или иного признака у отдельных единиц совокупности, обнаруживаем, что они различаются между собой, колеблются, так как у каждой из единиц они складываются под действием многих причин и условий. Эти различия индивидуальных значений признака внутри изучаемой совокупности в статистике называют вариацией признака.
Вариация делится на случайную и систематическую. Вариация признака, которая не зависит от факторов, положенных в основу группировки, называется случайной вариацией. Например, в условиях налаженного и поддерживаемого в устойчивом состоянии технологического процесса наблюдаются случайные различия в качестве выпускаемой продукции, возникают эти различия под влиянием не поддающихся контролю и учету факторов, то есть случайных факторов. Вариация признака, которая зависит от факторов, положенных в основу выделения группы, называется систематической вариацией. При систематической вариации значения признака в пределах совокупности варьируют при переходе от одной группы к другой в связи с изменением группировочных признаков. Например, качество одного и того же вида продукции будет различно в различных условиях организации технологического процесса.
Показатели вариации являются числовой мерой уровня колеблемости признака, они измеряют отклонения от средних и дают возможность установить насколько однороден состав данной совокупности по изучаемому признаку, насколько надежна, типична средняя величина. Чем однороднее состав совокупности, тем более близки между собой отдельные значения признака, тем меньше разбросанность этих значений вокруг средней величины.
Наиболее распространенными (основными) характеристиками вариации являются размах вариации , среднее линейное отклонение , среднее квадратическое отклонение , дисперсия и коэффициент вариации .
Самой простой характеристикой служит размах вариации - разность между наибольшим и наименьшим признаками. Размах вариации - довольно грубая характеристика разбросанности ряда, так как и минимальное и максимальное значения сами могут быть весьма нетипичными для данной совокупности.
Среднее линейное отклонение опирается на учет индивидуальных отклонений вариант от средней арифметической величины данного ряда и определяется как средняя арифметическая из абсолютных величин этих отклонений.
Для первичных данных - (8)
Для вторичных данных - (9)
Этот показатель дает необъективную оценку вариации, как правило, занижает ее.
Дисперсия - это средняя арифметическая из квадратов отклонений индивидуальных значений признака от средней арифметической величины ряда. Для первичных данных дисперсия определяется по формуле:
, (10)
где
Для вторичных данных - , (11)
где .
Среднее квадратическое отклонение определяется по формуле . Среднее квадратическое отклонение является наиболее распространенным показателем степени вариации.
Размах вариации, среднее линейное отклонение и среднее квадратическое отклонение - это абсолютные меры вариации. Они выражаются в единицах измерения варьирующего признака. С их помощью можно сравнивать вариацию только одного и того же признака в разных распределениях, например, вариацию заработной платы рабочих на разных предприятиях какой - то отрасли, стаж работы рабочих различных отраслей. Причем сравнивать, например, средние квадратические отклонения вариационных рядов с разными средними уровнями непосредственно нельзя, так как по своему абсолютному значению квадратическое отклонение зависит не только от степени вариации признака, но и от абсолютных уровней вариант и средней.
Коэффициент вариации является относительной мерой вариации, определяется по формуле (12), позволяет сравнивать степень варьирования признаков в вариационных рядах с разным уровнем средних, а также служит для сравнения вариации разных явлений.
Величина коэффициента вариации оценивает интенсивность колебаний признаков относительно их средней величины. Принята следующая оценочная шкала колеблемости признака:
% - колеблемость незначительная (невысокая)
% - колеблемость средняя (умеренная)
% - колеблемость значительная
Если его величина не превышает 33%, это говорит о типичности, надежности средней величины, об однородности совокупности.
Если он более 33%, то все указанные выводы следует изменить на противоположные.
Проиллюстрируем расчет показателей вариации на основе исходных расчетных данных примера 2.1.
Пример 4.9. Имеется следующий ряд распределения работников по стажу
|
Стаж, г. | Число работников, чел. | |
2-5 5-8 8-11 | 4 5 2 | |
Итого | 11 | |
|
Определить:
- размах вариации
- дисперсию
- среднее квадратическое отклонение
- коэффициент вариации
Решение:
1. Размах вариации
лет
Размах вариации лучше определять по первичным данным, что мы уже делали при расчете величины интервала группировки (см. пример 2.1). Для расчета остальных показателей оформим рабочую таблицу
|
Стаж, лет | Число работников, чел | | | | |
2-5 5-8 8-11 | 4 5 2 | 3,5 6,5 9,5 | 14,0 32,5 19,0 | (3,5-5,955)2•4=24,108 (6,5-5,955)2•5=1,485 25,134 | |
Итого | 11 | | 65,5 | 50,727 | |
|
лет
Дисперсия равна:
Среднее квадратическое отклонение равно
Коэффициент вариации равен
%
Анализ полученных данных говорит о том, что стаж работников предприятия отличается от среднего стажа в среднем на 2,147 года или на 43,3%. Коэффициент вариации превышает 33%, и 40%, следовательно, вариация производственного стажа умеренная, найденный средний стаж плохо представляет всю совокупность работников, не является ее типичной, надежной характеристикой, а саму совокупность нет оснований считать однородной по производственному стажу.
5. Виды дисперсий
Правило сложения дисперсий. Коэффициент детерминации и эмпирическое корреляционное отношение
В статистике важно рассчитывать дисперсии для результативного признака , опираясь на данные аналитической группировки.
В этом случае дисперсии примут вид:
- общая дисперсия
(13)
- внутригрупповые дисперсии
(14)
- средняя из внутригрупповых дисперсий
(15)
- межгрупповая дисперсия
(16)
где - общая средняя
- средняя -ой группы
Правило сложения дисперсий
(17)
На основе этого правила рассчитывают эмпирические показатели тесноты корреляционной связи между факторным и результативным признаками.
Если учесть, что величина межгрупповой дисперсии характеризует влияние только факторного признака, а величина общей дисперсии помимо факторного признака характеризует влияние и всех остальных признаков, то отношение межгрупповой дисперсии к общей покажет силу влияния факторного признака на результативный.
Это отношение называют коэффициентом детерминации
(18)
Корень квадратный из коэффициента детерминации называют эмпирическим корреляционным отношением.
(19)
Оно показывает степень тесноты связи между факторным и результативным признаком и изменяется в пределах от 0 до 1. Нулевое значение говорит о том, что связи нет (тогда межгрупповая дисперсия равна 0). Значение 1 указывает на наличие функциональной зависимости между признаками, при которой значения исследуемого показателя полностью определяются значениями факторного (группировочного) признака (средняя из внутригрупповых дисперсий в этом случае принимает нулевое значение). И естественно, чем ближе к 1, тем связь теснее. Для аналитической характеристики степени связи используют шкалу Чэддока
|
| 0 | 0,1-0,3 | 0,3-0,5 | 0,5-0,7 | 0,7-0,9 | 0,9-0,999 | 1 | |
сила связи | отсутствует | слабая | умеренная | заметная | тесная | весьма тесная | функциональная | |
|
Проиллюстрируем расчеты по данным и результатам расчета примера 2.2.
Пример 4.10. Имеются следующие данные о зависимости выработки работников от их производственного стажа.
|
Стаж, г. | Число работников, чел. | Выработка изделий в среднем на работника, шт. | |
2-5 5-8 8-11 | 4 5 2 | 7,0 8,4 11,0 | |
Итого | 11 | | |
|
Опираясь на данные представленной таблицы и на исходные данные примера 2.2. определить коэффициент детерминации и эмпирическое корреляционное отношение.
Решение
Вычислим межгрупповую дисперсию по формуле (16)
.
Расчеты произведем в таблице
|
Стаж, лет | Число работников, чел. | Средняя выработка | | |
2-5 5-8 8-11 | 4 5 2 | 7,0 8,4 11,0 | (7-8,364)2•4=7,442 (8,4-8,364)2•5=0,006 (11-8,364)2•2=13,897 | |
Итого | 11 | | 21,345 | |
|
Теперь вычислим общую дисперсию выработки изделий на основе индивидуальных данных примера 2.2 по формуле (13)
Для этого вначале возведем данные выработки в квадрат.
|
Выработка изделий, шт. | | |
1 | 2 | |
10 7 | 100 49 | |
7 6 9 8 12 9 8 7 9 | 49 36 81 64 144 81 64 49 81 | |
Итого | 798 | |
|
Тогда или 74,9%
=0,865
Величина коэффициента детерминации говорит о том, что вариация выработки изделий на 74,9% зависит от вариации производственного стажа работников и на 25,1% от прочих признаков.
Величина эмпирического корреляционного отношения (0,865) свидетельствует о тесной взаимосвязи между стажем работников и их выработкой.
6. Дисперсия альтернативного признака
Частный случай атрибутивного (неколичественного) признака - признак альтернативный. Когда единицы совокупности либо имеют данный изучаемый признак, либо не имеют его. Примером таких признаков является: наличие бракованной продукции, ученая степень у преподавателей вуза, работа по полученной специальности, превышение среднедушевых денежных доходов их общероссийского уровня, наличие детей в семье и т.д.
В случае наличия альтернативного признака единице совокупности присваивается значение «1». В случае отсутствия - «0».
Весами в расчетах служат:
- доля единиц обладающих данным признаком;
- доля единиц, не обладающих данным признаком
Тогда средняя величина альтернативного признака равна:
дисперсия примет вид:
Дисперсия альтернативного признака изменяется в пределах от 0 до 0,25. Максимального значения 0,25 достигает при 0,5
Пример 4.11. При выборочном опросе 300 жителей Курска 60 из них высказались положительно по поводу хранения личных денежных сбережений в коммерческих банках города
Определить средний уровень, дисперсию и среднее квадратическое отклонение признака
Решение
Практическое применение вариации альтернативного признака в основном состоит в построении доверительных интервалов при проведении выборочного наблюдения.
7. Изучение формы распределения признака. Основные характеристики закономерностей распределения
Непременным условием успешности построений, исчислений и выводов на основе вариационных рядов является однородность обобщаемых в них совокупностей, устанавливаемая на базе глубокого теоретического анализа.
Четко выраженный порядок изменения частот в соответствии с изменением величины признака называют закономерностью распределения.
Знание типа закономерности распределения, (а следовательно, и формы кривой) необходимо прежде всего:
1. Для выяснения типичности условий получения первичного статистического материала. Так, появление многовершинной или существенно асимметричной кривой говорит о разнотипном составе совокупности и о необходимости перегруппировки данных с целью выявления более однородных групп.
2. Для обеспечения правильности выполнения практических расчетов и прогнозов. Так, применение формулы Г. Стерджесса для расчета оптимального числа групп интервального ряда, правила «трех сигм», коэффициента вариации Vу в качестве индикатора однородности совокупности, метода наименьших квадратов при моделировании корреляционной связи явлений, методов дисперсионного анализа и других правомочно лишь в условиях нормального и близких к нему распределений.
Закономерности вариационных рядов, выражающие в типе распределения их частот, наглядно выступают на графиках - гистограмме и полигоне распределения частот. Их рассмотрение показывает, что в гистограмме наблюдается большая скачкообразность распределения, а в полигоне обнаруживается постепенность перехода от одной группы к другой. Ломаная линия полигона частично сглаживает скачкообразность гистограммы, является более обобщенным приемом анализа распределения.
При увеличении строк интервального вариационного ряда и соответственном уменьшении величины его интервалов число сторон полигона распределения будет расти и ломаной линии будет присуща тенденция превратиться в пределе в некую кривую. Такая кривая называется кривой распределения. В ней происходит наибольшее освобождение данных от влияния случайных факторов. Она выявляет и показывает в максимально обобщенном виде характер вариации, закономерность распределения частот внутри однокачественной совокупности явлений.
Кривые распределения могут быть разных типов. В практике социально-экономических исследований широко применяется кривая нормального распределения. Она представляет собой одновершинную симметричную колоколообразную фигуру, правая и левая ветви которой равномерно и симметрично убывают, асимптотически приближаясь к оси абсцисс.
Отличительной особенностью этой кривой является совпадение в ней средней арифметической, моды и медианы. Если всю площадь между кривой и осью абсцисс принять за 100%, то в пределах заключено 68,3% частот, в пределах - 95,4%, в пределах 99,7% («правило трех сигм»).
Хотя нормальное, или симметричное, распределение соответствует природе ряда явлений, однако для общественных явлений оно нехарактерно, так как в нем отражаются различия, вызванные внешними воздействиями, присущие не развивающейся, а лишь колеблющейся совокупности единиц. Для социальных явлений характерно развитие, динамизм. Поэтому ряды и кривые распределения частот общественных явлений, как правило, асимметричны, в них частоты возрастают до максимума и убывают от него неравномерно. Именно наличие асимметрии, или скошенности, в рядах однородных совокупностей служит косвенным указанием на то, что исследуемый процесс проходит активную стадию развития.
Асимметричные ряды и соответствующие кривые имеют различные формы распределений, исследованные математической статистикой. Такими формами являются распределение Пуассона, распределение Максвелла, распределение Пирсона и др. Здесь асимметричность рассматривается в целом как единый тип распределения. При этом различают правостороннюю и левостороннюю асимметрии (скошенность).
Если длинная ветвь кривой расположена правее вершины, то асимметрия называется правосторонней, если эта ветвь расположена левее вершины - левосторонней. При правосторонней асимметрии при левосторонней . Поэтому разность между ними, отнесенную к , называют коэффициентом К. Пирсона и используют в качестве коэффициента асимметрии:
. (20)
При правосторонней асимметрии этот коэффициент положителен, при левосторонней - отрицателен. Если = 0, вариационный ряд симметричен. Чем больше абсолютная величина коэффициента, тем больше степень скошенности.
Наиболее точным показателем асимметрии распределения является коэффициент асимметрии , вычисляемый по формуле
(21)
где n - число единиц совокупности. Как и в случае коэффициента Пирсона, при > 0 имеет место правосторонняя асимметрия, при < 0 левосторонняя. В симметричных распределениях = 0.
Чем больше величина ||, тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности:
|| - асимметрия незначительная;
0,25 < || - асимметрия заметная (умеренная);
|| > 0,5 - асимметрия существенная.
Поскольку коэффициенты и являются относительными безразмерными величинами, они часто применяются для сравнительного анализа асимметричности различных рядов распределения.
Характер асимметрии иногда указывает на направление развития. При исследовании вариации признаков, в отношении которых имеется заинтересованность в их увеличении (выполнение норм, выпуск продукции и т.д.), правосторонняя асимметрия свидетельствует о прогрессивности развития, о том, что оно идет в сторону увеличения показателя, а левосторонняя асимметрия указывает на наличие большого числа отстающих участков.
При исследовании вариации признаков, в отношении которых имеется заинтересованность в их уменьшении (себестоимость, трудоемкость, расход сырья на единицу продукции и т.п.), правосторонняя асимметрия свидетельствует о недостатках в развитии изучаемого процесса, левосторонняя - о прогрессивности его развития, о том, что последнее идет в сторону уменьшения показателя. В распределении работников по стажу (см. пример 4.9 = 5,75 ) наблюдается правосторонняя асимметрия, так как коэффициент асимметрии положителен: (5,955-5,75):2,47=0,095. Такая асимметрия для данного ряда прогрессивна, она свидетельствует о развитии ряда в сторону увеличения исследуемого показателя.
Форму распределения можно ориентировочно определить непосредственно рассмотрением эмпирических данных ряда, особенно если они изображены гистограммой и полигоном. Чтобы убедиться в правильности ориентировочного определения формы распределения, эмпирические данные ряда исследуются на их близость к теоретическому распределению, устанавливаемому с помощью построения соответствующей кривой распределения. Однако во многих случаях ни теория, ни непосредственное рассмотрение эмпирических данных не дают ответов на вопрос о форме распределения. Тогда обычно ведется исследование на близость эмпирических данных к нормальному распределению, так как распределения с небольшой или умеренной асимметричностью в большинстве случаев по своему типу относятся к нормальным.
Для объективного суждения о степени соответствия эмпирического распределения нормальному в статистике используется ряд критериев, называемых критериями согласия или соответствия.
К ним относятся критерии Пирсона, Романовского, Ястремского, Колмогорова, основанные на использовании различных теоретических представлений.
Например, наиболее используемый критерий согласия Пирсона («хи-квадрат») определяется по формуле:
, (22)
где - эмпирические частоты (частости)
- теоретические частоты (частости)
Для оценки близости эмпирического распределения к теоретическому определяется вероятность достижения этим критерием данной величины. Если эта вероятность превышает 0,05, то отклонения фактических частот от теоретических считаются случайными, несущественными. Если же , то отклонения считаются существенными, а эмпирическое распределение - принципиально отличным от теоретического.
Для характеристики степени отклонения симметричного распределения от нормального рассчитывается показатель эксцесса. Он приближенно может быть определен с помощью коэффициента Линдберга.
, (23)
где - доля (в%) количества вариант, лежащих в интервале равном половине среднего квадратического отклонения (в ту и другую сторону от величины средней) в общем количестве вариант данного ряда;
38,29 - доля (в %) количества вариант, лежащих в интервале, равном половине среднего квадратического отклонения (в ту и другую сторону от величины средней) в общем количестве вариант ряда нормального распределения
Эксцесс может быть положительным, отрицательным и равным нулю.
У высоковершинных кривых показатель эксцесса имеет положительный знак, у низковершинных кривых - отрицательный знак. Для кривой нормального распределения его величина равна нулю.
Для более точной характеристики степени отклонения симметричного распределения от нормального рассчитывается показатель островершинности (показатель эксцесса) (Ek ) по формуле:
(24)
Он, как и коэффициент Линдберга, может быть положительным, отрицательным и равным нулю. Показатель эксцесса, как и показатель асимметрии, - число отвлеченное. Предельным значением отрицательного эксцесса является значение Ek= -2; величина же положительного эксцесса является величиной бесконечной.
Определение показателей асимметрии и эксцесса имеет не только описательное значение, часто их величины дают определенные указания для дальнейшего исследования изучаемых явлений. Так, например, появление значительного отрицательного эксцесса может указывать на качественную неоднородность исследуемой совокупности.
Современные компьютерные технологии открывают широкие возможности для выполнения громоздких вычислительных операций по анализу вариационных рядов. Если материал теоретически осмыслен и выдвинута разумная гипотеза о форме распределения (последнее, кстати, ЭВМ тоже в состоянии проверить), вычислительные устройства могут быстро исчислить различные обобщающие показатели и критерии, построить графики и т.д. Это тем более возможно, так как показатели вариации сравнительно несложны и хорошо формализованы.
Список использованной литературы
1. Виноградова Н.М., Евдокимова В.Т., Хитарова Е.М. и др. Общая теория статистики: Учебное пособие /Под ред. И.Г. Венецкого/ - М.: Статистика, 1968г- 380с
2. Гусаров Виктор Максимович. Статистика: Учеб. пособие для студентов вузов обучающихся по экономическим специальностям/ В.М. Гусаров, Е.И. Кузнецова.- 2-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, 2007.- 479с
3. Гусаров, Виктор Максимович. Обшая теория статистики: Учеб. пособие для студентов вузов обучающихся по экономическим специальностям/ В.М. Гусаров, С.М. Проява.- 2-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, 2008.- 207с
4. Ильишев Анатолий Михайлович. Общая теория статистики: учебник для студентов вузов, обучающихся по специальностям экономики и управления / А.М. Ильишев, - М.: ЮНИТИ- ДАНА, 2008. - 535с
5. Ряузов Н.Н. Общая теория статистики: Учебник для студ. экон. спец. вузов - 4-е изд. перераб. и доп. - М.: Финансы и статистика, 1984.- 343с
6. Салин В.Н., Чурилова Э.Ю. Курс теории статистики для подготовки специалистов финансово-экономического профиля: Учебник. - М.: Финансы и статистика, 2006- 480с
7. Статистические методы анализа факторов повышения эффективности общественного производства. Учебное пособие. Под ред. Ряузова Н.Н. Акиншиной М.К.- М. ВЗФЭИ. 1980-88с
8. Статистика: Учеб. пособие / А.В. Багат, М.М. Конкина, В.М. Симчера и др.; Под ред. В.М. Симчеры. - М.: Финансы и статистика, 2005.- 368с
9. Статистика. Компьютерные лабораторные работы: Методические указания к лабораторной работе №1 « Автоматизированный априорный анализ статистической совокупности в среде MS Excel». / Г.П. Кожевникова, А.В. Голикова, А.М. Каманина, А.М. Бобров. Под ред. проф. Г.П. Кожевниковой- М.: Вузовский учебник, 2005.-72с.
10. Теория статистики: Учебник / Под ред. проф. Р.А. Шмойловой - 3-е изд., перераб. - М.: Финансы и статистика, 1999.- 560с.