Выборочное наблюдение
Содержание
1 Понятие о выборочном наблюдении. Преимущества выборочного метода
2 Ошибки выборки и основные способы отбора
3 Распространение выборочных данных на генеральную совокупность
4 Определение необходимой численности выборки
5 Оценка существенности расхождения выборочных средних
6 Малые выборки
Список использованной литературы
1 Понятие о выборочном наблюдении. Преимущества выборочного метода
Выборочное наблюдение - это такой вид несплошного наблюдения, при котором характеристика всей генеральной совокупности дается по некоторой ее части (по выборке), отобранной в случайном порядке.
По сравнению со сплошным выборочное наблюдение имеет ряд преимуществ.
Оно оперативнее сплошного, так как значительно сокращает сроки проведения работ. Дает большую экономию, так как сокращает объем работы. Например, при обследовании 10% общего числа единиц совокупности объем работ сокращается примерно в 10 раз, при обследовании 5% - в 20 раз и т.д. В связи с этим появляется возможность расширить программу выборочного наблюдения по сравнению со сплошным, т.е. собирать более подробные данные по большому количеству показателей, а отсюда - детально и всесторонне характеризовать изучаемую совокупность.
Обращение к выборкам обеспечивает экономию материальных, трудовых и финансовых ресурсов и времени. Например, для составления баланса, денежных доходов и расходов населения, для изучения денежного обращения, выявления дифференциации населения по уровню жизни, определения черты бедности и т.д. необходимы данные о бюджетах семей и одиночек. Сбор этих данных осуществляется государственной статистикой, но один статистик в состоянии курировать ежедневные записи доходов, расходов, потребления не более чем в 20-25 домохозяйствах. Если бы решили собирать данные о бюджетах всех домохозяйств, то только для этой цели (не учитывая потребности последующей обработки) потребовалось примерно два миллиона статистиков. Так что использование выборочного наблюдения является единственным экономически выгодным решением этой проблемы, тем более что по результатам изучения сравнительно небольшой части (0,1% всех домохозяйств) можно получить с достаточно высокой степенью точности данные о всей совокупности.
Подобная ситуация возникает и при аудиторских проверках фирм, когда вместо детального изучения каждого платежного документа ограничиваются анализом выборки документов, и в других областях применения статистики.
Результаты выборочного наблюдения иногда точнее результатов сплошного, так как для его проведения можно подобрать более квалифицированных исполнителей, лучше их подготовить, легче организовать контроль материалов. Это повышает качество работы, точность и достоверность статистических данных, так как при хорошей организации выборочного наблюдения ошибки репрезентативности могут быть меньше ошибок регистрации при сплошном наблюдении. Поэтому выборочное наблюдение иногда используется для контроля и уточнения результатов сплошного наблюдения.
Выборочное наблюдение применяется при невозможности провести сплошное наблюдение из-за большого объема работ (например, при проверке качества деталей, изделий, которые выпускаются десятками и сотнями миллионов единиц), или когда это связано с уничтожением, приведением в негодность обследуемых единиц совокупности (например, при испытании электролампочек на длительность горения, крепости нити на разрыв, семян на всхожесть и т. д.)
Выборочное наблюдение организуется так же, как и сплошное наблюдение. Кроме того, для производства выборочного наблюдения необходимо решить следующие задачи: определить, какая часть совокупности подлежит выборочному наблюдению; установить, как произвести отбор части совокупности; произвести отбор; определить, как на основе результатов выборочного наблюдения получить необходимые характеристики всей совокупности (распространить результаты выборки на генеральную совокупность).
Преимущества выборочного наблюдения по сравнению со сплошным возможно обеспечить, если это выборочное наблюдение организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Такими принципами являются: обеспечение случайности отбора единиц и достаточного их числа.
Первый принцип отбора - обеспечение случайности - заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку. Случайный отбор - это не беспорядочный отбор.
Второй принцип отбора - обеспечение достаточного числа отобранных единиц (о нем будем говорить позднее).
Соблюдение этих принципов позволяет получить такую совокупность единиц, которая по интересующим исследователя признакам представляет всю изучаемую совокупность, т. е. является репрезентативной (представительной).
В статистической практике общепринятыми являются следующие обозначения характеристик генеральной и выборочной совокупностей.
Таблица 1
Характеристики генеральной и выборочной совокупности
|
Характеристики | Генеральная совокупность | Выборочная совокупность | |
1. Объем совокупности (численность единиц) 2. Доля отбора единиц в выборки (относительная численность выборки) 3. Число единиц обладающих изучаемым признаком 4. Доля единиц обладающих изучаемым признаком 5. Доля единиц, не обладающих данным значением признака 6. Средняя величина количественного признака 7. Дисперсия количественного признака 8. Дисперсия альтернативного признака | N - M q pq | n m 1-w w(1-w) | |
|
2 Ошибки выборки и основные виды и способы отбора
При проведении выборочного наблюдения одной из задач является определение характеристик генеральной совокупности по выборочным характеристикам. Выборочные характеристики, как правило, не будут совпадать с искомыми характеристиками генеральной совокупности, а будут отклоняться от них в ту или иную сторону. Обозначают абсолютную величину этого отклонения , называют предельной ошибкой выборки. Предельная ошибка выборки складывается из ошибок точности (регистрации) и ошибок репрезентативности. Под ошибками регистрации понимают ошибки, обусловленные неправильным установлением факта при наблюдении. Например, стаж работы работника была ошибочно показана на единицу меньше действительного.
Ошибки репрезентативности или представительности появляются вследствие отличия структуры выборочной совокупности от структуры генеральной совокупности. Делятся на систематические и случайные. Систематические (тенденциозные) возникают тогда, когда нарушается основной принцип выборки, принцип ее случайности, разновозможности попадания в выборку любой единицы генеральной совокупности. Когда преднамеренно отбираются лучшие или худшие единицы в выборочную совокупность. С этой ошибкой можно бороться. Случайные возникают в силу того, что структура обследуемой части (выборки) даже в условиях научного отбора не совпадает со структурой целого (генеральная совокупность). Появляются эти случайные ошибки в любой выборке, как бы хорошо она ни была организована, от воли статистика не зависят. Эту случайную ошибку нужно уметь определять. Обозначается случайная (средняя) ошибка и представляет собой среднюю квадратическую из всех ошибок выборки.
Предельная ошибка выборки равна .
Исчисляется:
- при повторном отборе по формуле
(1)
- при бесповторном отборе по формуле
(2)
- дисперсия признака, вычисленная по выборочным данным;
t - коэффициент доверия (кратности ошибки выборки), показывающий сколько средних ошибок содержится в предельной ошибке и определяемый по таблице интеграла вероятностей Лапласа в зависимости от заданного уровня вероятности.
Основные значения параметров следующие:
|
p | t | |
0,683 | 1,0 | |
0,954 | 2,0 | |
0,997 | 3,0 | |
|
Примечание: при t=1,0, предельная ошибка выборки обращается в среднюю ошибку выборки . .
Разные способы организации выборочного наблюдения обеспечивают случайность отбора с разной степенью репрезентативности, что отражается на особенностях расчета ошибок выборки.
Основные способы отбора:
1. Собственно-случайный отбор (лотерея, жеребьевка, отбор на основе таблицы случайных чисел). Он может быть как повторным, так и бесповторным. Поэтому для расчета ошибки выборки используются формулы (1) и (2).
2. Механический отбор - это когда упорядоченно расположенные единицы совокупности отбирают по одной через определенный интервал, называемый шагом выборки. Шаг выборки - величина обратная относительному объему выборки; например, при 10% - ной выборке равен 10 (100:10), при 4%-ной - 25 (100:4) и т.д.
Механический отбор всегда бесповторен, поэтому для расчета ошибки выборки используется только формула (2).
3. Типическая выборка обеспечивает наибольшую репрезентативность, но при этом требует особой организации своего проведения.
Вначале генеральная совокупность разбивается на качественно однородные группы (объединяющие единицы совокупности по типам явлений), затем из каждой выделенной группы (выделенного типа явлений) в случайном порядке отираются отдельные единицы, как правило, в объеме, пропорциональном численности единиц по группам в генеральной совокупности.
Формула расчета ошибки типического отбора
, (3)
где - средняя из внутригрупповых дисперсий.
4. Серийная (гнездовая) выборка обеспечивает наименьшую репрезентативность, но при этом является самым легким, быстрым, наименее трудоемким, дешевым способом организации отбора. Здесь из генеральной совокупности отбирают не отдельные единицы, а целые их группы (серии, гнезда). Внутри отобранной серии производят сплошное наблюдение.
Ошибка выборки принимает вид:
, (4)
- число серий (гнезда) в генеральной совокупности;
- число серий в выборочной совокупности;
- межгрупповая (межсерийная) дисперсия признака.
3 Распространение выборочных данных на генеральную совокупность
Выборочное наблюдение проводится в целях распространения выводов, полученных по данным выборки, на генеральную совокупность.
Пределы, в которых находятся значения характеристик в генеральной совокупности при заданном уровне вероятности, следующие:
- для средней; (5)
- для доли. (6)
Это означает, что с заданной вероятностью можно утверждать, что значение генеральной характеристики следует ожидать в этих пределах.
Покажем на примерах как определять пределы.
Пример 1. Для определения скорости расчетов с кредиторами предприятий корпорации в коммерческом банке была проведена случайная выборка 100 платежных документов, по которым средний срок перечисления и получения денег оказался равным 20 дням со средним квадратическим отклонением 7 дней.
Необходимо с вероятностью P=0,954 определить предельную ошибку выборочной средней и доверительные пределы в которых будет находится средняя продолжительность расчетов предприятий данной корпорации с кредиторами.
Решение:
Средняя продолжительность расчетов предприятий корпорации с кредиторами находится в пределах
Так как выборка случайная повторная, то предельная ошибка выборки определяется по формуле (1):
дня.
И, значит, пределы средней продолжительности расчетов равны
С вероятностью 0,954 можно утверждать, что средняя продолжительность расчетов предприятий корпорации с кредиторами в коммерческом банке может изменяться от 18,6 дня до 21,4 дня.
Пример 2. Для изучения расхода сырья на единицу продукции
проведена двухпроцентная случайная выборка, в результате которой получены следующие обобщенные данные:
|
Расход сырья на единицу, г. | Обследовано изделий, шт. (f) | |
18 - 20 20 - 22 22 - 24 24 - 26 26 и выше | 5 28 52 12 3 | |
|
Определить:
1) средний расход сырья на одно изделие;
2) дисперсию и среднее квадратическое отклонений;
3) коэффициент вариации;
4) с вероятностью 0,954: предельную ошибку выборочной средней и возможные пределы расхода сырья для всей партии изделий;
5) возможные пределы удельного веса изделий с расходом сырья от 20 до 24 г.
Решение:
Все необходимые расчеты представим в таблице 1.
Таблица 1
|
Расход сырья на ед.г. | Число изделий, шт., | Середина интервала, (Х) | | | | | |
А | 1 | 2 | 3 | 4 | 5 | 6 | |
18-20 20 - 22 22 - 24 24 - 26 Свыше 26 | 5 28 52 12 3 | 19 21 23 25 27 | 95 588 1196 300 81 | -3,6 -1,6 0,4 2,4 4,4 | 12,96 2,56 0,16 5,76 19,36 | 64,8 71,68 8,32 69,12 58,08 | |
Итого | 100 | | 2260 | | | 272,0 | |
|
Средний расход сырья на одно изделие в выборке равен:
г.
Вычислим дисперсию и среднее квадратическое отклонение.
Среднее квадратическое отклонение равно корню квадратному из дисперсии
Коэффициент вариации:
%.
Предельная ошибка выборочной средней:
Следовательно, границы генеральной средней будут находиться в пределах
или
С вероятностью 0,954 можно утверждать, что расход сырья на единицу продукции всей партии может изменяться от 22,273 до 22,927 г.
Ошибка выборочной доли определяется по формуле:
Сначала определим выборочную долю (частость):
или 80 %
Выборка показала, что расход сырья от 20 до 24 граммов на единицу продукции приходится на 80% изделий. Определим предельную ошибку доли:
или 7.9 %
С учетом ошибки генеральная доля ожидается в границах:
или
Следовательно, с вероятностью 0,954 можно утверждать, что во всей партии продукции удельный вес изделий с расходом сырья от 20 до 24 граммов ожидается в пределах не менее 72,1 % и не более 87,9 %.
Пример 3. По материалам выборочного обследования 625 семей области получены следующие данные:
Таблица 3.2
|
Семья | Обследовано семей, | Доля расходов на платные услуги, % | Доля расходов на платные услуги, в коэффициентах | Дисперсия доли, | |
1 | 2 | 3 | 4 | 5 | |
Городских поселений Сельской местности | 500 125 | 37,0 24,0 | 0,37 0,24 | 0,2331 0,1824 | |
| n=625 | - | - | - | |
|
Выборка 2%-ная проведена по методу типического пропорционального отбора. В группах применялся механических отбор семей.
С вероятностью 0,954 определить пределы доли расходов на платные услуги жителями области.
Решение:
Доля расходов на платные услуги жителями области находится в пределах:
.
Следовательно, для решения необходимо предварительно определить среднюю долю расходов по 2 группам населения, а затем ее ошибку.
Средняя доля равна:
или 34,4 %.
Для расчета ошибки выборки типического отбора надо вычислить среднюю из групповых дисперсий. В графе 5 таблицы 4.2 показан расчет групповых дисперсий доли. Вычислим среднюю из них:
.
Теперь вычислим предельную ошибку типической выборки:
, 3,7%;
или
Таким образом, можно с вероятностью 0,954 утверждать, что доля расходов населения области на платные услуги ожидается в пределах не менее 30,7 % и не более 38,1 %.
Аналогично вычисляется ошибка типической выборки для выборочной средней (для варьирующего признака).
Пример 4. В механическом цехе завода в десяти бригадах работает 100 рабочих. В целях изучения квалификации рабочих была произведена 20% - ная серийная бесповторная выборка, в которую вошли 2 бригады. Получено следующее распределение обследованных рабочих по разрядам:
|
Рабочие | Разряды рабочих в бригаде 1 | Разряды рабочих в бригаде 2 | Рабочие | Разряды рабочих в бригаде 1 | Разряды рабочих в бригаде 2 | |
1 2 3 4 5 | 2 4 5 2 5 | 3 6 1 5 3 | 6 7 8 9 10 | 6 5 8 4 5 | 4 2 1 3 2 | |
|
Необходимо определить с вероятностью 0,997 пределы, в которых находится средний разряд рабочих механического цеха.
Решение:
Определим выборочные средние по бригадам и общую среднюю:
Определим межсерийную дисперсию:
Рассчитаем среднюю ошибку выборки:
где R-число серий в генеральной совокупности;
r-число отобранных серий.
Вычислим предельную ошибку выборки с вероятностью 0,997
С вероятностью 0,997 можно утверждать, что средний разряд рабочих механического цеха находится в пределах , .
4 Определение необходимой численности выборки
В практике проведения выборочного наблюдения возникает потребность в определении численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик - средней и доли. Формально вопрос решается преобразованием формул для расчета ошибок выборки. Предельная ошибка выборки, вероятность ее появления и вариация признака предварительно известны. Тогда необходимая численность выборки при заданных «» и «» будет равна:
- при повторном отборе. (7)
- при бесповторном отборе. (8)
Значения дисперсии получают из аналогичных предыдущих выборочных обследований. В случае если последние не производились, проводят микровыборку с единственной целью - приблизительной оценки уровня дисперсии.
При случайном отборе используются формулы (7) и (8), при механическом только - (8).
Для типической выборки: . (9)
Для серийной выборки [1, с. 107, 108]: . (10)
Пример 5. Сколько фирм необходимо проверить налоговой инспекции района, чтобы ошибка доли фирм, несвоевременно уплачивающих налоги, не превысила 5%? По данным предыдущей проверки доля таких фирм составила 18%. Доверительную вероятность принять равной 0,954.
Решение:
Поскольку способ отбора не указан, расчет следует производить по формуле для повторного отбора (7):
(фирм).
5 Оценка существенности расхождения выборочных средних
К расчетам ошибок случайной выборки прибегают не только для того, чтобы оценить степень репрезентативности выборочных данных, но и для того, чтобы сравнить между собой средние величины данного признака по двум совокупностям.
Известно, например, что средний расход сырья на единицу продукции при существующем методе производства составляет 2,8 условных единиц. После внесения изменений в существующую технологию изготовления продукции по результатам проверки достаточно большой партии изделий средний расход сырья на единицу продукции составил 2,6 условные единицы. Средняя ошибка выборки оказалась равной 0,1. Возникает вопрос, действительно ли применение нового метода обработки приводит к снижению материалоемкости продукции?
Нулевая гипотеза состоит в том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость, т.е. что между генеральными средними при старом и новом методах производства нет существенной разницы, а отклонение выборочной средней от достигнутого уровня при существующем методе обусловлено только случайностями выборки, т.е. означает, что , где и - средний расход сырья на единицу продукции соответственно при существующем и новом методах производства.
Альтернативная гипотеза может быть сформулирована двояко:
1. Применение нового метода обработки приводит к изменению расхода сырья на единицу продукции, т.е. состоит в том, что . Примем уровень значимости равным 0,05, тогда и критическая область соответственно задается неравенством . По таблицам интегральной функции Лапласа определяем коэффициент доверия t=1,96. Таким образом, величина предельного расхождения двух средних с вероятностью, равной 0,95, не должна превышать . Следовательно, с вероятностью 0,95 доверительные пределы для генеральной средней при новом методе будут равны .
Средний расход материала при применении новой технологии составляет 2,6, т.е. попадает в критическую область. Следовательно, данные наблюдения не являются совместимыми с выдвинутой гипотезой о том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость.
2. Применение нового метода обработки приводит к снижению расхода сырья на единицу продукции, т.е. состоит в том, что . В этом случае рассматривается область больших отрицательных отклонений, т.е. при . В данном варианте критическая область определяется неравенством . Нулевая гипотеза не будет опровергаться, если средний расход материала на единицу продукции будет больше величины . Так как по новой технологии расход сырья составляет 2,6 условных единиц, то с вероятностью 0,995 можно считать, что нулевая гипотеза должна быть отвергнута и что, следовательно, применение новой технологии приводит к снижению расхода сырья на изготовление продукции. [3, с. 192]
6 Малые выборки
Выборочное наблюдение, объем которого не превышает 20 единиц, называется малой выборкой. К малой выборке прибегают при проведении экспериментов в опытном хозяйстве или при проверке качества продукции, когда это связано с порчей или уничтожением ее и в других подобных случаях. Для определения средней и предельной ошибки при малой выборке можно, это математически доказано, пользоваться теми же формулами, что и при большой, но только с двумя особенностями.
1. Среднее квадратическое отклонение малой выборки исчисляется по формуле .
В этой формуле сумма квадратов отклонений от средней делится не на , а на , т.е. на число степеней свободы вариации.
2. Уровень вероятности ошибки средней и доли зависит не только от коэффициента доверия , но и от объема выборки . Для количественной оценки этой зависимости английский статистик Госсет, писавший под псевдонимом Стьюдент, разработал специальную таблицу, извлечение из которой дано в табл. 1.
Таблица 1
Распределение вероятностей в малых выборках
(вероятности умножены на 1000)
|
n t | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 15 | 20 | |
1 2 3 | 608 760 942 | 626 884 960 | 636 908 970 | 644 908 976 | 650 914 980 | 654 920 938 | 656 924 984 | 666 936 992 | 670 940 992 | |
|
Если сравнить расхождение вероятности между обычной выборкой и малой (), то окажется, что при , вероятность равна 0,683 и 0,670, при - 0,954 и 0,940 и при - 0,997 и 0,992, т.е. по мере увеличения это распределение стремится к нормальному.
В явлениях общественной жизни с их значительной вариацией при малой выборке возможные размеры ошибок, т.е. возможные расхождения между обобщающими показателями генеральной и выборочной совокупности, столь значительны, что они в большой мере обесценивают результаты малой случайной выборки. Другое дело в явлениях естественных и технических, которые значительно устойчивы и характеризуются более тесными связями между признаками. В этих областях малые выборки находят широкое применение. Там они и зародились и получили свое обоснование. [4, c. 299]
Список использованной литературы
1. Статистика: Учеб. Пособие / А.В.Багат, М.М.Конкина, В.М.Симчера и др.; Под ред. В.М.Симчеры. - М.: Финансы и статистика, 2005. -368 с.
2. В.М.Гусаров, Е.Н.Кузнецова. Статистика: учеб. пособие для студентов вузов, обучающихся по экономическим специальностям - 2-е изд., перераб. и доп. - М.: ЮНИТИ - ДАНА, 2007. - 479 с.
3. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: Учебник. - М.: ИНФА - М, 1998. - 416 с.
4. Пасхавер Н.С., Яблочник А.Л. Общая теория статистики: Для программированного обучения. Учеб. Пособие / Под ред. проф. М.М.Юзбашева. - 2-е изд. перераб. и доп. - М: Финансы и статистика, 1983. - 432 с.