Интервальное оценивание генеральной доли. Расчет размера выборки

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.


Описание работы калькулятора:

В поле «Объем генеральной совокупности» нужно ввести целое неотрицательное число, равное количеству объектов в совокупности, из которой производится отбор в выборочной совокупности. Например, это может быть количество документов в массиве или, чаще, численность населения, проживающего на определенной территории, или количество людей в целевой группе. На практике часто случаются ситуации, когда выборочная совокупность в 100 и более раз меньше генеральной совокупности. В этом случае генеральная совокупность считается квазибесконечной. Этот параметр установлен по умолчанию (символ «∞» в поле «Объем генеральной совокупности » ).

Далее нужно выбрать (поставить с помощью клика левой кнопки «мыши» точку в нужном кружочке) уровень доверительной вероятности которой будет оценена погрешность выборки или ее объем, то есть поставить с помощью клика левой кнопки «мыши» точку в нужном кружочке. Чем больше заданный уровень доверительной вероятности, тем меньше будет шанс, что реальная погрешность выйдет за пределы теоретической оценки или, что рассчитанный объем выборки будет недостаточным для того, чтобы делать оценки с точностью, не превышающей заданную погрешность. Если доверительную вероятность обозначить P , то вероятность , что оценка погрешности или объема будет неправильной равна 1-Р. При P =0,95 вероятность ошибки равна 0,05 (1 шанс из 20); при P =0,99 эта же вероятность равна 0,01 (1 шанс на 100).

Если Вы хотите рассчитать погрешность выборки определенного объема, то в поле «Объем выборочной совокупности » следует ввести неотрицательное число , равное количеству объектов в выборке . После этого Вы кликнуть левой кнопкой «мыши» кнопку расчет, которая должна стать зеленой после правильного введения Вами исходных данных. В поле «Теоретическая статистическая погрешность » будет выведено число больше 0 и меньше единицы, в котором вместо запятой использована точка «.» (с точностью до 3 знаков после десятичной точки). Если Вы хотите перевести эту погрешность в проценты, просто умножьте число на 100 - перенесите мысленно десятичную запятую на два знака вправо. Так, в приведенном примере по результатам расчета видно, что теоретическая статистическая погрешность случайной вероятностной выборки объемом 1600 единиц с квазибесконечной генеральной совокупности с доверительной вероятностью 0,99 не превышает 0,032 (3,2%).

В том случае, когда необходимо рассчитать объем выборочной совокупности с квазибесконечной генеральной совокупности, достаточной для обеспечения теоретической статистической погрешности не более, чем заданная, Вам нужно заполнить поле «Теоретическая статистическая погрешность» (число от 0 до 1, вместо десятичной запятой «,» – десятичная точка «.» ; проценты нужно перевести в частку от единицы : 3,2%=0,032 т. п.). Также следует задать уровень доверительной вероятности, кликнув левой кнопкой «мыши» точку в нужном кружочке справа от надписи «Доверительная вероятность ». После этого Вам достаточно кликнуть левой клавишей мыши на зеленой кнопке «Расчет» и в поле «Объем выборочной совокупности» Вы увидите результат.

Для ввода новых данных и повторного расчета следует нажать черную кнопку «Очистить » .

После того, как определен метод исследования и разработан инструмент, определяются параметры исследования: тип, состав и свойства выборки и её объем. Для определения типа выборки надо воспользоваться таблицами в лекциях: определить объем и свойства генеральной совокупности, затем выбрать модель выборки..

Таблица объемов выборок позволяет определить объем выборок, исходя из заранее заданного показателя надежности P и заранее заданной допустимой величины ошибки е. Р показывает, какую часть генеральной совокупности максимально сможет охватить выборка (это показывает её надежность), а ошибка показывает, какие минимальные расхождения будут допущены между свойствами генеральной совокупности и свойствами выборки.

Таблица объемов выборок
е P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Допустим, мы хотим охватить генеральную совокупность с надежностью не менее 80% и допускаем ошибку нашего исследования не менее 10%. При этом мы ничего не знаем о том, какие значения может принимать исследуемая нами переменная, то есть не имеем никакой априорной информации о генеральной совокупности: ни среднего не знаем, ни возможной дисперсии - ничего. Тогда мы просто ищем соответствующее пересечение в таблице (Р=0,80 , е=0,10): объем выборки составит 41 человек. Таблица составлена из расчета максимального значения дисперсии дихотомической переменной. Видно, что с увеличением точности выборки её объем быстро растет – если в описанном случае мы увидели объем в 41 человек, то для параметров в Р=95% и е=5% (стандартных для большинства исследований) объем составит уже 384 человека. Поэтому таблицей надо пользоваться в случаях, когда генеральная совокупность относительно небольшая и допустимы значительные величины ошибок.

Чтобы обеспечить небольшой объем выборки для относительно большой генеральной совокупности, надо заранее знать параметры распределения изучаемой переменной: среднее значение и дисперсию. При этом можно воспользоваться приведенной ниже номограммой для расчета выборок (номограмма построена для надежности Р=95%, что вполне достаточно). Для использования номограммы надо знать две величины: коэффициент изменчивости v и допустимую величину ошибки е . Коэффициент изменчивости определяется как коэффициент вариации

то есть для его определения надо знать среднее арифметическое и среднее квадратичное отклонение исследуемой переменной.

Для упрощения расчета коэффициента изменчивости надо знать размах вариации, то есть максимальное и минимальное значение, которых может достигать исследуемая переменная. В этом случае расчет v ведется так:

,где X max , X min – максимальное и минимальное значения исследуемой переменной, А - постоянное действительное положительное число (обычно выбирается между 5 и 6).


Пример 1 . Предположим, нам известно, что коэффициент изменчивости исследуемой переменной равен 6%. Найдем объем выборки при допустимой ошибке в 5%. Для этого на левой шкале номограммы, обозначенной v% , ищем точку 6. На правой шкале номограммы, обозначенной ε% , ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на линиях и соединяем их по линейке прямой линией. Смотрим, где эта прямая пересекает центральную шкалу, обозначенную n 1 . Это пересечение совершается в точке 6. Следовательно, объем выборки составит 6 человек.

Пример 2 . Пусть нам известно, что коэффициент изменчивости исследуемой переменной равен 16%. Найдем объем выборки для заданной ошибки в 5%. 16% больше 10%, максимально отмеченных на шкале v% , а шкалы логарифмические, поэтому 16 делим на 10 и на шкале v% номограммы ищем точку 1,6. На правой шкале номограммы ε% ищем выбранное значение ошибки, составляющее 5%. Отмечаем эти точки на шкалах и соединяем их по линейке прямой линией. Смотрим, где прямая пересекает центральную шкалу n 1 . Пересечение совершается в точке 0,4. Поскольку мы уменьшили 16% до 1,6%, то есть в 10 раз, то умножаем 0,4 на 100. Объем выборки составит 40 человек (сравните с указанной выше выборкой в 384 человека для Р=95% и е=5% без учета конкретного значения дисперсии).

Пример 3 . Исследуется потребление студентами сигарет, причем изучаются только те, кто курит сигареты (генеральная совокупность - курящие). Допустимая ошибка составляет 5%. Заранее известно (например, данные взяты из источников вторичной маркетинговой информации), что студенты выкуривают сигареты в количестве от одной пачки сигарет в три дня до двух пачек в день, причем в среднем курящему студенту хватает одной пачки сигарет на день. Тогда соответствующие значения будут составлять X max =2, X min =0,33, а среднее составит 1. Коэффициент изменчивости v составит

и на левой шкале мы откладываем 2,8%, на правой 5%, соединим их и по центральной шкале номограммы получим отметку 1,2 - это значит, что объем выборки должен быть 120 человек.

Пример 4 . Предположим, что при использовании предыдущего примера доступ к целевой репрезентативной группе (курящим) отсутствует. Это значит, что надо включать в выборку как курящих, так и некурящих. В таком случае параметры для расчета будут X max =2, X min =0. Какова будет средняя? Расчет средней по выражению (2+0)/2=1 не является правильным, поскольку прежняя средняя рассчитывалась только для курящих, а сейчас не учтено соотношение размеров групп курящих и некурящих. Например, если доля некурящих составляет 60%, а доля курящих - 40%, то тогда средняя составит 0,4.

Сравним возможные размеры выборок и ошибки исследования:

Если отсутствуют данные о соотношении репрезентативной и нерепрезентативной групп в генеральной совокупности, то расчет коэффициента изменчивости осуществляется через изменение величины А . Как правило, если средняя рассчитывается по выражению (X max +X min )/2, то А уменьшается до 5 и менее.

Как видим, простая случайная выборка для достижения требуемой точности требует значительных объемов. Общий объем выборки можно существенно уменьшить двумя способами:

1) выполняя районирование или стратификацию, то есть выделяя качественно различные группы в генеральной совокупности и размещая выборку именно среди представителей этих групп;

2) выполняя выделение гнезд, то есть разделяя генеральную совокупность на большое количество одинаковых частей и распределяя выборку между этими частями.

При проведении стратифицированной выборки можно поступать следующим образом (см. схему далее).

Первоначально определяется, какой объем априорной информации известен о генеральной совокупности. Для правильно выполненной стратифицированной выборки минимального объема необходимо знать общую численность генеральной совокупности N , число изучаемых страт i , численность каждой страты N i , а внутри каждой страты соответствующее среднее значение изучаемой переменной и её дисперсию. Если все эти параметры известны, то с помощью рассмотренной выше номограммы можно рассчитать объем стратифицированной пропорциональной выборки.

Для этого определяют сначала генеральную дисперсию изучаемой переменной как сумму внутригрупповой и межгрупповой дисперсий, потом определяют генеральное среднее по средним страт, потом определяют коэффициент изменчивости и по номограмме определяют при задании допустимой ошибки общую величину выборки. σ

Генеральная дисперсия равна

где σ 2 р - внутригрупповая дисперсия, а σ 2 m - межгрупповая дисперсия.

Внутригрупповую дисперсию определяют по известным дисперсиям изучаемой переменной внутри каждой страты

где N i - численность i -той страты, σ 2 i - дисперсия i -той страты.

Межгрупповую дисперсию определяют, исходя из известных средних по каждой страте и рассчитанной на их основе генеральной средней:

Если известно число страт, но неизвестен их объем (и/или объем генеральной совокупности), то рассчитывается сначала общий объем выборки указанным способом, а потом он делится на число страт так, чтобы в каждой страте разместилась бы одинаковая доля выборки - это будет стратифицированная равная выборка.

Если неизвестны дисперсии внутри страт, то необходимо знать размах вариации внутри каждой страты, то есть значения X max и X min . Тогда дисперсии страт можно рассчитать, исходя из выражения

Если неизвестна численность страт, то внутригрупповвая дисперсия рассчитывается как простое среднее арифметическое из дисперсий страт.

Если неизвестны средние в каждой страте, но известен размах вариации, то средние внутри страт определяются как средние между крайними значениями изучаемой переменной

Если наличие страт неизвестно, но по генеральной совокупности известны параметры среднего, дисперсии и плотности распределения единиц наблюдения, то осуществляется районная выборка по гнездовому или пропорциональному способам. Если единицы наблюдения размещены по территории, где находится генеральная совокупность, относительно равномерно (коэффициент вариации плотности размещения составляет не более 15-25%), то используется выделение гнезд, каждое из которых вмещает в себя одинаковое число единиц наблюдения. Гнезда выделяются так, что имеют одинаковый размер (например, площадь). Число гнезд определяется пропорционально отношению общего размера выборки n к общему числу единиц наблюдения N . Из каждого гнезда отбирается только одна единица наблюдения, размещение выборки по гнездам осуществляется равномерно-механическим или случайным методом.

Если размещение единиц наблюдения по изучаемой территории неравномерно, то она разделяется на районы с одинаковым числом единиц наблюдения в каждом - это порайонная пропорциональная выборка. Для этого рассчитывается общий объем выборки по номограмме, после чего эта выборка распределяется по районам пропорционально численности единиц наблюдения. Внутри районов в этом случае размещение выборки выполняется либо гнездовым, либо иным способом, аналогично известным процедурам размещения выборок.

Пример 5 . Воспользуемся примером 3, изучающим потребление сигарет. Если нет никаких данных о возможных параметрах изучаемой переменной, то при данных Р=95% , е=5% объем выборки составит 384 человека. Выделим две страты - мужчин и женщин. Пусть априори известно (например, из проведения пилотного исследования), что потребление сигарет в пачках за день составляет у мужчин X max =2, X min =0,33, у женщин X max =3, X min =0,1. Вычислим объем выборки в этом случае

Поскольку о соотношении численностей страт нам ничего не известно, то принимаем, что их численности равны и доли их численностей в генеральной совокупности составляют по 0,5. Тогда внутригрупповая дисперсия будет

а межгрупповая

при генеральном среднем

Тогда генеральная дисперсия будет

и коэффициент изменчивости составит

По номограмме при допустимой ошибке 5% объем выборки составит приблизительно 240 человек (более чем на 140 меньше, чем по таблице). В данном случае эта выборка должна быть разделена на 120 мужчин и 120 женщин.

Если и этот объем выборки слишком велик, то нужно увеличивать количество страт, добиваясь того, чтобы размах вариации в каждой страте был минимален, а размеры страт близки, то есть стремиться к минимуму суммарной дисперсии.

В случае, когда известен размер генеральной совокупности в целом, то возможно корректировать размер выборки на бесповторность следующим образом:

1) для известных v% и e рассчитывается по номограмме размер выборки n 1 ;

2) заданная допустимая ошибка корректируется с учетом размера генеральной совокупности

3) по номограмме для скорректированной ошибки e correct и v% находится новый объем выборки n 2 .

Пример 6. Предположим, что исследование проводится для целевого сегмента объемом 1600 единиц наблюдения при v% =25% и e =5%. По номограмме объем выборки тогда составит 100 единиц наблюдения. Корректируем ошибку с учетом размера выборки

По номограмме скорректированный объем выборки составит (при v% =25% и e =5,2%) 90 единиц наблюдения.

ГЛАВА 1.

В этой части работы студент обрабатывает собранные им данные и делает вывод относительно поставленной задачи: как решить поставленную проблему.

Для обработки студент может использовать MS Excel, SPSS, Statistika for Windows, MatLab, MatCad и другие программы обработки больших массивов данных. Основные задачи, решаемые при использовании этих средств:

верификация данных:

установление законов распределения;

установление взаимосвязей между данными;

классификация и сегментация данных;

прогнозирование развития событий.

Последовательность обработки данных исследования

  1. расчет в рамках анализа двумерных распределений по каждой таблице данных, коэффициента вариации, корреляционного отношения и стандартных отклонений4
  2. расчет корреляционной и ковариационной матриц;
  3. выбор массива данных по заранее заданным условиям;
  4. вычисление распределений (при учете заданных условий);
  5. перекодировка (исправление ошибок в данных);
  6. введение новых показателей (расчет индексов).

Ниже в таблице описаны возможные методы анализа данных. Не следует, разумеется, применять их сразу все. Студент выбирает именно те 1-2 метода, которые наиболее подходят для раскрытия поставленной проблемы.

Количественные методы анализа данных маркетинговых исследований
1.Методы сжатия описательной статистики 2.Методы анализа систем показателей
1.1 Группирование 1.2 Оценка параметров распределения 1.3 Ковариационная и корреляционная матрица
2.1 Ориентация на интегральную качественную характеристику 2.2 Ориентация на количественный признак
2.2.1 Дисперсионный анализ 2.2.2 Корреляционно-регрессионный анализ 2.2.3 Причинный анализ
2.1.1 Без априорной информации об исследуемом признаке 2.1.2 С априорной информацией о классах признака 2.1.3 С априорной информацией о возрастании (убывании) признака)
2.1.1.1 Методы экспертных оценок 2.1.1.2 Анализ матрицы данных.
2.1.3.1 Усиление шкалы по результирующему признаку 2.1.3.2 Оценка существенности показателя (ранговые корреляции)
2.1.1.2.1Факторный анализ 2.1.1.2.2Латентно-структурный анализ 2.1.1.2.3Кластерный анализ 2.1.1.2.4 Методы оценки значимости показателя
2.1.2.1 Методы усиления номинальной шкалы по результирующему признаку 2.1.2.2 Оценка существенности показателей системы
2.1.2.2.1 Методы теории распознавания образов 2.1.2.2.2 Методы теории информации 2.1.2.2.3 Методы теории графов

Для определения основных характеристик в зависимости от применявшихся вопросов могут быть применены слудующие методы анализа измерений по шкалам в вопросах:

Статистические методы выявления связей

Шкала результирующего (итогового) признака Шкала факторного признака (предиктора) Метод статистической обработки
Количественные (И,О,А,Р) Количественные (И,О,А,Р) Регрессии Корреляции
Количественные (И,О,А,Р) Время (И) Динамика временных рядов
Количественные (И,О,А,Р) Неколичественные (К,П) Дисперсионный анализ
Количественные (И,О,А,Р) Ковариационный анализ Типологическая регрессия
Неколичественные (К) Количественные (И,О,А,Р) Дискриминантный анализ Кластерный анализ Таксономия Расщепление смесей
Неколичественные (П) Неколичественные (К,П) Ранговые корреляции Анализ таблиц сопряженности
Количественные и неколичественные Количественные и неколичественные Логические решающие функции
Типы шкал в вопросах: И - интервальная, О - относительная, А- абсолютная, Р - разностная, П - порядковая, К - классификационная (номинальная)

Например, корреляционный анализ для сегментации потребителей выполняется так:

  1. выделяются средние значения, стандартные отклонения, коэффициент вариации, ошибку среднего значения и доверительный интервал;
  2. рассчитывается ковариационная и корреляционная матрица (например, в MS Excel);
  3. вычисляется «близость» объектов в пространстве характеристик (для сегментации);
  4. вычисляются пути максимальной корреляции в целях группировки переменных;
  5. вычисляются пути максимального расстояния по матрице расстояний в целях классификации объектов;
  6. определяются наиболее близкие группы, которые и будут сегментами потребителей;
  7. проверяется мера близости групп (например, корреляционное отношение).

В конце этой главы студент описывает результаты анализа данных, так чтобы были ясны его решения поставленных задач работы, окончатеьные выводы и их формулировки.

Заключение

В этом разделе студент формулирует полное решение проблемы, поставленной в начале своей работы.

Список литературы

Список использованных источников (список литературы) надлежит выполнять в конце текста работы сообразно ГОСТ 7.1-84, например:

Зиннуров У. Г. Основы маркетинговых исследований: Учебное пособие / У. Г. Зиннуров; Уфимск. гос. авиац. техн. ун-т. Уфа, 1996.- 110 с.

Источники в списке располагаются в алфавитном порядке. На все перечисленные источники в работе необходимо сделать ссылки. Постраничные сноски не допускаются.

В случае, если источником являются сайты Интернета, необходимо указывать полностью адрес того сайта (копируя его адресную строку), на котором была получена конкретная информация. При этом приводится дата последнего обращения к этому сайту, например.

Наименование параметра Значение
Тема статьи: Тема 5: Расчет выборки
Рубрика (тематическая категория) Маркетинг

Зачастую размеры исследуемой совокупности велики или для получения информации от всœей совокупности крайне важно затратить чересчур много времени и средств. В этих случаях формируют и исследуют выборочную совокупность. Но следует помнить, что полученные данные всœегда содержат в себе ошибку, о результатах наблюдения можно судить лишь с определœенной степенью достоверности.

Генеральная совокупность - ϶ᴛᴏ множество всœех единиц, являющихся объектами исследования, из которых производится отбор.

Выборочная совокупность – совокупность отобранных для опроса единиц.

Способы построения выборки:

1. Простая случайная выборка – каждый элемент генеральной совокупности имеет равную вероятность попасть в выборочную совокупность. Производится с помощью генератора случайных чисел;

2. Систематическая – первый элемент выборочной совокупности отбирается произвольно, а затем в выборочную совокупность включается каждый i-ый элемент;

3. Стратифицированная (структурированная) – генеральная совокупность делится на несколько страт (групп), а затем способом простой случайной ил систематической выборки производится отбор в каждой из групп;

4. Кластерная выборка – генеральная совокупность делится на кластеры, затем случайным отбором выбирается несколько кластеров и производится исследование всœех объектов выбранных кластеров.

Методы отбора:

1. Повторная выборка – ту или иную единицу, попавшую в выборку после регистрации снова возвращают в генеральную совокупность, и она сохраняет равную возможность со всœеми прочими единицами при повторном отборе снова попасть в выборку. Общая численность единиц генеральной совокупности в процессе выборки остается неизменной.

2. Бесповторная выборка – единица совокупности, попавшая в выборку, в генеральную совокупность не возвращается и в дальнейшем отборе не участвует. Общая численность единиц генеральной совокупности сокращается в процессе выборки.

Подходы к определœению размера выборки:

1. Произвольный – бездоказательно принимается, что выборка должна составлять 5 – 10 % от генеральной совокупности. Данный подход является простым в использовании, однако не представляется возможным установить точность полученных результатов. При достаточно большой генеральной совокупности он должна быть весьма дорогим.

2. На базе предыдущего опыта – объём должна быть установлен из ранее проводимых исследований. Подход обладает определœенной логикой при условии, что предыдущая выборка определœена верно.

3. Ориентация на стоимость проведения – в бюджете маркетинговых исследований предусматриваются затраты на проведение обследований, которые нельзя превышать. Достоверность полученной информации не гарантируется, может иметь место избыточная выборка.

4. Статистические методы – при любых выборочных исследованиях возникают ошибки. Для расчета объёма выборки задаются две величины:

  • Доверительный интервал (допустимая ошибка выборки (∆) – некоторая величина, на которую генеральные результаты могут отличаться выборочных результатов. Это допустимое отклонение наблюдаемых значений от истинных. Размер этого допущения определяется исследователœем с учетом требований к точности информации.
  • Доверительная вероятность – означает степень уверенности в том, что значение наблюдаемого элемента попадет в заданный диапазон доверительного интервала. Чаще всœего используется 95% доверительная вероятность.

Наиболее часто встречающиеся вероятности при проведении исследований:

Выборочная дисперсия (дисперсия признака в выборочной совокупности):

N – число единиц генеральной совокупности.

При этом принимается по предыдущему обследованию, либо рассчитывается:

Если известно наибольшее и наименьшее значения признака в генеральной совокупности:

;

http://www.quans.ru/research/control/select-calc/

Выборочная совокупность должна быть репрезентативной, то есть обеспечивать пропорциональное представительство существенных признаков генеральной совокупности в выборке.

Репрезентативность можно проиллюстрировать следующим примером. Предположим, совокупность - это всœе учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения - отношение к курению. Выборка, состоящая из 60 учеников старших классов гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому - неравное возрастное распределœение в классах. Следовательно, в первом случая репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

При использовании метода наблюдений нужно стремиться преодолеть синдромы Дракулы и Франкенштейна. Первый состоит в стремлении ʼʼвысосатьʼʼ всю мыслимую и немыслимую информацию из непрезентативных наблюдений. Второй - в стремлении бездумно использовать количественные характеристики. Путь к успеху - продуманное использование как количественных, так и качественных методов; проведение как крупномасштабных обследований, так и наблюдений в малых группах.

Главным препятствием на пути создания эффективных прогнозов с помощью метода опросов является знаменитый парадокс Ла-Пьера, гласящий, что люди не всœегда поступают так, как они говорят.

Тема 5: Расчет выборки - понятие и виды. Классификация и особенности категории "Тема 5: Расчет выборки" 2017, 2018.

Интервальное оценивание вероятности события. Формулы расчета численности выборки при собственно-случайном способе отбора.

Для определения вероятностей интересующих нас событий мы применяем выборочный метод : проводим n независимых экспериментов, в каждом из которых может произойти (или не произойти) событие А (вероятность р появления события А в каждом эксперименте постоянна). Тогда относительная частота p* появлений событий А в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события А в отдельном испытании. При этом величину p* называют выборочной долей появлений события А , а р - генеральной долей .

В силу следствия из центральной предельной теоремы (теорема Муавра-Лапласа) относительную частоту события при большом объеме выборки можно считать нормально распределенной с параметрами M(p*)=p и

Поэтому при n>30 доверительный интервал для генеральной доли можно построить, используя формулы:


где u кр находится по таблицам функции Лапласа с учетом заданной доверительной вероятности γ: 2Ф(u кр)=γ.

При малом объеме выборки n≤30 предельная ошибка ε определяется по таблице распределения Стьюдента :
где t кр =t(k; α) и число степеней свободы k=n-1 вероятность α=1-γ (двустороння область).

Формулы справедливы, если отбор проводился случайным повторным образом (генеральная совокупность бесконечна), в противном случае необходимо сделать поправку на бесповторность отбора (таблица).

Средняя ошибка выборки для генеральной доли

Генеральная совокупность Бесконечная Конечная объема N
Тип отбора Повторный Бесповторный
Средняя ошибка выборки

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора Формулы определения численности выборки
для средней для доли
Повторный
Бесповторный
Доля единиц w = . Точность ε = . Вероятность γ =

Задачи о генеральной доле

На вопрос «Накрывает ли доверительный интервал заданное значение p 0 ?» - можно ответить, проверив статистическую гипотезу H 0:p=p 0 . При этом предполагается, что опыты проводятся по схеме испытаний Бернулли (независимы, вероятность p появления события А постоянна). По выборке объема n определяют относительную частоту p * появления события A: где m - количество появлений события А в серии из n испытаний. Для проверки гипотезы H 0 используется статистика, имеющая при достаточно большом объеме выборки стандартное нормальное распределение (табл. 1).
Таблица 1 - Гипотезы о генеральной доле

Гипотеза

H 0:p=p 0 H 0:p 1 =p 2
Предположения Схема испытаний Бернулли Схема испытаний Бернулли
Оценки по выборке
Статистика K
Распределение статистики K Стандартное нормальное N(0,1)

Пример №1 . С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал , с вероятностью 0.95 накрывающий истинную долю женщин во всем коллективе фирмы.
Решение. По условию выборочная доля женщин составляет (относительная частота женщин среди всех опрошенных). Так как отбор является повторным, и объем выборки велик (n=900) предельная ошибка выборки определяется по формуле

Значение u кр находим по таблице функции Лапласа из соотношения 2Ф(u кр)=γ, т.е. Функция Лапласа (приложение 1) принимает значение 0.475 при u кр =1.96. Следовательно, предельная ошибка и искомый доверительный интервал
(p – ε, p + ε) = (0.3 – 0.18; 0.3 + 0.18) = (0.12; 0.48)
Итак, с вероятностью 0.95 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0.12 до 0.48.

Пример №2 . Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80 %. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0.98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года.
Решение . Выборочная доля «удачных» дней составляет
По таблице функции Лапласа найдем значение u кр при заданной
доверительной вероятности
Ф(2.23) = 0.49, u кр = 2.33.
Считая отбор бесповторным (т.е. две проверки в один день не проводилось), найдем предельную ошибку:
где n=40 , N = 365 (дней). Отсюда
и доверительный интервал для генеральной доли: (p – ε, p + ε) = (0.6 – 0.17; 0.6 + 0.17) = (0.43; 0.77)
С вероятностью 0.98 можно ожидать, что доля «удачных» дней в течение года находится в интервале от 0.43 до 0.77.

Пример №3 . Проверив 2500 изделий в партии, обнаружили, что 400 изделий высшего сорта, а n–m – нет. Сколько надо проверить изделий, чтобы с уверенностью 95% определить долю высшего сорта с точностью до 0.01 ?
Решение ищем по формуле определения численности выборки для повторного отбора.

Ф(t) = γ/2 = 0.95/2 = 0.475 и этому значению по таблице Лапласа соответствует t=1.96
Выборочная доля w = 0.16; ошибка выборки ε = 0.01

Пример №4 . Партия изделий принимается, если вероятность того, что изделие окажется соответствующим стандарту, составляет не менее 0.97. Среди случайно отобранных 200 изделий проверяемой партии оказалось 193 соответствующих стандарту. Можно ли на уровне значимости α=0,02 принять партию?
Решение . Сформулируем основную и альтернативную гипотезы.
H 0:p=p 0 =0,97 - неизвестная генеральная доля p равна заданному значению p 0 =0,97. Применительно к условию - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, равна 0.97; т.е. партию изделий можно принять.
H 1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Наблюдаемое значение статистики K (таблица) вычислим при заданных значениях p 0 =0,97, n=200, m=193


Критическое значение находим по таблице функции Лапласа из равенства


По условию α=0,02 отсюда Ф(Ккр)=0,48 и Ккр=2,05. Критическая область левосторонняя, т.е. является интервалом (-∞;-K kp)= (-∞;-2,05). Наблюдаемое значение К набл =-0,415 не принадлежит критической области, следовательно, на данном уровне значимости нет оснований отклонять основную гипотезу. Партию изделий принять можно.

Пример №5 . Два завода изготавливают однотипные детали. Для оценки их качества сделаны выборки из продукции этих заводов и получены следующие результаты. Среди 200 отобранных изделий первого завода оказалось 20 бракованных, среди 300 изделий второго завода - 15 бракованных.
На уровне значимости 0.025 выяснить, имеется ли существенное различие в качестве изготавливаемых этими заводами деталей.

По условию α=0,025 отсюда Ф(Ккр)=0,4875 и Ккр=2,24. При двусторонней альтернативе область допустимых значений имеет вид (-2,24;2,24). Наблюдаемое значение K набл =2,15 попадает в этот интервал, т.е. на данном уровне значимости нет оснований отвергать основную гипотезу. Заводы изготавливают изделия одинакового качества.