Вариационные ряды, их элементы. Анализ вариационных рядов

Вариационные ряды: определение, виды, основные характеристики. Методика расчета
моды, медианы, средней арифметической в медико-статистических исследованиях
(показать на условном примере).

Вариационный ряд – это ряд числовых значений изучаемого признака, отличающихся друг от друга по своей величине и расположенных в определенной последовательности(в восходящем или убывающем порядке). Каждое числовое значение ряда называют вариантой (V), а числа, показывающие, как часто встречается та или иная варианта в составе данного ряда, называется частотой (р).

Общее число случаев наблюдений, из которых вариационный ряд состоит, обозначают буквой n. Различие в значении изучаемых признаков называется вариацией. В случае если варьирующий признак не имеет количественной меры, вариацию называют качественной, а ряд распределения – атрибутивным (например, распределение по исходу заболевания, по состоянию здоровья и т.д.).

Если варьирующий признак имеет количественное выражение, такую вариацию называют количественной, а ряд распределения – вариационным.

Вариационные ряды делятся на прерывные и непрерывные – по характеру количественного признака, простые и взвешенные – по частоте встречаемости вариант.

В простом вариационном ряду каждая варианта встречается только один раз (р=1), во взвешенном – одна и та же варианта встречается несколько раз (р>1). Примеры таких рядов будут рассмотрены далее по тексту. Если количественный признак носит непрерывный характер, т.е. между целыми величинами имеются промежуточные дробные величины, вариационный ряд называется непрерывным.

Например: 10,0 – 11,9

14,0 – 15,9 и т.д.

Если количественный признак носит прерывный характер, т.е. отдельные его значения (варианты) отличаются друг от друга на целое число и не имеют промежуточных дробных значений, вариационный ряд называют прерывным или дискретным.

Используя данные предыдущего примера о частоте пульса

у 21 студентов, построим вариационный ряд (табл. 1).

Таблица 1

Распределение студентов-медиков по частоте пульса (уд/мин)

Таким образом, построить вариационный ряд – означает имеющиеся числовые значения (варианты) систематизировать, упорядочить, т.е. расположить в определенной последовательности (в восходящем или убывающем порядке) с соответствующими им частотами. В рассматриваемом примере варианты расположены в восходящем порядке и выражены в виде целых прерывных (дискретных) чисел, каждая варианта встречается несколько раз, т.е. мы имеем дело со взвешенным, прерывным или дискретным вариационным рядом.

Как правило, если число наблюдений в изучаемой нами статистической совокупности не превышает 30, то достаточно все значения изучаемого признака расположить в вариационном ряду в нарастающем, как в табл. 1, или убывающем порядке.

При большом количестве наблюдений (n>30) число встречающихся вариант может быть очень большим, в этом случае составляется интервальный или сгруппированный вариационный ряд, в котором для упрощения последующей обработки и выяснения характера распределения варианты объединены в группы.

Обычно число групповых вариант колеблется от 8 до 15.

Их должно быть не меньше 5, т.к. иначе это будет слишком грубое, чрезмерное укрупнение, что искажает общую картину варьирования и сильно сказывается на точности средних величин. При числе групповых вариант более 20-25 увеличивается точность вычисления средних величин, но существенно искажаются особенности варьирования признака и усложняется математическая обработка.

При составлении сгруппированного ряда необходимо учесть,

− группы вариант должны располагаться в определенном порядке (в восходящем или нисходящем);

− интервалы в группах вариант должны быть одинаковыми;

− значения границ интервалов не должны совпадать, т.к. неясно будет, в какие группы относить отдельные варианты;

− необходимо учитывать качественные особенности собираемого материала при установлении пределов интервалов (например, при изучении веса взрослых людей интервал 3-4 кг допустим, а для детей первых месяцев жизни он не должен превышать 100 г.)

Построим сгруппированный (интервальный) ряд, характеризующий данные о частоте пульса (число ударов в минуту) у 55 студентов-медиков перед экзаменом: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Для построения сгруппированного ряда необходимо:

1. Определить величину интервала;

2. Определить середину, начало и конец групп вариант вариационного ряда.

● Величина интервала (i) определяется по числу предполагаемых групп (r), количество которых устанавливается в зависимости от числа наблюдений (n) по специальной таблице

Число групп в зависимости от числа наблюдений:

В нашем случае, для 55 студентов, можно составить от 8 до 10 групп.

Величина интервала (i) определяется по следующей формуле –

i = V max-V min/r

В нашем примере величина интервала равна 82- 58/8= 3.

Если величина интервала представляет собой дробное число, полученный результат следует округлить до целого числа.

Различают несколько видов средних величин:

средняя арифметическая,

● средняя геометрическая,

● средняя гармоническая,

● средняя квадратическая,

● средняя прогрессивная,

● медиана

В медицинской статистике наиболее часто пользуются средними арифметическими величинами.

Средняя арифметическая величина (М) является обобщающей величиной, которая определяет то типичное, что характерно для всей совокупности. Основными способами расчета М являются: среднеарифметический способ и способ моментов (условных отклонений).

Среднеарифметический способ применяется для вычисления средней арифметической простой и средней арифметической взвешенной. Выбор способа расчета средней арифметической величины зависит от вида вариационного ряда. В случае простого вариационного ряда, в котором каждая варианта встречается только один раз, определяется средняя арифметическая простая по формуле:

где: М – средняя арифметическая величина;

V – значение варьирующего признака (варианты);

Σ – указывает действие – суммирование;

n – общее число наблюдений.

Пример расчета средней арифметической простой. Частота дыхания (число дыхательных движений в минуту) у 9 мужчин в возрасте 35 лет: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Для определения среднего уровня частоты дыхания у мужчин в возрасте 35 лет необходимо:

1. Построить вариационный ряд, расположив все варианты в возрастающем или убывающем порядке Мы получили простой вариационный ряд, т.к. значения вариант встречаются только один раз.

M = ∑V/n = 171/9 = 19 дыхательных движений в минуту

Вывод. Частота дыхания у мужчин в возрасте 35 лет в среднем равна 19 дыхательным движениям в минуту.

Если отдельные значения вариант повторяются, незачем выписывать в линию каждую варианту, достаточно перечислить встречающиеся размеры вариант (V) и рядом указать число их повторений (р). такой вариационный ряд, в котором варианты как бы взвешиваются по числу соответствующих им частот, носит название – взвешенный вариационный ряд, а рассчитываемая средняя величина – средней арифметической взвешенной.

Средняя арифметическая взвешенная определяется по формуле: M= ∑Vp/n

где n – число наблюдений, равное сумме частот – Σр.

Пример расчета средней арифметической взвешенной.

Длительность нетрудоспособности (в днях) у 35 больных острыми респираторными заболеваниями (ОРЗ), лечившихся у участкового врача на протяжении I-го квартала текущего года составила: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 дней.

Методика определения средней длительности нетрудоспособности у больных с ОРЗ следующая:

1. Построим взвешенный вариационный ряд, т.к. отдельные значения вариант повторяются несколько раз. Для этого можно расположить все варианты в возрастающем или убывающем порядке с соответствующими им частотами.

В нашем случае варианты расположены в возрастающем порядке

2. Рассчитаем среднюю арифметическую взвешенную по формуле: M = ∑Vp/n = 233/35 = 6,7 дней

Распределение больных с ОРЗ по длительности нетрудоспособности:

Длительность нетрудоспособности (V) Число больных (p) Vp
∑p = n = 35 ∑Vp = 233

Вывод. Длительность нетрудоспособности у больных с острыми респираторными заболеваниями составила в среднем 6,7 дней.

Мода (Мо) – наиболее часто встречающаяся варианта в вариационном ряду. Для распределения, представленного в таблице, моде соответствует варианта, равная 10, она встречается чаще других – 6 раз.

Распределение больных по длительности пребывания на больничной койке (в днях)

V
p

Иногда точную величину моды установить трудно, поскольку в изучаемых данных может существовать несколько наблюдений, встречающихся «наиболее часто».

Медиана (Ме) – непараметрический показатель, делящий вариационный ряд на две равные половины: в обе стороны от медианы располагается одинаковое число вариант.

Например, для распределения, указанного в таблице, медиана равна 10, т.к. по обе стороны от этой величины располагается по 14 вариант, т.е. число 10 занимает центральное положение в этом ряду и является его медианой.

Учитывая, что число наблюдений в этом примере четное (n=34), медиану можно определить таким образом:

Me = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Это означает, что середина ряда приходится на семнадцатую по счету варианту, которой соответствует медиана, равная 10. Для распределения, представленного в таблице, средняя арифметическая равна:

M = ∑Vp/n = 334/34 = 10,1

Итак, для 34 наблюдений из табл. 8, мы получили: Мо=10, Ме=10, средняя арифметическая (М) равна 10,1. В нашем примере все три показателя оказались равными или близкими друг к другу, хотя они совершенно различны.

Средняя арифметическая является результативной суммой всех влияний, в формировании ее принимают участие все без исключения варианты, в том числе и крайние, часто нетипичные для данного явления или совокупности.

Мода и медиана, в отличие от средней арифметической, не зависят от величины всех индивидуальных значений варьирующего признака (значений крайних вариант и степени рассеяния ряда). Средняя арифметическая характеризует всю массу наблюдений, мода и медиана – основную массу

Вариационные ряды, их элементы.

Исследователь, интересующийся тариф-ным разрядом рабочих механиче-
ского цеха, провел опрос 100 рабочих. Рас-положим наблюдавшиеся значения
приз-нака в порядке возрастания. Эта операция называется ранжированием ста-
тистичес-ких данных. В результате получим сле-дующий ряд, который называет-
ся ран-жированным:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

Из ранжированного ряда следует, что ис-следуемый признак (тарифный
разряд) принял шесть различных значений: 1, 2, 3, 4, 5 и 6.

В дальнейшем различные значения приз-нака будем называть варианта-
ми,
а под варьированием - понимать изменение значений признака.

В зависимости от принимаемых призна-ком значений, признаки делятся
на диск-ретно варьирующие и непрерывно ва-рьирующие.

Тарифный разряд - это дискретно ва-рьирующий признак. Число, показы-
ваю-щее, сколько раз встречается вариант х в ряде наблюдений, называется час-
тотой
варианта m x .

Вместо частоты варианта х можно рас-сматривать её отношение к общему
числу наблюдений n, которое называется часто-стью варианта и ее отношение обоз-начается w x .

w x =m x /n=m x /åm x

Таблица, позволяющая судить о распре-делении частот (или частостей) между вариантами, называется дискретным вариационным рядом.

Наряду с понятием частоты использу-ют понятие накопленной частоты,
кото-рую обозначают т x нак. Накопленная час-тота показывает, во скольких на-
блюдени-ях признак принял значения, меньшие за-данного значения х. Отноше-
ние накоп-ленной частоты к общему числу наблю-дений n, называют накоплен-
ной часто-стью
и обозначают w x нак . Очевидно, что



w x нак =m x нак /n=m x нак /åm x .

Накопленные частоты (частости_ для дискретного вариационного ряда, вычес-лены в следующей таблице:

Х m x m x нак w x нак
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
Выше 6

Пусть необходимо исследовать выработку на одного рабочего – станоч-ника механического цеха в отчётном году в процентах к предыдущему году. Здесь исследуемым признаком х является выработка в отчётном году в процентах к предыдущему. Это непрерывно варьиру-ющий признак. Для выяления характерных черт варьирования значений признака обьединим в группы рабочих, у которых величина выработки колеблется в пределах 10%. Сгруппированные данные представим в таблице:

Иссл. Признак х Кол-во рабочих m Доля рабочих w Накоплен. частота m x нак w x нак
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

В таблице частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют интервальной, а отношение её к общему числу наблюдений – интервальной частостью w. Таблицу, позволяющую судить о распределении частот между интервалами варьирования значений признака, называют интерва-льным вариационным рядом.

Интервальный вариационный ряд строят по данным наблюдений за не-
прерывно варьирующим признаком, а также за дис-кретно варьирующим, если
велико число наблюдавших вариантов. Дискретный ва-риационный ряд строят
только для дис-кретно варьирующего признака

Иногда интервальный вариационный ряд условно заменяют дискретным.
Тогда се-рединное значение интервала принимают за вариант х, а соответст-
вующую интер-вальную частоту - за т х.

Для определения оптимального постоян-ного интевала h часто используют формулу Стерджесса:

h =(x max – x min)/(1+3.322*lg n ).

Построение инт.вар.рядов

Частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют интервальной, а отношение ее к общему числу наблюдений - ин­тервальной частостью w. Таблицу, позволяющую судить о распределении частот (или частостей) между интервалами варьирования значений признака, называют интервальным вариационным рядом.

Интервальный вариационный ряд строят по данным наблюдений за не­прерывно варьирующим признаком, а также за дискретно варьирующим, если велико число наблюдавших вариантов. Дискретный вариационный ряд строят только для дискретно варьирующего признака.

Иногда интервальный вариационный ряд условно заменяют дискретным. Тогда серединное значение интервала принимают за вариант х, а соответст­вующую интервальную частоту – за mx

Для построения интервального вариационного ряда необходимо оп­ределить величину интервала, установить полную шкалу интервалов и в соответствии с ней сгруппировать результаты наблюдений.

Для определения оптимального постоянного интервала h часто исполь­зуют формулу Стерджесса:

h = (xmax - xmin) /(1+ 3,322 lg n) .

где xmax xmin - соответственно максимальный и минимальный варианты. Если в результате расчетов h окажется дробным числом, то за величину интервала следует взять либо ближайшее целое число, либо ближайшую несложную дробь.

За начало первого интервала рекомендуется принять величину a1=xmin-h/2; начало второго интервала совпадает с концом первого и равно а2=а1 +h; начало третьего интервала совпадает с концом второго и равно a3=a2 + h. Построение интервалов продолжается до тех пор, пока начало сле­дующего по порядку интервала не будет больше хmах. После установления шкалы интервалов следует сгруппировать результаты наблюдений.

5) Понятие, формы выражения и виды статитстических показателей.

Статистический показатель представляет собой количественную характеристику социально-экономических явлений и процессов в условиях качественной определённости. Качественная определё-нность показателя заключается в том, что он непосредственно связан с внутренним содержанием изучаемого явления или процесса, его сущностью.

Система статистических показателей – это совокупность взаимосвязанных пока-зателей, имеющая одноуровневую или многоуровневую структуру и нацеленная на решение конкретной статистической задачи.

В отличие от признака статистический показатель получается расчётным путём. Это могут быть простой подсчёт единиц совокупности, суммирование их значений признака, сравнение 2 или нескольких величин или более сложные расчёты.

Различают конкретный статистический показатель и показатель-категорию.

Конкретный статистический показа-тель характеризует размер, величину изучаемого явления или процесса в дан-ном месте и в данное время. Однако в теоретических работах и на этапе проектирования статистического наблю-дения также оперируют и абсолютными показателями или показателями-катего-риями.

Показатели-категории отражают сущ-ность, общие отличительные свойства конкретных статистических показателей одного и того же вида без указания места, времени и числового значения. Все статистические показатели делятся по охвату единиц совокупности на индивидуальные и свободные, а по форме – на абсолютные, относительные и сред-ние.

Индивидуальные показатели хара-ктеризуют отдельный объект или отдельную единицу совокупности – предприятие, фирму, банк и т. п. Приме-ром может служить численность промы-шленно-производственного персонала предприятия. На сонове соотнесения двух индивидуальных абсолютных показателей, характеризующих один и тот же объект или единицу, получают индивидуальный относительный показа-тель.

Сводные показатели в отличие от индивидуальных характеризуют группу единиц, представляющую собой часть статистической совокупности или всю совокупность в целом. Эти показатели подразделяются на объемные и рас-чётные.

Объёмные показатели получают путём сложения значений признака отдельных единиц совокупности. Полученная величина, называемая объёмом признака, может выступать в качестве объёмного абсолютного показателя, а может сравниваться с другой объёмной абсолютной величиной или объёмом совокупности. В последних 2 случаях получают объёмный относительный и объёмный средний показатели.

Расчётные показатели , вычисляемые по различным формулам, служат для решения отдельных статистических задач анализа – измерение вариации, характе-ристики структурных сдвигов, оценки взаимосвязи и т. д. Они также делятся на абсолютные, относительные или средние.

В эту группу входят индексы, коэффиценты тесноты связи, ошибки выборки и прочие показатели.

Охват единиц совокупности и форма выражения являются основными, но не единственными классификационными признаками статистических показателей. Важным классификационным признаком также является временный фактор. Соц-экономические процессы и явления находят своё отражение в статистических показателях либо по состоянию на определённый момент времени, как правило, на определённую дату, начало или конец месяца, года, либо за определённый период – день, неделю, месяц, квартал, год. В первом случае показатели являются моментными, во втором – интервальными.

В зависимости от принадлежности к одному или двум объектам изучения различают однообъектные и межобъек-тные показатели . Если первые характеризуют только один объект, то вторые получают в результате сопоставления двух величин, относящихся к разным объектам.

С точки зрения пространственной определённости статистические показатели подразделяются на общетерриториальные , характеризую-щие изучаемый объект или явление в це-лом по стране, региональные и мест-ные , относящиеся к какой-либо части территории или отдельному объекту.

6) Виды и взаимосвязь относительных показателей .

Относительный показатель представляет собой результат деления одного абсолют-ного показателя на другой и выражает соотношение между количественными характеристиками соц-экономических процессов и явлений. Поэтому пог отношению к абсолютным показателям относительные показатели или показатели в форме относительных величин являются производными.

При расчёте относительного показателя абсолютный показатель, находящийся в числителе получаемого отношения, назы-вается текущим или сравниваемым . Показатель же, с которым производится сравнение и который находится в знаменателе, называется основанием или базой сравнения. Относительные показатели могут выражаться в процентах, промилле, коэффицентах или могут быть именованными числами.

Все используемые на практике относительные показатели делятся на:

·динамики; ·плана; ·реализации плана; ·структуры; ·координации; ·интенсив-ности и уровня эк-го развития; ·сравнения.

Относительный показатель данамики пред-ет собой отношение уровня исследуемого процесса или явления за данный период времени к уровню этого же процесса или явления в прошлом.

ОПД=текущий показатель/предшеств. Или базисный показатель.

Рассчитанная таким образом величина показывает, во сколько раз текущий уровень превышает предшествующий или какую долю от последнего составля-ет. Если данный показатель выражен кратным соотношением, он называется коэффициентом роста , при домножении этого коэффициента на 100% получают темп роста.

Относительный показатель структуры представляет собой соотношение структурных частей изучаемого объекта и их целого. Относительный показатель структуры выражается в долях единицы или в процентах. Рассчитанные величины (d i), соответсвенно называемые долями или удельными весами, показывают, ка-каой долей обладает или каокй удельный вес имеет i-ая часть в общем итоге.

Относительные показатели координа-ции характеризуют соотношение отдель-ных частей целого между собой. При этом в качестве базы сравнения выбирается та часть, которая имеет наибольший удельный вес или является приоритетной с экономической, социальной или какой-либо другой точки зрения. В результате получают, сколько единиц каждой структурной части приходится на 1 единицу базисной структурной части.

Относительный показатель интенсив-ности характеризует степень распро-странения изучаемого процесса или явления в присущей ему среде. Этот показатель исчисляется, когда абсолютная величина оказывается недостаточной для формулировки обоснованных выводов о масштабах явления, его размерах, насыщенности, плотности распространения. Он может выражаться в процентах, промилле или быть именованной величиной. Разновид-ностью относительных показателей инте-нсивности являются относительные показатели уровня эко-го развития, характеризующие производство продукции в расчёте на душу населения и играющие важную роль в оценке развития экономики государства. По форме выражения эти показатели близки средним показателям, что нередко приводит к их смешиванию или отждествлению. Разница между ними заключается лишь в том, что при расчётесреднего показателя мы имеем дело с совокупностью единиц, каждая из которых является носителем осредняе-мого признака.

Относительный показатель сравнения представляет собойсоотношение одноименных абсолютных показателей, характеризующих разные объекты (предприятия, фирмы, области, районы и т. д.)

Показатели вариации

Изучение вариации (изменение значений признака в пределах совокуп­ности) имеет большое значение в статистике и социально-экономических ис­следованиях вообще. Абсолютные и относительные показатели вариации, характеризующие колеблемость значений варьирующего признака, позволяют, в частности, измерить степень связи и взаимосвязи, оценить степень однородно­сти совокупности, типичности и устойчивости средней, определить величину возможной погрешности выборочного наблюдения.

К абсолютным показателям вариации относят размах вариации, среднее линейное отклонение, дисперсию, среднее квадратическое отклонение и квар­тальное отклонение.

Размах вариации показывает, на какую величину изменяется значение количественно варьирующего признака

R=xmax-xmin, где xmax(xmin) -максимальное (минимальное) значение признака в совокупности (в ряду распределе­ния).

Среднее линейное отклонение d определяется как средняя величина из отклонений вариантов признака от средней в первой степени, взятых по модулю:

Среднее линейное отклонение сравнительно редко применяется для оценки вариации признака. Обычно вычисляются дисперсия и среднее квадратическое отклонение .

Если необходимо сравнить колеблемость нескольких признаков в одной совокупности или же одного и того же признака в нескольких совокупностях с различными показателями центра распределения, то пользуются относитель­ными показателями вариации.

К ним относятся следующие показатели:

1. Коэффициент осцилляции:

2. Относительное линейное отклонение:

3. Коэффициент вариации:

4. Относительный показатель квартильной вариации:

Наиболее часто применяемый показатель относительной вариации - это коэффициент вариации. Этот показатель используют не только для сравни­тельной оценки вариации, но и как характеристику однородности совокупно­сти. Совокупность считается однородной, если <0,33.

Формы.

1. Стат. отчетность- это такая орг-я форма при которой единицы набл-я предост-т сведения о своей деят-ти в виде формуляров, регламентир-го аппарата.

Особенность отчетности сост-т в том, что она обязат-но обоснован, обяз-на в исполнении и юр-ки подтверждена подписью руководителя или ответственного лица.

2. Специально организованное наблюдение- наиболее яркий и простой пример этой формы набл-я явл. перепись. Перепись как правило проводится через равные промежутки времени, одновременно на всей исслед-й территории в одно и тоже время.

Росс-ми органами статистики проводятся переписи населения отдельных видов п/п и орг-ций, матер-ых ресурсов, многолетних насаждений, объектов НЗ строительства и т.д.

4. Регистровая форма наблюдения- основана на ведении стат-го регистра. В регистре каж. единица набл-я хар-ся рядом показателей. В отечественной статистической практике наиб-ее распространение получили регистры нас-я и регистры п/п.

Регистрация населения – ведется органами ЗАГСа

Регистрация п/п – ЕГРПО вед.орг. статистики.

Виды.

можно разбить на группы по след. признакам:

а) по времени регистрации

б) по охвату единиц сов-ти

По времени рег. они бывают:

Текущие (непрер-е)

Прерывное (периодические и единовременные)

При тек. набл. изменение явлений и процессов фиксируется по мере их поступления (регистрация рождения, смерти, брака, развода и т.д.)

Периодич. набл. проводится через опр. промежутки времени (N перепись населения каждые 10 лет)

Единоврем. набл. проводится либо не регулярно, либо всего один раз (референдум)

По охвату ед. сов-ти стат-е набл. бывают:

Сплошными

Несплошными

Сплошное набл. предст-ет собой обслед-е всех единиц сов-ти

Несплошное набл. предполагает ч. обсл-ю подлежит лишь часть исслед-ий сов-ти.

Сущ-ет несколько видов несплошного набл-я:

Метод осн. массива

Выборочное (самостоятельно)

Монографическое

Этот метод х-ся тем, что отбираются как правило самые существ-е, обычно самые крупные ед. сов-ти в кот. сосред-на значит. часть всех наблх признаков.

При монографическом набл-ии тчательному ан. подвергаются отд. ед. изуч-ой сов-ти или м.б. либо типичные для данной сов-ти ед. либо предст-е собой к-либо новые разновидности явлений.

Многогр-е набл. проводится с целью выявления либо намечающихся тенденции в развитии данного явления.

Способы

Непосредственное набл-е

Документарное набл.

Непосредственным наз. такое набл. при кот. сами регистраторы путем непоср-го замера, подсчета, сдерживания уст-т факт подлежащий рег-ии и на этом основании делают запись в формуляре.

Документарный способ набл. основан на исп-ии в качестве источников инф-ции разл-х док-ов как правило учетного х-ра (т.е. стат. отчетность)

Опрос- это способ убеждения при кот. необходимые сведения получ-т со слов респондента (т.е. опрашиваемого) (устный, корреспондентский, анкетный, явочный и т.д.)

Определение ошибок выборки.

В процессе проведения выборочного наблюдения выделяют два вида ошибок: регистрации и репрезентативности.

Ошибки регистрации – отклонения между значением показателя, получен-ного при проведении статистического наблюдения, и действительным его значением. Эти ошибки могут появляться и при сплошном, и при несплошном наблюдении. Ошибки регистрации возни-кают из-за неправильных или неточных сведений. Источниками этого вида оши-бок могут быть непонимание сущности вопроса, невнимательность регистратора, пропуск или повторный счёт отдельных единиц наблюдения. Ошибки регистра-ции подразделяются на систематичес-кие , обусловленные причинами, действу-ющими в каком-либо одном направлении и сглаживающими результаты обследова-ния (округление цифр), и случайные , яв-ляющиеся результатом действия различ-ных случайных факторов (перестановка местами соседних цифр). Случайные ошибки имеют разную направленность и при достаточно большом объёме обследуемой совокупности взаимно погашаются.

Ошибки репрезентативности – откло-нения значений показателя обследован-ной совокупности от его значения в ис-ходной совокупности. Эти ошибки также подразделяются на систематические , по-являющиеся вследствие нарушения принципов отбора подлежащих наблюде-нию единиц из исходной совокупности, и случайные , которые возникают, если отобранная совокупность неполно вос-производит всю совокупность в целом. Величина случайной ошибки может быть оценена.

Ошибка выборочного наблюдения – разность между значением признака в ге-неральной совокупности и его значением, рассчитанным по результатам выбороч-ного наблюдения. В практике выбороч-ных обследований наиболее часто опре-деляется средняя и предельная ошибки выборки.

Средняя ошибка выборки для различных спосбов отбора вычисляется по разному. Если случайный или мех-ий отбор, то

Для средней: m = s 2 / (n) 1/2

Для доли: m = (w(1-w)/n) 1/ 2 , где

m - средняя ошибка выборки

s 2 – генеральная дисперсия

n – объём выборочной совокупности

Если выборочная совокупность формируется на основе типической выборки и отбор единиц осуществляется пропорционально объёму типических групп, то средняя ошибка равна:

Для средней: m = (s i 2 / n) 1/2

Для доли: m = (w i (1-w i) / n) 1/2 , где

s i 2 – средняя из внутригрупп-х дисперсий

w i – доля единиц в итой группе, обладающих исследуемым признаком.

s i 2 = ås 2 n i / ån i

Cредняя ошибка серийной выборки рав-на:

Для средней: m = (d х 2 / r) 1/2

Для доли: m = (d 2 w / r) 1/2

d 2 w – межгрупповая дисперсия доли

d х 2 – межгрупповая дисперсия количес-твенного признака.

r– число отобранных серий/

d 2 x = å(x i -x) 2 / r

d 2 w = å(w i – w) 2 / r

Если отбор единиц из генеральной совокупности производится бесповторным способом, то в формулы средней ошибки вносится поправка: (1-n/N) 1/2

Предельная ошибка выборки D рас-считывается как произведение коэффици-ента доверия t и средней ошибки вы-борки: D = t*m. D связана с гарантирующим её уровнем доверия вероятности. Этот уровень определяет коэффициент доверия t, и наоборот. Значения t приводятся в специальных математических таблицах.

Определение объёма выборки.

Объём выборки рассчитывается, как правило, на стадии проектирования вы-борочного обследования. Формулы для определения численности выборки следуют из формул предельных ошибок выборки.

Объём собственно случайной и механической повторных выборок определяется по формулам:

Для средней n = t 2 s 2 / D 2

Для доли n = t 2 w(1-w) / D 2

В случае бесповторной выборки:

Для средней n = t 2 s 2 N / ND 2 +t 2 s 2

Для доли n = t 2 w(1-w)N / ND 2 +t 2 w(1-w) .

Величины s 2 и w до проведения выбо-рочного наблюдения неизвестны. Приб-лижённо их находят так:

1. берут из предыдущих обследований;

2. если известны максимально и минимальное значения признака, то среднеквадратическое отклонение определяют по правилу «трёх сигм»:

s = x max – x min / 6

3. при изучении альтернативного призна-ка, если нет никаких сведений о его доле в генеральной совокупности, берётся максимально возможная величина w=0,5

При типическом отборе, пропорциона-льном объёму типических групп, объём выборки по каждой группе определяется формулой: n i = n*N i / N , где

n i – объём выборки из i-той группы

N i – объём i –той группы в ген-ой сов-ти.

При выборке, пропорциональной вариа-ции признака, численность выборки из каждой группы находят так: n i = nN i s i /åN i s i .

При типической повторной выборке, пропорциональной объёму групп, общую численность выборки находят так:

Для средней n = t 2 s 2 i / D 2

Для доли n = t 2 w(1-w) / D 2

В случае бесповторной типической выборки:

Для средней n = t 2 s 2 i N / D 2 N+t 2 s 2 i

Для доли n = t 2 w(1-w)N / D 2 N+t 2 w(1-w)

Основные понятия и предпосылки применения корреляционно-регрессион-ного анализа.

Корреляция – это статистическая зависи-мость между случайными величинами, не имеющими строго функционального ха-рактера, при которой изменение одной из случайных величин приводит к изме-нению матем-ского ожидания другой.

Корреляционный анализ – имеет своей за-дачей количественное определение тес-ноты связи между двумя признаками и между результативными и множеством факторных признаков. Теснота связи ко-личественно выражается величиной коэффициентов корреляции.

Корреляционно-регрессионный анализ как общее понятие включает в себя измере-ние тесноты, направления связи и уста-новление аналитического выражения (фо-рмы) связи (регрессионный анализ).

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной вели-чины (называемой зависимой или резуль-тативным признаком) обусловлено влия-нием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, прини-мается за постоянные и средние значе-ния. Регрессия может быть однофактор-ной (парной) и многофакторной (множес-твенной).

Целью регрессионного анализа являет-ся оценка функциональной зависимости условного среднего значения результа-тивного признака (У) от факторных (х 1 , х 2 , …х к) признаками.

Основной предпосылкой регрессионно-го анализа является то, что только резу-льтативный признак (У) подчиняется нормальному закону распределения, а факторные признаки х 1 , х 2 ,…,х к могут иметь произвольный закон распределе-ния. В анализе динамических рядов в качестве факторного признака выступает время t. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным (У) факторными (х 1 , х 2 ,…,х к) признаками. Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией У х =f(х 1 , х 2 ,…,х к), является достаточно адекватным реаль-ному моделируемому явлению или процессу в случае соблюдения следую-щих требований их построения .

1. Совокупность исследуемых исходных данных д/б однородной и математически описываеться непрерывными функциями.

2. Возможность описания моделируемого явления одним или несколькими уравне-ниями причинно-следственных связей.

3. Все факторные признаки должны иметь количественное (цифровое) выра-жение.

4. Наличие достаточно большого объёма исследуемой выборочной совокупности.

5. Причинно-следственные связи между явлениями и процессами следует описы-вать линейной или приводимой к линей-ной формами зависимости.

6. Отсутствие количественных ограниче-ний на параметры модели связи.

7. Постоянство территориальной и вре-менной структуры изучаемой совокуп-ности.

Теоретическая обоснованность моде-лей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий .

1. Все признаки и их совместные распределения должны подчиняться нор-мальному закону распределения;

2. Дисперсия моделируемого признака (У) должна всё время оставаться постоян-ной при изменении величины (У) и зна-чений факторных признаков.

3. Отдельные наблюдения д/б независи-мыми, т. е. результаты, полученные в i - ом наблюдении, не должны быть связа-ны с предыдущими и содержать инфор-мацию о последующих наблюдениях, а также влиять на них.

ЗАДАЧИ СВОДКИ И ЕЕ СОДЕРЖАНИЕ

наблюдение дает сведения по каждой единице исследуемого объекта. Полученные данные не являются обобщающими показателями. С их помощью нельзя сделать выводы в целом об объекте без предварительной обработки данных.

Поэтому цель следующего этапа статистического исследования состоит в систематизации первичных данных и получении на этой основе сводной характеристики всего объекта при помощи обобщающих статистических пок-лей.

Сводка - комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.

если при статистическом наблюдении собирают данные о каждой единице объекта, то результатом сводки являются подробные данные, отражающие в целом всю совокупность

Стат-ая сводка должна вестись на основе предварительного теоретического анализа явлений и процессов, чтобы во время сводки не потерять информацию об исследуемом явлении и все статистические итоги отражали важнейшие характерные черты объекта.

По глубине обработки материала сводка бывает простая и сложная.

Простой сводкой наз-ся операция по подсчету общих итогов по сов-ти единиц наблюдения.

Сложная сводка - комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всему объекту и представление результатов группировки и сводки в виде статистических табл.

Проведению сводки предшествует разработка ее программы, которая состоит из следующих этапов: выбор группировочных признаков; определение порядка формирования групп; разработка системы статистических пок-лей для характеристики групп и объекта в целом; разработка системы макетов статистических табл, в которых должны быть представлены результаты сводки.

По форме обработки материала сводка: децентрализованная и централизованная.

При децентрализованной сводке (именно она используется, как правило, при обработке стат-ой отчетности) разработка мат-ла производится последовательными этапами. Так, отчеты предприятий сводятся статистическими органами субъектов Российской Федерации, а уже итоги по региону поступают в Госкомстат России, и там определяются пок-ли в целом по народному хозяйству страны.

При централизованной сводке весь первичный материал поступает в одну организацию, где и подвергается обработке от начала и до конца. Централизованная сводка обычно используется для обработки материалов единовременных статистических обследований.

По технике выполнения статистическая сводка подразделяется на механизированную и ручную.

Механизированная сводка - при котором все операции осуществляются с помощью применения электронно-вычислительных машин. При ручной сводке все основные операции (подсчет групповых и общих итогов) осуществляются вручную.

Для проведения сводки составляется план, в котором излагаются организационные вопросы: кем и когда будут осуществляться все операции, порядок ее проведения, состав сведений, подлежащих опубликованию в периодической, печати.

Смыкание рядов дин-ки

При анализе рядов дин-ки возникает необходимость их смыкания-объединения двух и более рядов в один ряд. Смыкание необходимо в тех случаях, когда уровни рядов несопоставимы в связи с территориальными изменениями, в связи с изменением цен и в связи с изменением м-дики исчисления уровней ряда. необходимо сомкнуть (объединить) приведенные выше два ряда в один. Это можно сделать при помощи коэффициента сопоставимости. Умножая на полученный коэффициент данные за г., получим сомкнутый (сопоставимый) ряд дин-ки абсолютных величин 2 способ смыкания рядов дин-ки (способ приведения к одному основанию) заключается в том, что уровни года, в котором произошли изменения, как до изменения, так и после изме-й принимаются за 100%, а остальные пересчитываются в процентах по отн-ию к этим уровням соответственно.

30. М-ды выравнивания рядов дин-ки

Всякий ряд дин-ки теоретически может быть представлен в виде трех составляющих:

Тренда (основной тенд-и развития динамического ряда);

Циклических (периодических) колебаний, в том числе сезонных;

Случайных колебаний.

Одной из задач, возникающих при анализе рядов дин-ки, является установление изменения уровней изучаемого явления. В некоторых случаях закономерность изменения уровней ряда дин-ки вполне ясна, например, либо систематическое снижение уровней ряда, либо их повышение. иногда уровни ряда претерпевают самые различные изменения (то возрастают, го убывают). В этом случае можно говорить лишь об общей тенд-и разви-ия: либо к росту, либо к снижению.

Выявление основной тенд-и развития (тренда) наз-ся выравниванием временного ряда, а м-ды выявления основной тенден- м-ды выравнивания.

Непосредственное выделение тренда может быть произведено тремя ме-ми.

* М-д укрупнения интервалов. Этот м-д основан на укрупнении пер времени, к которым относятся уровни ряда. Например, ряд дин-ки

суточного выпуска продукции заменяется рядом месячного выпуска проекции и т.д.

* М-д скользящей средней. В этом м-де исходные уровни ряда заменяются средними величинами, к-ые получают из данного уровня и нескольких симметрично его окружающих. Целое число уровней, по которым рассчитывается среднее значение, называют интервалом сглаживания. Интервал сглаживания может быть нечетным (3, 5, 7 и т.д. точек) и четным (2, 4, 6 и т.д. точек). Расчет средних ведется способом скольжения, то есть постепенным исключением из принятого периода скольжения первого уровня и включение следующего. При нечетном сглаживании полученное среднее арифметическое значение закрепляют за серединой расчетного интервала.

«-» м-дики сглаживания скользящими средними состоит в условности определения сглаженных уровней для точек в начале и конце ряда.

* Аналит-ое выравнивание- является наиболее эффективным способом выявления основной тенд-и развития. При этом уровни ряда дин-ки выражаются в виде функции времени: Yt=f(t)

Целью аналит-ого выравнивания дин-го ряда является определение аналит-ой зав-ти f(t). На практике по имеющемуся временному ряду задают вид и находят параметры функции f(t), а затем анализируют поведение отклонений от тенд-и.

В экономике часто применяется функция вида: Уi = а0 +∑ аi +ti

Из функции вида (3.12) чаще всего при выравнивании используется линейная зав-ть /(*) = ао + а1 *t или параболическая f(t) = a0 +att + a2 t2.

Коэффициенты ао,а,а2,...,ар в формуле находятся МНК.

Согласно этому м-ду для нахождения параметров полинома р-ой степени необходимо решить систему так называемых нормальных уравнений:

nаo+a1∑t=∑Y

ao∑t+ a1∑t*t= ∑Y*t.

Тренд показывает, как воздействуют систематические факторы на уро- ряда дин-ки. Колеблемость уровней около тренда служит мерой воздействия остаточных (случайных) факторов. Эту меру воздействия можно оценить

по формуле среднего квадратичного отклонения.

Основные понятия корреляционно-регрессионного анализа.

Наименование параметра Значение
Тема статьи: Вариационный ряд
Рубрика (тематическая категория) Производство

Наблюдаемые значения случайной величины х 1 , х 2 , …, х k называются вариантами .

Частотой варианты х i принято называть число n i (i =1,…,k ), показывающее, сколько раз эта варианта встречается в выборке.

Частостью (относительной частотой, долей) варианты х i (i =1,…,k ) принято называть отношение ее частоты n i к объёму выборки n .

Частоты и частости называютвесами .

Накопленной частотой принято называть количество вариант, значения которых меньше данного х :

Накопленной частостью принято называть отношение накопленной частоты к объёму выборки:

Вариационным рядом (статистическим рядом) – принято называть последовательность вариант, записанных в порядке возрастания и соответствующих им весов.

Вариационный ряд должна быть дискретным (выборка значений дискретной случайной величины) и непрерывным (интервальным) (выборка значений непрерывной случайной величины).

Дискретный вариационный ряд имеет вид:

Когда число вариант велико или признак является непрерывным (случайная величина может принимать любые значения в некотором интервале), составляют интервальный вариационный ряд.

Для построения интервального вариационного ряда проводят группировку вариант – их разбивают на отдельные интервалы:

Число интервалов иногда определяют с помощью формулы Стерджеса :

Затем подсчитывается число вариант, попавших в каждый интервал – частоты n i (или частости n i /n ). В случае если варианта находится на границе интервала, то ее присоединяют к правому интервалу.

Интервальный вариационный ряд имеет вид :

Варианты
Частоты

Эмпирической (статистической) функцией распределœения принято называть функция, значение которой в точке х равно относительной частоте того, что варианта примет значение, меньшее х (накопительной частости для х ):

Полигоном частот называют ломанную, отрезки которой соединяют точки с координатами (х 1 ; n 1), (х 2 ; n 2), …, (х k ; n k ). Аналогично строится полигон частостей , который является статистическим аналогом многоугольника распределœений.

Стоит сказать, что для непрерывного вариационного ряда полигон можно построить, в случае если в качестве значений х 1 , х 2 , …, х k взять середины интервалов.

Интервальный вариационный ряд графически обычно изображают с помощью гистограммы .

Гистограмма – ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются частичные интервалы длины h = x i +1 – x i , i = 0,…,k -1, а высоты равны частотам (или частостям) интервалов n i (w i ).

Кумулята (кумулятивная кривая) – кривая накопленных частот (частостей). Для дискретного ряда кумулята представляет ломанную, соединяющую точки или , . Для интервального ряда кумулята начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Другие точки этой ломанной соответствуют концам интервалов.

Вариационный ряд - понятие и виды. Классификация и особенности категории "Вариационный ряд" 2017, 2018.

  • - Вариационный ряд распределения

    Распределение розничного товарооборота Российской Федерации в 1995 году по формам собственности, млн. руб. Виды рядов распределения Лекция VIII. Ряды распределения В результате обработки и систематизации первичных статистических данных получают... .


  • - Вариационный ряд

    Простейшее преобразование статистических данных является их упорядочивание по величине. Выборка объёма из генеральной совокупности, упорядоченная в порядке неубывания элементов, т.е. , называется вариационным рядом: . В том случае, когда объем наблюдений... .


  • - Задание 2. Интервальный вариационный ряд

    1. По заданной выборке, соответствующей варианту задания построить интервальный вариационный ряд; построить гистограмму и кумуляту (используйте два способа: вставку диаграммы Excel и режим «Гистограмма» пакета «Анализ данных»). 2. Проанализировать полученную гистограмму. ... .


  • - Составить вариационный ряд изменчивости признака семян фасоли или листьев какого-либо растения одного возраста. Выявить закономерности изменчивости признака.

    Популяция - структурная единица вида. Численность популяций. Причины колебания численности популяций. Взаимоотношения особей в популяциях и между различными популяциями одного и разных видов. 1. Важный признак вида - расселение его группами, популяциями в...

  • (определение вариационного ряда; составляющие вариационного ряда; три формы вариационного ряда; целесообразность построения интервального ряда; выводы, которые можно сделать по построенному ряду)

    Вариационным рядом называется последовательность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются

    Вариационные – это ряды, построенные по количественному признаку.

    Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

    Варианты – это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные – это прибыль, а отрицательные числа – это убыток.

    Частоты – это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

    Частости – это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

    Выделяют три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

    Ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

    Другие формы вариационного ряда - групповые таблицы, составленные по характеру вариации значений изучаемого признака. По характеру вариации различают дискретные (прерывные) и непрерывные признаки.

    Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести тарифный разряд, количество детей в семье, число работников на предприятии и т.д. Эти признаки могут принимать только конечное число определенных значений.

    Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака.

    Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный вариационный ряд.



    Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота).

    Частота (частота повторения) - число повторений отдельного варианта значений признака, обозначается fi , а сумма частот, равная объему исследуемой совокупности, обозначается

    Где k - число вариантов значений признака

    Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение.

    Дискретный вариационный ряд распределения – это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

    Интервальный вариационный ряд распределения – это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

    Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины.

    Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

    По этому ряду уже можно сделать несколько выводов. Например, средний элемент вариационного ряда (медиана) может быть оценкой наиболее вероятного результата измерения. Первый и последний элемент вариационного ряда (т.е. минимальный и максимальный элемент выборки) показывают разброс элементов выборки. Иногда если первый или последний элемент сильно отличаются от остальных элементов выборки, то их исключают из результатов измерений, считая, что эти значения получены в результате какого-то грубого сбоя, например, техники.

    В результате освоения дайной главы студент должен: знать

    • показатели вариации и их взаимосвязь;
    • основные законы распределения признаков;
    • сущность критериев согласия; уметь
    • рассчитывать показатели вариации и критерии согласия;
    • определять характеристики распределений;
    • оценивать основные числовые характеристики статистических рядов распределения;

    владеть

    • методами статистического анализа рядов распределения;
    • основами дисперсионного анализа;
    • приемами проверки статистических рядов распределения на соответствие основным законам распределения.

    Показатели вариации

    При статистическом исследовании признаков различных статистических совокупностей большой интерес представляет изучение вариации признака отдельных статистических единиц совокупности, а также характера распределения единиц по данному признаку. Вариация - это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение. По степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию. Показатели вариации используются для характеристики и упорядочения статистических совокупностей.

    Результаты сводки и группировки материалов статистического наблюдения, оформленные в виде статистических рядов распределения, представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по профессии, по полу, по цвету и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным (распределение по росту, весу, по размеру заработной платы и т.д.). Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, подсчитать число единиц совокупности с этими значениями (частоту), результаты оформить в таблицу.

    Вместо частоты варианта возможно применение ее отношения к общему объему наблюдений, которое называется частостью (относительной частотой).

    Выделяют два вида вариационного ряда: дискретный и интервальный. Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести число работников на предприятии, тарифный разряд, количество детей в семье и т.д. Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака. Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака возможно построение интервального вариационного ряда. Таблица при построении интервального вариационного ряда также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Частота (частота повторения) - число повторений отдельного варианта значений признака. Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.

    Для вариационных рядов существует два типа вариантов частотных характеристик: накопленная частота и накопленная частость. Накопленная частота показывает, в скольких наблюдениях величина признака приняла значения меньше заданного. Накопленная частота определяется путем суммирования значений частоты признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу дайной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного. Частота, частость, абсолютная и относительная плотности, накопленные частота и частость являются характеристиками величины варианта.

    Вариации признака статистических единиц совокупности, а также характер распределения изучаются с помощью показателей и характеристик вариационного ряда, к числу которых относятся средний уровень ряда, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия, коэффициенты осцилляции, вариации, асимметрии, эксцесса и др.

    Для характеристики центра распределения применяются средние величины. Средняя представляет собой обобщающую статистическую характеристику, в которой получает количественное выражение типичный уровень признака, которым обладают члены изучаемой совокупности. Однако возможны случаи совпадения средних арифметических при разном характере распределения, поэтому в качестве статистических характеристик вариационных рядов рассчитываются так называемые структурные средние - мода, медиана, а также квантили, которые делят ряд распределения на равные части (квартили, децили, перцентили и т.д.).

    Мода - это значение признака, которое встречается в ряду распределения чаще, чем другие его значения. Для дискретных рядов - это варианта, имеющая наибольшую частоту. В интервальных вариационных рядах с целью определения моды необходимо определить прежде всего интервал, в котором она находится, так называемый модальный интервал. В вариационном ряду с равными интервалами модальный интервал определяется по наибольшей частоте, в рядах с неравными интервалами - но наибольшей плотности распределения. Затем для определения моды в рядах с равными интервалами применяют формулу

    где Мо - значение моды; х Мо - нижняя граница модального интервала; h - ширина модального интервала; / Мо - частота модального интервала; / Mo j - частота домодального интер- вала; / Мо+1 - частота послемодального интервала, а для ряда с неравными интервалами в данной формуле расчета вместо частот / Мо, / Мо, / Мо следует использовать плотности распределения Ум 0 _| , Ум 0> УМо+"

    Если имеется единственная мода, то распределение вероятностей случайной величины называется унимодальным; если имеется более чем одна мода, оно называется многомодальным (полимодальным, мультимодальным), в случае двух мод - бимодальным. Как правило, многомодальность указывает, что исследуемое распределение не подчиняется закону нормального распределения. Для однородных совокупностей, как правило, характерны одновершинные распределения. Многовершинность свидетельствует также о неоднородности изучаемой совокупности. Появление двух и более вершин делает необходимой перегруппировку данных с целью выделения более однородных групп.

    В интервальном вариационном ряду моду можно определить графически с помощью гистограммы. Для этого из верхних точек самого высокого столбца гистограммы до верхних точек двух смежных столбцов проводят две пересекающиеся линии. Затем из точки их пересечения опускают перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее перпендикуляру, является модой. Во многих случаях при характеристике совокупности в качестве обобщенного показателя отдается предпочтение моде, а не средней арифметической.

    Медиана - это центральное значение признака, им обладает центральный член ранжированного ряда распределения. В дискретных рядах, чтобы найти значение медианы, сначала определяется ее порядковый номер. Для этого при нечетном числе единиц к сумме всех частот прибавляется единица, число делится на два. При четном числе единиц в ряду будет две медианные единицы, поэтому в этом случае медиана определяется как средняя из значений двух медианных единиц. Таким образом, медианой в дискретном вариационном ряду является значение, которое делит ряд на две части, содержащие одинаковое число вариантов.

    В интервальных рядах после определения порядкового номера медианы отыскивается медиальный интервал по накопленным частотам (частостям), а затем при помощи формулы расчета медианы определяется значение самой медианы:

    где Me - значение медианы; х Ме - нижняя граница медианного интервала; h - ширина медианного интервала; - сумма частот ряда распределения; /Д - накопленная частота домедианного интервала; / Ме - частота медианного интервала.

    Медиану можно отыскать графически с помощью куму- ляты. Для этого на шкале накопленных частот (частостей) кумуляты из точки, соответствующей порядковому номеру медианы, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Далее из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Значение признака на оси абсцисс, соответствующее проведенной ординате (перпендикуляру), является медианой.

    Медиана характеризуется следующими свойствами.

    • 1. Она не зависит от тех значений признака, которые расположены по обе стороны от нее.
    • 2. Она имеет свойство минимальности, которое заключается в том, что сумма абсолютных отклонений значений признака от медианы представляет собой минимальную величину по сравнению с отклонением значений признака от любой другой величины.
    • 3. При объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.

    Эти свойства медианы широко используются при проектировании расположения пунктов массового обслуживания - школ, поликлиник, автозаправочных станций, водозаборных колонок и т.д. Например, если в определенном квартале города предполагается построить поликлинику, то расположить ее целесообразнее в такой точке квартала, которая делит пополам не длину квартала, а число жителей.

    Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить симметричность распределения. Если х Me то имеет место правосторонняя асимметрия ряда. При нормальном распределении х - Me - Мо.

    К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

    где Me - значение медианы; Мо - значение моды; х арифм - значение средней арифметической.

    Если возникает необходимость изучить структуру вариационного ряда более подробно, то вычисляют значения признака, аналогичные медиане. Такие значения признака делят все единицы распределения на равные численности, их называют квантилями или градиентами. Квантили подразделяются на квартили, децили, перцентили и т.п.

    Квартили делят совокупность на четыре равные части. Первую квартиль вычисляют аналогично медиане по формуле расчета первой квартили, предварительно определив первый квартальный интервал:

    где Qi - значение первой квартили; x Q ^ - нижняя граница первого квартильного интервала; h - ширина первого квартального интервала; /, - частоты интервального ряда;

    Накопленная частота в интервале, предшествующем первому квартильиому интервалу; Jq { - частота первого квартильного интервала.

    Первая квартиль показывает, что 25% единиц совокупности меньше ее значения, а 75% - больше. Вторая квартиль равна медиане, т.е. Q 2 = Me.

    По аналогии рассчитывают третью квартиль, предварительно отыскав третий квартальный интервал:

    где - нижняя граница третьего квартильного интервала; h - ширина третьего квартильного интервала; /, - частоты интервального ряда; /X" - накопленная частота в интервале, предшествующем

    г

    третьему квартильиому интервалу; Jq - частота третьего квартильного интервала.

    Третья квартиль показывает, что 75% единиц совокупности меньше ее значения, а 25% - больше.

    Разность между третьей и первой квартилями представляет собой межквартильный интервал:

    где Aq - значение межквартильного интервала; Q 3 - значение третьей квартили; Q, - значение первой квартили.

    Децили делят совокупность на 10 равных частей. Дециль - это такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности. По аналогии с квартилями первый дециль показывает, что 10% единиц совокупности меньше его значения, а 90% - больше, а девятый дециль выявляет, что 90% единиц совокупности меньше его значения, а 10% - больше. Соотношение девятого и первого децилей, т.е. децильный коэффициент, широко применяется при изучении дифференциации доходов для измерения соотношения уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения. Перцентили делят ранжированную совокупность на 100 равных частей. Расчет, значение и применение перцентилей аналогичны децилям.

    Квартили, децили и другие структурные характеристики можно определить графически по аналогии с медианой с помощью кумуляты.

    Для измерения размера вариации используются следующие показатели: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Величина размаха вариации целиком зависит от случайности распределения крайних членов ряда. Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака:

    где R - значение размаха вариации; х тах - максимальное значение признака; х тт - минимальное значение признака.

    При расчете размаха вариации значение подавляющего большинства членов ряда не учитывается, в то время как вариация связана с каждым значением члена ряда. Этого недостатка лишены показатели, представляющие собой средние, полученные из отклонений индивидуальных значений признака от их средней величины: среднее линейное отклонение и среднее квадратическое отклонение. Между индивидуальными отклонениями от средней и колеблемостью конкретного признака существует прямая зависимость. Чем сильнее колеблемость, тем больше абсолютные размеры отклонений от средней.

    Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных величин отклонений отдельных вариантов от их средней величины.

    Среднее линейное отклонение для несгруппированных данных

    где / пр - значение среднего линейного отклонения; х,- - значение признака; х - п - число единиц совокупности.

    Среднее линейное отклонение сгруппированного ряда

    где / вз - значение среднего линейного отклонения; х, - значение признака; х - среднее значение признака для изучаемой совокупности; / - число единиц совокупности в отдельной группе.

    Знаки отклонений в данном случае игнорируются, в противном случае сумма всех отклонений будет равна нулю. Среднее линейное отклонение в зависимости от группировки анализируемых данных рассчитывается по различным формулам: для сгруппированных и несгруниированных данных. Среднее линейное отклонение в силу его условности отдельно от других показателей вариации применяется на практике сравнительно редко (в частности, для характеристики выполнения договорных обязательств по равномерности поставки; в анализе оборота внешней торговли, состава работающих, ритмичности производства, качества продукции с учетом технологических особенностей производства и т.п.).

    Среднее квадратическое отклонение характеризует, на сколько в среднем отклоняются индивидуальные значения изучаемого признака от среднего значения по совокупности, и выражается в единицах измерения изучаемого признака. Среднее квадратическое отклонение, являясь одной из основных мер вариации, широко используется при оценке границ вариации признака в однородной совокупности, при определении значений ординат кривой нормального распределения, а также в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик. Среднее квадратическое отклонение но несгруипированным данным исчисляется по следующему алгоритму: каждое отклонение от средней возводится в квадрат, все квадраты суммируются, после чего сумма квадратов делится на число членов ряда и из частного извлекается квадратный корень:

    где a Iip - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; п - число единиц совокупности.

    Для сгруппированных анализируемых данных среднее квадратическое отклонение данных рассчитывается по взвешенной формуле

    где - значение среднего квадратического отклонения; Xj - значение признака; х - среднее значение признака для изучаемой совокупности; f x - число единиц совокупности в отдельной группе.

    Выражение под корнем в обоих случаях носит название дисперсии. Таким образом, дисперсия вычисляется как средний квадрат отклонений значений признака от их средней величины. Для невзвешенных (простых) значений признака дисперсия определяется следующим образом:

    Для взвешенных значений признака

    Существует также специальный упрощенный способ расчета дисперсии: в общем виде

    для невзвешенных (простых) значений признака для взвешенных значений признака
    с использованием метода отсчета от условного нуля

    где а 2 - значение дисперсии; х,- - значение признака; х - среднее значение признака, h - величина группового интервала, т 1 - веса (А =

    Дисперсия имеет самостоятельное выражение в статистике и относится к числу важнейших показателей вариации. Она измеряется в единицах, соответствующих квадрату единиц измерения изучаемого признака.

    Дисперсия имеет следующие свойства.

    • 1. Дисперсия постоянной величины равна нулю.
    • 2. Уменьшение всех значений признака на одну и ту же величину Л не меняет величины дисперсии. Это означает, что средний квадрат отклонений можно вычислить не по заданным значениям признака, а по отклонениям их от какого-то постоянного числа.
    • 3. Уменьшение веех значений признака в k раз уменьшает дисперсию в k 2 раз, а среднее квадратическое отклонение - в k раз, т.е. все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число.
    • 4. Если исчислить средний квадрат отклонений от любой величины А у в той или иной степени отличающейся от средней арифметической, то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической. Средний квадрат отклонений при этом будет больше на вполне определенную величину - на квадрат разности средней и этой условно взятой величины.

    Вариация альтернативного признака заключается в наличии или отсутствии изучаемого свойства у единиц совокупности. Количественно вариация альтернативного признака выражается двумя значениями: наличие у единицы изучаемого свойства обозначается единицей (1), а его отсутствие - нулем (0). Долю единиц, обладающих изучаемым свойством, обозначают через Р, а долю единиц, не обладающих этим свойством, - через G. Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным свойством (Р), на долю единиц, данным свойством не обладающих (G). Наибольшая вариация совокупности достигается в случаях, когда часть совокупности, составляющая 50% от всего объема совокупности, обладает признаком, а другая часть совокупности, также равная 50%, не обладает данным признаком, при этом дисперсия достигает максимального значения, равного 0,25, т.е. Р = 0,5, G = 1 - Р = 1 - 0,5 = 0,5 и о 2 = 0,5 0,5 = 0,25. Нижняя граница этого показателя равна нулю, что соответствует ситуации, при которой в совокупности отсутствует вариация. Практическое применение дисперсии альтернативного признака состоит в построении доверительных интервалов при проведении выборочного наблюдения.

    Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина. В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, интересным является сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях. Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средними арифметическими используются показатели вариации - коэффициент осцилляции, линейный коэффициент вариации и коэффициент вариации, которые показывают меру колебаний крайних значений вокруг средней.

    Коэффициент осцилляции :

    где V R - значение коэффициента осцилляции; R - значение размаха вариации; х -

    Линейный коэффициент вариации".

    где Vj - значение линейного коэффициента вариации; I - значение среднего линейного отклонения; х - среднее значение признака для изучаемой совокупности.

    Коэффициент вариации :

    где V a - значение коэффициента вариации; а - значение среднего квадратического отклонения; х - среднее значение признака для изучаемой совокупности.

    Коэффициент осцилляции - это процентное отношение размаха вариации к среднему значению изучаемого признака, а линейный коэффициент вариации - это отношение среднего линейного отклонения к среднему значению изучаемого признака, выраженное в процентах. Коэффициент вариации представляет собой процентное отношение среднего квадратического отклонения к среднему значению изучаемого признака. Как величина относительная, выраженная в процентах, коэффициент вариации применяется для сравнения степени вариации различных признаков. С помощью коэффициента вариации оценивается однородность статистической совокупности. Если коэффициент вариации меньше 33%, то исследуемая совокупность является однородной, а вариация слабой. Если коэффициент вариации больше 33%, то исследуемая совокупность является неоднородной, вариация сильной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности. Кроме того, коэффициенты вариации используются для сравнения колеблемости одного признака в различных совокупностях. Например, для оценки вариации стажа работы работников на двух предприятиях. Чем больше значение коэффициента, тем вариация признака существеннее.

    На основе рассчитанных квартилей имеется возможность рассчитать также относительный показатель квартальной вариации по формуле

    где Q2 и

    Межквартильный размах определяется по формуле

    Квартильное отклонение применяется вместо размаха вариации, чтобы избежать недостатков, связанных с использованием крайних значений:

    Для неравноинтервальпых вариационных рядов рассчитывается также плотность распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются абсолютная и относительная плотности распределения. Абсолютная плотность распределения - это частота, приходящаяся на единицу длины интервала. Относительная плотность распределения - частость, приходящаяся на единицу длины интервала.

    Все вышеотмеченное справедливо для рядов распределения, закон распределения которых хорошо описывается нормальным законом распределения или близок к нему.