Простое объяснение того, как интерпретировать дисперсию

Отклонение вариации

Здесь рассматривается отклонение изучаемой случайной величины. Для того, чтобы его вычислить, необходимо сначала определить её среднее значение.

Чтобы посчитать, необходимо просуммировать все значения случайных данных и затем разделить на их количество. Получившаяся величина представляет собой нужный результат.

В некоторых формулах используются значения весов, придаваемых каждому значению. Кратко говоря, они назначаются в соответствии с целями проведения статистического исследования. Веса обычно подбираются таким образом, чтобы их сумма была равна единице.

Среднее линейное простое

Оценка величины отклонения рассчитывается так:

  1. Сначала нужно определить для каждого случайного значения разницу со средним и взять от неё абсолютную величину.
  2. Затем все эти цифры суммируют и делят полученный результат на количество значений величины, которая изменяется.

Формула выглядит таким образом:

СЛП = (|x(1) – x0| + |x(2) – x0| + … + |x(n) – x(0)|) / n,

где:

  • СЛП — искомая величина,
  • x(i) – i-е значение случайной величины,
  • x0 – среднее значение,
  • n – количество имеющихся цифр.

Вертикальные чёрточки используются для того, чтобы показать, что здесь вычисляется абсолютная разность.

Среднее линейное взвешенное

Для этого потребуется формула:

СЛВ = (|x(1) – x0|*f(1) + |x(2) – x0|*f(2) + … + |x(n) – x(0)|*f(n)) / n,

где:

  • СЛВ — искомая величина,
  • f(i) — вес, который придаётся каждому из значений случайной величины.

Остальные обозначения рассмотрены ранее.

Среднее квадратическое отклонение

В этом случае результат определяется по другому правилу, чем в прежних случаях:

СКО = SQRT(((x(1) – x0)**2 + (x(2) – x0)**2 + … + (x(n) – x(0))**2) / n),

где:

  • СКО представляет собой квадратическое отклонение,
  • x**2 представляет собой возведение в квадрат,
  • SQRT() это операция взятия квадратного корня.

Дисперсия (простая, взвешенная)

Простая дисперсия равна СКО, возведённому в квадрат.

Взвешенная называется так потому, что каждое слагаемое умножается на свой вес.

Здесь применяется формула:

ДВ = (f(1)*(x(1) – x0)**2 + f(2)*(x(2) – x0)**2 + … + f(n)*(x(n) – x(0))**2) / n*(f(1) + f(2) + … + f(n)),

где: ДВ представляет собой дисперсию взвешенную.

Вариация альтернативного признака

Это понятие характеризует те ситуации, когда часть предметов выборки обладает определённым свойством, а другая — нет:

СРЕД = ((1-p) + (0-p)) / (p+q) = p,

ВАР = (q*(1-p)**2+ q*(0-p)**2) / (p+q) = pq.

Здесь СРЕД обозначает среднее, а p и q представляют собой положительные числа, в сумме дающие единицу.

ВАР обозначает искомую величину.

Как рассчитать выборочную дисперсию в Excel

Выборка представляет собой набор данных, извлеченных из всего населения. А дисперсия, рассчитанная по выборке, называется выборочной дисперсией.

Например, если вы хотите узнать, как меняется рост людей, для вас будет технически невозможно измерить каждого человека на земле. Решение состоит в том, чтобы взять выборку населения, скажем, 1000 человек, и оценить рост всего населения на основе этой выборки.

Выборочная дисперсия рассчитывается по следующей формуле:

Где:

  • x̄ – среднее (простое среднее) значений выборки.
  • n — размер выборки, т. е. количество значений в выборке.

В Excel есть 3 функции для нахождения выборочной дисперсии: VAR, VAR.S и VARA.

Функция ВАР в Excel

Это самая старая функция Excel для оценки дисперсии на основе выборки. Функция VAR доступна во всех версиях Excel с 2000 по 2019.

ВАР(число1, …)

Примечание. В Excel 2010 функция VAR была заменена функцией VAR.S, которая обеспечивает повышенную точность. Хотя VAR по-прежнему доступен для обратной совместимости, рекомендуется использовать VAR.S в текущих версиях Excel.

Функция VAR.S в Excel

Это современный аналог функции Excel VAR. Используйте функцию VAR.S, чтобы найти выборочную дисперсию в Excel 2010 и более поздних версиях.

ВАР.С(число1, …)

Функция ВАРА в Excel

Функция Excel VARA возвращает примерную дисперсию на основе набора чисел, текста и логических значений, как показано на рис. .

БЫТЬ(значение1, …)

Пример формулы отклонения в Excel

При работе с числовым набором данных вы можете использовать любую из вышеперечисленных функций для расчета выборочной дисперсии в Excel.

В качестве примера найдем дисперсию выборки, состоящей из 6 элементов (B2:B7). Для этого можно использовать одну из следующих формул:

= ПЕРЕМ(B2:B7)

=ПЕР.С(B2:B7)

=ВАРА(B2:B7)

Как показано на скриншоте, все формулы возвращают один и тот же результат (округленный до 2 знаков после запятой):

Чтобы проверить результат, произведем расчет var вручную:

  1. Найдите среднее значение с помощью функции СРЗНАЧ:=СРЕДНЕЕ(B2:B7)

    Среднее значение идет в любую пустую ячейку, скажем, B8.

  2. Вычтите среднее значение из каждого числа в выборке:=B2-$B$8

    Различия идут в столбец C, начиная с C2.

  3. Возведите в квадрат каждую разницу и поместите результаты в столбец D, начиная с D2:=С2^2
  4. Сложите квадраты разностей и разделите результат на количество элементов в выборке минус 1:=СУММ(D2:D7)/(6-1)

Как видите, результат нашего ручного вычисления var точно такой же, как число, возвращаемое встроенными функциями Excel:

Если ваш набор данных содержит логические и/или текстовые значения, функция VARA вернет другой результат. Причина в том, что VAR и VAR.S игнорируют любые значения, отличные от чисел, в ссылках, в то время как VARA оценивает текстовые значения как нули, TRUE как 1 и FALSE как 0. Поэтому, пожалуйста, тщательно выбирайте функцию дисперсии для своих расчетов в зависимости от того, хотите обработать или игнорировать текст и логические операции.

Алгебра

43. Дисперсия и среднее квадратичное отклонение

При анализе результатов наблюдений полезно иметь сведения о разбросе данных в ряду. Некоторое представление об этом даёт размах ряда, но он является слишком грубой оценкой. Поэтому известные вам статистические показатели дополняют ещё одним понятием, называемым дисперсией.

Разъясним смысл понятия дисперсия на примере.

Пусть имеется ряд данных

7, 5, 10, 6, 5, 15.

Среднее арифметическое этого ряда равно:

Для каждого члена ряда найдём его отличие, или, как говорят, его отклонение от среднего арифметического:

Нетрудно подсчитать, что сумма отклонений равна нулю:

(-1) + (-3) + 2 + (-2) + (-3) + 7 = 0.

Вообще для любого ряда данных сумма отклонений от среднего арифметического равна нулю и потому не может характеризовать разброс данных в ряду.

Для того чтобы судить о разбросе данных в некотором ряду, поступают следующим образом: составляют ряд квадратов отклонений и вычисляют среднее арифметическое этого ряда, которое называют дисперсией заданного ряда данных.

Дисперсией ряда чисел называется среднее арифметическое квадратов их отклонений от среднего арифметического этого ряда.

Дисперсия является мерой разброса чисел в ряду.

В приведённом примере дисперсия ряда равна:

Рассмотрим такой пример. При подготовке к соревнованиям по стрельбе из пистолета спортсмены Петров и Смирнов произвели по 8 серий выстрелов. Подсчитывая для каждой серии, состоящей из 10 выстрелов, число попаданий в цель, получили такие данные:

Петров: 10, 10, 9, 7, 10, 7, 10, 9;
Смирнов: 10, 9, 10, 9, 10, 8, 8, 8.

Для каждого ряда данных найдём среднее арифметическое:

Вычислим дисперсию для каждого ряда данных.

Для ряда результатов, показанных Петровым, имеем

Для ряда результатов, показанных Смирновым, имеем

Мы видим, что, хотя среднее арифметическое числа попаданий в обоих случаях одинаково, разброс данных во втором ряду меньше. Следовательно, Смирнов показал на тренировке более стабильный результат.

Одна из особенностей дисперсии состоит в следующем: если в ряду, содержащем большое число данных, есть лишь несколько данных, значительно отличающихся от среднего арифметического этого ряда, то дисперсия такого ряда обычно бывает невелика.

Необходимо отметить, что дисперсия как характеристика ряда данных имеет существенный недостаток. Он заключается в следующем. Если величины измеряются в каких-либо линейных единицах, например, в метрах, часах, килограммах и т. п., то дисперсия измеряется в квадратах этих единиц, т. е. в мерах, некоторые из которых не имеют реального смысла. Поэтому, при оценке разброса данных дисперсию часто заменяют другим показателем, называемым средним квадратичным отклонением.

Средним квадратичным отклонением числового ряда называют квадратный корень из дисперсии этого ряда.

Для результатов стрельбы, показанных Петровым и Смирновым, дисперсия, согласно расчётам, равна соответственно 1,5 и 0,75. Среднее квадратичное отклонение в первом случае равно , а во втором оно равно .

Среднее квадратичное отклонение принято обозначать греческой буквой а (сигма). В рассмотренном примере σ1 = ≈ 1,2, σ2 = ≈ 0,9.

Упражнения

  1. Для ряда чисел 5, 6, 8, 10, 7, 2 найдите:

    а) среднее арифметическое;
    б) отклонение каждого члена ряда от среднего арифметического;
    в) сумму квадратов отклонений;
    г) дисперсию ряда.

  2. Вычислите дисперсию ряда чисел:

    а) 6, 8, 10, 12, 9;
    б) -4, -1, -2, 7, 5, 4.

  3. Составьте какой-либо ряд, состоящий из пяти чисел. Найдите для него:

    а) среднее арифметическое;
    б) дисперсию;
    в) среднее квадратичное отклонение.

  4. В таблице приведены средние месячные температуры (в градусах Цельсия), установленные для Москвы и Хабаровска для первого полугодия на основе наблюдений, проводившихся в течение 80 лет.

    Пользуясь калькулятором, найдите для каждого ряда данных:

    а) среднее арифметическое месячных температур;
    б) отклонения температур от среднего арифметического;
    в) дисперсию.

    Объясните, какие особенности климата отражены в значениях дисперсии.

  5. Найдите дисперсию и среднее квадратичное отклонение для ряда чисел:

    а) -5, -8, 6, 7, 4, 3;
    б) 1, 0, 3, 0, б, 4.

  6. Для произвольного ряда, составленного из пяти двузначных чисел, найдите среднее квадратичное отклонение.

  7. Как изменится дисперсия ряда чисел

    х1, х2, х3, х4, х5, х6,

    если каждое число увеличить на положительное число а? Проверьте результат на примере ряда 1, 3, 6, 8, -1, -2 и а = 4. Выскажите предположение и проведите доказательство.

Правила использования этого калькулятора

Калькулятор дисперсии принимает входные данные в виде списка чисел, разделенных разделителем. Несколько примеров возможного ввода показаны в таблице ниже.

строчный ввод колоночный ввод колоночный ввод колоночный ввод
44, 63, 72, 75, 80, 86, 87, 89 44 44, 44,63,72
44 63 72 75 80 86 87 89 63 63, 75,80
44,, 63,, 72, 75, 80, 86, 87, 89 72 72, 86,87
44 63 72 75, 80, 86, 87, 89 75 75, 89
44; 63; 72, 75,, 80, 86, 87, 89 80 80,
44,,, 63,, 72, 75, 80, 86, 87, 89 86 86,
44 63,, 72,,,, 75, 80, 86, 87, 89 87 87,
89 89,

Числа могут быть разделены запятой, пробелом, переводом строки или сочетанием нескольких типов разделителей. Вы можете использовать формат строки или столбца. Для всех форматов, приведенных в таблице выше, калькулятор обрабатывает вводимые данные как 44, 63, 72, 75, 80, 86, 87, 89.

После ввода данных вы можете выбрать, будут ли это данные выборки или данные генеральной совокупности. После нажатия кнопки вычислить калькулятор отображает пять статистических параметров набора данных: количество наблюдений, среднее значение, сумму квадратов отклонений, дисперсию и стандартное отклонение.

Для получения хорошей статистики при проведении выводов требуется большой набор данных. Часто бывает трудно получить данные о генеральной совокупности, представляющие все возможные наблюдения в эксперименте при заданных условиях. Как правило, из генеральной совокупности берется «выборка»; выводы о генеральной совокупности обычно делаются на основе выборки.

Дисперсия измеряет среднюю дисперсию набора данных относительно среднего значения. Она часто обозначается через σ² для генеральной совокупности и через s² для выборки. Большее значение σ² или s² подразумевает больший разброс точек данных от среднего значения выборки, и наоборот.

Рассмотрим следующие примеры наборов данных.

(Набор I) 11, 3, 5, 21, 10, 15, 20, 25, 13, 26, 27,

(Набор II) 12, 14, 14, 15, 15, 16, 16, 17, 18, 19, 20

Вводя Набор I в калькулятор дисперсии мы получаем:

n=11

x̄=16

SS=704

s²=70,4

s=8,39

для выборки, и

n=11

μ=16

SS=704

σ²=64

σ=8

Для генеральной совокупности.

Вводя Набор II в калькулятор дисперсии мы получаем:

n=11

x̄=16

SS=56

s²=5,6

s=2,36

для выборки, и

n=11

μ=16

SS=56

σ²=5,09

σ=2,25

Для генеральной совокупности.

В наборе I числа значительно отклонялись от среднего выборочного значения:

s²=70,4

σ²=64

В наборе II изменчивость мала:

s²=5,6

σ²=5,09

Вычисление дисперсии

Дисперсия – это показатель вариации, который представляет собой средний квадрат отклонений от математического ожидания. Таким образом, он выражает разброс чисел относительно среднего значения. Вычисление дисперсии может проводиться как по генеральной совокупности, так и по выборочной.

Способ 1: расчет по генеральной совокупности

Для расчета данного показателя в Excel по генеральной совокупности применяется функция ДИСП.Г. Синтаксис этого выражения имеет следующий вид:

Всего может быть применено от 1 до 255 аргументов. В качестве аргументов могут выступать, как числовые значения, так и ссылки на ячейки, в которых они содержатся.

Посмотрим, как вычислить это значение для диапазона с числовыми данными.

  1. Производим выделение ячейки на листе, в которую будут выводиться итоги вычисления дисперсии. Щелкаем по кнопке «Вставить функцию», размещенную слева от строки формул.
  2. Запускается Мастер функций. В категории «Статистические» или «Полный алфавитный перечень» выполняем поиск аргумента с наименованием «ДИСП.Г». После того, как нашли, выделяем его и щелкаем по кнопке «OK».
  3. Выполняется запуск окна аргументов функции ДИСП.Г. Устанавливаем курсор в поле «Число1». Выделяем на листе диапазон ячеек, в котором содержится числовой ряд. Если таких диапазонов несколько, то можно также использовать для занесения их координат в окно аргументов поля «Число2», «Число3» и т.д. После того, как все данные внесены, жмем на кнопку «OK».
  4. Как видим, после этих действий производится расчет. Итог вычисления величины дисперсии по генеральной совокупности выводится в предварительно указанную ячейку. Это именно та ячейка, в которой непосредственно находится формула ДИСП.Г.

Урок: Мастер функций в Эксель

Способ 2: расчет по выборке

В отличие от вычисления значения по генеральной совокупности, в расчете по выборке в знаменателе указывается не общее количество чисел, а на одно меньше. Это делается в целях коррекции погрешности. Эксель учитывает данный нюанс в специальной функции, которая предназначена для данного вида вычисления – ДИСП.В. Её синтаксис представлен следующей формулой:

Количество аргументов, как и в предыдущей функции, тоже может колебаться от 1 до 255.

  1. Выделяем ячейку и таким же способом, как и в предыдущий раз, запускаем Мастер функций.
  2. В категории «Полный алфавитный перечень» или «Статистические» ищем наименование «ДИСП.В». После того, как формула найдена, выделяем её и делаем клик по кнопке «OK».
  3. Производится запуск окна аргументов функции. Далее поступаем полностью аналогичным образом, как и при использовании предыдущего оператора: устанавливаем курсор в поле аргумента «Число1» и выделяем область, содержащую числовой ряд, на листе. Затем щелкаем по кнопке «OK».
  4. Результат вычисления будет выведен в отдельную ячейку.

Урок: Другие статистические функции в Эксель

Как видим, программа Эксель способна в значительной мере облегчить расчет дисперсии. Эта статистическая величина может быть рассчитана приложением, как по генеральной совокупности, так и по выборке. При этом все действия пользователя фактически сводятся только к указанию диапазона обрабатываемых чисел, а основную работу Excel делает сам. Безусловно, это сэкономит значительное количество времени пользователей.

Вариация в пределах субъектов и между субъектами

Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изме­нения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).

Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.

Связанные определения:Выборочное среднее, среднее значение выборкиВыбросДисперсия (рассеяние, разброс)Дисперсия выборки (выборочная дисперсия)Коэффициент вариацииМаксимумМатематическое ожидание дискретной случайной величиныМатематическое ожидание непрерывной случайной величиныМедианаМеры дисперсии, меры разбросаМинимумМодаОписательные статистикиОписательный анализПараметры рассеянияПараметры центральной тенденцииСреднее значениеСреднеквадратичное отклонение популяцииСтандартная ошибка среднегоСтандартное отклонение

Дисперсия против стандартного отклонения

Дисперсия измеряет, насколько отдельные точки данных отличаются от среднего, при этом высокая дисперсия указывает на более разброс, а низкая дисперсия указывает на большую кластеризацию. Стандартное отклонение представляет собой квадратный корень из дисперсии и используется для измерения изменчивости или неопределенности набора данных.

Сравнительная таблица

Параметры сравнения дисперсия Стандартное отклонение
Определение Его можно использовать для предоставления многих достоинств при инвестировании в портфели. Что касается финансового раздела, стандартное отклонение используется для безопасности и на рынке.
Как рассчитывается? Каждое значение информационного множества берется и возводится в квадрат, и рассматривается среднее значение этих значений. Расчет выполняется путем извлечения квадратного корня из значения дисперсии.
Символ Сигма (σ) является здесь символом. Сигма в квадрате (σ2) — это символ стандартного отклонения.
Как они оба хорошо дифференцируются? Здесь дисперсия больше всего нужна только в математических расчетах. Когда какие-либо данные должны быть рассчитаны с переменным успехом, в основном используется стандартное отклонение.
Общая формула σ2 = ∑ (x – M)2/n, где n – количество значений данных, x – конкретное значение, m – среднее значение. σ = √∑ (x – M)2/ n, где x – конкретное значение данных, n – общее количество значений. Это легко запомнить, так как это просто квадрат дисперсии.

Что такое дисперсия?

Дисперсия — это доля непостоянства, которая говорит о том, насколько далеко разбросаны люди из собрания. я

В любой момент, когда изменение информационного индекса мало, он показывает близость информационных фокусов к среднему значению.

Правильным ответом будет то, что вы можете использовать разницу, чтобы разобраться со стандартным отклонением — значительно улучшенная пропорция того, как распределить ваши нагрузки. Чтобы получить стандартное отклонение, возьмите квадрат основы изменения примера: √9801 = 99.

Стандартное отклонение в сочетании со средним значением будем упомянуть то, что оценивает большинство людей.

Что такое стандартное отклонение?

Когда основной фокус находится очень далеко от среднего значения, внутри даты наблюдается более высокое отклонение; если они ближе к среднему, отклонение меньше. Таким образом, чем более разбросан набор чисел, тем выше стандартное отклонение.

Чтобы установить стандартное отклонение, включите все информационные фокусы и разделите их по количеству информационных фокусов.

Информационная коллекция с меньшим стандартным отклонением имеет меньший разброс оценок вокруг среднего значения и, как и этот, обычно имеет одинаково менее высокие или низкие качества.

 Вещь, бесцельно выбранная из информационного индекса, стандартное отклонение которого низкое, имеет более высокую вероятность быть близкой к среднему значению, чем вещь из информационного индекса, стандартное отклонение которого выше.

По большей части, чем шире разброс качеств, тем больше стандартное отклонение. Например, представьте, что мы должны изолировать два разных набора результатов тестов от класса из 30 дублеров. Первичный тест имеет оценки от 31% до 98% и от 82% до 93%.

Основные различия между дисперсией и стандартным отклонением

  1. Дисперсия — это математическая величина, которая отображает изменчивость восприятия в зависимости от среднего манипулирования числами. Стандартное отклонение — это доля разброса восприятий внутри набора информации по сравнению с их средним значением.
  2. Дисперсия обозначается сигма-квадратом (σ2), а стандартное отклонение обозначается символом сигма (σ). 

Рекомендации

  1. https://europepmc.org/article/med/3207150
  2. https://pubsonline.informs.org/doi/pdf/10.1287/mnsc.45.5.765

Назначение и свойство стандартной ошибки средней арифметической

Стандартная ошибка средней много, где используется. И очень полезно понимать ее свойства. Посмотрим еще раз на формулу стандартной ошибки средней:

Числитель – это стандартное отклонение выборки и здесь все понятно. Чем больше разброс данных, тем больше стандартная ошибка средней – прямо пропорциональная зависимость.

Посмотрим на знаменатель. Здесь находится квадратный корень из объема выборки. Соответственно, чем больше объем выборки, тем меньше стандартная ошибка средней. Для наглядности изобразим на одной диаграмме график нормально распределенной переменной со средней равной 10, сигмой – 3, и второй график – распределение средней арифметической этой же переменной, полученной по 16-ти наблюдениям (которое также будет нормальным).

Судя по формуле, разброс стандартной ошибки средней должен быть в 4 раза (корень из 16) меньше, чем разброс исходных данных, что и видно на рисунке выше. Чем больше наблюдений, тем меньше разброс средней.

Казалось бы, что для получения наиболее точной средней достаточно использовать максимально большую выборку и тогда стандартная ошибка средней будет стремиться к нулю, а сама средняя, соответственно, к математическому ожиданию. Однако квадратный корень объема выборки в знаменателе говорит о том, что связь между точностью выборочной средней и размером выборки не является линейной. Например, увеличение выборки с 20-ти до 50-ти наблюдений, то есть на 30 значений или в 2,5 раза, уменьшает стандартную ошибку средней только на 36%, а со 100-а до 130-ти наблюдений (на те же 30 значений), снижает разброс данных лишь на 12%.

Лучше всего изобразить эту мысль в виде графика зависимости стандартной ошибки средней от размера выборки. Пусть стандартное отклонение равно 10 (на форму графика это не влияет).

Видно, что примерно после 50-ти значений, уменьшение стандартной ошибки средней резко замедляется, после 100-а – наклон постепенно становится почти нулевым.

Таким образом, при достижении некоторого размера выборки ее дальнейшее увеличение уже почти не сказывается на точности средней. Этот факт имеет далеко идущие последствия. Например, при проведении выборочного обследования населения (опроса) чрезмерное увеличение выборки ведет к неоправданным затратам, т.к. точность почти не меняется. Именно поэтому количество опрошенных редко превышает 1,5 тысячи человек. Точность при таком размере выборки часто является достаточной, а дальнейшее увеличение выборки – нецелесообразным.

Подведем итог. Расчет дисперсии и стандартной ошибки средней имеет довольно простую формулу и обладает полезным свойством, связанным с тем, что относительно хорошая точность средней достигается уже при 100 наблюдениях (в этом случае стандартная ошибка средней становится в 10 раз меньше, чем стандартное отклонение выборки). Больше, конечно, лучше, но бесконечно увеличивать объем выборки не имеет практического смысла. Хотя, все зависит от поставленных задач и цены ошибки. В некоторых опросах участие принимают десятки тысяч людей.

Дисперсия и стандартная ошибка средней имеют большое практическое значение. Они используются в проверке гипотез и расчете доверительных интервалов.

коэффициент вариации

– это отношение стандартного отклонения к средней, выраженное в процентах:

И вот теперь совершенно без разницы, в д.е. мы считали:

или в тысячах д.е.:

Примечание: на практике часто считают именно через , но для оценки коэффициента вариации всей генеральной совокупности, конечно же, корректнее использовать исправленное стандартное отклонение .

В статистике существует следующий эмпирический ориентир:

– если показатель вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение  хорошо характеризует центральную тенденцию совокупности.

– если показатель вариации составляет существенно больше 30%, то совокупность неоднородна, то есть, значительное количество вариант находятся далеко от , и выборочная средняя плохо характеризует типичную варианту. В таких случаях целесообразно рассмотреть , а иногда и перцентили, которые делят вариационный ряд на части, и для каждого участка рассчитать свои показатели. Но это уже немного дебри статистики.

Другое преимущество относительных показателей – это возможность сравнивать разнородные статистические совокупности. Например, множество слонов и множество хомячков. Совершенно понятно, что дисперсия веса слонов по отношению к дисперсии веса хомяков будет просто конской, и их сопоставление не имеет смысла. Но вот анализ коэффициентов вариации веса вполне осмыслен, и может статься, что у слонов он составляет 10%, а у хомячков 40% (пример, конечно, условный). Это говорит о сбалансированном питании и размеренной жизни слонов. А вот хомяки там, то носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди них есть много худощавых и много упитанных особей :)

Кроме коэффициента вариации, существуют и другие относительные показатели, но в реальных студенческих работах они почти не встречаются, и поэтому я не буду их рассматривать в рамках данного курса.

И сейчас, конечно же, задачки для самостоятельного решения:

Пример 17, на отработку терминов и формул:

а) Стандартное отклонение выборочной совокупности равно 5, а средний квадрат её вариант – 250. Найти выборочную среднюю.

б) Определите среднее квадратическое отклонение, если известно, что средняя равна 260, а коэффициент вариации составляет 30%.

и Пример 18, творческий:

Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:

Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.

Сделать краткие содержательные выводы. – Да, это тоже типичный пункт статистической задачи!

Обратите внимание, что здесь не понятно, выборочной ли считать эту совокупность или генеральной. И в таких случаях лучше не заниматься домыслами, просто используем обозначения без подстрочных индексов

Вообще, задачи на экономическую и промышленную тематику – самые популярные в статистике, и в моей коллекции их сотни. Но все они до ужаса однотипны, и поэтому я предлагаю их в терапевтической дозировке :)

Задание 8

Выполнить расчёты в Экселе – числа уже там, ну а инструкцию я на этот раз не привёл, поскольку люди вы уже опытные.

Краткое решение и ответ в конце урока, который подошёл к концу.

Следующее занятие не за горами, а уже за кочкой:

Решения и ответы:

Пример 17. Решение:

а) Используем формулу . По условию, , . Таким образом:

б) Используем формулу . По условию, , . Таким образом:

Ответ: а) , б)

Пример 18. Решение: вычислим сумму вариант и сумму их квадратов:Найдём среднюю: тонны – среднемесячный объем производства за полугодие.Дисперсию вычислим по формуле:Среднее квадратическое отклонение: тонн.Коэффициент вариации:

Ответ:  тонны,  тонн,

Краткие выводы: за первое полугодие среднемесячный объём производства труб составил  тонны. Низкие показатели вариации говорят о стабильной ситуации на производстве.

(Переход на главную страницу)

Графики вариационных рядов

Более наглядное изображение закономерности варьирования количественного признака — график вариационного ряда.

Полигон распределения

Полигон распределения (или многоугольник распределения) строится для безынтервального ряда: по оси  откладываем статистические варианты или классовые варианты  по оси  — частоты  Полученные точки соединяем ломаной линией, которая называется вариационной кривой или кривой распределения. Полученная при этом плоская фигура называется полигон или многоугольник распределения.

Гистограмма распределения частот

Гистограмма распределения частот  строится для интервального ряда: по  откладываем границы классовых интервалов, по  — соответствующие частоты  Гистограмма — клеточная диаграмма; ширина клетки равна  высота клетки равна  Площадь клетки  Площадь всей гистограммы 

Пример:

 Гистограмма данного распределения изображена на рис. 5.2. Если на приведенной гистограмме верхнее основание клетки поделить пополам точкой, соединить полученные точки ломаной, то получим вариационную кривую.

Аналогично можно построить гистограмму относительных частот (высота клетки равна  или гистограмму плотности частот  (при этом высота клетки равна  или гистограмму плотности относительных частот  (высота клетки равна 

Кумулята

Кумулята (или график накопленных частот  в отличие от вариационной кривой, имеющей куполообразную форму, имеет вид -образной кривой.

По оси  откладываем значения вариант  по оси  — накопленные частоты  полученные точки соединяем ломаной, график которой называется кумулятой.

Пример:

Огива

По оси  откладываем накопленные частоты  по оси  — значения вариант  Полученные точки соединяем ломаной линией, график которой называется огива

Пример:

Огива данного распределения приведена на рис. 5.4. Огива служит для сравнения вариационных рядов с разным количеством наблюдений.

Эмпирическая функция распределения

Эмпирическая функция распределения  — накопленные относительные частоты  По оси  откладываем варианты  по оси  Полученные точки соединяем ломаной линией, график которой называется эмпирической функцией распределения 

Пример:

Эмпирическая функция данного распределения приведена на рис. 5.5.

Аналогом  в теории вероятностей является функция распределения  — накопленные вероятности.  есть оценка теоретической функции распределения  по данным наблюдений.

Пример расчёта

Пример расчёта по формулам для среднеквадратичного отклонения и дисперсии при решении следующей задачи по теории вероятностей: для выполнения ремонтных работ рабочему необходима краска определённого цвета. В городе имеется четыре строительных магазина, в каждом из которых эта краска может находиться в продаже с вероятностью 0,41. Записать закон распределения количества посещаемых магазинов. Рассчитать дисперсию и среднеквадратичное отклонение случайной величины. Обход заканчивается после того, как необходимая краска будет куплена или после посещения всех четырёх магазинов.

x = 1 — краска куплена в первом магазине.

p (1) = 0,41.

x = 2 — краски не нашлось в первом магазине, но она была во втором.

p (2) = (1 — 0,41) · 0,41 = 0,59 · 0,41 = 0,242.

x = 3 — краски не нашлось в двух первых магазинах, но она была в третьем.

p (3) = (1 — 0,41)2 · 0,41 = 0,592 · 0,41 = 0,143.

x = 4 — краски не было в первых трёх магазинах, рабочий зашёл в четвёртый магазин, купил краску или просто закончил обход.

p (4) = 0,593 · 0,41 + 0,594 = 0,205.

Закон распределения:

xi 1 2 3 4
p (X) 0,41 0,242 0,143 0.205

Математическое ожидание: M (X) = 1 · 0,41 + 2 · 0.242 + 3 · 0,143 + 4 · 0,205 = 2,143.

Дисперсия: D (X) = Σ ni=1 xi2 ⋅ pi — M (X)2 = 12 · 0,41 + 22 · 0,242 + 32 · 0,143 + 42 · 0,205 — 2,1432 = 1,353.

Стандартное отклонение: σ(X) = √ D (X) = √1,353 = 1,163.

Ответ: Дисперсия 1,353; квадратическое отклонение 1,163.

Среднеквадратичное отклонение применяется для определения погрешности при проведении последовательных измерений. Эта характеристика играет важную роль для сравнения изучаемого процесса с теоретически предсказанным. Если СКО велико, то полученные результаты или метод их получения нужно проверить.

Понравилась статья? Поделиться с друзьями:
Бронивиль
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: