Федеральное агентство морского и речного транспорта Федеральное государственное образовательное учреждение высшего профе...
12 downloads
230 Views
218KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Федеральное агентство морского и речного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования «МОРСКОЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени адмирала Г.И. Невельского»
Методические рекомендации по выполнению практического задания на тему Определение тесноты и направления связи между двумя признаками в статистической обработке маркетинговой информации Образовательная программа 080111265 «Маркетинг»
Разработана: М. Л. Моисеевой
2009
Определение тесноты и направления связи между двумя признаками в статистической обработке маркетинговой информации Теснота связи и ее направление определяются путем расчета коэффициента корреляции, который изменяется от -1 до +1. Абсолютная величина коэффициента корреляции характеризует тесноту связи, а знак указывает на ее направление. Вначале определяется статистическая значимость коэффициента корреляции. Безотносительно к его абсолютной величине коэффициент корреляции, не обладающий статистической значимостью, бессмыслен. Статистическая значимость проверяется с помощью нулевой гипотезы которая констатирует, что для совокупности коэффициент корреляции равен нулю. Если нулевая гипотеза отвергается, это означает, что коэффициент корреляции для выборки является значимым и его значение для совокупности не будет равно нулю. Существуют таблицы, с помощью которых для выборки определенного объема можно определить наименьшую величину значимости для коэффициента корреляции. Далее, если коэффициент корреляции оказался статистически значимым, с помощью некоторого общего правила «большого пальца» определяется сила связи (таблица). Таблица – Сила связи в зависимости от величины коэффициента корреляции Коэффициент корреляции
Сила связи
От ±0,81 до ±1,00
Сильная
От ±0,61 до ±0,80
Умеренная
От ±0,41 до ±0,6
Слабая
От ±0,21 до ±0,4
Очень слабая
От ±0,00 до ±0,20
Отсутствует
Одним из важных приложений методов математической статистики является установление зависимости между двумя или более наблюдаемыми величинами. Можно рассмотреть ситуацию, когда в результате эксперимента измеряется не одна, а сразу две случайные величины, скажем X и Y. Примерами здесь могут служить врачебный осмотр, где у каждого пациента измеряют рост и вес; измерение средней температуры воздуха в двух городах в течение
определенного дня; проверка квалификации рабочих, когда фиксируются производительность и стаж работы. Итак, исходными данными являются пары чисел (точки) (x1, y1), (x2, y2), …, (xn, yn), где n – число испытаний. Наряду с анализом величин X и Y по отдельности представляет интерес исследование возможной зависимости между ними. Являются ли величины X и Y независимыми? Если же между ними имеется некоторая зависимость, то какова она? Обратимся к рисункам. На них изображены различные виды графиков (или диаграмм) рассеяния, т. е. нанесены точки. Величины X и Y на рис. 1, по-видимому, независимы: зная, какое значение приняла величина X, ничего нельзя сказать о значении Y. На рис. 2-4 зависимость налицо: зная значение, которое приняла величина X в результате испытания, можно довольно точно сказать, каково значение Y. Зависимость на рис. 3 и 4 близка к линейной, т. е. точки заметным образом группируются вокруг некоторой прямой. В таких случаях говорят, что величины X и Y коррелированны. Существует простой способ определения степени коррелированности случайных величин. Он основан на вычислении коэффициента корреляции rху. Если понятно, о каких случайных величинах идет речь, можно вместо rху писать просто r. Коэффициент корреляции обладает следующим свойством: – 1≤ r ≤ 1. При этом, чем ближе г к нулю, тем слабее корреляция. И наоборот, чем ближе г к 1 или –1, тем сильнее корреляция, т. е. зависимость между X и Y близка к линейной. Если г в точности равно 1 или – 1, то точки лежат на одной прямой. Подчеркнем, что коэффициент корреляции отражает степень линейной зависимости между величинами. При наличии ярко выраженной зависимости другого вида (например, квадратичной) он может быть близок к нулю. Приведем формулы для вычисления rху:
1 n х = ∑ хi , n i=1 ⎛1 n 2⎞ 2 s = ⎜ ∑ хi ⎟ − х , ⎝ n i=1 ⎠ 2 x
1 n y = ∑ yi , n i=1
(1)
⎛1 n 2⎞ 2 s = ⎜ ∑ yi ⎟ − y , ⎝ n i=1 ⎠
(2)
2 y
⎞ ⎛1 n sxy = ⎜ ∑ хi yi ⎟ − хy, ⎠ ⎝ n i=1
(3)
rxy =
sxy sx s y
.
(4)
Пример. Рассмотрим проблему, которая стоит перед администрацией некоторого крытого стадиона, где проходят матчи, концерты и другие развлекательные мероприятия. Перед каждым таким мероприятием требуется оценить, какое количество зрителей придет, это необходимо для оптимальной организации работы различных вспомогательных служб. Один из подходов к решению этой проблемы – учёт предыдущего опыта. В частности, можно предположить, что окончательное число зрителей сильно зависит от того, сколько билетов продано за день до мероприятия (как раз за сутки определяется план работы вспомогательных служб). Пусть опыт первых пяти мероприятий этого года таков: Число билетов, продан3,5 4,6 5,8 4,2 5,2 ных накануне (в тыс.) Число зрителей (в тыс.) 8,1 9,4 11,3 6,9 9,7 Каков коэффициент корреляции между числом проданных накануне билетов и числом зрителей? Решение. Примем число билетов за X, а число зрителей за Y. В таблице даны пять реализаций пары случайных величин – пары чисел (xi,, yi), i=1,…,5. Для расчёта коэффициента корреляции удобно найти сначала суммы 5
∑ x = 3,5 + 4,6 + 5,8 + 4,2 + 5,2 = 23,3, i
i=1 5
∑y i=1
5
∑x i=1
2 i
i
= 8,1 + 9,4 + 11,3 + 6,9 + 9,7 = 45,4,
= (3,5)2 + (4,6)2 + (5,8)2 + (4,2)2 + (5,2)2 = 111,73, 5
∑ x = 3,5 + 4,6 + 5,8 + 4,2 + 5,2 = 23,3, i=1 5
i
∑y i=1
5
∑x i=1
2 i
i
= 8,1 + 9,4 + 11,3 + 6,9 + 9,7 = 45,4,
= (3,5)2 + (4,6)2 + (5,8)2 + (4,2)2 + (5,2)2 = 111,73,
Рисунок – Диаграммы рассеяния 5
∑ x = 3,5 + 4,6 + 5,8 + 4,2 + 5,2 = 23,3, i
i=1 5
∑y i=1
5
∑x i=1
2 i
i
= 8,1 + 9,4 + 11,3 + 6,9 + 9,7 = 45,4,
= (3,5)2 + (4,6)2 + (5,8)2 + (4,2)2 + (5,2)2 = 111,73,
5
2 2 2 2 2 2 y = ( 8 , 1 ) + ( 9 , 4 ) + ( 11 , 3 ) + ( 6 , 9 ) + ( 9 , 7 ) = 423,36, ∑i i=1
5
∑x y i=1
i i
= 3,5 ⋅ 8,1 + 4,6 ⋅ 9,4 + 5,8 ⋅11,3 + 4,2 ⋅ 6,9 + 5,2 ⋅ 9,7 = 216,55.
Эти суммы необходимо подставить в формулы (1) – (4). Имеем:
х= sx2 =
23,3 = 4,66, 5
111,73 − (4,66)2 = 0,6304, 5 sxy =
y=
45,4 = 9,08, 5
sy2 =
423,36 ,−(9,08)2 = 2,2256, 5
216,55 − 4,66⋅ 9,08 = 0,9972, 5
rxy =
0,9972 ≈ 0,842. 0,6304 2,2256
Таким образом, коэффициент корреляции r оказался довольно близким к единице. Этим обстоятельством можно воспользоваться для прогнозирования числа зрителей по имеющейся накануне информации. О том, каким образом это делается, необходимо рассмотреть далее. Использование регрессии для прогнозирования в маркетинговых исследованиях Если предположить, что зависимость между случайными величинами X и Y близка к линейной (в этом случае коэффициент корреляции r близок к 1 или –1). Тогда естественно ставить вопрос об отыскании функции y = ax + b, которая наилучшим образом выражает зависимость Y от X. Для нахождения такой функции пользуются методом наименьших квадратов. Итак, пусть даны n пар чисел (иначе говоря, n точек):
(x1, y1), (x2, y2), …, (xn, yn). Требуется найти такую прямую, чтобы сумма квадратов «отклонений» этих точек от прямой () была как можно меньше. Это означает, что выражение n
∑ [y − (ax i =1
i
+ b )]
2
i
должно быть минимальным (на рис. отрицательных отрезков).
(5)
Отклонения изображены в виде
Выражение (19) является функцией двух переменных а и Ь (поскольку результаты наблюдений заданы). Можно показать, что выражение (5) принимает минимальное значение, если величины а и Ь связаны соотношениями n n ⎧ n 2 ⎫ + = a x b x x y , ∑ ∑ i i i ⎪ ⎪ ∑ i ⎪ i=1 ⎪ i=1 i=1 ⎨ n ⎬ n ⎪a x + nb = y . ⎪ ∑ ∑ i i ⎪⎩ i=1 ⎪⎭ i=1
Эта система имеет единственное решение:
(6)
a=
sxy s
2 x
,
(7)
b = y − ax.
Найдя значения неизвестных параметров а и b, можно найти тем самым прямую, наилучшим образом выражающую статистическую связь между величинами X и Y. Полученная прямая называется прямой регрессии Y на X. Продолжение примера. Для прогнозирования числа зрителей надо найти прямую регрессии Y на X. Подставим найденные значения sxy, s x2 , x , y . Получаем
a=
0,9972 ≈ 1,58, 0,6304
b ≈ 9,08 −1,58⋅ 4,66 ≈ 1,72.
Таким образом, прямая регрессии имеет уравнение
y = 1,58⋅ x +1,72. Если, например, за день до мероприятия продано 4300 билетов, то предполагаемое число зрителей составляет
y = 1,58⋅ 4,3 +1,72 = 8,514 ≈ 8,5 тыс.
Ниже приведены задания для закрепления навыков по определению тесноты и направления связи между двумя номинальными признаками, которые необходимо выполнить. Проводится исследование эффективности средств, инвестируемых в программу продвижения некоторого вида товара. Проведённый тест показал следующие данные о зависимости спроса от вложений в рекламу: Денежные вложения в рекламу, млн. руб. Спрос, млн. условных ед. товара
3
5
7
9
11
35
58
70
95
110
Требуется: а) определить коэффициент корреляции между денежными вложениями и спросом, рассчитать параметры уравнения регрессии; б) исходя из данных пункта а) определить спрос при вложениях 8 млн. руб.
Проводится исследование наиболее эффективной цены на новый товар, аналог которого отсутствует на рынке. Стратегическая цель ценообразования компании – захват наибольшей доли рынка. Пробный маркетинг показал следующие данные: Цена, руб. 2 5 7 9 11 Объём продаж, штук в день 35 30 27 20 18 Требуется: а) определить коэффициент корреляции между ценой и объёмом продаж, рассчитать параметры уравнения регрессии; б) исходя из данных пункта а) определить объём продаж при цене 4 руб.
Проводится анализ связи заполнения концертного зала с числом проданных билетов за пять дней до проведения концерта. Проведённые исследования пяти последних концертов показали следующие данные: Число проданных билетов, штук Заполнение зала на концерте, %
100 50
150 60
200 70
250 80
450 100
Требуется: а) определить коэффициент корреляции между числом проданных билетов за пять дней до концерта и заполнением концертного зала, рассчитать параметры уравнения регрессии; б) исходя из данных пункта а) определить заполнение зала при числе проданных билетов 350 штук.
Проводятся исследования связи роста реальных доходов населения с ростом ёмкости рынка некоторого товара. Проведённые исследования с экспертами показали следующие данные: Рост реальных доходов, % Рост ёмкости рынка, + штук
1 1000
3 1500
5 1900
7 2000
9 2100
Требуется: а) определить коэффициент корреляции между ростом реальных доходов и ростом ёмкости исследуемого товара, рассчитать параметры уравнения регрессии; б) исходя из данных пункта а) определить рост ёмкости рынка при росте реальных доходов в 2 %.