ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОУ ВПО «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Компью...
245 downloads
233 Views
847KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОУ ВПО «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Компьютерный практикум
Учебно-методическое пособие для вузов Составители: Л.Н. Баркова С.А. Ткачева
Воронеж 2007
2
Утверждено научно-методическим советом математического факультета 31 января 2007 года протокол № 5
Рецензент: Азарнова Т.В.
Учебно-методическое пособие подготовлено на кафедре уравнений в частных производных и теории вероятностей математического факультета Воронежского государственного университета
Рекомендуется для студентов 3 курса очной формы обучения и 5 курса очно-заочной формы обучения математического факультета, обучающихся по специальности 010101 (010100) – математика и по направлению 010200 (510200) – математика, прикладная математика.
3
Пособие, написанное в соответствии с программой курса «Математическая статистика» для студентов 3 курса дневного и 5 курса вечернего отделений математического факультета, содержит краткие теоретические сведения, а также алгоритмы реализации решений задач в пакете STATISTICA. Данное пособие является расширенным и исправленным переизданием учебного пособия [1]. Лабораторная работа 1 Введение в систему STATISTICA Система STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Она состоит из 5 компонентов: 1) электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода результатов статистического анализа; 2) графической системы визуализации данных и результатов статистического анализа; 3) набора статистических модулей, в которых собраны группы логически связанных между собой статистических процедур; 4) специального инструментария для подготовки отчетов; 5) встроенных языков программирования, позволяющих расширить стандартные возможности системы. В любом конкретном модуле можно выполнить определенный способ статистической обработки, не обращаясь к процедурам других модулей. Переключаться между модулями можно как между обычными Windowsприложениями, выбирая их на панели переключателей модулей щелчком мыши. Графические возможности доступны в любом статистическом модуле на любом шаге анализа. Открытие, хранение и создание файлов данных в системе STATISTICA Запустить систему STATISTICA можно с помощью кнопки Пуск и выбора в меню курсором мыши команды Программы. В появившемся меню выбрать STATISTICA. Появится переключатель модулей системы. Выберем в нем модуль Basic Statistics and Tables (Основные статистики и таблицы) и дважды щелкнуть (кликнуть) левой кнопкой мыши. После этого на экране компьютера появится Стартовая панель модуля. Отказаться от предлагаемого сервиса услуг можно, нажав CANCEL. Стартовая панель исчезнет, открыв Рабочее Окно системы STATISTICA.
4
Рабочее Окно системы STATISTICA имеет следующую структуру: 1. Верхний заголовок в рабочем окне STATISTICA является названием запущенного модуля, например, Basic Statistics and Tables(Основные статистики и таблицы). Далее: строка меню, панель инструментов, рабочая область. В рабочую область выводятся все документы системы, которые получаются в процессе анализа. 2. Меню занимает вторую строку основного окна модуля и содержит в себе систему выпадающих меню. Ряд пунктов меню, таких как File(Файл), Edit(Правка). Vew(Вид), Windows(Окно), Help(Справка), стандартен для Windows. Пункт Analysis(Анализ) специфичен для STATISTICA. Он позволяет среди прочих услуг вызвать стартовую панель (Startup Panel) модуля, находясь в этом модуле. После того как пункт меню выбран, в нем можно инициировать необходимую команду различными способами: -щелкнуть на имени команды мышью; -нажать на клавишу с буквой, которая подчеркнута в названии команды: -воспользоваться стрелками {вверх} и {вниз}для выбора нужной команды и клавишей Enter. 3. Панель инструментов занимает третью и четвертую строчку рабочего окна и располагается ниже строки меню. Панель инструментов содержит кнопки для быстрого доступа к наиболее часто используемым командам меню. При помощи щелчка мышью на какой-либо кнопке можно получить быстрый доступ к соответствующей команде. Каждому типу документа STATISTICA соответствует своя панель инструментов. Файлы STATISTICA с исходными данными имеют расширение sta. При запусках автоматически открывается последний файл, с которым работали в системе. В рабочей области может находиться только один файл с исходными данными (однако может быть неограниченное число файлов с промежуточными значениями и графиков). Открытие и создание файлов данных Открываются файлы стандартным для Windows способом. В строке меню выбирается пункт File(Файл). После щелчка левой кнопкой мыши в спустившемся меню выбираем команду Open(Open Data), далее в каталоге выделяется имя файла и нажимается кнопка ОК. Исходные данные в системе STATISTICA организованы в виде электронной таблицы. Столбцы электронной таблицы с исходными данными называются Variables(Переменные), а строки Cases(Случаи). В качестве переменных обычно выступают исследуемые величины, а случаи - это значения, которые принимают переменные в отдельных измерениях.
5
Электронные таблицы могут содержать и численную и текстовую информацию. Они поддерживают различные типы операций с данными. Чтобы создать файл данных, находясь в основном рабочем окне системы STATISTICA, нужно выбрать курсором в строке меню пункт File(Файл) и щелкнуть левой кнопкой мыши. В выпавшем меню выбрать команду New(NewData), далее в окне: Specify File Name (Новый(Новые данные)) следует ввести имя файла и нажать кнопку ОК. STATISTICA автоматически откроет пустую электронную таблицу с указанным именем. В заголовке окна электронной таблицы отобразится имя файла и его размер. Размер таблицы по умолчанию принят 10*10 (10 переменных с именами VAR1, VAR2, VAR3 ,…, VAR10 и 10 пронумерованных случаев). Размер таблицы (число строк и столбцов) можно увеличивать и уменьшать. Число столбцов регулируется кнопкой Vars(Переменные). После нажатия кнопки Vars на панели инструментов в выпадающем меню выбирают одну из команд: Delete Variable(удалить переменные) или Add Variable(Добавить переменные). Аналогично регулируется кнопкой Cases(Случаи) число случаев. Можно задавать заголовок таблицы, имена переменных и случаев. В качестве имен случаев можно использовать либо числа, либо текст, либо дату. Свойства переменной (имя, формат, код пропущенных значений, метка, формула для вычисления или связь) называют спецификацией переменной и устанавливают с помощью команды All Specs(Все спецификации) или Current Specs(Текущие спецификации). Эти команды доступны после нажатия кнопки Vars(Переменные) на панели инструментов или правой кнопки мыши. Переменные и случаи можно также копировать (Copy), удалять (Delete) и пр. Выполнение заданий в пакете STATISTICA Пример 1. Создать файл Gemat.sta 6v*15c с результатами воздействия лекарства «каптоприл» на кровяное давление. Исходные данные содержатся в таблице. Шаг 1. Создание электронной таблицы Выберите команду New(NewData)(Новый(Новые данные)) из меню File(Файл). В диалоговом окне команду New(NewData): Specify File Name (Новый(Новые данные):Определить имя файла), в строке File Name(Имя файла) напишите имя файла Gemat.sta. Нажмите кнопку ОК. На экране появится пустая электронная таблица размером 10*10. Шаг 2. Настройка размеров таблицы Для данных требуется 6 столбцов и 15 строк. Нужно удалить лишние 4 переменных и добавить 5 случаев.
6
Нажмите кнопку Vars(Переменные) на панели инструментов и выберите команду Delete(Удалить). В диалоговом окне Delete Variables(Удаление переменных) укажите диапазон удаляемых переменных From variable: VAR 7 (Начиная с переменной VAR 7). To Variable: VAR10 (По переменную VAR10). OK. Далее нужно к указанным 10 случаям (Cases) добавить5. Нажмите кнопку Cases(Случаи) на панели инструментов и выберите команду Add(Добавить). В появившемся окне сделайте установки: Number of Cases to Add: 5 (5 случаев). Insert After Case: 10 (После случая: 10) Шаг 3. Оформление заголовка таблицы Кликните на белом фоне в таблице под строкой: Data : Gemat.sta 6v*15c. В открывшемся окне Data File Header (Заголовок файла данных) введите заголовок таблицы КРОВЯНОЕ ДАВЛЕНИЕ OK.
Шаг 4. Задание имен переменных Кликните в клетке VAR1 электронной таблицы. Сделайте выбор Variable Specs…. В поле Name (Имя) открывшегося окна напишите: ниж до. Нажмите кнопку >>, переменной VAR2 присвойте имя ниж пос, >>, переменной VAR4 присвойте имя верх до, >>, переменной VAR5 присвойте имя верх пос. Таблица. Кровяное давление (в мм. ртутного столба) до и после приема каптоприла Номер пп. Кровяное давление 1 2 3 4 5 6 ниж до ниж пос разность верх до верх пос разность 1 210 201 -9 130 125 -5 169 165 -4 122 121 -1 2 187 166 -21 124 121 -3 3 160 157 -3 104 106 2 4 167 147 -20 112 101 -11 5 176 145 -31 101 85 -16 6 185 168 -17 121 98 -23 7 206 180 -26 124 105 -19 8 173 147 -26 115 103 -12 9 146 136 -10 102 98 -4 10 174 151 -23 98 90 -8 11 201 168 -33 119 98 -21 12 198 179 -19 106 110 4 13 148 129 -19 107 103 -4 14 154 131 -23 100 82 -18 15
7
Шаг 5. Ввод данных в электронную таблицу Введите данные в электронную таблицу с клавиатуры. Значения переменных VAR3 и VAR6 не вводите. Шаг 6. Вычисление значений переменной по формуле Кликните в клетке VAR3 электронной таблицы. Сделайте выбор Variable Specs…. В поле Long Name запишите формулу для вычисления: =v2-v1 OK. Аналогичным образом вычисляются и вводятся значения VAR6. (Этим переменным можно присвоить имя разность ). (Variable Specs… Name). Шаг 7. Сохранение файла данных Для сохранения файла Gemat.sta. 6v*15c нажмите кнопку Save Data Files (Сохранить данные) или (Save)( Сохранить). Можно также сохранить, набрав на клавиатуре CTRL+S. Еще один пример Из переключателя модулей системы STATISTICA запустите модуль Basic Statistics and Tables(Основные статистики и таблицы). Запуск модуля осуществляется путем выбора на панели модулей кнопки Switch to (Переключится) или двумя щелчками левой кнопки («кликом») мыши по названию самого модуля. Далее создайте файл данных, как показано ниже. В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности. Первая переменная СЕМ_ПОЛ описывает семейное положение женщины. Эта переменная принимает два значения: П_семья – полная семья, Н_семья – неполная семья. Вторая переменная – ТРЕВОГА, описывает самооценку личностной тревожности женщины. Она принимает два значение: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу). Из примера видно, что первая опрошенная женщина наблюдение номер 1 (первая строка в таблице) имеет полную семью и характеризует свое душевное состояние как тревожное. Вторая опрошенная женщина – наблюдение номер 2 (вторая строка таблицы) – имеет неполную семью и оценивает уровень своей тревожности как низкий и т.д. Назовите этот файл women1.sta Эффективнее организовывать ввод текстовых значений можно, закодировав переменные следующим образом. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по заголовку левой кнопкой мыши, и на экране отобразится окно Variable1 (переменная1)- СЕМ_ПОЛ. Выберите
8
кнопку Text Values(Текстовые значения). В открывшемся окне Text Values Manager(Диспетчер текстовых значений)-СЕМ_ПОЛ в колонке Text наберите в первой строке П_семья, а в колонке Numeric наберите 1. Это приведет к тому, что текстовому значению П_семья будет присвоен код 1. Аналогично во второй строке наберите Н_семья и число 2. Текстовому значению Н_семья будет присвоен код 2. Далее нажмите кнопку ОК. Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение П_семья. Введите значение 2 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение Н_семья. Теперь достаточно нажать кнопку ABC на панели инструментов STATISTICA, чтобы получить нужные текстовые значения. Таким же образом введите текстовые значения в ячейку переменной ТРЕВОГА. Построение таблиц сопряженности в системе STATISTICA Шаг 1. Подведите курсор мыши к пункту Analysis(Анализ), в появившемся меню сделайте выбор: Startup Panel (Стартовая панель). Из различных видов анализа, доступных в этом модуле, выберите Tables and Banners(Таблицы и заголовки) и нажмите кнопку ОК. На экране появится окно Specify Table(Задать таблицы). Шаг 2. Сначала в строке Analisys выберите Crosstabulation tables(Таблицы сопряженности). Шаг 3. Далее нажмите кнопку Specify tables(Задать таблицы). В появившемся окне выберем переменные, которые будут табулированы в таблице. Эти переменные задают разбиение исходных данных на группы, поэтому их часто называют также группирующими переменными. В данном случае будем табулировать значения переменных и ТРЕВОГА. Выберем в первой колонке из предложенных переменных переменную: 1-СЕМ_ПОЛ, во второй колонке: 2-ТРЕВОГА. (Заметьте, что вообще можно выбирать до 6 списков группирующихся переменных, что позволяет строить чрезвычайно сложные таблицы, содержащие гораздо больше переменных, чем в указанном примере.) После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в диалоговое окно, оно немного изменилось: возле надписи Number of tables появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу. Шаг 4. Нажмите ENTER на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. Система произведет вычисления и предложит просмотреть результат в окне Crosstabulation Tables Results (Результаты кросстабуляции). Шаг 5. В окне Crosstabulation Tables Results (Результаты кросстабуляции) нажмите кнопку Review Summary Tables(Просмотреть итоговые таблицы). На экране появится таблица сопряженности:
9
В этой таблице табулированы переменные СЕМ_ПОЛ и ТРЕВОГА на пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных women1.sta . Мы табулировали совместно значения двух переменных СЕМ_ПОЛ и ТРЕВОГА, такое действие называется кросстабуляцией. Задание. Проанализируйте таблицу сопряженности. Часто возникает необходимость вместе с абсолютными значениями привести в таблице проценты. Проценты по столбцу – это проценты, вычисленные относительно суммарного значения частот по столбцу. Проценты по строке - это проценты, вычисленные относительно суммарного значения частот по строке. Проценты от общего числа вычисляются относительно суммы частот в таблице. Шаг 6. Опять вернемся в окно Crosstabulation Tables Results (Результаты кросстабуляции)
Шаг 7. В окне Crosstabulation Tables Results (Результаты кросстабуляции) выберем в группе Tables опцию Percentages of total count(Проценты от общего числа). Щелкните мышью в соответствующем квадрате. Далее нажмите кнопку Review Summary Tables(Просмотреть итоговые таблицы). На экране появится следующая таблица
10
Здесь рядом с абсолютными значениями появились относительные величины – проценты, вычисленные от общего числа женщин, т.е. от 10. Таким образом, из таблицы видно, что 20% женщин имеют полную семью и высокий уровень тревоги; 30% женщин имеют полную семью и низкий уровень тревоги; 30% женщин имеют неполную семью и высокий уровень тревоги; 20% женщин имеют неполную семью и низкий уровень тревоги. Шаг 8. Редактирование таблицы Дважды щелкните, например, по полю Total% в построенной таблице. В появившемся окне в поле Name вместо Total % введите %
Шаг 9. Построение отдельных таблиц с процентами. Вернемся вновь в окно Crosstabulation Tables Results (Результаты кросстабуляции) и выберем опцию Percentages of total count(Проценты от общего числа), и далее опцию Display selected %’s in sep tables(Отображать выбранные %в отдельных таблицах). Затем выберем кнопку Review Summary Tables(Просмотреть итоговые таблицы).
Шаг 10. Создание автоотчета. Войдите в меню View(Вид) и выберите опцию Text/Output Window(Окно текста/вывода) Из построенных таблиц выберите ту, которая нужна для отчета. Щелкните по ней мышью. Войдите в меню File(Файл) и выберите опцию Print(Печать). Отмеченная таблица результатов будет распечатана.
11
Пример. Создайте в системе STATISTICA файл women2.sta . Для градации значений переменных используются более реалистичные шкалы. Шкала семейного положения женщины: одинокая, неполная семья, полная семья. Шкала тревожности женщины: низкая, умеренная, высокая. Задание к работе №1. 1. Построить таблицы сопряженности переменных в системе STATISTICA. 2. Создать отчет в виде файла таблицы результатов.
Лабораторная работа 2 Графический анализ таблиц сопряженности Пример (продолжение). Файл данных women1.sta открыт в рабочем окне модуля Basic Statistics and Tables(Основные статистики и таблицы). Шаг 1. Подведите курсор мыши к пункту Analisys(Анализ) в появившемся меню сделайте выбор: Startu panel (Стартовая панель). Выберите анализ Tables and Banners(Таблицы и заголовки) и нажмите кнопку ОК. С помощью опций окна произведите табулировку переменных СЕМ_ПОЛ и ТРЕВОГА.
Шаг 2. После того как система построит таблицу в диалоговом окне Crosstabulation Tables Results (Результаты кросстабуляции), нажмите кнопку Categorised gistograms (Категоризованные гистограммы).
12
Смысл этих гистограмм следующий: опрошенные женщины разбиты на две группы (категории): женщины из полной семьи и женщины из неполной семьи. Категоризованная гистограмма показывает, что уровень тревожности в полных семьях ниже, чем в неполных. Продолжение примера. Создайте файл women2.sta(2v*10c) Шаг 1. Подведите курсор мыши к пункту Analysis(Анализ), в появившемся меню сделайте выбор: Startup Panel (Стартовая панель). Из различных видов анализа, доступных в этом модуле, выберите Tables and Banners(Таблицы и заголовки) и нажмите кнопку ОК. На экране появится окно Specify Table(Задать таблицы). Шаг 2. Табулируйте значения переменных SEM_POL и TREVOGA. Нажмите кнопку Codes(Коды) и выберите значения табулируемых качественных признаков.
Можно выбрать табулирование всех значений переменных. Для этого нажмите кнопку Select All. Шаг 3. Постройте таблицу кросстабуляции и график категоризованной гистограммы. (Crosstabulation Tables Results (Результаты кросстабуляции) далее нажмите кнопку Categorised gistograms (Категоризованные гистограммы).
13
Шаг 4. В диалоговом окне Crosstabulation Tables Results (Результаты кросстабуляции) нажмите кнопку 3D histograms. На экране появится трехмерная гистограмма.
Смысл этой гистограммы в следующем: составляются всевозможные комбинации значений двух переменных и подсчитывается, сколько раз встречалась каждая комбинация. Трехмерная гистограмма очень наглядно воспроизводит таблицу кросстабуляции: вы положили таблицу на плоскость и в каждую клетку поставили по столбцу, высота которого равна количеству наблюдений в клетке таблицы. Можно использовать анимацию для вращения графика (кнопки вращения расположены на панели инструментов). Шаг 5. В диалоговом окне Crosstabulation Tables Results (Результаты кросстабуляции) нажмите кнопку Interaction plot of frequencies. На экране появится график взаимодействий:
График показывает, как взаимодействуют между собой частоты наблюдений из разных групп.
14
Лабораторная работа 3 Простейшие задачи математической статистики Задача 1 . Создать файл Arenda.sta, содержащий данные о размере и стоимости арендованных помещений. Данные находятся в таблице 1. Таблица 1. Зависимость цены аренды от размеров помещения. № 1 2 3 4 ширина длина площадь цена 1 47 35 1645 1446000 2 47 73 3431 2768000 3 47 111 5217 3974000 4 47 149 7003 5147000 5 47 187 8789 6290000 6 47 225 10575 7537000 7 47 263 12361 8828000 8 47 301 14147 10260000 Шаг 1. Создать файл Arenda.sta ( File-New Data ->File Name: Arenda.sta) Шаг 2. Удалите лишние 6 переменных: Vars – Delete: From variable VAR5 to Variable VAR10 – OK. Удалите лишние 2 строки: Cases – Delete. Шаг 3. В диалоговом окне Data File Header введите заголовок ЦЕНА АРЕНДЫ. В поле Data File Information/notes введите дополнительную информацию о содержании файла и скидках.- ОК. Шаг 4. Кликните по имени переменной VAR1. В поле Name наберите ЦЕНА. В поле Decimals: 0 (не нужны разряды после запятой). В поле Column Width: 5 (это достаточная ширина столбцов для таких данных), далее ОК. Нажмите кнопку >> для перехода к следующей переменной и все повторите. Для двух последних переменных оставьте ширину столбцов - 8, установленную по умолчанию. Шаг 5. Введите данные в столбцы ДЛИНА, ШИРИНА, ЦЕНА. Данные в столбец ПЛОЩАДЬ поручите вычислять и вводить системе: щелкните дважды по имени переменной ПЛОЩАДЬ, в диалоговом окне в поле Long Name запишите формулу для вычисления: =v1*v2. – OK. Шаг 6. Сохраните файл: Save Data File или CTRL+S на клавиатуре.
15
Генерация случайных чисел Генератор случайных чисел, распределенных равномерно на отрезке [0;1], запускается формулой rnd(1). Случайные числа, распределенные равномерно на отрезке [0;2], можно сгенерировать с помощью оператора rnd(2). Оператор rnd(b-a)+a генерирует числа, распределенные равномерно на отрезке [a; b]. Выборка, распределенная по заданному закону, генерируется в файл заданием в поле Long Name соответствующего выражения: =rnd(5) для R[0;5] =VNormal(rnd(1);2;3) для N(2;3) =VExpon(rnd(1);1/2); для E(0,5) со средним μ=1/2 =VCauchy(rnd(1);0;1); для C(0;1) =VLognorm(rnd(1);0,5;0,5); для Lgn(0,5;0,5) =VChi2(rnd(1);8); для χ28 Такая форма задания определяется способом генерации с помощью функции, обратной (буква V) к функции распределения, и генератора случайных чисел. Здесь R – равномерное, N – нормальное, E – экспоненциальное, C –Коши, Lgn – логнормальное, χ28 – хи-квадрат распределения. Для генерации n случайных величин, соответствующих заданному закону распределения, необходимо выбрать один из столбцов таблицы исходных данных, состоящей из n строк. В окне его спецификаций следует ввести формулу, согласно которой вырабатываются необходимые случайные величины. Последние будут записываться в клетках данного столбца.
16
Задача 2. Генерировать выборку объема n=50, распределенную по показательному закону с математическим ожиданием 5 (Е(5)). Шаг 1. Создайте новый файл File-New Data->File Name: Gener.sta – OK. Шаг 2. Преобразуйте таблицу к размерам 1v*50c: Vars – Delete: From variable VAR2 to Variable VAR10 – OK. Кнопка Cases-Add (Добавление) – окно Add Cases: Number of Cases to Add: 40 – Insert after Case: 10 – OK. Шаг 3. Генерируйте выборку: Выделите переменную VAR1 – нажмите правую клавишу и выберите Variable specs (Спецификации переменных) – в окне Variable 1 введите Name x (например), в нижнем поле Long Name введите выражение, определяющее переменную. Ввод сделайте набором на клавиатуре или с помощью клавиши Function, выбирая в меню Category и Name требуемую функцию и вставляя клавишей Insert. Для задания закона распределения Е(5) введите: =VExpon(rnd(1);1/5) Вместо выражения 1/5 можно набрать значение параметра λ=0.2 Шаг 4. Сохраните выборку CTRL+S. Просмотрите выборку графически: Graphs- Custom Graphs – 2DGraphs. Задача 3. Генерировать выборки объема n=100, распределенные по законам а) экспоненциальному λ=1/7; б) равномерному с параметрами: а=6; в=9; с) нормальному с параметрами: μ=9; σ=1. Указание: Привести таблицу к размерам 3v*100c; задать имена переменных: а) VAR1 – Expon; b) VAR2 – Rav; c) VAR3 – Normal. В поле Long Name введите выражения, определяющие переменные: а) =VExpon(rnd(1);1/7); в) =rnd(3)+6; c) =VNormal(rnd(1);9;1) Задание к работе №3. 1. Выполнить примеры 1-3. 2. В табл.2 заданы варианты законов распределения. Генерировать выборку согласно выбранному варианту. Сохранить файл под именем Generat.sta. в своем каталоге. № Закон Объем № Закон Объем p p 1 R[0;2] 50 0.03 9 N(1;4) 60 0.01 2 N(2;0.25) 60 0.02 10 E(1) 70 0.03 3 E(3) 70 0.01 11 R[0;3] 80 0.1 4 R[1;3] 80 0.02 12 N(0;3) 50 0.3 5 N(0;1) 50 0.01 13 E(5) 60 0.2 6 E(2) 60 0.03 14 R[3;6] 70 0.03 7 R[2;3] 70 0.01 15 N(0;9) 80 0.02 8 N(0;4) 80 0.03 16 E(0.2) 50 0.01
17
Лабораторная работа 4 Вычисление описательных статистик и построение простейших статистических графиков Создайте файл данных Diamz.sta 2v*100c с пременными d1 и d2 из данных приложения в модуле Basic Statistics and Tables(Основные статистики и таблицы). Пример 1. Вычислите «быстрые» основные статистики выборки. Способ 1. Шаг 1. Щелкните мышью на каком-либо значении переменной d1. Шаг 2. Нажмите кнопку Quick Basic Stats (Быстрые основные статистики) на панели инструментов электронной таблицы. Шаг 3. В выпадающем меню щелкните по строчке Descriptives of d1 На экране появится электронная таблица, содержащая следующие числовые характеристики переменной d1: Valid - число случаев без пропусков Mean - выборочное среднее Confid-95% - нижняя граница доверительного интервала для среднего Confid +95% - верхняя граница доверительного интервала для среднего Sum - сумма всех выборочных значений переменной Minimum - минимальное значение переменной Maximum - максимальное значение переменной Range - размах выборки Variance - выборочная дисперсия Std.Dev. - стандартное отклонение Std.Err. - стандартная ошибка Skewness - выборочный коэффициент асиметрии St.Err.Skewness - стандартная ошибка коэффициента асиметрии Kurtosis - выборочный коэффициент эксцесса St.Err.Kurtosis - стандартная ошибка эксцесса Способ 2. В стартовой панели модуля выберите Descriptives Statistics Variables: d1- Detailed descriptive statistics. Способ 3. На заголовке столбца с выборкой щелкните правой клавишей мыши BlockStats/Columns( Блоковые статистики по колонкам). Выделите необходимое или All. Пример 2. Построить гистограмму одномерного распределения. Способ 1. Шаг 1. Выберите какое-нибудь значение переменной d1. Шаг 2. Нажмите кнопку Quick Stats Graphs (Быстрые статсграфики).
18
Шаг 3. В выпадающем меню выберите пункт Histogram of d1(гистограмма переменной d1) и далее пункт Regular. Шаг 4.Сохраните график, например, graphs1.stg (CTRL+S). Способ 2. В строке меню выберите Graphs. Далее Stats 2D Graphs Histograms - в открывшемся окне установите: имя переменной, Graph Type: Regular, Fit Type: off (без подбора) или нужный тип, число интервалов группирования Categories: или Avto(автоматический выбор числа интервалов)-OK. Пример 3. Построить диаграмму рассеяния способом быстрого доступа к графикам. Шаг 1. Выберите какое-нибудь значение переменной d1. Шаг 2. Нажмите кнопку Quick Stats Graphs (Быстрые статсграфики). Шаг 3. В выпадающем меню выберите пункт Scatterplot by…-Regular. Шаг 4. В диалоговом окне Select one Variable щелкните по имени выбранной переменной d1. На экране появится диаграмма рассеяния. Пример 4. Построить диаграмму двумерного распределения. Шаг 1. В стартовой панели модуля выберите Descriptive Statistics -ОК. Далее нажмите кнопку Variables. В раскрывшемся окне Select All.(Выбрать все )- ОК. Шаг 2. В окне Descriptive Statistics нажмите нижнюю кнопку в правом столбце 3D bivariate distribution gistogram (Гистограммы двумерного распределения). Далее Selecttwo variables List (Выберите два списка переменных). Выделите цветом в первом столбце переменную d1, в правом - d2 -ОК. На экране появится трехмерная гистограмма. Пример 5. Построить вариационный ряд. Способ 1. Выделите требуемую переменную и выберите Quick Stats Graphs (Быстрые статс-графики)-Values/Stats of Vars(Значения и статистики) - на экране: вариационный ряд, выборочное среднее (mean) и стандартное отклонение SD. Способ 2. Добавьте в таблицу один столбец NEW VAR, скопируйте в него через буфер обмена (кнопка Copy) одну переменную. Щелкните по кнопке Vars и выберите Rank (Ранжировать). Способ 3. В модуле Data Management - Analisys Sort - наберите имя переменной, тип сортировки:Ascen (по возрастанию) или Desc (по убыванию) - ОК. Пример 6. Построить функцию эмпирического распределения. В строке меню Graphs -далее - Stats 2D Graphs - Histograms - в открывшемся окне установите: , Graph Type: Regular, Cumulative Counts (Накопление частоты), Fit Type(Подбираемый тип): Exponential (*для нашего примера) или off(без подбора), Variables: <имя>, Categories(Число интервалов группирования):250 - ОК.
19
На экране - функция эмпирического распределения (с точностью до мелкого группирования с 250 интервалами). Пример 7. Построить интервальный ряд (сгруппировать данные). В строке меню: Analisys - далее -Frequency Tables задайте No of exact intervals: 10 (10 интервалов группирования) или Step size: 2,- starting at: 0. В поле Display options отметьте Cumulative frequencies (Накопленные частоты) - ОК. Наблюдаемую панель вывести на печать или сохранить. Задание к работе №4. 1. Создать файл Primer.sta 1v*100c, содержащий выборку объема n=100, из индивидуальных заданий. Аналогично примерам 1-2 вычислить выборочные характеристики и построить гистограмму частот. 2. Открыть файл Gemat.sta. Аналогично примерам 3-4 построить диаграмму рассеяния и гистограмму двумерного распределения для любой пары переменных. 3. Для генерированной выборки (из файла Gener.sta) построить вариационный ряд, функцию эмпирического распределения, гистограмму частот. 4. Определить выборочные характеристики генерированной выборки. Сравнить выборочное среднее и стандартное отклонение с соответствующими теоретическими значениями, установленными при генерации выборки. Лабораторная работа 5 Вероятностный калькулятор Исследование геометрического смысла и построение таблиц модельных распределений Вероятностный калькулятор (Probability Calculator) запускается из стартовой панели модуля Basic Statistics and Tables(Основные статистики и таблицы). Пример 1. Выяснить геометрический смысл параметров нормального распределения N(a; σ). Положите a=0, σ=1. В окне Probability Distribution Calculator в поле Distribution: выделите мышью строку Z(Normal), заполните поля: mean:0, sd.dev.:1, p:0,5. Поднимите флажок Fixed Scaling, далее нажмите кнопку Compute. В поле X открытого окна появится значение .0000. Это 0.5 –квантиль нормального распределения, т.е. корень уравнения F(Z)=0.5. В поле Density Function изображается кривая распределения с заштрихованной областью. Площадь отмеченной области равна указанному значению p=0,5. Нажмите далее Create Graph – Compute. На экране появится график плотности с отмеченным красным пунктиром квантилем. Из графика видно, что 0.5 – квантиль является модой и медианой нормального распределения. Повторяя
20
приведенную последовательность команд для разных значений mean ( a=1; 2; -2;…), убедитесь, что значение a является точкой максимума функции плотности нормального распределения. (График плотности нормального распределения сдвигается по оси ординат при изменении среднего. При возрастании среднего графики сдвигаются вправо.) Пик плотности нормального распределения находится в точке с ординатой, равной среднему значению. Это значение задается в поле mean (среднее). Меняя значение поля, sd.dev.(σ) при постоянном a и p, убедитесь, что при увеличении σ плотность нормального распределения рассеивается относительно a, а fmax уменьшается. При уменьшении σ плотность сжимается, концентрируясь возле точки максимума, fmax растет. Пример 2. Вычислить вероятность P(176<ς<186) случайной величины ς распределенной нормально с параметрами: a=176,6; σ=7,63. В окне Probability Distribution Calculator заполните поля: Distribution: Z(Normal), : mean:176,6; sd.dev.:7,63; X: 186 , далее нажмите кнопку Compute. В поле p появится значение: 0.891022 - запомните его. Измените значение X на 176, нажмите кнопку Compute. Запомните новое значение поля p:0.468661. Вычислите P(176<ς<186)= 0.8910220.468661=0.422361≈0.4. Правила 2- и 3-сигма. Пусть имеется нормально распределённая случайная величина ξ с математическим ожиданием, равным а и дисперсией σ2. Определим вероятность попадания ξ в интервал (а – 3σ; а + 3σ), то есть вероятность того, что ξ принимает значения, отличающиеся от математического ожидания не более, чем на три среднеквадратических отклонения. P(а – 3σ< ξ < а + 3σ)=Ф(3) – Ф(–3)=2Ф(3) По таблице находим Ф(3)=0,49865, откуда следует, что 2Ф(3) практически равняется единице. Таким образом, можно сделать важный вывод: нормальная случайная величина принимает значения, отклоняющиеся от ее математического ожидания не более чем на 3σ.
21
(Выбор числа 3 здесь условен и никак не обосновывается: можно было выбрать 2,8, 2,9 или 3,2 и получить тот же вероятностный результат. Учитывая, что Ф(2)=0,477, можно было бы говорить и о правиле двух “сигм”.) Если от точки среднего или от точки максимума плотности нормального распределения отложить влево и вправо соответственно два и три стандартных отклонения (2 и 3 сигма), то площадь под графиком нормальной плотности, подсчитанная по этому промежутку, равна 95,45% и 99,73% всей площади под графиком. (Т.е. 95,45% и 99,73% всех независимых наблюдений лежит в радиусе двух и трех стандартных отклонений от среднего значения.) Пример 3. Проверка правила 2-х и 3-х сигм. Проверить, что если X~ N(a; σ), то P(|X-a|<2σ) =0.9545, P(|X-a|<3σ) =0.9973 независимо от значений a и σ. В окне Probability Distribution Calculator в поле: Distribution: выделите Z(Normal). Пометьте опцию Two-tailed(Двусторонний), т.к. неравенство с модулем является двухсторонним. Задайте mean:0, sd.dev.:1. Поскольку 2σ=2, в поле X поставьте 2, нажмите кнопку Compute. В строке p появится число 0.954500. в поле Density Function(Функция плотности) заштрихованная площадь под графиком плотности составит 95,45% всей площади под графиком. Сделайте то же самое для 3σ. Убедитесь, что заштрихованная площадь достигнет 99,73%. Задавая различные значения a; σ, убедитесь, что правила двух и трех сигм имеют место при любых значениях нормального распределения. Пример 4. Вычислить 0.95 и 0.99 –квантили хи-квадрат распределения с 7 степенями свободы. Выяснить влияние числа степеней свободы на форму и расположение кривой распределения. В окне Probability Distribution Calculator в поле: Distribution: выделите строку Chi I. Заполните поля: df:7, p:0,95 - Compute. В поле Chi I появится число:14.068419. Это 95% - ная точка (.95 -квантиль), т.е. корень уравнения F(I)=0.95. Значит, P(χ2 ≤14,068419) =0.95. Чтобы вычислить вероятность противоположного неравенства, поднимите флажок (1 – Cumulative p). Поменяйте значение поля p: на 0.99 – Compute. В поле Chi I появится число 18,477779. Это 99% - ная точка (.99 - квантиль). Выберите опцию Create Graph – Compute, вы построили график плотности и функции распределения хи-квадрат с 7 степенями свободы. Задавая различные значения параметра k в поле df (2;5;12;…), убедитесь, что при увеличении k пик плотности распределения снижается и смещается вправо. График плотности становится более симметричным, приближаясь по форме к кривой Гаусса.
22
Пример 5. Выяснить влияние числа степеней свободы на форму и расположение кривой распределения Стьюдента. В поле Distribution: выделите строку t(Student). Заполните поля: df: 5, p:,5. поле t – система заполнит числом 0. Пометьте опцию Create Graph, далее нажмите Compute. Рассмотрите график и повторите алгоритм для df=10, 35, 50, 100. Убедитесь в том, что график плотности t –распределения симметричен относительно оси Oy и напоминает кривую Гаусса. С возрастанием числа степеней свободы k максимальное значение плотности увеличивается, хвосты более круто убывают к 0. Вводя в поле p значения 0,5; 0,7; 0,95; 0,99, составьте таблицу значений функции t –распределения с 10 степенями свободы (таблицу квантилей). t 0 0.54 1.812460 2.763770 F(t) 0.5 0.7 0.95 0.99 Наоборот, введите в поле t значение 1. Система вычислит p: .829553. Следовательно, P(t <1) =0.829553. Поднимите флажок (1 – Cumulative p). Содержимое поля p изменится на .170447. Калькулятор вычислил вероятность противоположного события: P(t ≥1) =0.170447. Пример 6. (Распределение Фишера). Убедитесь с помощью вероятностного калькулятора, что F- распределение сосредоточено на положительной полуоси. Определить 0.5 – и 0.75 –квантили F10,10 – распределения. Вычислить вероятности P(F10,10 ≤1) и P(F10,10 ≤2). В поле Distribution: выделите строку F. Заполните поля: p:,5; df1: 10; df2: 10, , далее нажмите Compute. Калькулятор вычислит значение поля F: 1. Поменяйте значение поля p:,75. Значение поля F: изменится на 1,551256. Измените значение поля p: на 2, потом на 1. Калькулятор вычислит вероятности: P(F10,10 ≤2)=0,144846 и P(F10,10 ≤1)=0,5 Придавая различные значения df1 и df2, наблюдайте графики. Обратите внимание на то что, в отличие от нормальной, кривая Fраспределения несимметрична при небольших значениях степеней свободы (n и k<30). С возрастанием n и k кривая F- распределения медленно приближается к нормальной кривой. Упражнения. Построить график плотности распределения Стьюдента с 5 степенями свободы. По уровню p:0.95 найдите значение t. Постройте график плотности распределения Стьюдента с 25 степенями свободы. Сравните графически плотность распределения Стьюдента с плотностью стандартного нормального распределения. Задание к работе №5. С помощью вероятностного калькулятора решите следующие задачи. 1. Задача о гулливерах и лилипутах Представьте, что вы попали в страну, где рост взрослых мужчин приближенно имеет нормальное распределение со средним 176,6 см и стандартным отклонением 7,63 см. Какова вероятность, что случайно
23
выбранный мужчина имеет рост больше 195 см , т.е. является Гулливером? Какова вероятность, что случайно выбранный мужчина имеет рост меньше 155 см , т.е. является лилипутом? 2. Для нормального распределения с выбранными параметрами вычислить вероятность попадания в интервал, содержащий mean и не содержащий mean. 3. Составить таблицы нормального, хи-квадрат, Стьюдента и Фишера распределений (по 10 значений). Вычислить 0,95 и 0,99 – квантили модельных распределений для различных значений параметра. 4. Проанализируйте влияние параметров распределения на форму кривых плотностей для следующих непрерывных распределений: экспоненциального, нормального Фишера, Стьюдента, Хи-квадрат. Биномиальное распределение и игровые задачи Параметрами биномиального распределения являются вероятность успеха p (q=1-p) и число испытаний n. Вероятность m-успехов в nиспытаниях вычисляется по формуле: p(m;n)=B(m;n)*pm(1-p)n-m, m=0,1,…,n, B(m;n)=n!/((n-m)!*m!) Создайте пустую электронную таблицу 1v*10c, назовите файл testsm.sta. Переменной VAR1 присвойте имя ВЕРОЯТ, в нижнем поле Long Name введите выражение, определяющее переменную: =Binom(v0;0.3;10) OK. Программа вычислит вероятность успеха и занесет их в таблицу в значения первой переменной. В данной таблице вероятность успеха – выпадения герба равна 0,3. Из таблицы видно, что вероятность выпадения одного герба в 10 бросаниях – 0.12106, вероятность выпадения двух гербов в 10 бросаниях – 0.2334 и т.д. Вероятность успеха легко изменить, сделав ее равной, например, 0.5. Это означает, что бросается симметричная монета и вероятность успеха равна вероятности неудачи. В поле Long Name достаточно изменить формулу, записав вместо 0.3 значение 0.5. Если вы забыли функцию, вычисляющую биномиальные вероятности в системе, то воспользуйтесь средством FunctionWizard. Нажав кнопку Functions в окне спецификации переменной, вы откроете диалоговое окно FunctionWizard, в котором в окне Category выберите Distributions, в окне Name выберите Binom. Нажмите Insert. Функция биномиального распределения появится в окне спецификации переменной в поле Long Name. Осталось только задать необходимые параметры и запустить вычисление. В дальнейшем нам понадобится вычислять не только биномиальные вероятности, но и биномиальные коэффициенты B(m;n). Это легко сделать, умножив биномиальные вероятности с вероятностью успеха р=1/2 на 2 в степени n.
24
Выполним теперь расчеты для биномиального распределения с параметрами n=10 и р=0.7 в точке x=9. Введем в таблицу заданные значения: N=10, P=0.7, X=9. Далее в окне спецификации четвертого столбца, названного P_X , в поле Long Name введем формулу для биномиального распределения =Binom(9;0,7;10) - OK. Аналогичным образом в окне спецификации для пятого столбца F_X, введем формулу для функции распределения биномиального распределения вида: =IBinom(9;0,7;10) - OK.
В результате получим следующие ответы: P{X=9}=0.121; F(9)=0.972. Рассчитаем далее распределение вероятностей и функцию распределения для множества точек x=0,1,2,…,10 путем формирования 11 строк таблицы. Таблица с исходными данными и вычисленными результатами имеет вид: Иcпользуя полученную таблицу, построим полигон вероятностей и функцию распределения для заданного биномиального распределения. Выделим столбцы P_X и F_X. Далее Graphs-Custom Graphs2DGraphs; в открывшемся окне выбрать тип графика для столбца P_XLine Plot (линейный график); для столбца F_X- Step Plot (ступенчатый график) и задать имя переменной по оси абсцисс –X.
25
Задача шевалье де Мере Однажды азартный игрок спросил, стоит ли ему ставить на выпадение двух шестерок одновременно при бросании двух костей 24 раза или нет? Создайте рабочий файл play.sta. Дважды щелкните на имени переменной и откройте окно спецификации переменной var1. В поле Long Name запишите формулу =Binom(v0;1/36;24), далее - ОК. Программа вычислит биномиальные вероятности. В первом столбце этой таблицы даны последовательно вероятности выпадения двух шестерок один раз, два раза, три раза и т.д. Нам нужно вычислить вероятность выпадения, по крайней мере, одной пары шестерок. Следовательно, все эти вероятности нужно сложить. Таким образом, вероятность выпадения, по крайней мере, одной пары шестерок при 24 бросаниях пары костей равна 0.49140. В длинной серии игр, состоящих из 24 бросаний пары костей, игрок, ставящий на выпадение двух шестерок одновременно, в среднем устойчиво проигрывает. Вопрос: как изменить условия игры, чтобы находиться в выигрыше? Изменённая задача шевалье де Мере Предположим, что шевалье де Мере стал ставить на выпадение пары шестерок в 25 бросаниях. Повторите все действия предыдущей задачи с переменной var2. В поле Long Name запишите формулу =Binom(v0;1/36;25), далее - ОК. Складывая значения во втором столбце, легко найти, что вероятность выпадения, по крайней мере, пары шестерок в 25 подбрасываниях пары костей больше 0.5. Еще одна задача игрока Некогда один англичанин по имени С. Пепайес послал Ньютону письмо, в котором спрашивал, на что лучше ставить: - на выпадение одной шестерки при бросании кости 6 раз?
26
- на выпадение двух шестерок при бросании кости 12 раз? - на выпадение трех шестерок при бросании кости 18 раз? - на выпадение четырех шестерок при бросании кости 24 раза? Используем по-прежнему файл play.sta. Увеличим его размеры, добавив 14 случаев. (Cases – Add – 14. After case: 10) - ОК. Начнем с первого пари. Запишем биномиальные вероятности для первого пари в случае переменной var1. В поле Long Name запишите формулу =Binom(v0;1/6;6), далее - ОК. Далее то же самое для переменных var2, var3, var4, подставляя соответствующие вероятности для второго, третьего и четвертого пари. В строке с номером i в данном файле дана вероятность выпадения i шестерок в первом, втором, третьем и четвертом пари. Суммируя значения вероятностей в столбцах, получим: - 0.665 для первого случая; - 0.619 для второго случая; - 0.597 для третьего случая; - 0.584 для четвертого случая. Дополнительное задание к работе №5 1. C помощью пакета STATISTICA проанализируйте влияние параметров распределения на форму полигона вероятностей для следующих дискретных распределений: биномиального. Пуассона. 2. Решите задачу (Генуэзская лотерея). В генуэзской лотерее среди 90 номеров имеется ровно 5 выигрышных. Перед розыгрышем лотереи вы можете поставить любую сумму на: 1) любой из 90 номеров; 2) любые два номера; 3) любые три номера; 4) любые четыре номера; 5) любые пять номеров. Вы выигрываете только в том случае, если поставили на 1, 7, 9, и все эти номера оказались среди выигрышных. Как обеспечить выигрыш? Замечание. Вероятности вычисляются по следующей формуле: P(k)=B(k;5)/B(k;90),где B(k;5)=5!/(k!(5-k)!); B(k;90)=90!/(k!(90-k!)), k=1,2,3,4,5. Лабораторная работа 6 Проверка статистических гипотез Критерий согласия хи-квадрат Пирсона Пусть Fθ = {F ( x;θ ),θ ∈ Θ} - заданное параметрическое семейство функций распределения (параметр θ или скалярный или векторный) и X = (X 1 , X 2 ,..., X n ) - выборка из распределения L(ξ ) с неизвестной функцией распределения. Требуется проверить гипотезу H 0 : L(ξ ) ∈ Fθ .
27
Статистика имеет вид 2
(ν j − np j (θ€)) , X 2 n (θ€) = ∑ np (θ€) n =1 N
(1)
j
где
νj-
число
наблюдений
p j (θ ) =P( ξ ∈ ( z j−1 , z j ) | H 0 ) -
в
j-м
вероятности
интервале
( z j −1 , z j )
(ν j ≥ 5 );
исходов
представляют собой θ€ = θ€ -оценка параметра θ ;
некоторые функции от неизвестного n максимального правдоподобия для θ . Если наблюдавшееся значение gэкс ≥ χ 2 1−α , N −1 ,то гипотезу H 0 отвергают, в противном случае H 0 не противоречит результатам испытаний. Процедуру решения можно записать иначе: если P{ χ 2 1−α , N −1 ≥ X 2 n (θ€) } ≤ α , (2) то гипотеза H 0 отклоняется.
Проверка гипотез о законе распределения Пример 1. Проверка гипотезы о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n=200; измерения приведены в таблице Приложение 2. В модуле Nonparametric Statistics откройте файл Diamz.sta: 2v*100c(или создайте новый с одноименным названием, если файл Diamz.sta отсутствует). В стартовой панели модуля выберите Distribution Fitting(подбор распределений). В поле Continuous Distributions: Normal – Variable: d2 – в поле Plot Distribution: Frequency Distribution(частоты распределения) –OK – запишите оценки параметров: Mean: 14,42, Variance: 102,31. Число групп Number of Categories: 13 – OK. В таблице частот нужны столбцы: observed frequency(наблюдаемые частоты) и expected frequency(ожидаемые частоты), а также столбец разности – observed expected. Закройте таблицу. Сравните графически наблюдаемые и ожидаемые частоты: выделите соответствующие столбцы – Graphs – Custom Graphs – 2D Graphs…- OK. В таблице приведено значение статистики χ 2 (Chi-Square): 159.21, количество степеней свободы df=1. Приведено значение вероятности p=P{ χ 2 ≥ 12}=0.000007. Последнее равенство означает, что если гипотеза верна, вероятность получить значение X 2 ≥ 12.000 равна 0.000007. Это слишком малая вероятность, поэтому отклоняем гипотезу о нормальности. Посмотрим гистограмму наблюдений (или гистограмму рассеяния): Graphs – Stats2D Graphs – Histograms - … -OK. Видим, что в выборке d2 имеется одно аномальное значение: 114.56 (№88). Удалим его и снова
28
проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 100 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено. Повторим проверку гипотезы для «цензурированной» выборки и убедимся в том, что наблюдения не противоречат гипотезе о нормальности.
Проверка гипотезы об однородности выборок Критерий используют для проверки однородности данных, имеющих дискретную структуру, т.е., когда в опытах наблюдается некоторый переменный признак, принимающий конечное число, например, m различных значений. Имеется k – серий опытов, состоящих из n1 + n2 + ... + nk - наблюдений над случайной величиной ξ . В каждом опыте некоторый признак принимает одно из m различных значений. ν ij - число реализаций i – исхода в j – серии: m
∑ν i =1
ij
= nj ,
j=1,…,k
Требуется проверить гипотезу о том, что все наблюдения проводились над одной и той же случайной величиной. В этом случае статистика принимает вид ⎛ m k (ν ij − n jν i / n ) 2 ⎞ ⎛ m k ν 2 ij ⎞ 2 ⎟ = n⎜ ∑∑ ⎟ − 1 (3) X n ( p€) = n⎜⎜ ∑∑ ⎟ ⎜ i =1 j =1 n ν ⎟ n ν i =1 j =1 j i j i ⎝ ⎠ ⎝ ⎠
n = n1 + n 2 + ... + n k =
∑ν
i , j =1
ij
- общее число наблюдений
Если наблюдавшееся значение
gэкс ≥ χ 2 1−α ,( m−1)( k −1) ,то гипотезу H 0
отвергают, в противном случае H 0 не противоречит результатам испытаний. Пример 2. Имеются данные о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами (см. таблицу 1). Проверить гипотезу о том, что распределения содержания серы (нежелательный фактор) одинаковы на этих заводах. Таблица 1. Число плавок Содержание серы, 10-2 % 0-2 2-4 4-6 6-8 Сумма Завод 1 82 535 1173 1714 3504 Завод 2 63 429 995 1307 2794 Сумма 145 964 2168 3021 В модуле Log – Linear Analysis создайте файл 2*4; столбцы назовите, например, S1,…S4 (сера), а строки – Z1,Z2 (заводы).
29
Analysis – Startup Panel – в поле Input File: Frequencies w/out coding variables(частоты без кодирующих переменных)- Variables: Select All – OK – Specify Tables(спецификация таблицы): Factor Name: S, No. of levels: 4(число уровней: 4); Factor Name: Z, No. of levels: 2 – OK – OK - в окне Log -Linear Model Specification выполним Test all Marginal & Partial Association . В таблице Results of Fitting… в последней строке столбца Pearson ChiSquare в последней строке столбца получаем X2 =3.59, число степеней свободы Degres of Freedom f=3 и уровень значимости Probability p=0.31. Поскольку эта вероятность не мала, гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (точнее, наблюдения этому не противоречат). Проверка гипотезы о независимости признаков Пусть с.в. ξ1 принимает конечное число m некоторых значений a1 , a 2 , ,..., am , а вторая компонента ξ 2 - k –значений: b1 , b2 ,..., bk . Множество значений ξ1 разбивается на m интервалов: ( , ((1) ,..., ((1) , а для ξ 2 на k – (1 )
интервалов: ( , ((2 ) ,..., ((R2 ) ; само множество ξ =( ξ1 , ξ 2 ) на N=mk прямоугольников ((P1) ⊗ ((Q2 ) ; ν ij - число наблюдений пары (ai,bj) - число ( 2)
элементов, принадлежащих ((P1) ⊗ ((Q2 ) , m
k
i =1
j =1
∑ ∑ν
ij
= n - общее число наблюдений
В этом случае статистика принимает вид
⎞ ⎛ s k ν 2 ij X n = n⎜⎜ ∑∑ (4) − 1⎟⎟ , i =1 j =1 ν i .•ν • j ⎠ ⎝ здесь точка означает суммирование по соответствующему индексу. Правило проверки основной гипотезы аналогично рассмотренному выше случаю проверки гипотезы об однородности выборок. Пример 3. Данные относительно физических недостатков школьников (P1, P2, P3- признак A,) и дефектов речи (S1,S2,S3 – признак В) приведены в таблице приложения. В таблице 2 даны частоты комбинаций PiSj (i,j=1,2,3). Проверить гипотезу о независимости этих двух признаков. Таблица 2. Частоты комбинаций признаков S1 S2 S3 Сумма P1 45 26 12 83 P2 32 50 21 103 P3 4 10 17 31 Сумма 81 86 50 217 В модуле Basic Statistics and Tables образуйте таблицу с двумя столбцами (P и S) и 217 строками, назовите Def.sta. 2
30
Analysis – Tables and Banners - в окне Specify Table, в поле Analysis Crosstabulation tables - кнопка Specify Tables – отбираем признаки: list 1: P, list 2: S – OK – OK - в окне Crosstabulation Tables Results (результаты таблиц сопряженности) отмечаем (потребуем определить) Expected Frequencies (ожидаемые или теоретические частоты) и Pearson Chi-Square – Review SummaryTables. На экране наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики хи-квадрат(Chi -Square), число степеней свободы df и уровень значимости p (вероятность в (4)). Поскольку значение p мало, гипотеза о независимости речевых дефектов и физических недостатках отклоняется. Задание к работе №5 1. Выполнить примеры 1-3. 2. Проверить три гипотезы о нормальном, равномерном и о показательном распределении выборки из приложения 1. 3. Генерировать три выборки объемами n1=180, n2=100, n3=120 для заданного в таблице 3 распределения. Провести их группирование на 8-10 интервалах. Проверить гипотезу об однородности трех выборок. Сделать все для двух вариантов: а) параметры одинаковы; б) параметры различны Замечание к п. 3. Гипотезу об однородности проверить аналогично примеру 2. Группирование провести процедурой Frequency tables и из трех таблиц сформировать одну. Критерий согласия Колмогорова Статистикой критерия является величина r Dn = Dn ( X ) = sup Fn ( x) − F ( x) - максимальное отклонение эмпирической −∞ < x <∞
функции распределения Fn ( x) от теоретической F ( x) , где F ( x) непрерывна. При каждом x величина Fn ( x) является оптимальной оценкой для F ( x) и с ростом n Fn ( x) → F ( x) , поэтому при больших n, в тех случаях, когда гипотеза H 0 истинна, значение Dn не должно существенно отклоняться от нуля. Точное распределение P( n Dn ≤ t ) независимо от вида непрерывной F ( x) уже при n ≥ 20 хорошо приближается предельным функции распределением Колмогорова K (t ) =
∞
∑ (−1)
j = −∞
j
exp{−2 j 2 t 2 } . Это означает, что
31
критическую область при n ≥ 20 можно задать в виде { n Dn ≥ λα } , где λα определяется как K (λα ) ≈ 1 − α . Проверить гипотезу о законе распределения случайной величины, определяющей количество снега (мм.), выпадающего в аэропортах СНГ и Балтии. Введем в таблицу исходных данных выборку из наблюдений количества снега (в мм.). Проверим сначала гипотезу о нормальном законе распределения случайной величины. Для этого используется критерий Колмогорова-Смирнова. Города
Снег_мм
Города
Снег_мм
Архангельск Мурманск
210,000 168,000
Ереван Омск
64,000 105,000
Петрозаводск Таллин Рига Вильнюс Минск Москва Екатеринбург Киев Кишенев Самара
175,000 92 112 100,000 68,000 174,000 141,000 89,000 53,000 104,000
Алма-Ата Ташкент Новосибирск Курск Н.Новгород Красноярск Иркутск Чита Якутск Хабаровск
63,000 39,000 144,000 96,000 135,000 92,000 140,000 136,000 74,000 68,000
Волгоград Тбилиси
143,000 27,000
Владивосток Магадан
72,000 135,000
Баку
20,000
Душанбе
16,000
Проверка гипотезы о нормальном законе распределения включает следующие действия: 1) вызовем меню Analysis-Frequency Tables; 2) в открывшемся окне Frequency Tables нажмем на кнопку Variables, в результате откроется окно Select the Variables for Analysis; 3) в списке переменных окна Variables выделим переменную SNOW_MM и нажмем кнопку OK; 4) в секции Test of Normality установим флажок K-S test,mean/std. dv known, который задает режим проверки нормального закона по критерию Колмогорова-Смирнова; 5) нажмем кнопку Tests of Normality, получим таблицу с результатами проверки гипотезы. Так как значение критического уровня значимости большое (p>0.2), то можно утверждать, что распределение является нормальным. Для построения гистограммы в окне Frequency tables отметим переключатель No of exact intervals и в соответствующее поле введем количество интервалов – в нашем случае оно равно 6. Далее Histogram и получим гистограмму частот и график теоретической плотности нормального распределения. Для построения графика на нормальной бумаге в окне Frequency Tables нажмем кнопку Normal Probability plots.
32
Наилучшим ли образом нормальный закон соответствует распределению случайной величины исследуемой совокупности? Внешний вид гистограммы частот позволяет выдвинуть и другие гипотезы о законе распределения. Для проверки других гипотез воспользуемся процедурами пакета в модуле Nonparametrics/Distribution. Проверку будем выполнять по χ 2 -критерию Пирсона. STATISTICA Module Switcher выберем В окне Nonparametrics/Distrib – Switch to. Выберем режим Distribution Fitting. Откроется список непрерывных законов распределения. Сначала проверим гипотезу о нормальном законе распределения. Для этого выделим Normal OK. В окне Fitting Continuous Distributions – Variables и далее в окне Select Variables for Analysis выбрать переменную SNOW_MM – OK. Получим среднее значение μ = 101.8333 и дисперсия σ 2 = 2409.4536 . Далее Graph- получим гистограмму частот, показывающую результат подгонки эмпирического распределения к теоретическому
Результат проверки гипотезы о нормальном законе. χ 2 =1.217916, ему соответствует критический уровень значимости 0.2697783. Так как он имеет достаточно большое значение (>0.2), то можно утверждать, что распределение является нормальным. Результаты проверки гипотез о логнормальном законе и гаммараспределении представлены графиками с соответствующими значениями χ 2 =2.4598, при значении критического уровня значимости 0.1168
33
и χ 2 =0.932749 с самым большим значением критического уровня значимости 0.334156. Таким образом, в окончательном варианте следует принять гипотезу о гамма-распределении Лабораторная работа 7 Простая линейная регрессия в системе STATISTICA Пример 1. Построить линейную регрессионную модель по зависимости цены жилого дома от его полезной площади. Данные относятся к категории так называемых «хороших» домов. Принадлежность дома к определенной категории устанавливалась экспертным путем агентом по продаже недвижимости. ( Б. Болч, К.Дж. Хуань. Многомерные статистические методы для экономики. – М.: Статистика, 1979, с.135. ). Стоимость дома измеряется в долларах, площадь – в квадратных футах (1 фут=30,48 см.). Выполнение в системе STATISTICA Работаем в модуле Multiple Regression (Множественная регрессия). Создадим файл данных home.sta (2v*8c), переменные назовем STOIMOST (цена в $) и SQUARE(площадь). Информацию о данных поместим в окне Data File Header(Заголовок файла данных), см. рис. 1.
Рис. 1. Исходный файл с данными, заголовок и доп. информацией. Построим диаграмму рассеяния, чтобы увидеть характер регрессионной зависимости. Из меню модуля делаем выбор: Graphs. В спустившемся меню выбираем Stats 2D Graphs. Далее переместим курсор и выберем Scatterplots…. В открывшемся окне нажмем кнопку Variables и назначим: X: SQUARE, Y: STOIMOST - OK. Возвращаемся в диалоговое окно, устанавливаем тип графика: Graphs Type: Regular, FIT (ПОДБОР): Linear – OK. Наблюдаем график зависимости на рис. 2.
34
Рис. 2. Диаграмма рассеяния переменных SQUARE, STOIMOST. Параметры подобранной прямой регрессии отражены в заголовке: Scatterplot (HOME.STA 2v*8c) y=981,157+10,914*x+eps. Т.е. предположение о линейности подтверждается графически. Выполним регрессионный анализ: Для начала вызовем стартовую панель модуля Multiple Regression. В меню на панели инструментов модуля выбираем: Analysis(Анализ), затем: Startup Panel(Стартовая панель). Нажмем кнопку Variables, выбираем переменные для анализа: Select depended and independed variable list. Выбираем зависимую переменную Depended var: STOIMOST и независимую Independed var : SQUARE, выделяя их курсором в соответствующих списках- ОК – возвращаемся в стартовую панель (рис. 3).
Рис. 3. Стартовая панель модуля Multiple Regression Содержимым окна Input file: является строка Raw Data (Необработанные данные), Mode: Standart(стандартный метод оценивания) - ОК. Система оценивает параметры модели и выдает результат оценивания в окне
35
Окно Multiple Regression Results состоит из двух частей: в первой части окна содержатся результаты оценивания, во второй – высвечиваются значимые регрессионные коэффициенты. Внизу окна помещены кнопки для дальнейшего просмотра результатов анализа. Верхняя часть окна содержит следующую информацию. Dep. Var. – имя зависимой переменной. В нашем случае STOIMOST. No. of Cases – число случаев, по которым построена регрессия. В нашем случае число равно 8. Multiple R= ,87464206 – коэффициент множественной корреляции. R2(R1)= ,76499874 – коэффициент детерминации (квадрат коэффициента множественной корреляции). Он показывает долю общего разброса, которая объясняется построенной моделью. Adjusted R2= ,72583186 – скорректированный коэффициент детерминации. Adjusted R2(R1)=1-(1-R1)*(n/(n-p)). Здесь n – число наблюдений в модели, p – число параметров модели. Standard error of estimate: 1945,8944227 – стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой. Intercept – оценка свободного члена прогрессии. Значение коэффициента в уравнении регрессии. Std.Error – стандартная ошибка оценки свободного члена F=19,53178 – значение критерия F. df – число степеней свободы F-критерия. p – уровень значимости F-критерия. t(6) and p-value – значение t-критерия и уровня p. Нашей задачей было построить модель вида STOIMOST= А+b*SQUARE и исследовать значимость регрессии, а также адекватность построенной модели исходным данным.
36
В информационной части смотрим на значение коэффициента детерминации R2= ,76499874. Это значит, что построенная регрессия объясняет 76,5% разброса значений переменной относительно среднего. Во второй части информационного окна система сама говорит о значимых регрессионных коэффициентах, высвечивая строку: SQUARE beta=0.875 и поясняя ниже (significant beta is highlighted)(значимые beta высвечены). В данном случае beta есть стандартизованный коэффициент b, т.е. коэффициент при независимой переменной SQUARE . Перейдем к итоговым результатам регрессии - Regression Summary. На экране появится электронная таблица вывода результатов (рис.4).
Рис. 4. Краткие результаты регрессии. В ее заголовке повторены основные результаты предыдущего окна. Кроме того, в столбцах итоговой таблицы регрессии приведены оценки параметров модели Y=A+bX и их статистические характеристики. Из таблицы видим, что модель имеет вид: STOIMOST= 981.157+10.9136*SQUARE В столбце В приведены значения оценок неизвестных коэффициентов регрессии: Intercept (свободный член) =981.157, коэффициент при независимой переменной SQUARE=10.9136. Визуализируем модель. На графике она имеет вид (рис.5): Рис.5. Зависимость цены дома от полезной площади Проведем анализ остатков и оценим адекватность модели. Анализ адекватности основывается на анализе остатков. Остатками называют разности между наблюдаемыми (исходными) значениями зависимой переменной и предсказанными (вычисленными) по модели. В окне Multiple Regression Results нажмите кнопку Residual Analysis (анализ остатков). Нажмите кнопки Pred&observd(F) (здесь
37
наблюдаемые значения Obs&residuals(G)
связаны
с
предсказанными),
а
также
(рис.6,7) Рис.6. График наблюдаемых и предсказанных значений
Рис.7. График наблюдаемых переменных остатков. Из графиков видно, что модель адекватно описывает данные. Определим теперь стоимость дома площадью 1000 квадратных футов. Для этого нажмите кнопку Predict depended var. На экране появится окно: Specify values for independed variables. Задайте в этом окне какое-либо значение независимой переменной, например, SQUARE=1000 и нажмите ОК. На экране появится следующая таблица (рис.8)
Рис. 8. Предсказанная с помощью модели цена дома площадью 1000 квадратных футов Таким образом, ориентировочная цена данного дома 11 894 доллара 75 центов. Эта цена является основанием для предстоящего торга с владельцем или агентом по продаже домов.
38
Пример
2.
ОПРЕДЕЛЕНИЕ ПОСТОЯННОЙ ХАББЛА. Американский астроном Хаббла в 1929 году обнаружил, что галактики удаляются от Земли со скоростью, пропорциональной расстоянию. Коэффициент этой пропорциональности получил название «постоянная Хаббла». По известным данным для 11 галактик (табл. 1) найдем оценку коэффициента. Выполнение в системе STATISTICA Создадим в модуле Multiple Regression (Множественная регрессия) файл HUBLLE.sta, куда поместим данные табл.1. Построим диаграмму рассеяния: Graphs.- Stats 2D Graphs Тип Scatterplots… (Variables: X: SPEED, Y: DISTANCE), - OK. графика: Graphs Type: Regular, FIT (ПОДБОР): Linear – OK. Рассмотрим график зависимости, параметры подобранной прямой регрессии отражены в заголовке. Из графика видно, что предположение о линейности подтверждается графически. Выполним регрессионный анализ: Для начала вызовем стартовую панель модуля Multiple Regression - Analysis(Анализ), затем: Startup Panel(Стартовая панель). Нажмем кнопку Variables, выбираем переменные для анализа: Select depended and independed variable list. Выбираем зависимую переменную Depended var: DISTANCE и независимую Independed var : SPEED -ОК – возвращаемся в стартовую панель. Задание: проанализировать окно Multiple Regression Results Нашей задачей было построить модель вида DISTANCE = А+b* SPEED и исследовать значимость регрессии, а также адекватность построенной модели исходным данным: -значение коэффициента детерминации 2 R = ,99723464, построенная регрессия объясняет 99,7% разброса значений переменной относительно среднего; -значение F- критерия=3245,554, при уровне значимости p= .000000; F- критерий используется для проверки гипотезы о значимости уравнения регрессии. Гипотеза H0 утверждает, что между переменными нет линейной зависимости, т.е. b = 0 , против альтернативы H1, b ≠ 0 . В данном случае имеем большое значение F- критерия и уровень значимости p<10-6, показывающие, что гипотезу H0 следует отклонить -SPEED beta= .999, Перейдем к итоговым результатам регрессии - Regression Summary
39
В столбце В приведены значения оценок неизвестных коэффициентов регрессии: Intercept(свободный член)=-1.05331, B-SPEED(коэффициент при независимой переменной )=2.82313- это и есть постоянная Хаббла. Std.Err. of B – стандартные ошибки оценок коэффициентов (оценки стандартных отклонений) Столбец t- значение статистик Стьюдента для проверки гипотез о нулевом значении коэффициентов. p-level- уровни значимости отклонения этих гипотез. Из таблицы видим, что модель имеет вид: DISTANCE = -1.05+2.82* SPEED
Анализ остатков и оценка адекватность модели. Multiple Regression Results - Residual Analysis (анализ остатков). Нажмите кнопки Pred&observd(F) (здесь наблюдаемые значения связаны с предсказанными), а также Obs&residuals(G)- диаграмма рассеяния остатков вокруг регрессии. Для построения графика остатков на вероятностной бумаге нажмите Normal plot of residuals(M).
Гистограмма остатков: Graphs of residuals(L).
40
Задание к работе №7. Задание. Проанализировать статистические выводы.
распределение
ошибок,
сделать
Приложение 1.
Вариант №1 Измерена максимальная емкость 18 подстроечных конденсаторов и результаты измерения (в пикофарадах) приведены в таблице: №реал Элементы выборки (ошибки измерения в пф.) 1 2 3 4 5
4,40 4,36 4,38 4,56 4,44 4,66 4,36 4,61 4,54 4,50
4,31 4,56 4,38 4,46 4,37 4,43 4,38 4,56 4,39 4,49
4,40 4,31 4,47 4,72 4,44 4,31 4,40 4,41 4,50 4,48
4,40 4,42 4,34 4,47 4,42 4,52 4,41 4,52 4,42 4,52
4,65 4,56 4,55 4,48 4,60 4,50 4,45 4,55 4,40 4,61
4,66 4,45 4,43 4,55 4,61 4,48 4,61 4,40 4,55 4,48
4,56 4,54 4,58 4,34 4,49 4,55 4,37 4,54 4,39 4,52
4,71 4,69 4,41 4,51 4,70 4,39 4,58 4,59 4,66 4,53
4,54 4,50 4,43 4,52 4,53 4,51 4,44 4,50 4,57 4,58
Вариант №2 Продолжительность работы электронных ламп одного типа (в часах) приведена в таблице: №реал Время работы (в час.) 1 2 3 4
13,4 14,2 16,6 13,9 16,2 17,7 16,0
14,7 16,3 18,0 11,3 8,4 14,7 17,5
15,2 14.6 12,4 10,7 14,7 16,2 12,2
15,1 11,7 17,2 16,9 15,4 17,1 14,8
8,8 15,1 14,5 15,8 10,1 17,7 14,5
14,0 17,6 16,3 16,1 15,8 15,4 10,8
17,9 14,1 13,7 12,3 18,3 10,9 8,9
15,1 18,8 15,5 14,9 17,5 18,2 15,9
16,5 11,6 14,0 14,7 12,7 17,3 15,5
41 5
12,8 14,4 16,0
14,0 12,7 17,3
11,6 20,7 15,2
16,3 13,5 16,7
17,0 14,0 27,4
16,7 15,7 12,1
11,0 21,9 19,2
14,9 14,3 17,2
14,1 8,6 11,5
Вариант №3 Положительные отклонения от номинального размера у партии деталей(в мм.) приведены в таблице №реал Отклонение (в мм.) 1 2 3 4 5
177 208 117 123 211 221 116 112 114 116
121 122 118 121 221 213 117 114 118 117
168 179 112 127 110 119 112 118 120 115
120 119 117 126 120 114 119 211 113 116
123 210 114 115 210 211 110 117 114 127
128 129 116 119 115 119 111 116 115 112
212 119 121 120 119 118 119 111 121 119
210 117 119 116 210 213 115 120 118 119
117 211 117 118 211 119 117 119 112 111
Вариант №4 Ошибки при стрельбе по наземной цели составляют следующие результаты измерений (в рад.) №реал Элементы выборки (ошибки измерения в рад.) 1 2 3 4 5
0,926 -1,851 0,258 0,161 -1,501 0,756 -1,229 -0,256 1,096 -2,574
1,375 0,194 -0,941 0,412 -0,488 -1,618 -0,486 -0,212 0,425 0,181
0,785 1,192 1,192 0,906 -0,162 -0,345 0,856 0,219 0,313 1,393
-0,963 1,394 -0,523 0,007 -0,136 -0,511 0,491 0,779 -0,005 -1,163
1,022 -0,555 00,525 0,769 1,033 -2,051 -1,983 -1,010 -0,899 -0,911
-0,472 0,046 0,595 0,971 0,303 -0,457 -1,378 0,598 0,012 1,231
1,279 0,321 0,8881 0,712 0,448 -0,218 -0,150 -0,918 -0,725 -0,199
3,521 2,945 -0,934 1,090 0,748 1,372 1,356 1,598 0,147 -0,246
0,571 1,974 1,579 -0,631 -0,690 0,225 -0,561 1,065 -0,121 1,239
Вариант №5 В опытах наблюдалась неотрицательная непрерывная случайная величина. Наблюдения оказались равными: №реал Элементы выборки 1 2 3 4 5
65,3 69,1 90,1 78,1 44,0 46,7 48,6 64,6 90,7 77,5
56,1 60,1 60,9 30,4 63,7 65,3 65,4 41,5 55,4 66,4
57,1 36,6 70,1 66,9 64,4 86,2 42,9 68,7 70,1 66,1
73,1 61,1 68,5 77,9 84,1 38,7 54,4 84,1 67,1 34,6
74,4 59,1 93,6 67,2 45,6 62,7 72,5 44,6 93,4 78,1
69,9 57,6 82,1 85,5 47,1 62,9 62,7 67,1 80,2 85,8
57,1 70,6 49,6 72,3 48,6 56,3 63,8 67,3 49,0 48,5
97,1 64,2 71,7 62,6 93,2 67,1 33,4 46,1 39,1 46,3
73,4 63,8 64,9 38,9 83,0 85,4 50,7 58,4 44,7 46,0
42
Вариант №6 По результатам измерений задана выборка №реал Элементы выборки 1 2 3 4 5
3,853 6,692 5,290 5,778 5,744 5,246 4,548 5,664 4,890 4,777
5,591 5,691 4,760 6,730 4,263 5,765 5,365 5,541 5,455 4,866
6,771 4,366 5,270 5,266 5,264 4,286 4,842 6,268 6,770 6,666
4,891 6,617 5,768 5,777 6,284 5,238 6,154 4,884 6,367 5,734
7,344 5,571 4,293 5,267 5,745 6,227 5,172 5,44 5,593 5,378
6,299 4,776 6,782 4,285 5,747 6,262 4,962 6,167 4,880 5,185
7,257 5,226 5,249 5,272 4,248 5,746 6,163 6,563 4,949 6,248
4,797 6,764 6,271 4,762 4,993 5,867 6,433 5,146 6,239 5,246
4,273 5,763 5,864 4,938 5,583 6,385 5,250 5,358 5,444 5,546
Вариант №7 При сверлении отверстий одним и тем же сверлом и последующем измерении диаметров отверстий получены следующие данные: №реал 1 2 3 4 5
Диаметр отверстий (мм.) 45,23 45,11 45,90 45,78 45,44 45,46 45,48 45,64 45,90 45,77
45,66 45,60 45,60 45,30 45,63 45,65 45,65 45,41 45,55 45,66
45,71 45,36 45,70 45,66 45,64 45,86 45,42 45,68 45,70 45,66
45,73 45,61 45,68 45,77 45,84 45,38 45,54 45,84 45,67 45,34
45,74 45,59 45,93 45,67 45,45 45,62 45,72 45,44 45,93 45,78
45,69 45,57 45,82 45,85 45,47 45,62 45,62 45,67 45,80 45,85
45,57 45,70 45,49 45,72 45,48 45,56 45,63 45,67 45,49 45,48
45,97 45,64 45,71 45,62 45,93 45,67 45,33 45,46 45,39 45,46
45,73 45,33 45,64 45,38 45,45 45,85 45,50 45,58 45,44 45,46
Вариант №8 В результате измерения диаметров 18 валиков из партии, изготовленной одним станком – автоматом, получены отклонения измеренных диаметров от номинала (в микрометрах): №реал Отклонения (в микрометрах) 1 2 3 4 5
43,83 46,62 45,20 45,78 45,44 45,24 44,54 45,64 44,89 44,77
45,51 45,61 44,70 46,73 44,23 45,75 45,35 45,51 45,45 44,86
46,71 44,36 45,27 45,26 45,24 44,26 44,84 46,26 46,77 46,66
44,89 46,67 45,78 45,77 46,28 45,23 46,14 44,84 46,37 45,74
47,44 45,51 44,29 45,26 45,74 46,22 45,12 45,44 45,53 45,38
46,29 44,76 46,78 44,28 45,77 46,22 44,92 46,17 44,80 45,18
Вариант №9 Получена следующая выборка объема n=18: №реал Элементы выборки
47,27 45,26 45,29 45,27 44,24 44,76 46,16 46,53 44,94 46,28
44,77 46,76 46,71 44,72 44,99 45,87 46,43 45,16 46,23 45,26
44,23 45,73 45,84 44,93 45,53 46,38 45,25 45,35 45,44 45,56
43 1 2 3 4 5
0,723 1,652 -0,254 0,161 -1,501 0,756 1,243 0,264 1,777 -1,586
-1,453 1,284 0,344 -0,412 0,488 1,713 -0,526 0,521 -0,425 -0,182
0,785 1,112 -1,192 0,982 0,167 -0,345 -0,833 -0,276 0,515 -1,393
0,951 -1,386 0,523 0,117 -0,136 -0,522 0,463 -0,799 0,005 1,163
-1,181 0,562 0,525 -0,769 -1,033 2,051 1,903 1,110 0,899 -0,911
-0,472 0,046 0,595 0,971 -0,303 0,457 -1,222 -0,598 -0,013 1,731
1,279 0,321 0,8881 0,712 0,338 -0,427 -0,103 0,918 -0,725 0,199
3,521 2,945 -0,934 1,090 0,748 1,372 1,373 -1,566 -0,139 -0,556
0,571 1,974 1,579 -0,631 -0,690 0,225 -0,591 1,075 -0,812 -1,211
Вариант №10 Наблюдения над непрерывной случайной величиной оказались равными №реал Отклонения (в микрометрах) 1 2 3 4 5
0,83 0,62 0,20 0,78 0,14 0,25 0,54 0,64 0,89 0,27
0,51 0,61 0,71 0,73 0,23 0,75 0,35 0,51 0,33 0,86
0,71 0,36 0,27 0,16 0,24 0,26 0,84 0,26 0,73 0,66
0,89 0,67 0,78 0,27 0,38 0,23 0,14 0,84 0,37 0,74
0,04 0,51 0,29 0,26 0,74 0,22 0,12 0,44 0,53 0,38
0,29 0,76 0,78 0,28 0,77 0,22 0,92 0,17 0,85 0,18
0,27 0,21 0,29 0,27 0,24 0,76 0,16 0,53 0,94 0,28
0,17 0,76 0,71 0,42 0,99 0,87 0,43 0,16 0,23 0,26
0,23 0,73 0,84 0,93 0,53 0,38 0,25 0,35 0,41 0,53
Приложение 2. Диаметры 200 головок заклепок, мм. 13,390 13,280 13,530 13,570 13,400 13,290 13,430 13,410 13,550 13,430 13,340 13,230 13,430 13,380 13,340 13,280 13,330 13,430 13,520 13,530
13,560 13,500 13,320 13,430 13,500 13,380 13,500 13,420 13,500 13,580 13,310 13,640 13,630 13,570 13,400 13,370 13,560 13,500 114,56 13,430
13,560 13,510 13,480 13,690 13,430 13,380 13,420 13,260 13,390 13,550 13,440 13,340 13,480 13,480 13,590 13,400 13,340 13,320 13,280 13,430
№
13,340 13,540 13,320 13,530 13,470 13,570 13,350 13,460 13,200 13,420 13,480 13,310 13,290 13,520 13,240 13,180 13,400 13,390 13,450 13,420
13,370 13,510 13,510 13,250 13,450 13,330 13,480 13,550 13,460 13,310 13,200 13,320 13,240 13,620 13,520 13,450 13,200 13,420 13,450 13,440
13,330 13,340 13,580 13,360 13,390 13,330 13,510 13,490 13,440 13,260 13,140 13,370 13,580 13,330 13,540 13,460 13,390 13,510 13,230 13,440
13,440 13,380 13,380 13,270 13,380 13,520 13,610 13,380 13,450 13,400 13,380 13,510 13,300 13,480 13,280 13,470 13,530 13,460 13,240 13,480
13,660 13,370 13,450 13,400 13,520 13,390 13,400 13,620 13,470 13,290 13,450 13,320 13,580 13,370 13,400 13,410 13,300 13,350 13,280 13,410
Таблица 3. Варианты данных Тип Вариант 1 Вариант 2
13,260 13,400 13,620 13,460 13,290 13,290 13,310 13,540 13,590 13,420 13,320 13,570 13,320 13,500 13,330 13,480 13,400 13,360 13,540 13,440
13,380 13,370 13,390 13,400 13,430 13,310 13,130 114,56 13,560 13,480 13,380 13,290 13,500 13,600 13,440 13,360 13,400 13,410 13,350 13,450
44 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
распределения
а1=а2=а3
а1
а2
а3
N(a,1) E(a) Lgn(a,2) N(a,2) E(a) Lgn(a,3) N(a,3) E(a) Lgn(a,4) N(a,4) E(a) Lgn(a,5) N(a,5) E(a) Lgn(a,1.5)
10 10 10 20 20 20 30 30 30 40 40 40 50 50 50
9.8 8.0 9.5 19.5 16.0 19.0 29.4 24.0 28.0 39.0 38.8 38.5 47.9 48.4 49.0
10 10 10 20 20 20 30 30 30 40 40 40 50 50 50
11.2 12.0 11.5 21.5 24.0 21.0 30.6 36.0 32.0 41.6 41.6 41.4 54.1 51.8 52.3
Приложение 3 1. В эксперименте было проведено n=2608 опытов, в которых наблюдалось случайное число ξ α -частиц, излучаемых за один и тот же период времени (7,5 сек.). Числа hi опытов, в которых наблюдалось ровно i-частиц (i=0,1,…), сведены в таблицу: 2 3 4 5 6 7 8 9 10 11 12 Всего i 0 1 hi 57 203 383 525 532 408 273 139 45 27 10 4 2 n=2608 Проверить гипотезу H о том, что случайная величина ξ распределена по закону Пуассона. Уровень значимости α =0,05. 2. Через равные промежутки времени в тонком слое раствора золота регистрировалось число ξ частиц золота, попавших в поле зрения микроскопа. По данным наблюдений, приведенных в таблице, проверить гипотезу о пуассоновском распределении случайной величины ξ . Число 0 1 2 3 4 5 6 7 итого частиц 112 168 130 68 32 5 1 1 518 hi 3. Измерения длины X у 1000 деталей дали следующие результаты (округленные до 0,5 мм.): 1 2 3 4 5 6 7 8 9 10 i 98,0 98,5 99 99,5 100 100,5 101 101,5 102 102,5 xi 21 47 87 158 181 201 142 97 41 25 hi hi - число деталей, имеющих размер xi . Проверить с помощью критерия Колмогорова гипотезу о согласии полученной выборки с нормальным законом распределения N(100,25;1). (Уровень значимости α =0,05).
45
4. Проверить гипотезу независимости для следующей таблицы сопряженности двух признаков (уровень значимости α =0,05): B1 B2 B3 ξ2 hi = ∑ hij
ξ1
j
A1 A2 A3 h. j = ∑ hij
3009 3047 2974 9030
2832 3051 3038 8921
3008 2997 3018 9023
8849 9095 9030 26974
i
5. Имеются две группы данных о приеме в вуз, классифицированные по двум признакам: «принято(А) - не принято( A )» и пол: «мужчины (В) – женщины ( B )». Проверить гипотезу о независимости признаков А и В ( α =0,0001). В B ∑ А 97 40 137 263 42 305 A 360 82 n=442 ∑ 6. В эксперименте каждый индивидуум классифицировался по двум признакам: цвету глаз и цвету волос; при этом по первому признаку ξ1 индивидуум относился к одной из четырех категорий a1 , a2 , a3 , а по второму ξ 2 - к одной из четырех категорий b1 , b2 , b3 , b4 . Соответствующие данные для n=6800 индивидуумов приведены в табл.: цвет Сумма b1 b2 b3 b4 волос
цвет глаз
1768 807 189 47 2811 a1 946 1387 746 53 3132 a2 115 438 288 16 857 a3 Сумма 2829 2632 1223 116 6800 Проверить гипотезу о независимости двух признаков ( α =0,001). 7. Утверждается, что результат действия лекарства зависит от способа его применения. Проверить это утверждение при α =0,05 по следующим данным: Способ применен. 1 2 3 Результат
Положительный 15 19 18 Отрицательный 26 25 22 8. В больнице скорой помощи фиксировалось количество вызовов в час специализированных бригад. Наблюдения велись в течение 100 часов, и их результаты приведены в таблице. Количество вызовов 0 1 2 3 4 5 6 7 Частота вызовов 6 27 26 20 10 5 5 1
46
Найти выборочный параметр λ = x и по критерию Пирсона проверить гипотезу о том, что число вызовов распределено по закону Пуассона при α = 0,05 . Ответ: гипотеза принимается. 9. При обследовании диаметров карданных валов автомобиля, выпускаемых заводом, были зафиксированы отклонения от номинала ≈ d (мкм), приведенные в таблице. -8,760 -6,280 7,665 -4,790 2,075
-1,455 8,550 -2,215 1,240 -6,910
-4,665 3,170 7,045 -0,475 0,645
-2,250 0,360 8,650 -7,440 -11,80
2,560 2,450 -1,330 -1,805 -5,435
-1,645 1,590 1,745 -0,295 -5,420
0,425 -5,435 -1,460 -2,695 1,590
0,650 4,495 -4,415 -0,390 1,835
-1,220 5,140 -0,280 1,145 -4,960
-4,410 -6,520 3,785 0,970 2,645
Проверить с помощью критерия χ 2 гипотезу о нормальности случайной величины при 1 − α = 0,9 Ответ: гипотеза принимается. 10. Проверить гипотезу о том, что случайная величина ξ - время ожидания поезда метро имеет нормальное распределение на уровне значимости α = 0,01 , если ее значения заданы в таблице. 0,000 0,000 0,002 0,006 0,023 0,084 0,382 0,810 0,003 0,864 1,033 0,912 0,093 0,323 0,194 0,522 2,336 0,057 0,648 0,250 0,877 0,271 0,037 0,537 0,183 1,306 0,752 0,198 1,623 0,875 0,184 0,276 0,613 0,362 0,654 0,676 1,079 0,500 0,900 0,191 0,350 0,348 0,318 0,182 0,458 0,458 0,567 0,303 0,487 0,522 Ответ: гипотеза не принимается. 11. Часы, выставленные в витринах часовых магазинов, показывают случайное время. Проверить с помощью критерия χ 2 при α 1 = 0,05 и α 2 = 0,01 гипотезу о том, что показания часов имеют равномерное распределение в интервале (0;12) по следующим наблюдениям. Час 0 1 2 3 4 5 6 7 8 9 10 11 Число 41 34 54 39 49 45 41 33 37 41 47 39 выб.знач. Ответ: гипотеза принимается при α 1 и α 2 . 12. Проверить гипотезу о нормальности распределения случайной величины N по выборке 4,744 6,232 14,593 7,126 11,245
9,127 15,103 8,671 10,744 5,854
7,201 11,902 14,227 9,715 10,387
8,650 10,216 15,190 5,536 2,917
11,536 11,470 9,202 8,917 6,739
9,013 10,954 11,047 9,823 6,748 Пирсона при γ = 0,99
10,255 6,739 9,124 8,383 10,954
10,390 12,697 7,351 9,766 11,101
9,268 13,084 9,832 10,678 7,024
7,354 6,088 12,271 10,582 11587
с помощью критерия χ 2 Ответ: гипотеза о нормальности принимается. 13. Показать, что случайная величина, заданная таблицей, 0,000 0,002 0,007 0,025 0,091 0,339 1,527 3,239 0,014 4,134 3,647 0,374 1,293 0,778 2,091 9,344 0,226 2,590
3,457 1,000
47
3,507 1,086 0,148 2,150 0,740 5,223 3,007 0,738 1,069 2,453 1,447 2,614 2,706 4,314 1,000 1,394 1,247 0,730 1,832 3,742 2,267 имеет равномерное распределение на отрезке [-1;1]
0,791 2,001 1,211
6,492 3,600 1,949
3,502 0,764 2,086
ЛИТЕРАТУРА 1. Андронов А.М. Теория вероятностей и математическая статистика / А.М. Андронов, Е.А Копытов, Л.Я. Гринглаз. - СПб. : Питер, 2004. – 461 с. 2. Боровиков В. STATISTICA. Искусство анализа данных на компьютере : для профессионалов / В. Боровиков. – СПб. : Питер, 2003. – 688 с. 3. Математическая статистика / В.Б. Горяинов [и др.]. – М. : Изд-во МГТУ, 2001. – 424 с. 4. Теория вероятностей и математическая статистика в задачах : учебное пособие для вузов / В.А. Ватутин [и др.]. – М. : Дрофа, 2003. – 328 с. 5. Баркова Л.Н Компьютерный практикум в пакете STATISTICA : учебно-методическое пособие / Л.Н. Баркова, С.А. Ткачева. – Воронеж : ЛОП ВГУ, 2005. – 52 с. Электронный каталог Научной библиотеки ВГУ – (htpp://www.lib.vsu.ru)
Учебное издание Математическая статистика. Компьютерный практикум Учебно-методическое пособие для вузов
48
Составители: Баркова Лариса Николавена Ткачева Светлана Анатольевна Редактор Бунина Т.Д.