Zdenka Gogala
OSNOVE STATISTIKE
Mladenu) Maji i Marku
Zdenka Gagala OSNOVE STATISTIKE ISBN
953-6895-08-0
Nakladn...
298 downloads
1605 Views
5MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Zdenka Gogala
OSNOVE STATISTIKE
Mladenu) Maji i Marku
Zdenka Gagala OSNOVE STATISTIKE ISBN
953-6895-08-0
Nakladnik: Sinergija d.o.o. Zagreb Za nakladnika: prof. dr. sc. Darko Tipurić Recenzenti: prof. dr. Ksenija Dumičić prof. dr. Šemso Tanković Lektura i korektura: Alka Zdjelar-Paunović Priprema za tisak: iDEA studio, Samobor Tisak: Grafomark d.o.o., Zagreb
CIP - Katalogizacija II publikaciji Nacionalna i sveučilišna knjižnica Zagreb UD K311 (035) GOGAlA, Zdenka Statistika I Zdenka Gogala. - Zagreb: Sinergija, 2001. Bibliografija. ISBN953-6895-08-0 l. Statistika 4]1217014
Priručnik
PREDGOVOR u ovoj su knjizi izložene osnove statistike koje su potrebne prvenstveno ekonomistima, kako onima u toku veleučilišnog studija, tako onima u praksi. Rad je koncipiran tako da omogući što jednostavniji uvid u materiju, a da usto nije lišen izlaganja teoretske podloge na kojima pojedine statističke metode počivaju, tako da onima, koji osim primjene u svakodnevnoj praksi žele u statističkom istraživanju otići malo dalje, to bude omogućeno.
Imam dugogodišnju praksu kao nastavnik statistike i stoga razvijen osjećaj za one dijelove gradiva koje studenti izrazito teško savladavaj u i koje im pričinja najveće teškoće. Takvi su dijelovi gradiva detaljnije razrađeni. To sc prvenstveno odnosi na materiju u vezi s formiranjem statističkih nizova. Iz istih sam razloga nastojala što je moguće detaljnije obraditi neke temeljne pojmove s kojima se u kasnijoj analizi barata. Također sam za iste pojmove namjerno koristila nekoliko alternativnih izraza, budući sam uočila da usvajanje i posebice baratanje stručnom statističkom terminologijom studentima zadaje mnogo muke. Uz neke stručne nazive na hrvatskom naveden je i odgovarajući naziv na engleskom jeziku, prvenstveno stoga što je jezik računala engleski, pa to može olakšati studentima rad s statističkim softverom (usvajanje raznih statističkih paketa.). Također, neke sam dijelove gradiva namjerno detaljnije i na što jednostavniji način obradila i stoga jer sam imala u vidu veliki broj studenata koji se školuju uz rad, što znači da se školuju u za njih otežanim uvjetima. Stoga je knjiga pisana tako, da ujedno omogući samostalno savladavanje gradiva propisanog programom studija i onima, koji nisu u stanju redovito pohađati nastavu. U knjizi je mnoštvo malih, školskih primjera, koj i nisu brojčano zahtjevni, s ciljem da se maksimalno olakša njihovo razumijevanje . S druge strane neke teme su obrađene u samo u glavnim crtama, sa svrhom da sc pruži osnovna orijentacija u materiji, jer sam imala u vidu studente veleučilišta kojima je knjiga prvenstveno namijenjena, kao i jer sam vodila računa o zahtjevima koji se na ekonomiste u praksi prvenstveno postavljaju. Zahvaljujem svim prijateljima i kolegama koj i su me bodrili u radu i davali mi prijateljske savjete. Zahvaljujem članovima moje obitelji čija mi je lj ubav bila neophodna podrška. Nadalje zahvaljujem recenzentima, sponzorima koji su finanCijski potpomogli izdavanje knjige i izdavaču, čija je ekipa pedantno obavila opsežni i mukotrpni posao pripreme za tisak i samo tiskanje knjige. Ukoliko se se u njoj ipak potkrale greške, one, naravno, treba pripisati meni.
Zdenka Gogala
v
SADRZAJ 1. UVODNI DIO 1.1. Pojam statistika . . . . . . . . .. . . .. 1.2. Podaci . . .. . . . . ..... . ... . . .. 1.3. Statistički skup i osnovni skup ili populacija. .. . . .. . . . .. 1 .4. Prikupljanje podataka i izvori podataka . .. .. . . .. . . . 1 .4.1. iVljerne skale. . . . .. . ... . . . . . . .. 1.4.2. Faze statističkog istraživanja . . . . . . .. .. . 1 .4.3. Matrica podataka . .. .. . . .. .. . ... 1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku . .
............. . . . ..... ............... . . . . . ......................... ..... ...................... . . . . ..................
..
......
...... .
........ ...... ........
..
.
... . .
. ...
. . . ... . . ...... . . ...
............ .. .. ..
. . . ..
.......
.
....... ...
................... . . .
.......... . .
....
. .... .. ...
.. . .. . .. . ..... .. ... . .
..
.
. .. .... ...
...
.. .
. ...
. .....
..
.
...
.. ..
..
.....
..... . ...
..................
...... . .............. ...
.. . .......
. .....
.
....
... .... .
.... ... . . .. . . .. ... .. .
. . . ...
....
...
2.
.
. . ... .... . .... . ...... . . . . .. . .
. .....
.. .... . .. .. ...... . .. . . ... . . ...
.
.
. ..
...
.... .... . ...
. .......
..
. . ..... . . ..
.. ....... . . ..
. . .... ... ... ... . .
OSNOVNI POJMOVI I TEHNIKE DESKRIJYfIVNE STATISTIKE ... .
..
.....
... . .. .
....
.
.
.
. ....... ... .
l
I
1 2 2 2 4 4 5
.7 2. 1 . Uređivanje podataka i formiranje statističkih nizova . . . . .7 2 .2 . Tabelamo i grafičko prikazivanje statističkih podataka, te njihova analiza pomoću relativnih brojeva . . . . ... .. . . 18 2.2.1. Grafičko prikazivanje numeričkih nizova . . . .. . 29 2.2.2 . Relativni brojevi koordinacije i indeksi kvalitativnih nizova . 37 2.3. Srednje vrijednosti . . . ... . . . .. . . 40 2.3. 1 . Aritmetička sredina . ... . . ... ... . . . .. .... 40 2.3.2. Harmonijska sredina . . . . .. . . . . . 53 2.3.3. Geometrijska sredina .. . .. . . .. . . . . . . 56 2 .3.4. Mod . . . . . . .... . . . .. . . 5 6 2.3.5. Medijan .. . . . . .. . . . . 60 2.3.6. Kvantili . . . ... . . . .. . . 66 2.4. :V1jerenje disperzije . . . . .. .. ... . 70 2.4. 1 . Raspon varijaCije . . . . . .. . .. 70 2.4.2. Interkvartil i koeficijent kvartilne deVijacije . ... ... . 71 2 .4.3. Srednje apsolutno odstupanje . .. . . .. .. . .. 74 2.4.4. Varijanea, standardna devijacija i koeficijent varijacije . . . . 75 2 . 5. Ostali pokazatelji numeričkih nizova . .. ... . .. .. 76 2 . 5 . 1 . Monlenti . . . .. . . . ... . . .. . .. 76 2.5.2. Standardizirano obilježje . . . . . . ... . . . . ... . . 8 1 2.5.3. 1\1jere asimetrije . ... . . . . . . . . .. . . .. 82 2 . 5 .4. Mjera zaobljenosti . . . .... . . ... . 87 2.5.5. Mjere koncentracije . . ... . . . . . . .. . .. . . 89 ..
..... . .....
............. .. .. ..
.. ...............
... .
.. ....
... . .......
. .... ..
.
.
...... ... .....
. .. .. ... .. ..
..
....
.... . ..... ..
. ......
.
.
...
.... .... . .. ..... .
.. ........ .
.... .. . ....
........ .. . .
.... .......... ..... .
.. . ... .
...
..
.. . . .... .... . ... ... .. . ... . . . ... . . .. . . . .. . ... ....
... . ... . .. .... .... . .......
. . . . .. . . ..... ...... . ...
.. . ... ..... ... . . . .
....
.
....
..... . . . . . .. ..
... . . . ....... ......... ..
. ....
... ..
. ......
.
.
... .. .
... .... .. ..
.
.. . ....... . ... ..
. ...
.. . .. .. ..
... ...... ..... . .
.
.. . .... ..... . ..... ......
. . ........ . . . ......
. ...........
.. . ..
.
. . . ..
.
.. ......
. . . . .... .. ..
. .. ........ ... ..
. ... ... . . .... .
... ... ..........
..... ..
..
.......
..... . . ........ . .
...
. .. .
...... .... . .....
.... ...... . ..... .......
...
... .
.. ..
...
. ... ... .... . ..
.... ... .... ..... . . ....
...
.. ..
. .. .
.
..
...
.
..
... ... .
... . ......
. ..
. ...
.. . .
.
....
. ..... . ... . . . . ... .
..... .
.... .
.......... .......... ....
. . . . . . ...... . ...............
... ... .... . .. ... ..
.... . ..... . ...
. ... .
. . ....... ..
.... .. . .
. .. ......
..
..
...
...... ....
. ..
.. . . . ..
... . .. ... . ... ..... . ...
....... . . ....
.. ... .. ......
.. ...... . .
.....
.. .
...... . ...... ....
...
.
. .. .
.
.. .. . .
..
. ... . .
..
.
. ..
.. ..
..
..
.
.. . . .. . .. .
. .. ...
.
. .. ........
. . . . ....
.... ... .. ...
.
.
..... . .... . .... .. ... .. . ..
.. .. ..... . . .
...
.... ....... . . . . . . . ....
....... .
.. . .. ... . . . ....
.
.. . ... .
..
. .. . ...... ...
. ... . ..
.
. ... ...
...
.
.
.. ..
..
.. . .. ..
... .. ....
. . . . ..
.
.
. ... .
....... . ... ...... . . .. .. ..... . ... . .
.. . .... ... . .
..
... ........ . .
. .... .
VIII
Sadržaj
3. METODA UZORKA ... . . . . . .. ... . . ... . . . . . .. . . .... . . . . .... .. . . . 99 3. 1 . Osnovne zadaće metode uzorka . ... ..... ..... .. . ... . .. . . . . . .. .... ... . .. 99 3.2. Distribucija procjenitelja . . . . . .. . .. . .. ..... . .... . . . . . . ........ ... . . 1 0 1 3 . 3 . Procjena aritmetičke sredine . . . . . .... . .... . " ........................................ 1 02 3.4. Procjena totala populacije . .. .. . . . . .. . .. . ... . .. .. ..... . 1 09 3.5. Procjena proporcije populacije .. . . . .. ... . . .. . . . . 1 10 3.6. Određivanje veličine uzorka u svrhu provedbe postupaka procjenjivanja .. ... 113 3.7. Ispitivanje pretpostavki o nepoznatim karakteristikama populacije . . 1 16 3.7. 1 . Testiranje hipoteze da je aritmetička sredina populacije jednaka nekoj vrijednosti ... .. .. . .... ..... . . .. .. . . . . . .... . . ... .. 1 1 6 3.7.2. Jednosmjerna testiranja ptetpostavki o nepoznatoj aritmetičkoj sredini populacije ... .. . . . . . .. .. . . .. . . . . 123 3.7.3. Ispitivanje pretpostavki o nepoznatoj proporciji populacije . . . . 1 27 .. .
.
. ..
.
.
. ...
...
.
.
.
.
.
.
.
..
.
.
....
...
.
.
.
.
. .
..
......
.
.
..
. .
. ..
.....
....
..
. .
.
.
.
..
.
...
. . ....
.
.
..
.
..
..
.
.
..
......
.
.
..
..
....
....
. ..
..
...
.
. .
..
.
..
. .. . ..
.......
.
.
..
.
.
.
..
... . . .
.
..
..
..
.
.
...
. ..
...
.
..
.
.
.....
............
.. . .
..
...
..
. . ..
..
..
.
..
...
.
......
. .... . .
. ..... .
...
..
..
..
.
...
....
.... . .
.
...
..
.
...
...
.
.
.
. ....
..
.
.
.. . .
.
..
.
.
.
...
..
.
. ....
.. . .......
..
.
.....
.
. ..
.....
.
.
.
..
. ..
..
.. .
.
..
4. REGRESIJSKA I KOREI.ACIjSKA ANALlZA ...... .. . . . . ... " . ............................... 1 3 1 4. 1 . Svrha regresijske analize . . . . . . .. .. ... . . . . .. . . ... 1 3 1 4.2. Dijagram rasipanja ... . . ... . ..... .. . . . ... . . . . ... . . . . . .. . .... .. 1 32 4.3. Jednostavna linearna regresija......... . . . . ...... . . .. . . ........ : ......................................... 1 34 4.4. Ocjena reprezentativnosti regresije ..... .. .... . . .. .. ... .. ..... . .. .. ... 1 40 4.5. Koeficijent linearne korelacije . . . . .. .. . . .. . . . . . .. .... ...... . ... . . . 1 45 4.6. I nferencijalno-statistički pristup regresijskoj analizi; tabela ANOVA . . . .. 1 48 4.7. Korelacija ranga . . . . .. . . .. . . . .. . . . . . . . . .. . 1 54 .
. . ....
.
..
.
. ...
....
.
. . .. .
..
..
.
... . .
.
...
..
.
.
.
..
......
.. . ..
.
.
.
.
.
.
.
.
.
..
....
...
..
. . . ... .. . ..
..
. ..
.
.
....
...
...
.
.
.. ..
.....
.
. ..
..
.
.
.
.
. . ..
... .
.
.
.
...
.
. . .... . .
..
....
..
..
..
..
..
.....
...
...... . ..
......
.... . .
..
..
.
..
...
..........
....
.
..
.
..
..
....
...
. .
..
..
..
..
..
..
...
.
.....
. ..
.
..
....
. . ..
5. VREMENSKI NIZOVI ...... .... . . . . . . . . . .. .. . .. . . . . ..... .. . 1 57 5. 1 . Vremenski niz - definicija i vrste . .. .. .. ..... . . . . . .. .. . .. . . .. .. . 1 57 5.2. Grafičko prikazivanje vremenskih nizova .. . . . . .. .. . . .. . . ... . . .... .. 1 58 5.3. Osnovni statistički pokazatelji vremenskih nizova . . . . .. ... . .. . ... .. .... . . . 1 68 5.3. 1 . Pokazatelji pojedinačnih apsolutnih promjena . . . . . .. . 1 68 5.3.2. Individualni indeksi . . . . . . . . . .. . . . 1 68 5.3.4. Skupni indeksi . . . . . . . .. . . . . . .. . 1 74 5.3.5. Srednje vrijednosti vremenskih nizova . .. . . . . . . 1 82 5.3.5.1 . Aritmetička sredina . .. . . . .. . . . . . . .... . 1 82 5.3.5.2. Kronološka sredina .. .. ... . . .... . . ... ..... . .. . .. . . 1 83 5.3.5.3. Geometrijska sredina . . .. . . .... . . . . . .... .. . . ... . .. 1 85 5.3.5.4. Trend . .. . .. . . . . . .. . .. .. . . . .. . .. . . .. 1 89 5.3.6. Neke jednostavne tehnike prognoziranja ... . . . . . . ... ... . 202 .
.
.
.
.
....... .. ..
.
..
. ..
.
.
.
..
. ...
.
.
.
.
..
...
.
..
.
.
.....
......
........
.
.
. ..
.
.. . ......
... . ...
.
...
...
. ..
.
.
.
..
..
..
. .. . ...... . ...............
. ....
..
. .. .. . . . . .... . ..
. ...
.
...
..
.
.......
.
.
...
..
..
. ...
.
.
... .
..
.
..
..
.
.
....
.. . .. . .
.
.
..
..
...
..
..
.
..
...
. .. .
..
.....
..
.
.
.
.
.
.
...
.
.
. ..
..
.
....
...
...
. ..
.
.
.
.
.
.. .
.
.
.
.
.
..
.
....... . .....
..
.
....
.......
.... .. . . ..... . .
..
.
..
. .... . .
... .
.... . .. . .
..
...
...
.
. ...
.
..... . ..
..
.
.
..
.
. ....
. ..
...
.
..
.
.
. ...
.
..
. .. . . . .
.
.
.. .
....
..
..
. ...
. . ......
. . ..
..
..... ......
.
. .. .........
.
.. . .
...
..
...
.
..
. . ..
........
...
... .
.
.
.
..
.. .
...
..
.
...
.
.
.
..
.....
.
.
. ..
Dodatak
........... . ...... . . . . . . . . ..................... ...................... ................... . . . ................. ..................
Literatura
..
. . ..
.. . . .
205
. . . . . .. . . . . .. . . . . .. . ....... ... ... . . . ... . . . . .. .. . . . .. . 2 1 O .. .
.
.
..
..
..
..
.
.
.
.
.
. ...
...
.
..
.
.. . .
.. . .
.. . .
.
....
.
..
.
..
.
.
.
.
..
.
UVODNI DIO 1.1. Poja m statisti ka Statistika je znanost o prikupljanju (najčešće brojčanih) podataka različite vrste, kojih je u pravilu mnogo, te o njihovu u ređenju, metodama analize i tumačenju. II svakodnevnom govoru riječ statistika rabi se i za već prikupljene i uređene podatke koji su objavljeni u obliku tabela, grafikona i slično.
1.2. Podaci Podaci (obilježja) su prikupljene informacije o jedinicama promatranja. Na primjer, prilikom popisa stanovništva jedinica promatranja je kućanstvo, a podaci jesu: broj članova kućanstava, njihova starost, bračno stanje, stručna sprema, zaposlenost, mjesečni prihodi, uvjeti stanovanja itd. Kod prikupljanja informacija o gospodarstvu jedinica promatranja je npr. poduzeće, a podaci ili obilježja su broj zaposlenih, njihove plaće, prihod poduzeća, veličina proizvodnje i sl.
2
POGLAVUE l
1.3. Statistički skup i osnovni skup ili populacija . Statistički skup čine jedinice promatranja. Skup prikupljenih podataka naziva se osnovni skup ili populacija. Opsezi tih dvaju skupova mogu se, ali ne moraju, poklapati. Primjeriee, ako je
jedinica promatranja poduzeće, tada statistički skup čine sva poduzeća. Zanima li nas izvoz nekog artiHa po pojedinim područjima, tada je broj podataka o izvozu, koji u tom slučaju čine osnovni skup ili populacij u, različit od broja poduzeća koja taj artikl proizvode jer pojedina poduzeća izvoze isti artikl u više zemalja. Ako nas zanima broj zaposlenih u pojedinim poduzećima, taela sc statistički skup i osnovni skup poklapaju. Statistički sc skup prij e početka prikupljanja podataka mora precizno definirati, i to pojmovno, prostorno i vremenski. To znači, treba utvrditi svojstva koja treba imati neka jedinica da bismo ju uključili u statistički skup, vezano za određeni prostor i vrijeme. Na primjer, ako kažemo skup studenata Veleučilišta Zagrebu školske godine 2000./200L, to podrazumijeva sve studente upisane na Veleučilište koji u toj godini imaju sva studentska prava. Izraz "student Veleučilišta" čini pojmovni dio definicije, oznaka školske godine je vremenski dio definicije, a naznaka da sc radi o Veleučilištu u Zagrebu njezin prostorni dio. Statistički skup je konačan ako se sastoji od konačnog broja jedinica. U protivnom je beskonačan. Statističkih podataka treba biti dovolj no. ZakljuČCi koje na osnovi njih donosimo utemeljeniji su ako je njihov broj veći. Prikuplj eni podaci variraju. Na primjer, broj zaposlenih u poduzećima nije isti, kao ni plaće zaposlenih, ni stručna sprema članova kućanstava. Stoga za prikupljene podatke (obilježja) često rabimo izraz varijabla. II
1.4. Prikupljanje podataka i izvori podataka
Svojstva elemenata statističkih skupova sc mjere. Način mjerenja ovisi o vrsti podataka koje namjeravamo prikupiti. Primjerice, ako nas zanimaju visina i težina studenata, uz njihovo ćemo imc pribilježiti njihovu visinu u centimetrima i težinu u kilogramima. Zanima li nas pak njihov uspjeh u srednjoj školi ili strani jezik koji su učili, uz njihovo ćemo imc pribilježiti prosječnu ocjenu, odnosno naziv stranoga jezika.
1.4.1. Mjerne skale Mjerenje svojstava elemenata statističkih skupova provodi se prema određenim pravilima koja su dana mjernim skalama, i to: nominalnom, ordinalnom, intervalnom i omjernom skalom.
UVO D N I DIO
3
Nominalna skala sc sastoji od liste naziva, kategorija, svojstava po kojima se jedinice statističkoga skupa razlikuju. U spomenutom slučaju prikupljanja podataka o stranom jeziku koji su studenti učili u srednjoj školi, nominalnu skalu čine nazivi stranih jezika poredani nekim proizvoljnim, najčešće abecednim redom. U svrhu identifikacije često se nazivima pridružuju brojevi, a to je ujedno i prikladnije za obradu pomoću računala. Podaci dobiveni primjenom nominalne skale čine nominalnu varijablu ili nominalno obilježje. Nominalno se obilježje katkad pojavljuje u samo dva oblika ili modaliteta, kao npr. spol, u kom slučaju govorimo o alternativnom obilježju. Ako je broj naziva, tj. modaliteta nominalne varijable velik, rabimo nomenklature. To su zakonski, dogovorom državnih organa ili međunarodnih organizacija utvrđeni uređeni popisi modaliteta nominalnog obilježja (nominalne varijable) kojima su pridruženi nomenklaturni brojevi. Tako se npr. služimo nomenklaturom zanimanja, vrsta privrednih djelatnosti, bolesti, uzroka smrti i sl. Posebnu podvrstu nominalnog obilježja čini geografsko obilježje, koje pokazuje povezanost jedinica statističkog skupa s nekim prostorom (npr. mjesto rođenja, mjesto stalnog boravka itd.). Podaci o geografskom obilježju prikupljaju se također pomoću nominalne skale. Ordinalnu skalu čine oblici ili modaliteti istog obilježja koji se međusobno razlikuju po intenzitetu. Takvo se obilježje naziva obilježje ranga, ordinalno ili redoslijedno obilježje. Primjeri ordinalnog obilježja su ocjena, visina zgrade (mjerena brojem katova), postignuti stupanj stručne spreme i sl. Modaliteti obilježja ranga redaju se od manjeg intenziteta prema većem ili obratno. Uobičajeno se modalitetima obilježja ranga pridružuju brojevi, ali nad njima nisu dopuštene brojčane operacije. Npr. dva puta ocjena dovoljan (2) nije ekvivalent ocjeni vrlo dobar (4). Intervainu skalu čine brojevi kojima se mjeri neko svojstvo na taj način da jednake razlike brojeva na toj skali predstavljaju jednake razlike mjerenog svojstva. Položaj nule i mjerna jedinica određeni su dogovorno, kao npr. kod temperaturne skale (ledište vode označeno je nulom). Omjerna se skala sastoji od brojeva čije je.dnake razlike također predstavljaju jednake razlike mjerenog svojstva, ali za razliku od prethodne skale, nula znači nepostojanje mjerenog svojstva, nije utvrđena dogovorom. Starost, težina, cijena, dobit, primjeri su obilježja koja su izražena brojevima do kojih se dolazi primjenom omjerne skale. Ti sc brojevi nazivaju vrijednostima numeričke varijable ili vrijednostima numeričkog obiljcžja. Nad brojevima dobivenim mjerenjem pomoću intervalne skale, kao i onima dobivenim primjenom omjerne skale, dopuštene su osnovne računske operacije. Numerička varijabla (obilježje) može biti diskretna ili diskontinuirana i kontinuirana. Diskretna numerička varijabla može poprimiti prebrojivo mnogo vrijednosti. Obično je broj vrijednosti takve varijable konačan i ona je najčešće cjelobrojna, kao npr. broj djece u obiteljima, broj prodavača u prodavaonicama, broj otkazanih rezervacija itd. Kontinuirana numerička varijabla, za razliku od diskontinuirane, može poprimiti svaku vrijednost između dva broja, dakle u nekom intervalu i mogući broj njezinih vrijednosti je beskonačan (zato jer
4
POGLAVUE 1
se svaki i najmanji interval može prepoloviti i tako unedogled.). Kontinuirane numeričke varijable su, na primjer, visina, težina, duljina. Između visine od 170 i 180 cm teoretski je moguće
bczbroj međuvrijednosti, mada je njihov broj u praksi ograničen stupnjem
preciznosti mjernog instrumenta.
1.4.2. Faze statističkog istraživanja Kao što je već rečeno, statistički su podaci promotrena svojstva (obiljcžja) jedinica statističkog skupa.
Do njih se dolazi statističkim promatranjem, najvažnijom fazom
statističkog istraživanja. Podatke je potrebno, prikupiti prema unaprijed utvrđenom planu istraživanja. Samo stručno prikupljeni podaci osiguravaju kvalitetnu informaciju o pojavi koja se istražuje. Stoga prikupljanju podataka prethodi: a) definiranje ciljeva istraživanja, b) definiranje statističkog skupa, tj. jedinica promatranja, c) izbor obilježja i definiranje njihovih oblika (modaliteta), d) sastavljanje upitnika ili obrazaca evidencije, e) određivanje načina prikupljanja podataka (anketiranjem, putem pošte, telefona i sL),
f) planiranje načina obrade podataka pomoću računala.
Prikupljanje podataka promatranjem, tj. podataka iz primarnih izvora, često je povezano s velikim izdacima. Zato se, kad god je to moguće, nastoje iskoristiti već prikupljeni podaci, tj. podaci koje su prikupile i publicirale statističke i drugc ustanove. U tom slučaju govorimo o podacima iz sekundarnih izvora. Prednost korištenja već prikupljenih podataka je, osim znatno nižih troškova i njihova relativno brza dostupnost. Promatranje je iscrpno (cenzus), ako se prikupljaju podaci o obiljeŽjima svih jedinica
promatranja. U protivnom, tj. obuhvati li se promatranjem samo dio jedinica, ono je reprezentativno. S obzirom na vrijemc provedbe, statistička promatranja mogu biti jednokratna, periodična i tekuća. Jednokratna se sastoje u prikupljanju podataka o obiljeŽjima jediniea u kritički vremenski trenutak (primjer: popis stanovništva). Ponavljaju li se promatranja jedinica nakon određenoga vremenskog razmaka, govorimo o periodičkom promatranju (primjer:
registracija vozila, godišnja prijava poreza). Tekućim se promatranjem (evidencijom) prikupljaju podaci u određenom vremenskom intervalu. Na primjer, podaci o novorođenima evidentiraju sc po satima, danima, mjesecima itd. Slično sc prikupljaju podaci o proizvodnji, prodaji i mnoštvu drugih pojava.
1.4.3. Matrica podataka Prikupljeni podaci uobičajeno se prezentiraju u obliku matrice podataka. Označimo matricu sa D (od engleskog: data), a njeZine clemente od kojih svaki predstavlja pojedinačni podatak
UVODNI DIO
5
ili obilježje, sa dij Uz pretpostavku da s u prikupljeni podaci o K obilježja za N elemenata statističkog skupa, njezin je izgled sljedeći:
Pojedini redak te matrice naziva se entitet. Proizvoljni, i-ti redak sadrži sve podatke, tj. sva obilježja koja se odnose na i-tu jedinicu promatranja. Proizvoljni, j-ti stupac sadrži podatke o istom obilježju (obilježjuj) za svih N elemenata statističkog skupa. Stupac matrice podataka ili nekoliko njih naziva se poljem (engl.: field). Prilikom planiranja statističkog promatranja potrebno je voditi računa o karakteristikama raspoloživog računala, posebno o njegovoj memoriji. Važno je poznavati i postupak unosa te način skladištenja i kasnijeg korištenja podataka. Kako je, zbog velikih troškova i velikog utroška vremena, poželjno koristiti se podacima iz sekundarnih izvora, sve je češće korištenje podataka iz baza podataka I drugih u stanova. U tom slučaju treba unaprijed razmotriti i mogućnosti njihove konverzije u oblik u kome ih prihvaća računalo na kome će se obrađivati.
1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku Statistika koja se bavi organiziranim prikupljanjem podataka, metodama njihove prezentacije i njihovom analizom u cilju pružanja jasne, koncizne i točne informacije o istraživanoj pojavi naziva se deskriptivnom statistilwm. Predmet inferencijalne statistike su statističke metode i tehnike koje omogućuju da se na osnovi dijela informacija koje čine podskup skupa podataka, zaključuje o karakteristikama cijeloga skupa podataka (populacije).
l) Bazapodataka je skup medusobno povezanih podataka namijenjenih zadovoljenju potreba različitih tipova krajnjih korisnika. Baza podataka je također i skup programa koji omogućuju da se prikupljeni podaci na jedinstveni način efikasno i jednostavno održavaju i rabe.
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE 2.1. Uređivanje podataka i formiranje statisti čkih nizova Deskriptivna statistika obuhvaća postupke uređivanja, prezentacije i analize prikupljenih podataka. Prikupljene podatke treba prije svih daljnjih postupaka urediti. Izdvoje li se iz skupa podataka podaci o jednom obilježju i urede li se i nanižu prema nekom pravilu, nastat će statistički niz. j"\aziv niza istovjetan je s vrstom obilježja pa govorimo o nominalnim, ordinalnim) numeričkim itd. nizovima. I
l) Posebnu Vistu nizova čine vremenski nizovi, koji se zbog svojih specifičnosti razmatraju u zasebnom poglavlju ove knjige,
8
POGLAVU E 2
Najčešće je broj podataka s kojima raspolažemo vrlo velik, tako da se redovito radi o prevelikom broju informacija o pojavi koju želimo istražiti, prevelikom a da bi ih ljudski mozak mogao bez prethodne prerade usvojiti. Puko nas nizanje podataka stoga ne zadovoljava. Zadaća je deskriptivnih metoda, medu ostalim, da sumarno zahvate prikupljene informacije i na taj način reduciraju njihov broj . Pritom u reduciranim informacijama moraju ostati sačuvane glavne značajke pojave koja se istražuje, tj. slika pojave ne smije biti iskrivljena. U tu se svrhu najprije provodi postupak grupiranja ili klasifikacije podataka. Grupiranje je raščlanjivanje skupa od N podataka u k grupa (podskupova) prema prethodno utvrdenim modalitetima danog obilježja. Pri provedbi grupiranja poštuju se principi iscrpnosti i medusobne isključivosti. Drugim riječima, to znači da svaki podatak mora b iti obuhvaćen grupiranjem, kao i da svaki podatak mora biti svrstan u samo jednu grupu.2 Grupiranje može biti ekstremno jednostavno, kao što je npr. slučaj kod alternativnog obiljeŽja "spol" kad se u jednu grupu svrstaju svi muškarci, a u drugu sve žene iz danog skupa podataka, ali može biti i vrlo komplicirano . Treba uvijek imati na umu da se grupiranjem gube pojedinačne informacije o obilježjima jedinica pa valja voditi računa da se grupiranjem ne izgube bitne značajke skupa podataka. Broj podataka u grupi naziva se apsolutna frekvencija. Formirani nizovi nose naziv prema vrsti nanizanih podataka, odnosno prema vrsti nanizanih grupa podataka, npr. nominalni, ordinalni, numerički niz. Ako su podaci samo nanizani nekim redom, govorimo o negrupiranom statističkom nizu, o nizu pojedinačnih podataka. Ako su podaci prethodno grupirani, govorimo o grupiranom n izu podataka. Svaki grupirani niz možemo shematski predočiti kao skup parova danog obilježja i pripadnih frekvencija. Obilj ežj e koje čini prvi dio para može biti iskazano pojedinačno, ako je broj oblika iJi modaliteta obilježja malen, kao npr. kod alternativnog obilježja "spoJ", "podrijetlo turista" (domaći i strani) ili kod ordinalnog obilježja (obilježja ranga) "ocjena" ( I do 5). Ako je broj modaliteta obilježja veći, tada se preglednosti radi može provesti stezanje više modaliteta istog obilježj a u jednu grupu - obično na kraju statističke tabele. Na primjer, želimo li osobe grupirati prema znanju stranih jezika, možemo formirati posebne grupe za engleski, njemački, francuski, talijanski i ruski te grupu "ostalo" za sve druge jezike. Radi li se o velikom broju modaliteta numeričke varijable, tada se za više modaliteta istog obilježja stegnu tih zajedno, umjesto naziva grupa rabi naziv razred ili klasa. Uz pretpostavku da je formirano k grupa obilježja, i grupirani statistički niz čini skup parova:
=
l ,2, .. . ,k
(Čitaj:
i
ide od jedan do k),
{obilježje i-te grupe ili razreda, pripadna, tj. i-ta frekvencija.}.
2) JIllikom algebre skujlOVlI s e poštivanje principa iscrpnosti i međusobne isključivosti formulira kao raščlanjivanje (particija) skupa od N podataka u k disjuoktnih podskupova • dakle takvih !\oji se ne preklapaju, lj. čiji je presjek prazan.
9
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
Simbolički, to oznacuJemo ovisno o danom obilježju. Ako se radi o nominalnom ili atributivnom obilježju, čiji i-ti modalitet, tj. modalitet i-te grupe označujemo sa
aj,
te uz
oznaku /; za pripadnu frekvenciju, grupirani nominalni niz čini skup parova
(2.1) Analogno, uz oznaku
Tj
za i-ti oblik ili modalitet redoslijednog obilježja, redoslijedni ili
ordinalni niz čini skup parova:
(2.2) za razliku od nominalnog niza, kod kojega je poredak grupa proizvoljan, kod ordinalnog niza su obilježja poredana bilo prirodnim redom, počevši od najmanjega do najvećeg intenziteta svojstva koje se tim obilježjem iskazuje, bilo obrnutim. Tabele koje slijede sadrže po jedan grupirani statistički niz. Tabela a tabela 2.2. redoslijedni statistički niz.
2.1. sadrži nominalni niz,
.. Tabela 2. l. Poduzeća prema obliku vlasništva u RH 1992. Oblik vlasništva l
društveno
Broj poduzeća 2
2501
zadružno
3
mješovito
231
Ukupno
2735
Izvor: Slat ljetopis 1992, str. 48
.. Tabela 2.2. Osobe prema stupnju naobrazbe stečenom 1990. u RH Stupanj naobrazbe l
Broj osoba 2
osnovna
62310
srednja
42408
viša
3284
visoka
6422
Ukupno Izvor: Mjesečno slat. izvješće 8, 1992., str. 42
114424
10
POGLAVLJE 2
Tabela 2.1. sadrži podatke koji su svrstani u tri grupe, prema tri modaliteta nominalnog obilježja (varijable). Poredak grupa, tj. oblika vlasništva je proizvoljan, tj. mogli smo ih i drugačije poredati. Podaci u tabeli 2.2. svrstani su u četiri grupe, prema četiri modaliteta ordinalnog obilježja poredanih od manjeg postignutog stupnja naobrazbe prema većem, a mogli smo ih poredati i obrnutim redom. Brojevi u stupcu 2 obiju tabela su apsolutne frekvencije. Numeričko obilježje se uobičajeno označuje sa X, te njegova i-ta vrijednost sa Xi' Ako numeričko obilježje poprima manji broj vrijednosti, što je moguće samo ako je ono diskretno (diskontinuirano), tada grupirani numerički niz čini skup parova:
{ Xi' j; } .
(2.3)
Grupirani numerički niz naziva se distribucija frehvencija. Tabela 2.3. sadrži primjer distribucije frekvencija diskretne numeričke varijable "broj djece" . ..... Tabela 2.3. Anketirane obitelji prema broju djece Broj obitelj i
Broj djece l
2
O
7
l
9
2
13
3
7
4
4
Ukupno
40
Podaci su simulirani.
Numerička varijabla "broj djece" u ovom primjeru ima svega pet modaliteta (vrijednosti), tj. broj se djece u 40 anketiranih obitelji kreće od nule do četiri. Zbog maloga broja modaliteta, moguće je bilo formirati grupe O 4 i nakon prebrojavanja podataka uz svaku oznaku broja djece u stupcu br. l, pridružiti u stupcu br.2 odgovarajući broj obitelji. Brojevi u stupcu br. 2 su apsolutne frekvencije. Sve jedinice u grupi imaju istu vrijednost obilježja, tj. istu Vrijednost numeričke varijable. Znači, svih sedam obitelji je bez djece. svih devet obitelji ima po jedno dijete, svih trinaest obitelji ima po dva djeteta itd. -
Ako je numeričko obilježje (numerička varijabla) kontinuirano. tada se podaci grupiraju na osnovi razreda (klasa), i to tako da se formiraju razredi, tj. intervali susjednih vrijednosti obilježja i njima pridruže jedinice (podaci) čije su vrijednosti unutar raspona granica danoga razreda. Razredi, tj. intervali obilježja, omeđeni su s dva broja koji se nazivaju granice
II
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
razreda. Donju granicu i-tog razreda označit ćemo sa Lu, II gornju granicu sa L2.> U i-ti se razred svrstavaju podaci s vrijednosti obilježja izmedu granica toga razreda, to jest: •
Iz prethodnog se izraza vidi da se radi o intervalima tipa [ ), tj. o poluotvorenim intervalima. Na primjer, zanima li nas visina studenata (u cm) i definiramo li granice razreda: J 60 l65 l6S - l70 l70 J 75 itd., -
svrstati sve studente čija je visina 160 cm ili veća, ali je manja od J 65 cm. U pm cemo Oni sa J 6 5 cm visine svrstavaju se u drugi razred itd. Brojčano se gornje granice na taj način formiranih razreda podudaraju s donjim granicama razreda koji slijede. Takve se granice nazivaju prave. Dakle, ako je provedeno grupiranje na temelju razreda na opisani način, tada grupirani numerički niz, tj. distribuciju frekvencija kontinuirane numeričke varijable, čini skup parova: Xi <
Lz,;,j, )
(2.4)
Primjer za tako obavljeno grupiranje dan je u tabeli 2.4 .
.. Tabela 2.4. Nezaposleni u RH prema radnom stažu, stanje 31.12. 1996. Radni staž u godinama
Broj nezaposlenih
l
2
O
1
12361 4
1 - 2
19767
2 - 3
12271
-
3 - 5
16033
5
10
29401
10 - 20
43747
20 40
24430
Ukupno
269263
i
Izvor: Stat. ljetopis RH 1997., str. 149
U prvom su stupcu razredi (njih sedam) kontinuiranoga numeričkog obilježja, nanizani od manjih vrijednosti prema većima, a u drugom su stupcu apsolutne frekvencije. Za razliku od prethodnih primjera, tu sve jedinice u pojedinom razredu nemaju istu vrijednost numeričke
12
POGLAVUE 2
varijable. Uzmimo za primjer 1 60 3 3 nezaposlena koji čine frekvenciju četvrtog razreda. Oni se pojedinačno razlikuju prema radnom stažu, ali su vrijednosti njihova radnog staža slične (susjedne), unutar su raspona granica toga razreda, tj. između 3 i 5 godina. Po pravilu se distribucija frekvencija na temelju grupa (tj . kad sve jedinice u grupi imaju istu vrijednost numeričke varijable) formira kad je numeričko obilježje diskontinuirana (diskretno) , dok se kod numeričke kontinuirane varijable distribucija frekvencija formira temeljem razreda. M eđutim, radi li se o slučaju kad diskretna numerička varijabla poprima mnogo oblika, preglednosti radi, tj . da tabela u kojoj se oni prezentiraju ne bude predugačka, takvi se podaci također grupiraj u temeljem razreda. U takvom su slučaj u intervali obilježja koji predstavljaju razrede zatvoreni, tj. oni s� tipa [] : Kod razreda formiranih na taj način gornja granica pojedinog razreda za (usvojenu) je jedinicu manja od donje granice sljedećeg razreda. Takve se granice nazivaju nominalne. U takvom slučaju distribuciju frekvencija d iskretne ili diskontinuirane numeričke varijable čini skup parova: (2. 5) Primjer na taj način grupiranih podataka dan je u tabeli 2.5 . ... Tabel a 2.5. Pod uzeća u privredi RH prema broju rad nika 1 99 1 .
Broj radnika
Broj poduzeća
l
2
do 6
1 2 1 57
7 - 15
1 125
16 - 29
632
30 - 60
628
61 - l25
697
1 26 - 250
557
251 - 500
441
501 - 1000
241
1001 i više
165
Ukupno
16643
Izvor, Stat. ljetopis RH 1993., str. 1 87
Kod diskontinuirane numeričke varijable moguć je i slučaj da ona poprima nešto veći, (obično ne preveliki) broj vrijednosti, a usto se one po važnosti (koju mjerimo brojem
OSNOVNI POJMOVI I TEH N I K E DESKRIPTIV N E STAT I STIKE
13
podataka s istom vrijednosti varijable) bitno razlikuju. Tada se postupak grupiranja provodi kombiniranjem grupa i razreda. Za vrijednosti diskretne numeričke varijable kojih je najviše (ne zaboravimo da je svrha grupiranja postizanje veće preglednosti prikupljenih podataka, te da se grupiranjem ne smiju iskriviti originalne informacije koje oni sadrže), formiraju se grupe, a za vrijednosti kojih je relativno manje, formiraju se razredi - obično su na kraju tabele.3 Takav je slučaj predočen u tabeli 2.6. � Tabela
2.6. Razvedeni bra kovi prema broju djece na području X,
1 999 .godina Broj qjece
Broj brakova
O
12
1
17
2
22
3
10
4-5
5
l
2
6-7
4
Ukupno
40
Podaci su simulirani
Vidimo da su za vrijednosti diskretne numeričke varijable od O do 3 formirane grupe, a da su za vrijednosti od 4 do 7 formirani razredi. Kombiniranjem grupa i razreda tabelu smo skratili i na taj način načinili preglednijom. Formiranjem razreda izgubile su se, doduše, neke pojedinačne informacije - iz tabele npr. nije moguće razabrati koliko je bilo djece u svakom od četiri razvedena braka u posljednje� razredu - samo znamo da ih je bilo između 6 i 7 . Međutim, karakteristike pojave koja se istražuje nisu time prikrivene, budući da su brakovi s brojem djece većim od šest malobrojni. Poželjno je da broj formiranih razreda ne bude prevelik - on se najčešće kreće između 5 i 15, kao i da oni budu jednake veličine, ako to ne dovodi do prikrivanja, odnosno iskrivljavanja karakteristika pojave koju želimo prikazati. Veličina razreda (oznaka i) jest raspon obilježja u kome se nalaze podaci koji čine frekvenciju tog razreda. Veličina proizvoljnog, tj. i-tog razreda, računa se tako da se njegova donja granica oduzme od donje granice sljedećeg, i + l-vog razreda. Gornje su granice razreda u 3) Slično se postupa, kao što je to već spomenuto, i kod grupiranja na osnovi nominalnog obilježja, i to kad imamo, osim često zastupljenih i
nekolicinu relativno malobrojnih modaliteta. Za modalitete koji su karakteristični za pojavu koja se istražuje, a što se, medu ostalim, vidi i prilikom prebrojavanja podataka po učestalosti njihova pojavljivanja, formiraju se zasebne grupe (za svaki modalitet po jedna). za modalitete koji se rjede pojavljuju, u svrhu bolje preglednosti prezentiranih podataka, formira se grupa naziva "ostalo" ili slično.
14
POGLAV U E 2
svrhu računanja njihove veličine nesigurne, jer ako su formirane kao nominalne, može doći do pogreške za jedinicu. Katkad rubnim razredima, tj. prvom i/ili posljednjem razredu nedostaje jedna od granica (donja granica prvog i/ili gornja granica posljednjeg). Takvi se razredi nazivaju otvoreni. Otvoreni se razredi formiraju kad nije moguće precizno utvrditi minimalnu odnosno maksimalnu vrijednost koju podaci mogu poprimiti. Za potrebe statističke analize nedostajuće se granice moraju procijeniti. Procijenjene se granice stavljaju u zagrade () . Granice koje se razlikuju za jedinicu, tj. nominalne granice, redovito se moraju, osobito u svrhu grafičkog prikazivanja, zamijeniti bilo pravim bilo preci:nim granicama. Precizne se granice dobivaju širenjem intervala koji predstavljaju razrede za po pola (usvojene) jedinice na obje strane. Donja se granica svakog razreda umanji, a njegova gornja granica uveća za pola razmaka izmedu dvaju uzastopnih razreda. Radi li se o kontinuiranom numeričkom obilježju, kod ispravno provedenog grupiranja granice su prave, tj. intervali su tipa [ ) , kao što je to već opisano. Medutim, često se podaci prezentiraju na način koji teoretski nije u skladu s prirodom danog obilježja. Tako nije rijedak slučaj da se formiraju nominalne granice, znači, intervali tipa [ ], s jediničnim razmakom između njih, iako se radi o kontinuiranom obilježju. tj. varijabli. U takvom slučaju nominalne granice treba zamijeniti bilo pravim, bilo preciznim granicama. Uzmimo npr. obilježje starost studenata (u godinama) sa na taj način formiranim granicama, te s ispravljenim granicama: nominalne granice: 1 8
prave granice:
1 8 - 20
precizne granice: 17. 5 - 1 9.5
20 2 1
20 - 22
19.5 - 2 1 .5
22 23
22 - 24
21.5 - 23.5
itd.,
19
itd.,
itd.
Ako je varijabla diskontinuirana, prirodno je da granice budu nominalne. Uzmimo npr. varijablu "broj prodavača". Prirodno je da se formiraju razredi tipa 2-3 4-5 6 8 itd., jer su u skladu s prirodom, u ovom slučaju diskontinuitetom, obilježja. Prirodno je da između 3 i 4 postoji razmak, isto kao i između 5 i 6, te 8 i 9 (sljedeća bi granica, prema istom principu, iznosila 9). Broj prodavača, naime, može biti ili 3 ili 4 i ne može se iskazati decimalnim brojem, jer bi to bila besmislica. No u svrhu daljnje, posebno grafičke analize statističkih podataka, nominalne granice treba ukloniti i zamijeniti ih, u ovom slučaju, tj. kad se radi o diskontinuiranoj varijabli, isključivo preciznim granicama:
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVNE STAT I ST I K E
15
1.5-3.5
3.5 - 5.5
5.5 - 8.5
itd. Formirani intervali vrijednosti numeričke varijable, iako nam omogućuju svođenje brojnih podataka prikupljenih statističkim promatranjem na podnošljivu mjeru i na taj ih način čine podesnima za tabelamo prikazivanje, imaju i nedostatak. S rasponima brojeva nisu, naime, moguće računske operacije. Stoga se u svrhu računanja statističkih pokazatelja rasponi vrijednosti numeričke varijable zamjenjuju jednim brojem, koji je reprezentant obilježja danoga razreda. Taj se broj naziva razredna sredina i računa se kao poluzbroj njegovih granica. Pritom granice razreda moraju biti ili pnlVe ili precizne, ako je varijabla kontinuirana, dok je kod diskontinuirane numeričke varijable poluzbroj bilo nominalnih bilo preciznih granica isti. Oznaka za razrednu sredina ista je kao i za obilježje, tj. X, a njezinu i tu vrijednost računamo pomoću izraza:
Xi =
Lli + L2i 2
,
.
1=
1,2, . .. ,k.
Razredna sredina kao reprezentant obilježja zamjenjuje sve njegove pojedinačne vrijednosti u danom razredu; ona to bolje ispunjava svoju ulogu što raspored podataka unutar raspona pojedinog razreda pokazuje veću simetriju. U protivnom dolazi do tzv. greške grupiranja koja se unosi u rezultate daljnjih računanja za koje se koriste razredne sredine. U analizi podataka se često osim apsolutnih frekvencija rabe i relativne frekvencije. One pokazuju strukturu prezentiranih podataka, tj. pokazuju koliki je udio pojedine apsolutne frekvencije u zbroju svih frekvencija. Računamo ih kao proporcije-oznaka Pi.
ili kao postotke - oznaka Pi.
4) Veliko grčko slovo l: koristi se za skraćeni prikaz zbroja. Na primjer, zbroj tri vrijednosti varijable X: XI, Xl' x, molemo umjesto: x,+x,+x, zapisali kao
. Brojevi I i 3 označuju donju i gornju granicu zbrajanja, lj. oni označuju koje su vrijednosti varijable X sadržane u zbroju - u
ovom primjeru su to njezina prva, druga i treća vrijednosI. Oznaku
± ,.,
x,
čilamo: "suma x, i ide od Ido 3"
16
POGLAVUE 2
Simbolom N označen je opseg skupa podataka, tj. opseg osnovnog skupa ili populacije. On je jednak zbroju apsolutnih frekvencija, tj. k
JI +J2 + ... + ik
LJi i=1
=
N
.
Proporcije se po veličini kreću između nule i jedinice, tj. O::;'Pi::;' l,
a postoci između nule i sto: O::;'
Pi::;' 100.
Zbroj proporcija iznosi l, a zbroj postotaka
100. Dokaz: k
LJi
i=l k i=l
i=l
N N
LJi i=l
i=1
1.
k
Pl +P2 + ... + Pk
=
-P-'100+ ---P-'100+ ... +-P-'100 LJi
LJi i=l
LJi i=l
=
L Ji i;l ·100 LJi i=l
N
-·100=100. N
Frekvencije se, kako apsolutne, tako i relativne, mogu i postupno zbrajati, u kom slučaju
dobivamo kumulativne frekvencije. Označit ćemo ih sa S x(x;) u slučaju zbrajanja apsolutnih, te sa
FJxi)
u slučaju postupnoga zbrajanja relativnih frekvencija. Kumulativne frekvencije
nastaju na sljedeći način:
Sx(XJ) Sx(X2)
=
JI +/2
Sx(xJ = JI +J2 + . FJxl) F,(x�
pJ =
Pl+P2
k
.
.
ik
+
=
LJi ;=1
'"
N odnosno ,
OSNOVNI POJ MOVI I TEH N I KE DESKRI PTIVNE STAT I ST I K E
F.(xJ =PI+P2+'" +Pk=
17
k
LP; = 1.5 ;=1
Na ovaj način dobivcne i poredane frekvencije tvore empirijsku funkciju distribucije ili kumulativni niz "manje od" nazvan tako prema interpretaciji kumulativnih frekvencija. Njihovu ćemo interpretaciju pojasniti na primjeru nezaposlenih osoba prije prikazanih u tabeli 2.4., koju smo proširili dodavanjem kumulativnih nizova "manje od " računanih najprije pomoću apsolutnih, te zatim pomoću relativnih frekvencija (u ovom slučaju proporcija) . 6
�
Ta bela 2.7. Nezaposleni u RH prema radnom stažu , stanje 31.12.1996.
Radni staž u godinama
Broj nezaposlenih
Kumulativni niz " manje od"
Struktura nezaposlenih
Xi
fi 2
SiXi) 3
Pi
0 - 1
123614
1 23614
0,46
l
4
Kumulativni niz "manje od"
Fixi) 5
0,46
1 - 2
1 9767
143381
0,07
0,53
2 - 3
12271
1 55652
0,05
0,58
3 - 5 5 - 10
1 6033
17 1 685
0,06
0,64
2940 1
201086
0,1 1
0,75
1 0 - 20
43747
244833
0,16
0,91
20 - 40
24430
269263
0,09
1 ,00
Ukupno
269263
-
1 ,00
Izvor: Stat. ljetopis RH 1997., str. 149
Vidimo da je 1236 14 nezaposlenih sa stažom O-l, dakle manjim od jedne godine. Sljedeća kumulativna frekvencija u stupcu 3, 143381, dobivena jc pribrajanjem 19767 brojci 123614. Interpretacija: 143381 nezaposlenih u RH na dan 31.12.1996. imalo jc radni staž manji od dvije godine. Interpretacija treće kumulativne frekvcncije u stupcu 3: 155652 nezaposlena iz istog osnovnog skupa bila su sa stažem 0-3 godine, dakle s manje od 3 godine. Interpretacija kumulativnih frekvencija iz stupca 5: proporcija zaposlenih sa stažem manjim od jedne godine iznosila je 0,46 (ili 46%) , proporcija zaposlenih sa stažem manjim od dvijc godine iznosila jc 0,53 (ili 53%) itd. 5) Za razliku od kumuliranja propor cija, u slučaju kumuliranja postotaka posljednja kumulativna frekvencija iznosi 100.
6) Osim kumulativnog niza "manje od", moguće je konstruirati i kumulativni niz "više od", u kom se slu čaju frekvencije postupno zbrajaju obrnutim redom, �. počevši od posljednje prema naprijed. U tom je slu čaju prva kumulativna frekvencija jednaka opsegu populacije.
18
POGLAVUE 2
2.2. Tabelamo i grafičko prikazivanje statističkih podataka, te
njihova analiza pomoću relativnih brojeva Zadaća statističkih metoda je da se prikupljene informacije prezentiraju na jasan, precizan i točan način. Ovo se poglavlje bavi prezentacijom podataka, tabličnom i grafičkom. U svrhu grafičkoga prikazivanja statističkih podataka rabe se: •
•
•
površinski grafikoni linijski grafikoni i kartogrami.
Za grafičko se prikazivanje nominalnih i r�doslijednih nizova služimo najčešće geometrijskim likovima, kao npr. pravokutnicima, kvadratima, krugovima, polukrugovima i sl. Ako je u pitanju izrazito mali broj modaliteta, tada je prikladno koristiti se kvadratima ili krugovima. U zmimo npr. glasače kandidata A kojih je u nekoj regiji 2 1 5 3 5 3 i glasače protivničkog kandidata B kojih je 484416. Površine likova moraju biti proporcionalne frekvencijama koje oni predstavljaju. Odlučimo li se za prikaz pomoću kvadrata, stranice dvaju kvadrata odnosit
će se kao J215353 : , tj. 464 : 696, odnosno kao približno 2,3:3,5 mjernih jedinica, ovisno o svrsi grafičkog prikaza. Radi li se o grafičkom prikazu za novinski članak, izabrat ćemo manje mjerne jedinice, npr. centimetre, a ako je rijei:' o prikazu na plakatu, možemo izabrati decimetre. Odlučimo li se za prikaz pomoću proporcionainih krugova, treba odrediti njihove polumjere r. Kako je površina kruga P rzII, to se svaki polumjer računa kao �P/TI , tj. u ovom slučaju: =
�215353/3,14;:::; 262 i �484416/3,14 100,
;:::;
393. Dobivena polumjere možemo npr. skratiti sa
i nacrtati dva kruga radijusa 2,6 i 3,9 cm,
Opisane varijante grafičkog prikaza dane su na grafikonima 2, l. i 2.2 .
.... Grafikon 2.1.
Glasaći kandidata A
Glasaći kandidata B
OSNOVNI POJMOVI I TEH NIKE DESKRI PTIVNE STATISTIKE
� Grafi kon
19
2.2.
Glasaći kandidata A
Glasati kandidata B
S\'aki grafički prikaz (isto vrijedi i za tabelu), mora imati naslov i izvor podataka. Naslov mora biti kratak i jasan u definiranju skupa prikazanih podataka. U
prikazivanju nominalnih nizova često se koriste jednostavni stupci. Podaci koje ćemo na taj način grafički prikazati sadržani su u tabeli 2.8.
� Ta bela
2.8.
Rad n ici u d ruštvenom sektoru u trgovini RH 1 99 1 .
Vrsta trgovine
Broj radnika
trgovina na malo
103461
trgovina na veliko
31 035
robna razmjena s inozemstvom
7761
Izvor: Statist. ljetopis 1992., str. 102
Tabelom 2.8. prikazan je jedan statistički niz, i to nominalni, jer je varijabla, tj. obilježje -\Tsta trgovine", iskazano riječima. Takva se tabela, kojom se prikazuje samo jedan statistički niz. naziva jednostavna statističlw tabela. Svaka tabela, osim naslova i izvora, ima tekstualni i brojčani dio. Tekst se nalazi u prvom retku tabele koji se naziva zaglavlje, te u prvom stupcu koji se naziva predstupac ili pretkolona. Tabela može sadržavati i zbirni ili zbrojni redak. Podatke iz jednostavne statističke tabele prikazujemo grafikonom jednostavnih, okomito ili horizontalno položenih stupaca (tj. pravokutnika) jednake širine, s jednakim proizvoljno \'elikim razmakom između njih. Budući da su širine, tj. baze stupaca, jednake, a visine
20
POGLAVUE 2
stupaca (kod položenih stupaca duljine) odgovaraju pojedinim frekvencijama, površine stupaca su proporcionalne prikazanim frekvencijama. � Grafikon
2.3. Radnici u d ruštvenom sektoru u trgovin i RH 1991. god ine
Broj radnika 12000 10000 BOOO 6000 4000 2000 O �----���--------���------���----------
Trgovina na malo
Izvor:
St. ljetopis RH
Trgovina na veliko
Robna razmjena s inozemstvom
1992, str 102.
Skupna statistička tabela sadni dva ili više statističkih nizova, nastalih grupiranjem na isti način i prema istom obilježju (zbog toga jer se koristi ista pretkolona za oba ili više nizova). Primjer takve tabele je tabela 2.9.
�
Tabela 2.9. Izvoz i uvoz proizvoda za reprodu kciju za RH 1997.: (u mil. kn)
Vrsta proizvoda za reprodukciju
l
Izvoz
Uvoz
2
3
sirovine i poluproizvodi
5789
1 0804
pogonska goriva
2302
5006
gotovi proizvodi Ukupno Izvor: Statist. ljetopis RH 1998., str .329
5354
1 1308
1 3445
27 1 1 8
21
OSNOVNI POJMOVI I T E H N I K E DESKR I PTIVNE STATI ST I K E
Tabela 2.9. sadrži dva nominalna niza - izvoz i uvoz proizvoda za reprodukciju 1 997. grupirane prema istom obilježju (vrsta proizvoda za reprodukciju) istih triju grupa: sirovine i poluproizvodi, pogonska goriva i gotovi proizvodi. Podaci iz skupne statističke tabele prikazuju se grafikonom dvostrukih stupaca. Svaka od grupa prikazuje se s dva (ili više ako ima više nizova) međusobno naslonjena jednostavna stupca. Da bi se lakše uočilo kojem od nizova pojedini stupac pripada, stupci se različito sjenčaj u ili oboje. Sastavni dio takva grafikona je tumač znakova (sjenčanja, odnosno boja) . .. Grafikon 2.4. I zvoz i uvoz proizvoda za reprodukciju1997.godi ne mil. Kn 1 2000 1 0000 8000 6000
izvoz
4000
uvoz
2000
O --'---"!":'::""'--"
Sirovine i poluproizvodi
Izvor: St.
ljet. RH
Pogonska goriva
Gotovi proizvodi
Vrsta proizvoda
1 998, sir 329
Ako nas zanima sastav ili struktura skupa podataka, posebno ako želimo usporediti strukturu dvaju ili više osnovnih skupova, služimo se grafičkim prikazom strukturnih stupaca, te strukturnm polukrugova i krugova.
22
...
POGLAVUE 2
Tabela 2 . 1 0 . Radnici u društvenom sektoru u trgovini RH 1 990. i 1 99 1 . Broj radnika u 000
Vrsta trgovine 1
I
1990.
1 99 1 .
2
3
trgovina na malo
1 14,9
lO3,5
trgovina na veliko
36,6
3 1 ,0
8,3
7,8
1 59,8
142,3
robna razmjena s inozemstvom
L Ukupno
�
Izvor: $tatist. ljetopis RH 1992., str . 100
... Grafikon 2 . 5 . Radnici u društvenom sektoru u trgovini RH 1 990. i 1 99 1 . god. Radnici u
1 60
000
1 50
1 40 1 30
1 20
1 10 1 00
90
80 70
C=:J Trgovina na malo
60
50
Trgovina na venko
40
� R?bne razmjene
30
20 10
O
s Inozemstvom
-'--�--
1 990.
1 991 .
Godina
izvor: st. ljet. RH 1992, ,tr 100.
Strukturni su stupci u grafikonu 2 . 5 . jednake širine, a vis ine im predočuj u opseg pojedinog skupa, tj. 1 59,8 i 1 42 . 3 . Stupci su podijeljeni na segm ente koji predočuju pojedine
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVNE STATISTIKE
23
frekvencije. Prva razdioba prvog stupca je na visini 1 14,9, a druga na vIsim 1 5 1, 5 ( I 1 4,9+ 36,6) . Stupac kojim su prikazani radnici u društvenom sektoru trgovine 1 99 1 . godine konstruiran je na identični način. Strukturne stupce možemo konstruirati i pomoću relativnih frekvencija, i to bilo pomoću proporcija, bilo pomoću postotaka. TJ tom su slučaju (ako je više osnovnih skupova) visine svih stupaca jednake, tj. l ako za prikaz rabimo proporcije, odnosno 100 ako rabimo postotke. Radnike iz prethodnog primjera izrazit ćemo u postotku i usporediti ih grafički. �
Tabela 2.11. Radn ici u d ruštvenom sektoru u trgovin i RH 1990. i 199 1 .
Vrsta trgovine
1990.
l
Radnici u %
199 1 .
2
3
trgovina na malo
7 1 ,9
72,7
trgovina na veliko
22,9
2 1 ,8
5,2
5,5
100,0
1 00,0
robna razmjena s inozemstvom Ukupno Izvor: Statist. ljetopis RH 1992., str . 100.
� G rafikon
2. 6. Rad nici u d ruštvenom sektoru u trgovini RH 1990. i 1991. god .
Radnici u%
1 00 90 80 70 60 50
D _ _
40 30 20 10 0 -'------
1 990.
Izvor: St ljet. RH 1992, str 100.
1 99 1 .
Godina
Trgovina na malo Trgovina na veliko R�bne razmjene s Inozemstvom
24
POGLAVUE 2
Strukturu skupa radnika društvenog sektora trgovine RH 1 990. može se također prikazati i strukturnim krugom. Površina strukturnoga kruga predočuje opseg skupa, tj. 1 59,8, a površine kružnih isječaka, koje nazivamo sektori, predstavljaju pojedine frekvencij e. Površine sektora kruga moraju dakle biti u odnosu 1 1 4,9: 36,6: 8,3, a njih određuju stupnjevi pripadnih središnjih kutova kruga. U svrhu računanja veličine središnjih kutova koji određuju površine sektora kruga koristimo se razmjerom: pojedina, tj. i-ta frekvencija : opseg skupa stupnjeva : 360 . U našem će primjeru dakle stupnjevi iznositi: x
xI
= 1 1 4,9
3 60 1 59,8
2 58,8 ,
Xz
360 360 ,= 36,6 · -- = 82,5 , x3 = 8,3 · = 1 8,7 . 1 59,8 1 59,8 --
Grafikon 2. 7 . daje prikaz radnika u društvenom sektoru u trgovini RH strukturnoga kruga.
1 99 1 .
pomoću
� Grafikon 2 . 7 . Radnici u društvenom sektoru u trgovi n i RH i 1 99 1 . god .
Ld !lB .. Izvor: St. liet. RH
Trgovina na malo Trgovina na veliko R?bne razmjene Inozemstvom
S
1992, str 1 00.
Želimo li usporediti samo strukturu obaju osnovnih skupova iz tabele 2. 1 0. , to možemo učiniti pomoću dvaju strukturnih krugova jednakih polumjera. No želimo li usporediti i opseg i strukturu obaju skupova, površine krugova moraju biti proporcionalne njihovim opsezima, tj. mora vrijediti: rl2 n : ri n
N I : Nz
OSNOV N I POJMOVI I TEH N I KE DESKR I PTIVNE STATI STIKE
Pokratimo dva člana razmjera s fl te uzmimo neka je Za primjer iz tabele 2. lO. to iznosi
rl
=
l .
Tada je
25
r2
=0 9 , 4 .
Za prikaz pomoću proporcionainih strukturnih krugova potrebno je, na već opisani način, izračunati i veličine središnjih kutova koji određuju veličine pojedinih sektora. Oni u ovom slučaju iznose: .....
Ta bela 2 , 1 2 . Struktura rad n i ka u d ruštvenom sektoru u trgovini R H 1 990. i 1 99 1 . Struktura (stupnjevi kruga)
Vrsta trgovine
1990.
1991.
2
3
trgovina na malo
258,8
2 6 1 ,8
trgovina na veliko
82,5
78,4
l
robna razmjena s inozemstvom Ukupno
18,7
19,7
360,0
360,0
Izvor: Statist ljetopis RH 1992., str . 100 .
..... G rafikon 2 . 8 . Rad nici u d ru štvenom sektoru u trgovin i R H 1 990. i 1 99 1 . god .
Trgovina na malo Trgovina na veliko
.. 1 990. Izvor: St. ljet. RH
1 992. ,tr 100.
1 99 1 .
R?bne razmjene s mozemstvom
26
POGLAVUE 2
Osim pomoću strukturnih krugova, pojave se prikazuju i uspoređuju i pomoću strukturnih polukrugova. Postupak je identičan kao kod prikaza pomoću krugova, osim što se pri računanju stupnjeva kruga množi sa 1 80, umjesto s 360. U našem bi primjeru oni iznosili:
...
I
Tabela 2 . 1 3 . Struktura radnika u društvenom sektoru u trgovini RH 1 990. i 1 99 1 .
! trgovina na malo •
Struktura (stupnjevi polu kruga)
Vrsta trgovine
1990.
1991.
2
l
trgovina na veliko robna razmjena s inozemstvom Ukupno
3
1 29,4
130,9
41,2
39,2
9,3
9,9
180,0
180,00
Grafikonom 2.9. dana je usporedba pomoću proporeionalnih strukturnih polukrugova:
... Grafikon 2 . 9 . Radnici u društvenom sektoru u trgovini RH 1 990. i 1 99 1 . god .
I , ;; 1
Trgovina na malo Trgovina na veliko
.. 1 990.
Robne razmjene s inozemstvom
1 99 1 .
Izvoc st. ljet. RH )992• •Ir 1 00.
Među opisima grafičkih prikaza nominalnih podataka treba izdvojiti grafičko prikazivanje geografskih nizova. U njihovu se prikazivanju osim opisanim površinskim grafikonima geometrijskim likovima, jednostavnim, dvostrukim i razdijeljenim ili strukturnim stupcima koristimo i kartogramima. Kartogrami su geografske karte na kojima je na različite načine
OSNOVNI POJ MOVI I T EH NI KE D ESKRI PTIVNE STATISTIKE
27
(npr. sjenčanjem, bojenjem, ucrtavanjem geometrijskih likova i sL) prikazana vezanost podataka za određeni prostor. Katkad se pokazuje potreba istodobnog grupiranja jedinica osnovnog skupa prema dva ili više obilježja. Na taj način grupirani podaci prikazuju se u kombiniranoj tabeli, Takva se tabela naziva još i tabelom kontingencije. Najjednostavniji slučaj kombinirane tabele, popularnog naziva tabela dva ulaza, imamo ako je provedeno istodobno grupiranje prema dva obilježja, kao što je slučaj u sljedećem primjeru. U tabeli kontingencije 2, 1 4. prikazano je stanovništvo RH po spolu i aktivnosti prema popisu 199 1 . Imamo, dakle, slučaj da je stanovništvo istodobno grupirano prema dva nominalna obilježja. s
...
Tabela 2 . 1 4 . Stanovništvo RH po s po l u i a ktivnosti prema popisu 1 99 1 . ( u 000) A k t i v n o s t
muškarci
1 166
Osobe s osobnim prihodima 345
651
2162
žene
874
404
1059
2337
Ukupno
2040
749
1710
4499
Spol
Aktivno stanovništvo
Uzdržavano stanovništvo
Ukupno
IzvQr: SUH·9B., str, B9
Podaci iz tabele 2, 1 4. mogu se grafički prikazati strukturnim stupcima. Podatke koji se nalaze unutar tijela tabele, tj. njezina brojčanog dijela iz kojega su izuzeti zbirni ili zbrojni red i stupac, možemo prikazati i dvostrukim stupcima (npr. za svaku aktivnost po dva međusobno naslonjena stupca - jedan za muškarce i jedan za žene), Podaci sadržani u kombiniranoj tabeli analiZiraju se pomoći postotaka, i to na tri načina, ovisno o izboru njihove baze (broja koji je nazivnik pojedinog postotka). Tabele 2 . 1 2. 1 6. i 2. 1 7. sadrže postotke izračunane na temelj u podataka iz tabele 2. 1 4.
28
�
POGLAV U E 2
Tabela 2 . 1 5 .
Spol
Aktivno stanovništvo
A k t i v n o s t Osobe s osobnim prihodima
Uzdržavano stanovništvo
Ukupno
muškarci
25,9
7,7
14,5
48, 1
žene
1 9,4
9,0
23,5
5 1 ,9
Ukupno
45,3
16,6
38,0
1 00,0
Izvor: SUH-98., str. 89
U tabeli 2. 1 5. baza postotaka je opseg populacije, tj. 4499. Vidimo, npr., da su aktivne osobe muškog spola činile 25,9%, a aktivne osobe ženskog spola 1 9,4% ukupnog broja stanovnika RH prema popisu 199 1 . Ukupno aktivno stanovništvo činilo je tada 45,3%, dakle manje od polovice ukupnog broja stanovnika, itd.
�
Tabela 2 . 1 6 .
Spol
muškarci
Aktivno stanovništvo 53,9
A k t i v n o s t Osobe s osobnim prihodima 1 6,0
Uzdržavano stanovništvo
Ukupno
30,1
100,0
žene
37,4
17,3
45,3
100,0
Ukupno
45,3
16,6
38,0
100,0
Izvor: SUH-98., str. 89
U tabeli 2. 1 6. baze postotaka su brojevi iz zbirnoga (tj. rubnoga ili marginalnog) stupca tabele 2.14., tj. brojevi 2 1 62, 2337 i 4499. Vidimo da su od ukupnog broja muškaraca, po popisu 1 99 1 ., njih 53,9% aktivni, 1 6% imaju osobne prihode, dok ih je 30, 1 % uzdržavano. Od ukupnog broja žena, prema istom popisu, aktivno je 37,4% itd. Postoci u zbirnom redu identični su onima iz prethodne tabele, jer im je baza ista, tj. 4499.
OSNOVNI POJMOVI I TEHN I KE DESKRIPTIVNE STATISTIKE
....
29
Tabela 2 . 1 7 . A k t i v n o s t Aktivno stanovništvo
Osobe s osobnim prihodima
Uzdržavano stanovništvo
Ukupno
muškarci
57,2
46, 1
38, 1
48 , 1
žene
42,8
53, 9
61,9
5 1 ,9
lIkupno
100,0
100,0
100,0
100,0
Spol
,----..
Izvor: SUH-9S., sIT. 89
U tabeli 2 . 1 7. baze postotaka su brojevi iz zbirnog (marginalnog) retka tabele 2 . 1 4 . , tj. brojevi 2 040, 749, 1 7 1 0 i 4499. Vidimo, npr., da su od uku pnog broja aktivnih stanovn ika,
prema popisu 1 99 1 . , 57,2% činili m u škarci, a 42 ,8% žene. Od u kupnog broja uzdržavanih stanovnika čak 6 1 ,9% čine žene, mada ih je u u ku pnoj populaciji bilo 5 1 ,9% itd. Redoslijedni ili ordinalni n izovi predočuj u se grafički na isti način kao i nominalni statistički n izovi.
2.2.1 . Grafičko prikazivanje numeričkih nizova N umerički se nizovi općenito prikaZUju površinskim i linijskim grafikonima. Za n umeričke varijable ima i drugih načina grafičkog prikaza. Ako su dane pojedinačne vrijednosti n umeričke varijable X i ako ih je usto relativno malo, koristi se
pomoću točalw.. N a vodoravno položenu dužinu nanese se aritmetičko mjerilo
grafičhi prihaz;
za promotreno
n umeričko obilježje i iznad nje se na odgovarajuća mjesta ucrtavaj u točke koj ima se prikazuju
pojedinačne vrijednosti varijable. Primjer 2.2. 1 . 1 . za 25 zaposlenih poduzeća "X" prikupljeni su podaCi o navršenim godinama starosti i u ređeni po veličini. Oni su iznosili:
1 8 1 9 19 1 9 1 9 20 20 22 2 3 2 3 23 2 5 25 25 27 29 3 0 3 1 3 3 3 3 40 45 5 8 60 62 god. Točke ucrtane
II
godine starosti":
grafikon 2 . 1 0. zorno predočuju raspored vrijednosti varijable "navršene
30
POGLAVUE 2
� G rafikon 2 . 1 0 . Zaposleni poduzeća "X" prema godinama starosti • • ••
�
� �
• • •
•
•••
• •
� � � � � �
•
•
•
•
•
* � � �
Godi n e starosti
U svrhu prikaza relativno manjeg broja pojedinačnih vrijednosti numeričke varijable u novije je doba sve više u upotrebi "S-L " dijagram. Naziv potječe od engleskog: "Stem &- Leaf', tj. deblo i list. Uredeni se podaci prikazuju na takav način da se istaknu takozvane "vodet'e" znamenke koje predstavljaju deblo. Ostale znamenke predstavljaju lišće. za podatke iz prethodnog primjera izgled S- L dijagrama je sljedeći: � G rafikon 2. 1 1 . 1 2 3 4 5 6
89999 002 3 3 3 5 5 5 79 01 3 3 05 8 02
dijagram, kao i prije prikazani dijagram točaka, Iako se konstruiraju uz pomoć odgovarajućega programa za računalo. Način kreiranja S- L dijagrama nije nužno jedinstven, pa je za njegovo čitanje u ispisu računala sadržana naznaka o tome kako su u konkretnom slučaju prezentirane originalne vrijednosti numeričke varijable (u ovom slučaju: 1 1 8 = 1 8 ) . Često ispisi sadrže i stupac zbroja listova. Zbrojeni listovi zajedno daju opseg skupa podataka. Znamenke koje čine lišće doimaju se poput horizontalno položenih stupaca i pružaju dobru vizualnu predodžbu o promatranoj pojav{ Tako u ovom slučaju vidimo da se mahom radi o mladoj populaciji zaposlenih - "stupac" desno od znamenke 2 koja pripada deblu je kudikamo najveći, a za njim po veličini slijedi stupac desno od znamenke l , iz kojeg razabiremo da je pet zaposlenih mlade od 20 godina. S-L dijagram sadrži sve prikupljene podatke u vrlo podesnoj, kompaktnoj formi. S- L
7) To je najvjerojatnije i razlog svrstavanju S-L dijagrama medu grafove.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
31
Distribucija frekvencija se grafički prikazuje površinskim i linijskim grafikonom. Površinski grafikon naziva se histogram, a linijski poligon frekvencija. Histogram se konstruira pomoću međusobno spojenih pravokutnika čije površine prikazuju pojedine frekvencije, a površina pod svim pravokutnicima zajedno prikazuje opseg skupa podataka. Da bi se to postiglo, osnovice stupaca moraju biti proporcionalne veličinama razreda, a ako one nisu jednake, visine stupaca moraju biti proporcionalne frekvencijama, koje prethodno treba korigirati dijeljenjem veličinama razreda. Korigirane frekvencije označavamo sa fd . One se, dakle, dobivaju dijeljenjem:
Za konstrukciju histograma mogu se rabiti bilo apsolutne, bilo relativne frekvencije, budući da su one međusobno proporcionalne. Relativne se frekvencije korigiraju na isti način kao i apsolutne. Korigirane relativne frekvencije označuju se sa pc; , odnosno sa Pd , ovisno o tome radi li se o proporcijama ili postocima, a računaju se: p
P ci = -:-
l
'
odnosno
Pci
=
p. � l
Konstrukciju histograma pokazat ćemo na dva simulirana primjera: �
Tabela 2 . 1 8 . Prodavaonice pouzeća X prema broju prodavača Broj prodavača
Broj prodavaonica
Veličina razreda
Korigirane frekvencije
Xi l
fi 2
ii 3
!Ci
2
2
l
2
3
8
l
8
4
7
l
7
5-8
3
4
0,75
U ku pno
20
-
4
-
32
POGLAV U E 2
... Grafikon 2 . 1 2 . Prodavaonice poduzeća "xn prema broju prodavača Broj prodavaonica
6
o +---i-+----+--I-...2..--..-+-5·8
pr.,::�.c:a
Ovo j e primjer histograma distribucije frekvencija diskontinuirane varij able "broj prodavača". Nakon prve tri grupe (koje u svrhu grafičkog prikaza možemo tretirati kao razrede veličine 1 ) , slijedi razred veličine 4 pa je stoga posljednja frekvencij a doživjela korekcij u. Ispod sredi ne baza prvih triju stupaca su oznake pripadne vrijednosti numeričke varijable, tj. 2, 3 i 4. Ispod sredine posljednjeg stupca su oznake nominalnih granica posljednjeg razreda, tj. 5-8. Ako namjeravamo na grafikonu prikazati još i položaj nekih naknadno izračunanih pokazatelja (npr. položaj aritmetičke sredine), tada ispod osi apscisa moraju, umjesto nomi nalnih, stajati oznake preciznih granica. One se stavljaju točno ispod mjesta koja predočuju granice pojedinih razreda. Takva varijanta histograma pokazana je na grafikonu 2. 1 3 . ... G rafikon 2 . 1 3 . Prodavaonice poduzeća "xn prema broju prodavača Bmj prodavaonica 8
6 5 4
2
Broj O +--f--I--"-F-+--'-"-----"-f-- prodavata 1 ,5
2,5
3,5
4.5
8,5
OSNOVNI POJMOVI I TEH N I KE DESKR I PTIVN E STATISTIKE
33
Iste podatke prikazat ćemo i linijskim grafikonom, tj. poligonom frekvencija. Poligon se frekvencija izvodi iz histograma na taj način da se polovišta gornjih stranica stupaca spoje. To je pokazano na grafikonu 2. 14. � G rafikon 2 . 1 4 . Prodavaonice poduzeća "X" prema broju prodavača B roj prodavaonica
8 7 6 5 4 3 2
O �----��+---�--�--1 ,5
2,5
3,5
4,5
8,5
Broj prodavata
U svrhu konstrukcije poligona frekvencija nije potrebno prethodno nacrtati histogram. On se može izravno nacrtati tako da se točke, čije se ordin ate nalaze nad mjestima koja predstavljaju sredine pojedinih razreda (ili grupa kod diskretne varijable), međusobno spoje. To je učinjeno na grafikonu 2. 1 5 .
34
POGLAVLJE 2
� G rafi kon 2 . 1 5 . Prodavaon ice poduzeća "X" prema broju prodavača 8 roj prodavao n ica
8 7 6 5 4 3 2
8 roj O +-----+-----r- prodavaća 8,5 1 ,5 2,5 3,5 4,5
Na primjeru koji slijedi pokazat ćemo grafički prikaz distribucije frekvencija kontinuirane numeričke varijable "godine starosti"pomoću histograma, a nakon toga pomoću poligona frekvencija. �
Tabela 2 . 1 9 . Radnici poduzeća "X" prema godinama starosti Godine starosti
Broj radnika
Veličina razreda
Korigirane frekvencije
Xi l
Ji 2
ii 3
!Ci
18 - 20
10
2
5
20 - 22
15
2
7,5
22 - 28
15
6
2,5
28 - 32
8
4
2
Ukupno
48
-
4
-
OSNOVNI POJMOVI I TEH N I KE D ES K R I PTIVNE STATI STIKE
35
Ovo j e distribucija frekvencija s formiranim razredima. Oznake pravih granica stavljaju se, pod razredne međe: kao i u prethodnom primjeru kod preciznih ... G rafikon 2 . 1 6 . Rad nici poduzeća "X" prema godinama starosti Broj radnika 8
7
6 5
4 3 2
O +-----r-�--_+----��--+_18
20
28
22
32
Godine starosti
... G rafikon 2 . 1 7 . Radn ici pod uzeća "X" prema godinama starosti Broj radnika 8
7
6
5
4 3 2
O +_------r-�--_+--�--+_--��-18
20
22
24
26
28
32
Godine starosti
36
POGLAVLJ E 2
Kumulativni nizovi frekvencij a prikazuju se linijskim grafikonom. To ćemo ilustrirati na primjeru distribucije frekvencija iz tabele 2. 1 8. koju smo u tu svrhu modificirali dodavanjem niza kumulativnih frekvencij a. lJIlO
Tabela 2 .2 0 . Prodavaonice poduzeća "xn prema broju prodavača Broj prodavača
Broj prodavaonica
Veličina razreda
Kumulativni niz "manje od"
Xi l
Ji 2
ii
Si
2
2
1
2
3
8
1
10
4
7
1
17
5-8
3
4
20
Ukupno
20
-
-
3
4
Oznake na grafikonu kojim se prikazuje kumulativni niz slične su onima iz histograma, odnosno poligona frekvencija. Oznake na osi apscisa su istovjetne, dok se na os ordinata nanosi mjerilo za kumulativne frekvencije (od O do N, ako se kumuliraju apsolutne frekvenCije, odnosno od O do l ili 1 00 ako se kumuliraju relativne frekvencije). Mjerilo je na obje osi aritrnetičko. za razliku od poligona frekvencija, ovdje su ordinate točaka, koje se međusobno spajaju linijama, dignute iznad gornjih granica razreda (a ne iznad njihovih sredina). Dobiveni je graf rastući jer je svaka kumulativna frekvencija veća od prethodne i naziva se kumulanta. lJIlO G rafi kon 2 . 1 8. Prodavaonice poduzeća "xn prema broju prodavača - kumulativni prikaz Prodavaonice kumulativno 20 18
16 14 12
10 8
6
4
2
O +-____�--+-�--�------------�---1 ,5
2,5
3,5
4,5
8,5
B� prodavača
OSNOV N I POJMOVI I TEH N I KE D ESKR I PTIV N E STATISTIKE
37
2.2.2. Relativni brojevi koordinacije i indeksi kvalitativnih nizova Ako raspolažemo podacima koji su dobiveni dijeljenjem dvaju nizova originalnih podataka, za njihovo se grafičko prikazivanje koriste stupci promjenljive širine. Na primjer, izvorni podaci mogu biti broj stanovnika na pojedinim područjima i veličina tih područja u km2, a njihovim dijeljenjem dobivamo izvedene podatke o broju stanovnika na km2 za pojedino područje. Takvi se izvedeni pokazatelji naZivaju relativni brojevi koordinacije. Uz oznaku R; za relativni broj koordinacije, on se definira kao i = l , . . . , k,
BI '
pri čemu se oznaka rabi za i-tu veličinu u brojniku, a Bi za i-tu veličinu u nazivniku pojedinoga relativnog broja. Površine prikazanih stupaca predstavljaju veličine u brojnicima pojedinih relativnih brojeva koordinacije. Tabela 2.2 1 . i grafikon 2. 1 9. sadrže prikaz relativnih brojeva koordinacije. Oni se prikazuju grafikonom na Čiju se os ordinata nanosi aritmetičko mjerilo za relativne brojeve koordinacije, dok se na os apscisa nanose dužine proporcionalne bazama relativnih brojeva. Nanesene dužine na os apscisa su osnovice stupaca, a veličine relativnih brojeva koordinacije njihove visine. Razmak među stupcima je prOizvoljne veličine. Vi
..
Ta bela 2 .2 1 . Bruto nacio n a l n i proizvod po glavi stanovni ka u N orveškoj , Švedskoj i Danskoj 1 996. Bruto nac. proizvod po glavi st.,USD
Broj stanovnika u 000
Ri 2
Bi
Danska
32100
5251,0
Norveška Švedska
3451 0
4370,0
25710
8837,5
Država 1
Izvor: Stat. ljetopis 1998., str. 576 i 586.
3
38
POGLAVUE 2
... G rafikon 2 . 1 9 . Bruto nacional n i proizvod po glavi stanovnika u Norveškoj , Švedskoj i Danskoj 1 996.god.
u
BNP / st. m i l . USD
40
30
20
10
O
+-_L-��'--..l-_L-__-L_...l.� .- -'-";;";' _ _� -L_
Da n ska Izvor: st.
Norveška
Broj stanovnika
Svedska
ljet. RH 1 998, str 576 j 586.
Tabelu 2.2 1. možemo proširiti dodavanjem stupaca koji sadrže indekse. Indeksi su relativni brojevi koji se dobivaju dijeljenjem dviju veličina i množenjem dobivenih kvocijenata sa sto. To drugim riječima znači da je veličina u nazivniku, tj. baza usporedbe, izjednačena sa 100. Po tome su oni slični postocima, jedino što kod indeksa veličina u brojniku ne mora biti dio veličine u nazivniku, kao što je to slučaj kod postotaka. Indekse ćemo označiti sa Iil I· = I
B
· 100 '
i = l,
.'"
k,
pri čemu se oznaka koristi za i-tu veličinu koja se uspoređuje, a B za bazu indeksa, tj. veličinu s kojom se provodi usporedba. Vi
OSNOVNI POJ MOVI I TEH N I K E DESK R IPTIVNE STATISTIKE
39
Ta bela 2 . 22 . Bruto nacionalni proizvod po glavi stanovnika, stanovnici, i ndeksi bruto nac. proizvoda i indeksi broja stanovnika u Norveškoj, Švedskoj i Danskoj 1 9 96.
Bruto nac. proizvod po glavi st.,USD
Broj stanovnika u 000
Ri 2
Bi 3
l/l)
Danska
32100
5251,0
1 00,0
Norveška Švedska
345 10
4370,0
107,5
83,2
25710
8837,5
80,1
1 68,3
Država
l
Indeksi bruto nac. proizv. po glavi stan., Danska = 1 00 4
Indeksi broja stanovnika, Danska = 100
lP) 5
1 00,0
Izvor: Stat. ljetopis 1998., str. 576 i 586.
Indeksi se interpretiraju prema obrascu: indeks - 1 00 = % razlike u odnosu na baznu veličinu. Vidimo, npr., da je u Norveškoj bruto nacionalni proizvod po glavi stanovnika bio za 7,5% veći, a u Švedskoj 1 9,9% manji, nego u Danskoj. Grafički prikaz indeksa vrlo je ilustrativan. Na os ordinata nanosi se mjerilo za indekse. S mjesta na ordinati na visini 1 00 povučena je horizontalna linija uz koju su položeni jednostavni stupci. Stupci su okrenuti prema gore ili prema dolje, ovisno o veličini indeksa. U našem će primjeru indeks 1 07,5 biti položen prema gore, a indeks 80, l bit će okrenut prema dolje, računano od početne linije 1 00, koja čini bazu indeksa. � Grafikon 2 . 20 . I ndeksi bruto naciona l nog proizvoda po glavi sta novn i ka u Švedskoj i Norveškoj 1 996.god ine (i ndeks bruto nac. projzvoda 1 00) po glavi sta n . u Danskoj =
Indeks 110 1 05 1 00 95
90 +---,..,.--,-""T----L- Danska 85
80
Norve�ka
Izvor: St. ljet. RH 1998, str 576. j 586.
Švedska
40
POGLAVLlE 2
2.3. Srednje vrijednosti praksi se redovito pojavljuje potreba da se niz prikupljenih podataka, kojih je po pravilu mnogo, zamijeni jednim jedinim brojem, tzv. srednjom vrijednosti. Srednja je vrijednost konstanta koja predstavlja niz varijabilnih podataka. Nju je moguća shvatiti i kao središnju vrijednost oko koje se gomilaju podaci, zbog čega se naziva još i mjerom centralne tendencije. Među temeljne vrste srednjih vrijednosti spadaju: aritmetička, harmonijska i geometrijska sredina, te mod i medijan. Prve se tri spomenute srednje vrijednosti ubrajaju u potpune srednje vrijednosti, dok se mod i medijan ubrajaju u tzv, položaj ne srednje vrijednosti. Potpune su srednje vrijednosti one za čije se računanje koriste svi podaci, za razliku od položajnih čija je vrijednost određena njihovim položajem unutar danog niza. ti
2.3.1 . Aritmetička sredina Aritmetička je sredina najvažnija, najpoznatija i najviše upotrebljavana potpuna srednja vrijednost. Naziv koji se rabi za aritmetičku sredinu u svakodnevnom životu jest "prosjek" ili "prosječna vrijednost". Aritmetička sredina se definira kao omjer zbroja svih vrijednosti numeričke varijable i broja njezinih vrijednosti. Dakle, za proizvoljnu numeričku varijablu X, aritmetička je sredina, za koju se uobičajeno rabi oznaka x , dana izrazom:
N
N
(2. 1 2) N
Brojnik aritmetičke sredine, tj. zbroj vrijednosti numeričke varijable (simbolički: 2:>; )' naziva se total. ti njezinu se nazivniku nalazi broj vrijednosti numeričke varijable, tj, opseg skupa podataka. Možemo, dakle, reći da je aritmetička sredina dio totala koji otpada na jedinicu skupa podataka (populacije). Na primjeru navršenih godina starosti 25 zaposlenih poduzeća X (primjer 2.2. 1 . 1 .) , varijabla X je iznosila: ;=1
1 8 1 9 1 9 1 9 19 20 20 22 23 23 23 25 25 25 27 29 30 3 1 33 33 40 4 5 58 60 62
pa total iznosi: 18 + 19 + . 25 radnika). .
.
+ 62
748
god,
godina (što čini ukupni broj navršenih godina starosti svih
41
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
Aritmetička sredina, tj. prosječna starost radnika iznosi -x 748 29,92 god ine. - ==
25
Aritmetička je sredina izražena u istim mjernim jedinicama kao i numerička varijabla. Po brojčanoj se vrijednosti ona ne mora poklapa ti ni s jednom od originalnih vrijednosti varijable. Također, iako je varijabla cjelobrojna (u ovom slučaju "navršene godine starosti"), njezina aritmetička sredina može poprimiti svaku vrijednost između dva cijela broja. Naznačit ćemo položaj izračunane aritmetičke sredine na grafikonu pomoću točaka. .... G rafikon 2 .2 1 . Zaposleni poduzeća "X" prema god i na m a starosti • • ••
� '2
"o
. :. . . . e
eo
I
eo
o N
• • •• N N
• • • '!t N
• \o N
I
eo N
• •
•••
,
o M
N M
• '!t M
\o M
eo M
o ....
•
•
•
•
N '!t
Godine starosti
Prikaz pomoću toga grafikona sugerira shvaćanje aritmetičke sredine kao težišta. Aritmetička sredina računana na opisani način naziva se jednostavna aritmetičlw sredina, a primjenjuje se kad podaci nisu grupirani, dakle kad raspolažemo s pojedinačnim vrijednostima numeričke varijable. Kada su podaci grupirani, tj. kada je formirana distribucija frekvencija, svaka se vrijednost varijable X pojavljuje s pripadnom frekvencij om. Kao što je već rečeno, distribuciju frekvencija čine parovi (Xi ) D, tj. XI,JI
xl, fl
Prvi dio svakoga para, tj . vrijednosti varijable X jesu ili stvarne, dakle promotrene vrijednosti numeričke varijable (ako su formirane grupe), ili, što je češće, razredne sredine ako su formirani razredi obilježja. U distribuciji se frekvencija obilježje XJ pojavljujefJ puta, obilježje Xd2 puta itd., pa izraz za tzv. vaganu ili ponderiranu aritmetičku sredinu glaSi: k
+ Xd2 + . . . + x k ik fl + f2 + ... + fk
Xd,
L X; !;
-k-L fi ;=1
i=l
i = 1 ,2, ... ,k.
(2. 1 3)
42
POGLAVU E 2
Apsolutne frekvencije j; u gornjem izrazu čine pondere8 kojima se mjeri "važnost" svake pojedine vrijednosti varijable X. Naime, vrijednost varijable koja se češće pojavljuje od ostalih, te koja stoga ima veću pripadnu frekvenciju, više utječe na veličinu aritmetičke sredine. Pojedinačni produkti xJ . koji se zbrajaju u brojniku izraza za aritmetičku sredinu nazivaju se podtotali (alternativni naziv: subtotali). k
Zbrojeni podtotali, tj. L XJi ' čine u slučaju vagane aritmetičke sredine total. Kako je izraz i=1 k
u nazivniku, L fi ' jednak opsegu skupa podataka
N,
to je i gornji izraz za aritmetičku
i=1
sredinu u skladu s definicijom da je ona di6 totala po jedinici skupa podataka. Treba istaknuti da ponderirana aritmetička sredina nije posebna vrsta sredine. Radi se samo o drukčijem načinu zapisivanja izraza za aritmetičku sredinu, s obzirom na to da frekvencije pokazuju s kolikom se učestalošću pojavljuje jedna te ista vrijednost obilježja. Za već dani primjer anketiranih obitelji prema broju djece (tabela 2.3.) izračunat ćemo aritmetičku sredinu: �
Tabela 2 . 2 3 . Anketi rane obitelji prema broju djece
Broj djece
Broj obitelji
Podtotali
l
/i
xdi 3
P4i
O
7
l
9
2 3 4
4
Ukupno
40
Xi
XPi
Pi
O
0,1 7 5
O
1 7 ,5
O
9
0,225
0,225
22,5
22,5
13
26
0,325
0,65
32,5
65,0
7
21
0,1 7 5
0,525
1 7 ,5
52,5
16
0,1
0,4
10,0
40,0
72
1 ,0
1,8
100,0
180,0
2
Podaci su simulirani
5
L XJi
= l' 8 dJ' ece. X = ....:.i=--,I5:--_ = � 40 LI i=1
8) od latinskog pondus, ponderis - uteg; težina, teret
5
6
XPi 7
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
43
Prosječna veličina obitelji mjerena brojem djece, u našem slučaju iznosi nešto manje od dva, tj. 1 ,8. Vidimo da iako je varijabla diskretna, i to cjelobrojna, aritmetička sredina može poprimiti vrij ednost decimalnoga broja. Do istog rezultata možemo doći i korištenjem relativnih frekvencija kao pondera. i to kako proporcij a. tako i postotaka. Naime, podijelimo li podtotale xj; u brojniku izraza za aritmetičku sredinu opsegom skupa brojem nazivnik. dobivamo: x = --'-'---'""-7-;----''-'-
N
x
:=
N
k
(podsjetimo se: L J; i=l
N ), te podijelimo li istim
Kako je opći izraz za proporcije P i = fi dobivamo: N ,
k X1PI + XZP2 + ... + XkPk L XIP i ' i=1
(2. 1 4)
Izraz za računanje aritmetičke sredine pomoću postotaka dobiva se na analogni način. Osim opisanoga dijeljenja sa N, brojnik i nazivnik izraza za aritmetičku sredinu množe se sa 1 00, te se dobiva: (2. 1 5) Korištenje relativnih frekvencija u svrhu računanja aritmetičke sredine pokazano je na primjeru anketiranih obitelji prema broju djece. U stupcu br. 4 izračunane su proporcije, koje su u sljedećem stupcu pomnožene pripadnim vrijednostima numeričke varijable. Zbroj stupca 5 sadrži aritmetičku sredinu. U sljedećem su stupcu, stupcu br. 6, računani postoci koji su nakon toga u stupcu br. 7 također' pomnoženi vrijednostima varijable iz stupca br. l . Zbroj stupca 7 je stostruka vrijednost aritmetičke sredine. Računanje aritmetičke sredine može se pojednostavniti pomoću linearne transJonnacije obilježja ili kodiranja. Vrijednosti numeričke varijable znadu biti veliki brojevi, koje se podesnim računskim operacijama može drastično smanjiti. Originalna se varijabla X prevodi u kodiranu varijablu DJ koju čine brojčano male vrijednosti podesne za računanje. Linearna transformacija ili kodiranje zadano je izrazom: Xi
d., = xi - a b
'
(2. 1 6)
Simbolima a i b označene su konstante, b #. O. Konstanta a naziva se konstantom kodiranja. Njezina je zadaća da se smanje originalne vrijednosti varijable X. Naime, pogodnim izborom
44
POGLAVU E 2
konstante tj. ako je ona "blizu" originalnih vrijednosti, postiže se da razlike (tj. diferencije, odatle izbor simbola di) budu malene. Postupak se kodiranja provodi tako da se najprije izračunaju sve razlike Nakon toga ih se pregleda da bi se ustanovilo je li moguće njihovo kraćenje. Ako ih je moguće skratiti, broj kojim to postižemo, tj. njihov najveći zajednički djelitelj, jest tražena konstanta b. Ako zajedničkog djelitelj a, različitog od jedinice, nema, tada se kodiranje svodi na računanje razlika S kodiranom varijablom D provodimo postupke računanja aritmetičke sredine uobičajene za originalnu varij ablu X. Računamo, dakle, njezin prosjek oznaka J kako za pojedinačne, negrupirane vrijednosti, tako i za distribuciju frekvencija. li slučaju pojedinačnih vrijednosti, računamo nevagani prosjek, tj. jednostavpu aritmetičku sredinu kodirane varijable D, a za distribuciju frekvencija računamo njezin vagani prosjek. Jednostavna se aritmetička sredina računa prema obrascu: a,
Xi
Xi
-
-
a
a.
Xi
a.
-
k
L dJi d = � , za razliku od vagane sredine koja je dana izrazom: d = .:.i=�1,.-N Lh i={ Traženi vagani prosjek d možemo također izračunati pomoću relativnih frekvencija, pa je d
k
=
L diPi ' ako u računanju rabimo proporcije, odnosno, i=l
k
L diPi
d = ..!::L- , ako rabimo postotke. 1 00
Nakon što izračunamo prosječnu vrijednost kodirane (linearno transformirane) varijable, potrebno je izračunati prosječnu vrijednost originalnog obilježja X, budući da je ono predmet našeg interesa, a ne transformirano obilježje D koje je "tehničkog" karaktera . Obilježje D je samo sredstvo lakšeg načina računanja aritmetičke sredine. Do tražene aritmetičke sredine originalnog obilježja X dolazimo pomoću izraza: (2. 1 7)
Ovaj je izraz identičan kako za pojedinačne vrijednosti obilježja, za pojedinačne podatke, tako i za distribuciju frekvencija. Do njega se jednostavno dolazi pomoću definicije kodirane varijable D. Kako je, naime, a
b
>
slijedi da je
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
45
a + bdi ' Kako t o vrijedi za sve vrijednosti varijable, tj. za svaki i, njihovim zbrajanjem dobivamo
Xi
N
N
L >i Na + bIA · i=l Dijeljenjem ovog izraza s N , direktno dolazimo do izraza (2. 1 7.). Zelimo li pokazati da on i=l
vrijedi i za distribuciju frekvencija, potrebno je prije zbrajanja izraz Xi =
a + bdi
pomnožiti s pripadnom frekvencijom, tj. sa];: Xi]; = a]; + bdJi ' Zbrajanjem po i, tj. zbrajanjem svih k takvih jednadžbi (podsjetimo se, odnosno razreda u distribuciji frekvencija) dobivamo k
k
k
k
je broj grupa,
k
L xJ; = aL /; + b L d!/; . Dijeljenjem ovog izraza zbrojem frekvencija LJi i =l ;=1 i=l 1=1
'
ponovno dobivamo izraz (2. 1 7.). Do istog smo rezultata mogli doći i da smo izraz xi=a+bdi umjesto s apsolutnim, množili s relativnim frekvencijama. U slučaju takvog postupka s proporcij ama, posljednje bi dijeljenje zbrojem relativnih k
frekvencija otpalo, budući da je L p i=l
i
=l.
Kod istovjetnog postupka pomoću postotaka bilo bi potrebno k zbrojenih jednadžbi podijeliti sa 1 00. Računanje aritmetičke sredine pomoću linearne transformacije obilježja pokazat ćemo na tri mala simulirana primjera, od kojih je prvi primjer negrupiranih, pojedinačnih vrijednosti numeričke varijable, dok su druga dva primjeri distribucije frekvencija. .....
Tabela 2 . 2 4 . Proizvodnja artikla �IAI! , u kom . , za bilježena kod petorice radn i ka Proizvodnja u kom. Xi
Xi - a
360
-20
-1 -0,5 O
l
2
370
-10
380
O
di 3
420
40
2
470
90
4,5
2000
-
5
46
POG LAVUE 2
Sva su petorica radnika ukupno proizvela 2000 komada tog artikla, što je total koji podijeljen na pet članova toga skupa daje prosječno 400 komada po radniku. Izraženo formulom, takvo izravno računanje glasi: 5
X
=
2:> i �
=
N 2 i 3
2000
5
400
kom.
U stupcima br. proveden je postupak linearne transformacije. Od svake je pojedine vrijednosti varijable X, sadržane u prvom stupcu, u sljedećem stupcu oduzeta ista brojka, tj. odabrana konstanta 380. U posljednjem, trećem stupcu su sve razlike x;-380 iz stupca br. 2 podijeljene s 20, tj. konstantom b. Na taj su način dobivene linearno transformirane, odnosno kodirane vrijednosti varijable X. Konstanta je proizvoljno odabrana. Odabrana je brojka 3 80 čija je pozicija u sredini uređenog niza, tako da razlike budu što je moguće manje. Za izračunane razlike u stupcu 2 pokazalo se da je moguće njihovo kraćenje brojem 20, pa je on izabran za konstantu b, S transformiranim vrijednostima varijable D postupamo na isti način kao i s originalnim vrijednostima numeričke varijable, tj. računamo njihov prosjek pomoću izraza: a
x;-a
Xj-a
5
d
=
L d;
�
N
= 2. = l
5
Uvrštenjem tog rezultata u izraz (2. 1 7.) dobivamo:
x = a + bd
=
3 80 +20· l
400 kom,
kao što smo to i prije izravno izračunali dijeljenjem totala opsegom skupa podataka. Slijedi prvi od dva primjera računanja aritmetičke sredine pomoću kodiranja za distribuciju frekvencij a. .... Tabela 2 . 2 5 . Broj pogrešn i h odgovora 80 studenata na testu iz statistike Broj pogrešnih odgovora
Broj studenata
Podtotali
Xi
fi
Xdi
di
dt
O
5
O
l
7
7
-3 -2
-15 - 14
2
15
30
-l
-1 5
I
2
3
4
5
3
19
57
O
O
4
20
80
l
20
5
10
50
2
20
6
4
24
3
12
Ukupno
80
248
-
8
47
OSNOVNI POJ M OV I I TEHNIKE DESKRIPTIVNE STAT I STI K E
U stupcu br. 3 provedeno je najprije izravno računanje subtotala množenjem originalnih vrijednosti diskretne numeričke varijable "broj pogrešnih odgovora" pripadnim frekvencijama. Zbrojeni, oni daju total 248, tj. ukupni broj pogrešnih odgovora svih 80 studenata. Aritmetička sredina , računana izravno kao N-ti dio totala na jedinicu populacije iznosi: 248 80
= 3 I pogresni odgovor. > ,
;=]
Do istog se rezultata dolazi primjenom linearne transformacije di Xi -3. Kao konstanta je odabrana vrijednost središnje grupe, tj. 3 . Razlike Xi -3 izračunane u stupcu br. 4 nemaju zajedničkog djelitelja osim broja l , koji je u takvom slučaju konstanta kodiranja h. Stoga smo do kodiranih vrijednosti numeričke varijable došli u samo jednom koraku, tj. bez kraćenja. Daljnji se postupak s kodiranim vrijednostima di odvija na isti način kao i prethodno s originalnim vrijednostima. Računa se njihova vagana aritmetička sredina: 7
"I d ,fj ;=]
Izračunani prosjek kodirane varijable, tj. 0, 1 , uvrštavamo u izraz aritmetičku sredinu originalne varijable X: X=
a
+
bd
3 + 3, l = 3 , 1
(2. 1 7.)
za traženu
pogrešni odgovor.
Postupak kodiranja pokazali smo na primjeru distribucije frekvencija diskretne numeričke varijable s formiranim grupama. Kod distribucije frekvencija s formiranim razredima kao konstanta kodiranja odabire se neka od razrednih sredina (obično pozicionirana sredini niza), kraćenje razlika Xi je najčešće moguće jednom od veličina razreda, koja se u tom slučaju odabire kao h. To ćemo pokazati na sljedećem primjeru: a
a
a
u
48
�
POGLAVUE 2
Tabe l a 2 . 2 6 . Trgovačke rad nje poduzeća A prema ostvarenom mjesečnom prometu , u 000 kn : "
Razredne s redine
"
Promet u 000 kn
Broj radnj i
Xi
ji 2
Xi
Xiji
Xi - G
di
dJi
30 - 40
2
35
70
-3
-6
40 - 50
5
45
225
-30 - 20
-2
-10
50 - 60
10
55
550
-10
-l
-10
l
Podtotali
3
6
7
60 - 70
12
65
780
O
70 - 90
10
80
800
15
1 ,5
15
90 - 1 1 0
9
100
900
35
3,5
3 1,5
1 1 0 - 1 50
2
130
260
65
6,5
13
U kupno
50
-
3585
-
O
-
O
33,5
Iz tabele se vidi da je kao konstanta kodiranja odabrana sredina četvrtog razreda 65, te da su razlike 65 iz stupca br. 6 u sljedećem, sedmom stupcu podijeljene s 1 0, što je veličina prvih četiriju razreda. Sve ostalo je kao u primjeru prethodne distribucije frekvencija. Aritmetička je sredina ponovno izračunana na dva načina. Njezino računanje putem totala daje: X;
-
7
x
=
L xJ i-I
7
L li
3 :> 8 5 50 _
= -- =
7 1 7 tisuca ' kuna. ,
'
i=1
Do istog rezultata ponovno dolazimo korištenjem rezultata linearne transformacije: 7
Ld;!;
x = a + bd
0,67
6 5 + 1 0·0,67
i
=
7 1 ,7
tisuća kuna.
Već je na početku rečeno da je aritmetička sredina najviše upotrebljavana srednja vrijednost. Tome su uzrokom njezina svojstva:
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVN E STATISTIKE
49
l) Zbroj odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine jednak
je nuli. To svojstvo možemo formalno iskazati pomoću sljedećih dvaju izraza, od kojih se prvi odnosi na negrupirane podatke, na pojedinačne vrijednosti numeričke varijable, a drugi vrijedi za slučaj kad je formirana distribucija frekvencija. U prvom slučaju vrijedi i=1
k
a u drugom "L Ji (X i - x) = o . i=1
N
N
N
N
i=1
i=1
i=1
i=1
Dokaz: L )x i - x) = LX i - Ni = LX i - L X i = O , odnosno, ako je formirana distribucija frekvencija, k
k
k
k
k
L ( X i - x)Ji = L X ;!i - XL Ji = L X;!i - L X ;!i = o . i=l i=l i=1 i=1 i=l
2)
Zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine je minimalan. To svojstvo opet iskazujemo dvama izrazima, i to: N
L (x i - x)2 = min i=l
za pojedinačne podatke i k
L (X i _ X)2 Ji = min i=l
za distribuciju frekvencija. Dokaz: N
N
N
i=1
i=i
L (Xi - x) 2 + 2(x; - x)(x i=1
- a) + (x - a)2] =
L (Xi i=l N
N
[
L ( X; i=l N
N
_ x)2 + 2(x - a)L (x; - x) + N(x - a)2 i=i
L (X i _ x)2 + N(x - a)2 i=l
2
a) 2 = L (xi - x + x - a)2 = L [(X; - x) + (x - a)]
=
50
POGLAVLJE 2
Za grupirane podatke dokaz je u suštini isti, osim što se sumira od l do k i što se kvadrati odstupanja a prije zbrajanja množe pripadnim frekvencijama. Aritmetička se sredina uvijek nalazi unutar raspona vrijednosti pomoću kojih je izračunana. Ona se, znači, nalazi između minimalne i maksimalne vrijednosti obilježja, tj. Xi
3)
Izraz (2. 1 3 . ) za vaganu aritmetičku sredinu ima široku pnmJenu. Ako, npr., raspolažemo podacima o aritrnetičkim sredinama nekoliko osnovnih skupova, kao i o njihovim opsezima, tj. raspolažemo podacima:
te pripadnim opsezima skupova se sredina aritmetičkih sredina računa kao njihova vagana sredina, pri čemu kao ponderi služe opsezi skupova za koje su pojedine aritmetičke sredine prethodno izračunane. Sve aritmetičke sredine, naime, nemaju jednaku važnost. Veću važnost pridajemo aritmetičkoj sredini izračunanoj iz veće populacije. Aritmetička se sredina aritrnetičkih sredina dakle računa pomoću obrasca:
aritmetička
k
x
L xi N i
= -=7--
(2. 1 8.)
i=l
Pritom opsezi skupova Ni ne moraju nužno biti poznati u točnim iznosima. Dovoljno je znati u kom su oni međusobnom odnosu. Na primjer, znamo li da su oni u odnosu 3: 2: 5 l , onda se i ti brojevi, kojima smo procijenili njihove međusobne odnose, mogu iskoristiti kao ponderi pri računanju vagane aritmetičke sredine aritrneličkih sredina. TJ tom slučaju imamo modifikaciju izraza (2 . 1 8.) : :
k
x
L
Xj W j
1=1
(2. 1 9.)
pri čemu su W1,W2, . " , Wk ponderi proporcionalni opsezi ma populacija N, .
51
OSNOVNI POJ MOVI I TEH N I KE DESKR I PTIVNE STATISTIKE
Primjenu izraza (2.18.) pokazat ćemo na sljedećem primjeru: ....
Tabela 2 .2 7 . Prosječn i radn i staž zaposlen i h u podružn icama A, B i e Prosječni radni staž u godinama
Podružnica
Xi
2
1
Broj zaposlenih
kol.2 x kol.3 ukupni radni staž zaposlenih
Ni
Ti 4
3
A
5,2
50
260
B
7,8
70
546
e
1 2,6
1 20
1512
240
23 1 8
-
Ukupno
x
2318 240
==
9,7 godina.
Prosječni smo radni staž radnika svake od podružnica pomnožili pripadnim brojem zaposlenih i na taj način dobili koloni 4 totale T; ( Ti xjN; ) svih triju podružnica. Zbrojeni totali na dnu kolone 4 daju ukupni radni staž zaposlenih svih trij u podružnica zajedno, tj. 23 1 8 godina, što podijeljeno ukupnim brojem zaposlenih daje traženi prosjek. Daljnje primjene izraza za vaganu aritmetičku sredinu imamo kod računanja prosjeka relativnih brojeva, i to kod računanja prosjeka relativnih brojeva koordinacije i kod postotaka. U oba slučaja kao ponderi služe baze relativnih brojeva ili procjene njihovih baza svakom su slučaju brojevi proporcionalni bazama relativnih brojeva u pitanju. il skladu s time, izraz za vaganu aritmetičku sredinu relativnih brojeva koordinacije glasi: li
=
u
k
L P.;Bi;
(2.20.) ;=1
ili, ako ne raspolažemo točnim veličinama baza, već njima proporcionalnim veličinama Wj: k
p.
L RjWj
(2.21.) ;=1
Analogno, takva dva izraza za računanje prosjeka postotaka glase:
52
POGLAVU E 2
(2.22.)
k
L Pj Wj
P = -"j=-:�--
(2.23.)
Wi L i=t
Primjer postupka računanja prosjeka postotaka dan je u tabeli 2 .28. �
Ta bela 2 . 2 8 . Godišnji promet i postota k d obiti od ostvarenog prometa u pod ružnicama A, B i e Dobit u %
Promet u mil. kn.
Podružnica
kol. 2 x kol. 3 m il.
=
Di 4
2
57
Pi 3 5,1
2,907
B
1 02
1 ,8
1 ,836
e
26
5,7
1 ,482
-
6,225
c;
l A
185
Ukupno
Prosječna dobit
6,225 =
185
1 00
dobit u
3,36% .
tabeli 2.28. prikazan je postupak računanja prosjeka triju postotaka primjenom izraza (2. 1 8. ) M noženjem brojeva u stupcu 2 s onima u stupcu 3 , te dijeljenjem sa 1 00 radi iskazivanja u mi!., dobivena je u stupcu 4 dobit, koja je zatim zbrojena i podijeljena s ukupnim prometom, te ponovno pomnožena sa 1 00 radi iskazivanja u %. U
9) Korištena je uobičajena notacija pri definiranju postotaka: P, = i-ti postotak, O, = i-ti dio, C;
i- ta cjelina, tj.
IJi
Ci
1 00 .
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATIST I K E
53
2.3.2. Harmonijska sredina Harmonijska sredina se definira kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti numeričke varijable. za pojedinačne podatke ručunamo ju pomoću izraza: H
N
-:---:-----=-1- ' odnosno, kraće zapisano, +
N
H=
,=1
+ . .. + -
, uz uvjet Xi *0 za svaki i.
(2.24.)
Xi
Vagana Hi ponderirana harmonijska sredina dana je izrazom: H
JI + J2 + . . . + J{k f + .-2 f + . . . + _l_,k -1. Xk XI X2
, odnosno
, uz uvjet Xi *0 za svaki i.
H
(2.25)
Razmotrimo slučaj primjene harmonij ske sredine. Da bi se dobio povrat uloženih l mil. kn putem ulaganja u investicijski projekt A, potrebno je 1 2 mjeseci, ulaganjem u projekt B 6 mjeseci, i u projekt e 4 mjeseca, Ako investitor irna uložen isti iznos, tj. l mil. kn u sva tri projekta tijekom razdoblja od 12 mjeseci, koliko je u tom slučaju prosječno vrijeme povrata jedinice uloženog kapitala? U ovom bi slučaju bilo pogrešno računati aritmetičku sredinu, tj . . 12 + 6 + 4 3
::: 7 ' 3 3
mJ'eseci.
Naime, u razdoblju investiranja od 1 2 mjeseci investicija A rezultirala je s l mil. kn, investicija B s 2 mil. kn i investicija e s 3 mil. kn, odnosno, sve tri investicije odbacile su kroz 12 mjeseci 6 miL kn zajedno. Pornnožirno li 6 sa 7 , 3 3 dobivamo znatno više od 36 mjeseci koliko je iznosilo vrijeme ulaganja u sva tri projekata zajedno. Naime, ukupno vrijeme investiranja podijeljeno rezultirajućim kapitalom daje prosječno vrijeme povrata jedinice uloženoga kapitala. Stoga traženi prosjek pomnožen rezu!tirajućim kapitalom mora dati ukupno vrijeme investiranja. Tom zahtjevu udovoljava harmonij ska sredina. U ovom slučaju ona iznosi:
54
POGLAVUE 2
H
= -:1
3
-::---:1 + 6 4
6 mjeseci.
-
12
+
Napomena: Budući da su u ovom slučaju svi ponderi jednaki, zbog jednakog razdoblja investiranja u svaki od projekata, tj. 1 2 mjeseci, svejedno je koristi li se izraz za vaganu ili za jednostavnu harmonijsku sredinu. Da smo se koristili izrazom za vaganu harmonijsku sredinu, svi bi se ponderi pokratili s dvanaest i na taj se način sveli na gornji izraz. Pomnožirno li dobiveni rezultat sa 6 (s rezultirajućim kapitalom), dobivamo 36, tj, ukupni broj mjeseci trajanja svih triju ulaganja. Vagana se harmonijska sredina rabi u svrhu računanja prosjeka relativnih brojeva kada raspolažemo brojnicima relativnih brojeva (ili procjenama brojnika), a nedostaju nam podaci o njihovim bazama, tj. nazivnicima" U takvim slučajevima rabimo brojnike (ili njihove procjene) kao pondere u izrazima za vaganu harmonijsku sredinu. Tako, na primjer, izraz za vaganu harmonijsku sredinu relativnih brojeva koordinacije glasi k
R
:�:>i
(2.26.)
te za vagan u harmonijsku sredinu postotaka k
IDi
(2.27.)
U to se pravilo uklapa i gore opisani primjer, budući da je prosječno vrijeme povrata jedinice uloženoga kapitala omjer ukupnog trajanja ulaganja i rezultirajućega, proizvedenog kapitala. Vremensko trajanje ulaganja je brojnik vremena povrata jedinice uloženoga kapitala, pa je stoga računana harmonijska sredina, Općenito. kod računanja prosjeka relativnih brojeva treba imati na umu smisao prosjeka, a taj je da je on kVOcijent zbroja svih brojnika i zbroja svih nazivnika relativnih brojeva čiji se prosjek računa.
Značenje prosjeka relativnih brojeva postat će nam vidljivo razvijemo li izraze za vaganu aritmetičku i zatim za vaganu harmonijsku sredinu:
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVNE STATISTIKE
k
55
k
k V,
I R; B ij I -Lj , Bj ; ] = B R = j= k k I Bj I B; j=! ;=]
IV
]
i
i=1
R=�=�=
k "
k
V Vj I -j I Ri i=l i=1
II
i=l
oba smo dakle slučaja dobili isto, što smo i željeli pokazati.
...
Tabela 2 .2 9 . Dobit i postotak dobiti od ostvarenog prometa u podružnicama A, B i e Dobit u
Podružnica
Di 2
l A
kol. 2:koL3 promet u mil kn .
Cj
4
5, 1
57
B
1 836
1 ,8
102
e
1 482
5,7
26
6225
-
ProsJecna dob'lt :::: �
Dobit u %
Pi 3
2907
Ukupno
.
000 kn
6,225 -_ .
185
1 00
185
10 . ')J,J') 601
II
tabeli 2.29. prikazan je postupak računanja prosjeka triju postotaka primjenom izraza za ponderiranu harmonijsku sredinu. Dijeljenjem dobiti pojedinih podružnica pripadnim postotkom dobiti (stupac 2 stupac 3), te množenjem dobivenih kvocijenata s 1 0 poradi iskazivanja prometa u miL kn, dobiveni su podaci o prometu u stupcu 4. Na kraju je ukupna dobit (u miL kn) podijeljena ukupnim prometom i pomnožena sa 1 00, kao što je to UČinjeno i prije (vidi tabelu 2.28.) , kad je za iste postotke dobiti računana vagana aritmetička sredina. (2.27 . )
:
56
POGLAVLJE 2
2.3.3. Geometrijska sredina Geometrijska sredina, koja također spada u potpune srednje vrij ednosti kao i aritmetička i harmonijska, definira se kao N- ti korijen iz produkta N faktora, tj.: (2.28.)
G
Izraz za geometrijsku sredinu može se zapisati na kraći način tako da se za naznaku produkta znak množenja I11O, pa se prethodni izraz transformira u
N faktora upotrijebi G
',,V� D xi
'
uz uvjet da sve v:-ijednosti budu pozitivne, tj. x > 0, \:fi. I I x
za prije analizirani prImjer 2 5 zaposlenih, za koje smo u odsjeku 2.3. 1 . izračunali jednostavnu aritmetičku sredinu, izračunat ćemo i geometrijsku sredinu primjenom izraza (2.28.) , tj.
G
2?1 8 · 1 9 · 1 9 · 0 0 . · 62 == 27,75
godina.
Vidimo da je izračunana geometrijska sredina manja od prethodno izračunane aritmetičke sredine, koja je iznosila 29,92 godine. To nije slučajnost, geometrijska je sredina za isti skup podataka UVijek manja od aritmetičke i veća od harmonijske. Vrijedi nejednakost: H sG s
2.3.4. Mod Mod je najčešći oblik ili modalitet obilježja (oznaka M,,). Mod se određuje kako za kvalitativna, tako i za kvantitativna obilježja (varijable). Najjednostavniji je slučaj određivanja moda kada su formirane grupe, kao u primjeru u tabeli 2.30. gdje su podaci grupirani na osnovi nominalnog obilježja. li takvom slučaju mod je modalitet s najvećom frekvencijom.
la) Produkt N faktora: Xi 'liJ,X,
'
"
'XN na kompaktni se
N način zapisuje kao n x i ' i�1
III Znak V rabi se u matematitkoj logici i čita se: "za svaki".
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIV N E STAT I ST I K E
....
57
Tabela 2 .30. Za posleni u trgovin i i ugostiteljstvu u RH 1 996. Stru ktu ra zaposlen i h u %
Vrsta djelatnosti
Broj zaposlenih
ai l
trgovina na malo
fi 2
58361
42,87
trgovina na veliko
22934
1 6,85
ugostiteljska poduzeća
38279
28,12
ugostitelji-obrtnici
1 6545
12,15
136 1 1 9
1 00,00
• Ukupno
Pi 3
Izvor: SLjH 98" str, 538-541
Iz podataka u tabeli 2, 30. vidi se da je najveći broj zaposlenih u trgovini i ugostiteljstvu RH 1 996, godine bio u trgovini na malo, To se može ustanoviti usporedbom bilo apsolutnih, bilo relativnih frekvencija. Maksimalna apsolutna frekvencija je 5 83 6 1 , a maksimalna relativna frekvencija 42,87. Obje frekvencije se odnose na isti modalitet nominalne varijable, tj, na trgovinu na malo. Trgovina na malo je, dakle, u ovom slučaj u mod. Odredivanje moda za distribuciju frekvencija ovisi o tome jesu li formirane grupe ili je obilježje dano u razredima. Ako su formirane grupe, postupak ja potpuno isti kao u prethodnom primjeru. Budući da u grupi svi podaci imaj u isti modalitet obilježja, u ovom slučaju istu vrijednost numeričke varijable, dovoljno je pronaći najveću frekvenciju i očitati pripadnu vrij ednost numeričke varijable koja predstavlja mod. Primjer: .... Ta bela 2 .3 1 . Broj pogrešnih odgovora 80 studenata na testu iz statisti ke Broj pogrešnih odgovora
Xi
l O
.
I
'
Broj studenata
fi
2
5
1
7
2
15
3
19
4
20
5
10
6
4
Ukupno
80
•
58
POG LAVLJE 2
Najveća frekvencija je 20, a pripadna vrijednost numeričke varijable 4. Najčešći broj pogrešnih odgovora, tj. mod, iznosi četiri. Do istog bismo zaključka bili došli da smo, umjesto apsolutnih, imali relativne frekvencije, budući da su one proporcionalne apsolutnim frekvencijama. Kod distribucije frekvencija s formiranim razredima, mod nije moguće direktno očitati. Izravno je moguće samo identificirati razred u kom se mod nalazi. Takav se razred naziva modaini. Budući da na iznos apsolutne frekvencije utječe veličina razreda, a nju određujemo proizvolj no prilikom grupiranja podataka, moramo se, ako razredi nisu jednake veličine, za identifikaciju modainoga razreda, koristiti korigiranim frekvencijama. Modaini je razred onaj s najvećom korigiranom frekvencijom. Daljnji problem čini određivanje pozicije moda unutar modainoga razreda. Da bismo odredili mod, služimo se pretpostavkom da na njegov položaj utječu frekvencije dvaju susjednih razreda - onog ispred i onog iza modainog razreda. Ako bi frekvencije dvaju susjednih razreda bile jednake, tada bi mod bio pozicioniran u sredini modalnoga razreda . Ako one nisu jednake, mod biva privučen bliže granici susjednoga razreda s većom frekvencijom. Takva pretpostavka o poziciji moda unutar modainoga razreda rezultira izrazom: (2.29.)
gdje je 1H" oznaka za mod, LJ donja granica (prava ili precizna) modalnoga razreda, l veličina modaInoga razreda, dok su b i tri uzastopne korigirane'2 frekvencije. Točnije: korigirana frekvencija prije frekvencije modainoga razreda, b korigirana frekvencija modainoga razreda, tj. najveća korigirana frekvencija, i korigirana frekvencija koja slijedi, tj. frekvencij a nakon one modainoga razreda. =
:=
a,
a
e
-
:=
e
=
Izraz za mod (2.29.) izveden je pomoću histograma:
121 Ako je korekcija potrebna. tj. ako razredi nisu jednake veličine.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
59
� G rafi kon 2 . 2 2 . Konstrukcija moda pomoću h i stogra ma fCi
a
o
Xi
Spojnice gornjih uglova najvišeg stupca visine b, s uglovima dvaju susjednih stupaca tvore, zajedno s dužinama (b ) i (b ) međusobno slične trokute čiji se vrhovi dodiruju. Visine obaju trokuta zajedno jednake su veličini modainoga razreda i. Označimo li visinu trokuta kojemu je osnovica (b ) sa mod je određen izrazom M" = Lj + x. - a
-
- e ,
a
x,
Veličina x slijedi direktno iz razmjernosti vi�ina i osnovica sličnih trokuta, tj. vrijedi x : (i - x) = (b
-
) : (b - e) .
a
Uvećavanjem donje granice modainoga razreda (2.29.) .
LJ
za
x
dobiva se direktno izraz za mod
Opisani postupak određivanja moda za distribuciju frekvencija s formiranim razredima pokazat ćemo na već poznatom nam primjeru radnika poduzeća "X" (primjer 2. 1 9.) prema godinama starosti:
60
POGLAVLJE 2
..
Tabela 2 . 3 2 . Radn ici pod uzeća X p rema god i nama starosti
I
Veličina razreda
Korigirane frekvencije
ii 3
lei
10
2
lO a
20 - 22
15
2
15 b
22 - 28
15
6
5
28 - 32
8
4
48
-
4 -
Godine starosti
Broj rad nika
Xi 1
Ji
18 - 20
Ukupno
2
4
e
1 5 - 1 0 5 · 2 20,67 godina. To je najčešća starost radnika u tom ) (1 5 - 1 0) + ( 1 5 poduzeću, odnosno starost najvećeg broja radnika. Mod je vrlo ilustrativna i lako razumljiva srednja vrijednost. Odreden je svojim položajem u nizu i na njega stoga ne utječu ni izrazito velike ni izrazito male vrijednosti obilježja, kao što je to npr. slučaj kod aritmetičke sredine. Kad bi npr. gornja granica posljednjega razreda bila 50, umjesto 32, uz nepromijenjenu frekvenciju tog razreda, aritmetička bi se sredina jako pomakla prema većim vrijednostima numeričkog obilježja, dok se na mod to uopće ne bi odrazilo. Prednost moda je i to što ga je moguće odrediti i za nenu merička, tj. kvalitativna obilježja. Nedostatak moda je da ga nije moguće odrediti ako nema bar dva podatka s istim modalitetom obilježja (u slučaju pojedinačnih podataka). Također, mod nije uputno odrediti ako je modaIni razred prvi i ako je usto otvoren. Nedostajuća donja granica može se, doduše, procijeniti, ali mod određen pomoću nje nije pouzdan. Slično je kad je modaini razred posljednji i usto otvoreni razred. Nepoželjno svojstvo moda je i njegova osjetljivost na način grupiranja, koji sadrži određenu dozu proizvoljnosti. O određivanju veličina razreda, naime, ovise i njihove frekvencije, a one izravno utječu na veličinu moda. Mod nije moguće odrediti ako je distribucija bimodalna, tj. ako ima dva vrha. II tom slučaju postoje dva mjesta gomilanja podataka oko neke vrijednosti pa postoji neizvjesnost u pogledu položaja moda. To također vrijedi i za multirnodalne distribucije, koje imaju više točaka gomilanja podataka pa nismo u stanju odrediti mod na jedinstveni način. 1\1 u
=:
20 +
=
2.3.5. Medijan Medijan je pOZicijska srednja vrijednost koja po veličini uređeni niz dijeli na dva jednakobrojna dijela, na način da polovina članova niza ima vrijednost kvantitativne varijable
OSNOVNI POJMOVI I TEH N I KE DESKR I PTIVN E STATISTIKE
61
manju ili jednaku medijalnoj, dok druga polovina članova niza ima vrijednost jednaku medijanu ili veću . II Određivanje medijana sastoji se u pronalaženju vrijednosti obilježja na središnjoj poziciji u uređenom nizu. Ako se radi o nizu s neparnim brojem članova, vrijednost središnjeg podatka u uređenom nizu je medijan. Njegov redni broj r računa se tako da se N podijeli s dva i cjelobrojnom dijelu dobivenoga kvocijenta (oznaka INT od latinskog "in teger" = sav, čitav) pribroji l , tj. r =
N N INT( ) + l za 2
2
-:t=
INT , te je medijan : (2. 30.)
Me = x, . Razmotrimo to na primjeru izostanaka 9-ero radnika u razdoblju
L-X.
mjesec 2000. :
Xi: 2, 4, 1 , 20, 1 6, 5 , 7, 6, 8 dana. Uredimo li varijablu "broj dana izostanaka" po veličini, imamo
Xi: 1 , 2, 4, 5 , 6, 7, 8, 1 6, 20 dana. 2. 4,5 . Cjelobrojni dio od 4 , 5 je 4, koji uvećan za l daje traženi 2 2 redn i broj medijalnog člana niza 5 . Dakle, X5 = Me = 6 dana. U našem slučaju, polovina radnika izostala je 6 dana ili manje. U ovom je slučaju
N
=
=
Ako je broj članova niza paran , N je djeljivo s 2 bez ostatka, tj . kvocijent
N
je cijeli broj . 2 U tom se slučaju u sredini niza nalaze dva njegova člana, čiji je polu zbroj medijan. Ta se dva središnja člana nalaze na dvjema uzastopnim pozicijama koje označujemo sa r i r+ 1, pa imamo:
Me
=
x r + X r+1 2
N r=-
za
2
N - =
2
INT .
(2. 3 1 .)
Primjer: Vrijeme izrade proizvoda UA" l O-ero radnika (varijabla uređena po veličini):
Xi: 2, 3, 3, 4, 6, 7 , 8, 9, l l , l I minuta. � = INT = 5 = r � M 2
e
=
Xs + x6 2
=
6+7 2
=
6 ' 5 minuta.
Polovina radnika trebala je za izradu toga proizvoda 6,5 minuta ili manje (druga polovina 6,5 min ili više) . 13)
U ovom se slučaju ne radi o rezu na brojnom pravcu u Dedekindovu smislu. tj. ne radi se o rezu tipa ](. Radi se, naime. o statističkim podacima od kojih se pojedina vrijednost mole javljati više nego jedanput. Stoga je ispravno govoriti o vrijednostima manjim ili jednakim u odnosu na medijan i vrijednostima jednakim medijanu ili većim od njega.
62
POGLAVLlE 2
Kod distribucije frekvencija s formiranim grupama, što je slučaj kod velikog broja distribucija frekvencija diskretne numeričke varijable, za pronalaženje središnjeg člana u nizu radi očitavanja njegove vrijednosti, tj. medijana, služimo se kumulativnim nizom "manje od" . Pomoću prve kumulativne frekvencije koja je jednaka i l i veća od
N 2
identificira s e pripadna
vrijednost grupe, koja je u tom slučaju medijan. Ovo vrijedi bilo za slučaj da je N neparan, bilo da je paran, budući da sve jedinice u grupi imaju istu vrijednost obilježja. Jedino, ako b i N jedinice s redoslijedom i N + l pripadale dvjema uzastopnim grupama, medijan bi se 2 2 odredio kao poluzbroj vrijednosti obilježja tih dviju grupa. Ako su frekvencije izražene kao proporcije, postupa se na isti način, s time da se grupa čija je vrijednost medijaina, identificira pomoću prve kumulativne frekvencije jednake ili veće od 0,5 (odnosno 50 kod postotaka). Već prikazanu tabelu 2.25. proširit ćemo u tabeli 2.33. dodavanjem empirijske distribucije frekvencija, tj . kumulativnog niza "manje od":
lJIlI-
Tabela 2 .3 3 . Broj pogrešnih odgovora 80 stUdenata n a testu iz statistike Kumulativni n iz "manje od"
B roj pogrešnih odgovora
Broj studenata
Xi l
fi 2
3
O
5
5
SX(Xi)
1
7
12
2
15
27
3
19
46
4
20
66
5
10
76
6
4
80
Ukupno
80
U prethodnom je primjeru N paran broj pa je medijan obilježje jedinica s rednim brojevima 40 i 4 1 . Prva kumulativna frekvencija, jednaka ili veća od 40, jest četvrta po redu kumulativna frekvencija 46. Toj grupi pripadaju i 40, i 4 1 . student, s istim brojem pogrešnih odgovora, tj. 3. Dakle, polovina studenata imala je 3 pogrešna odgovora ili manje, a polovina 3 pogreške ili više. Za računanje medijana distribUcije frekvencija s formiranim razredima najčešće se rabi sljedeći izraz:
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
N 2 -- . i , LI + --=--Imra
63
( 2.32. )
donja granica medijainoga razreda, prethodna kumulativna frekvencija (najveća od kumulativnih frekvencija koja je usto i strogo manja od
N/2),
frekvencija medijainoga razreda, te veličina medijainoga razreda. Izraz
(2. 32.)
izvodi se iz grafičke konstrukcije medijana pomoću kumulante. Medijan se
dobiva kao obilježje pridruženo kumulativnoj frekvenciji veličine N/2:
... Grafikon 2 . 2 3 . Konstrukcija medijana pomoću kumulante
N
2
L l Me '-
+ .
I
Vrijedi razmjer
čije rješavanje po x i uvrštavanje u izraz:
Me
Lj
+
X
rezultira prethodno navedenim izrazom sljedećem primjeru:
(2.32.)
za medijan. Taj ćemo izral primijeniti na
64
�
POGLAVUE 2
Ta bela 2 . 34. Zaposlen i pogona "A" prema vel ičini prosječ n i h mjesečnih plaća u listopadu 2000 .
� mjesečna plaća u kn
Broj zaposlenih
Veličina razreda
Kumulativni niz "manje od"
Xi
fi
ii
Sx(Xi)
l
2
3
4
800 - 1000
6
200
10
1 000 - 1 200 1 200 - 1400
14
200
24
20
200
44
1 400 - 1800
32 .
400
76
1800 - 2500
24
700
100
Ukupno
100
-
-
U ovom je slučaju N/2 1 00/2 = 50. Potražimo među frekvencijama kumulativnoga niza "manje od" najveću koja je ujedno i strogo manja od 50. To je po redu treća kumulativna frekvencija, 44. N/2-ti, 50. zaposleni se, dakle, nalazi u sljedećem razredu , koji je medijaIni. Donja je granica medijaInoga razreda 1 400, njegova frekvencija 32 i veličina 400, pa je prema tome =
50 - 44
Me = 1 400 + -- · 400 = 1 475 kn.
32
Polovina zaposlenih primila je u listopadu 2000. plaću u iznosu 1 475 kn ili manje, dok je druga polovina zaposlenih primila 1 475 kn ili više. Kao što je već spomenuto, medijan distribucije frekvencija grafički se određuje pomoću kumulante, odnosno pomoću empirijske funkcije distribucije. Grafikon 2.23. prikazuje grafičko određivanje medijana za podatke iz tabele 2 . 34.:
OSNOVNI POJMOV I I TEHNIKE DESKRIPTIVNE STATISTIKE
..
65
Grafikon 2 . 2 4 . Medij a i n a plaća zaposlenih u pogonu "A" u l i stopad u 2 00 1 .god i n e
Zaposleni kumulativno 1 00 90 80 70 60 50 40 30 20 10 0 4-�r---4----+--r-6--� 800
1 000
1 200
Medijan se može odrediti i
1 400
za
Me
1 800
0 mj. plaća u
Kn
2500
ordinalni niz. U tom je slučaju medijan obilježje ranga koj i
uređeni n i z podataka dijeli n a dva jednakobrojna dijela. Postupak njegova određivanja jednak je postupku koj i primjenj ujemo za niz pojedinačnih vrijednosti ili za distribucij u frekvencija diskontinuirane n umeričke varijable s formiranim grupama. To je pokazano u primjeru koji slijedi. ..
Tabela 2 .3 5 . Uspjeh 30 studena.ta na ispitu fz statistike
i
I
ri
fi
Kumulativni niz "manje od" Sr(ri)
l
2
3
1
7
7
2
8
15
3
12
27
4
2
5
1
Ukupno
30
Ocjena
Broj studenata
29 i
30 -
66
POGLAV U E 2
ovom je slučaju, budući da je N parni broj, medijan poluzbroj rangova 1 5 . i 1 6. studenta, tj . 2 , 5 . Time je učinjen praktični, ali teoretski nedopušteni kompromis, jer nad modalitetima varijable ranga nije dopuštena operacija zbrajanja. U
M edijan se, kao i sve srednje vrijednosti, nalazi izmedu minimalne i maksimalne vrijednosti obilježja. Njegovo je i svojstvo da je zbroj odstupanja podataka od medijana uzetih apsolutno (tj. uz ignoriranje predznaka) , minimalan, tj.: N
L:lx; Mei ;=1
-
=
min ,
odnosno, za grupirane podatke, k
L:lx; Mei!; ;=1
-
min .
Medijan je, kao i sve srednje vrijednosti, izražen u istim mjernim jedinicama kao i obilježje. Jednostavan je za tumačenje. N ij e osjetljiv na ekstremne vrijednosti budući da su one uvijek smještene na rubovima uređenoga niza. Zbog toga je medijan dobar izbor srednje vrijednosti za asimetrične distribucije frekvencija s jako izraženim ekstremima. za razliku od aritmetičke sredine, koj u ekstremi odvlače prema izrazito velikim ili malim vrijednostima, na medijan oni jedva da utječu pa se stoga o medijanu govori kao o trornoj srednjoj vrijednosti. Medijan je pogodan i za distribucije frekvencija s otvorenim razredima, čije se granice procjenjuju pa su stoga nesigurne. Na medijan takve granice ne utječu, osim ako je rubni, otvoreni razred ujedno i medijalni.
2.3.6. Kvantili Kvanti1i su vrijednosti kvantitativne varijable koje uredeni niz dijele na q jednakobrojnih dijelova, pa u tom smislu govorimo o redu kvan tila. Nizove možemo npr. dijeliti na dva, četiri, šest, deset ili sto dijelova, pa u tom slučaju govorimo o kvantilima reda dva, četiri, šest, deset ili sto. Budući da medijan dijeli uređeni niz na dva jednakobrojna dijela, medij an je kvantil reda dva. Kvartili su kvantili reda četiri, jer uređeni niz dijele na četiri jednakobrojna dijela. Analogno, sekstili su kvanUli reda šest, decili reda deset, percentili reda sto itd. Određivanje kvantila u uređenom nizu podataka svodi se na pronalaženje vrij ednosti na traženoj , kvantilnoj pOZiciji. Suština se toga postupka sastoji u sukcesivnom računanju kvocijenata
Ni
,
gdje j e
q
N i q
-
-
-
broj podataka, redni broj kvan tila, red kvan tila.
1, ,q- l J4 , te ...
14) Mogući broj kvantila istoga reda la l je manji od veličine reda q. Tako (jedan) medijan dijeli nil na dva dijela, tri kvartila dijele nil na četvrtine, devet decila na desetine itd.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATIST I K E
67
Rezultat takvih uzastopnih dijeljenja je dvojak - sa ostatkom ili bez ostatka. Ako se radi o dijeljenju s ostatkom, cjelobrojni dio kvocijenta uvećan za jedan daje redni broj (r) elementa na traženoj , kvantilnoj poziciji. Ako je dijeljenje bez ostatka, tada dotični kvantil pada između dva susjedna elementa, tj. traženi je kvan til poluzbroj vrijednosti na pozicijama r i Ni r+ 1 , pri čemu je u tom sI ućaju r q U skladu s time, prvi ili donji kvarU\' te treći ili gornji kvartil (drugi kvartil jednak j e medijanu pa ga nije potrebno dodatno računati) dani s u izrazima: N
Xr '
4 N
QI
2
{
4
,
Xr + Xr+l 2
{
r = IN]'(
I NT,
4 N·3 4
*
�)
+l
(2.33.)
N r = -. 4
INT,
N·3
Xr ' Q =
*
INT, INT,
r
N I NT( /) + l
r
N·3 4
--
Vratimo se ponovno na primjer i zostanaka 9-ero radnika u razdoblju (varijabla uređena po veličini): x;:
l,
(2.34.)
L -X.
mjesec 2000.
2, 4, 5 , 6, 7, 8, 1 6, 20 dana.
Opseg skupa 9 nije djeljiv s 4, tj . prilikom dijeljenja pojavljuje se ostatak. Zanemarimo ostatak, a cjelobrojni dio kvocijenta, tj . 2, povećamo za l i dobivamo redni broj vrijednosti koja je na pozicij i prvoga kvartila, tj . 3. Prvi kvart il je dakle X], odnosno 4 dana. Interpretacija: četvrtina radnika izostala je četiri dana ili manje, preostale tri četvrtine radnika izostale su četiri dana ili više. Analogni postupak ponavljamo u cilju određivanja trećega kvartila: 9· 3/4 = 6,75. il Cilju određivanja rednog broja podatka koji se nalazi na poziciji trećega kvartila, cjelobrojni dio tog kvocijenta povećavamo za l , tj. X6+I :::: X7 Q3 8 dana. Tri četvrtine radnika izostalo je 8 dana ili manje, dok je četvrtina radnika izostala 8 dana ili više. Kvartili distribucije frekvenCija određuju se računski i grafički postupcima analognim onima za određivanje medijana. za primjer zaposlenih prema veličini prosječnih mjesečnih plaća (tabela 2. 34.) imamo: N LI + -'---- . i
fkv8rl
(2. 3 5 .)
68
POGLAVLJE 2
Q I = 1 200 +
2 5 24 · 2 00 = 1 2 1 0 kn, 20
Q 3 = 1 400 +
7 5 - 44 . 400 32
odnosno,
1 787, 50 kn.
Jednostavnosti radi, u oba su izraza kori šteni isti simboli Lp Ejl i jh." značenjem:
,
ali s analognim
LI u gornjim izrazima označava donju granicu razreda u kojemu se nalazi prvi, odnosno treći kvartil. Ejl označava kumulativnu frekvencij u koja prethodi kvartilnom razredu (tj . posljednju u kumulativnom n izu "manje od" koja je još strogo manja od N/4, odnosno, u slučaju računanja trećeg kvartila, od N ·3/4). jh'"" je oznaka z a frekvenciju kvartilnoga razreda, tj. razreda u kom s e nalazi prvi, odnosno treći kvarti\. Interpretacija izračunanih kvartila: četvrtina zaposlenih tog pogona primila je u listopadu 2000. god. 1 2 1 0 kn i li manje, dok je tri četvrtine zaposlenih primilo 1 2 1 0 kn ili više. Tri četvrtine zaposlenih primilo je u listopadu 2000. godine 1 787,50 kn ili manje, a četvrtina zaposleni h primila je 1 787,50 kn ili više. Dobivene rezultate moguće je, kao i kod medijana, odrediti grafički pomoću kumulante. Kvartili su u tom slučaju apscise točaka na kumulanti, s ordinatom N/4, odnosno N ·3/4.
OSNOVNI POJMOVI I T E H NI KE DESK R I PTIVNE STAT I ST I K E
69
.... G rafikon 2.25. Kvart i l ne p laće zaposlen i h u pogonu "A" u l istopadu 200 l .godine Broj zaposlenih 1 00 90 80 70 60 50 40 30 20 10 0 4---�--�---Q�----0+--+800
1 000
Ql
1 200
1 400
'" mj. plaća u
Kn
2500
Od kvan tila, razmjerno se često rabe i percentiliJS Za primjer iz tabele 2.34. izračunat ćemo jedan od njih, i to 20. percentiL Koristimo se izrazom:
(2. 3 7.) gdje je
(4i i-ti kvan til reda q, .Efi tzv. prethodna kumulativna frekvencija, tj. ona koja prethodi kvantilnom razredu ; t o je posljednja kumulativna frekvencija koja j e još strogo manja o d N ilq, frekvencija razreda u kom se nalazi Hi kvantil reda q , donja granica kvantilnoga razreda, te veličina kvantilnoga razreda.
15) 99 percentila dijeli uredene podatke na 100 jednakobrojnih dijelova.
70
POGLAVUE 2
1 00 · 20 1 000 +
1 00 14
-10
. 200
l
1 42,86 kn.
In terpretacija: 20% zaposlenih primilo je 1 1 42,86 kn ili manje, dok je preostalih 80% zaposlenih primilo 1 1 42,86 kn ili više.
2.4. Mjerenje disperzije Kao što je već rečeno, srednja je Vrijednost konstanta kojom je predočen niz varijabilnih podataka. Drugim rij ečima, mnogobrojhe informacije o obilježju koje se analizira zamijenjene su jednom jedinom informacijom, srednjom vrijednošću. Ta je informacija to bolja što su podaci gušće nagomilani oko srednje vrijednosti. Prema tome nije dovoljno izračunati srednju vrijednost prikupljenih podataka, već ju treba nadopuniti pokazateljem njihove raspršenosti (disperzije). Mala vrijednost pokazatelja disperzije znači da je izračunana srednja vrijednost bolji reprezentant skupa podataka i obratno. Među najpoznatije mjere disperzije ubrajamo: raspon varijacije, interkvartil i koeficijent kvartilne devijacije, varijancu, standardnu devijaCiju i koeficijent varijacije.
2.4.1 . Raspon varijal�ije Raspon varijacije (H) je najjednostavnija mjera disperZije, a predstavlja razliku između najveće i najmanje vrijednosti obilježja, tj. , (2.38.) R x..., X_ . Posegnimo ponovno za p rimjerom uređene varij able "broj dana izostanaka" (primjer sa stranice 50 i 54): Xi:
1 , 2, 4, 5, 6, 7, 8, 1 6, 20 dana.
Raspon varijacije iznosi: 20 devet radnika iznosi 1 9 dana.
-
l
= 1 9 dana. Znači, maksimalna razlika u dulj ini izostanaka
za
distribuciju frekvencija diskontinuirane varijable s formiranim grupama raspon varijacije određujemo pomoću izraza: (2. 39.) R Xk - X"
U primjeru danom u tabeli 2.3. raspon varijacije iznosi: 4 - O = 4 djece. Vidimo, dakle, da se anketirane obitelji razlikuju po broj u djece za maksimalno četiri djeteta. Za distribuciju frekvencija s formiranim razredima raspon varijacije se određuje kao razlika gornje granice posljednjega i donje granice prvoga razreda, odnosno: (2 .40.)
OSNOVNI POJMOVI I TEH N IKE DESKRI PTIVNE STAT I ST I K E
71
U primjeru u tabeli 2. 34. raspon varijacije iznosi 2 500 - 800 = 1 700 kn, što je maksimalna razlika u plaćama zaposlenih. Treba napomenuti da je tako izračunani raspon varijacije često samo aproksimacija njegove stvarne vrijednosti. Naime, nije sigurno postoje li u skupu podataka podaci koji su jednaki tim dvjema graničnim vrijednostima, pogotovo ako su one procijenjene, što je redovito slučaj kod otvorenih razreda. Raspon varijacije je izražen u istim mjernim jedinicama kao i promatrano obilježje pa ga stoga ubrajamo među apsolutne mjere disperzije. Njegova prednost kao mjere disperzije je jednostavnost, kako njegova računanja, tako i interpretacije. S druge strane, ocjena disperzije pomoću samo dvije, i to krajnje vrijednosti u nizu koje mogu biti i atipične, ne mora biti pouzdana.
2.4.2. Interkvartil i koeficijent kvartilne devijacije Interkvartil (oznaka Iq) je apsolutna mjera disperzije koja pokazuje veličinu raspona varijacije središnjih 5 0% podataka uređenoga numeričkog niza. Računamo ga kao razliku gornjega i donjeg kvartila, tj .: Iq = QJ - Q J (2.4 1 . ) Primjenom in terkvartila i z razmatranja isključujemo po 25% najmanjih i najvećih vrijednosti obilježja. Interkvartil je dobra dopuna rasponu varijacije jer su ekstremne vrijednosti izvan interkvartiInoga razmaka. S druge strane, nedostatak in terkvartila je, kao i kod raspona varijacije, što se za njegovo računanje rabe samo dvije vrijednosti, tj. što nije potpuna mjera disperzije. Za primjer 9-ero radnika čije smo izostanke analizirali, izračunali smo kvartile, i to: Qf = 4 dana i QJ = 8 dana. Interkvartil, dakle, iznosi: Iq = 8 - 4 = 4 dana. Središnjih se 5 0% radnika razlikuje po izosfancima za najviše 4 dana. Osim interkvartilnog, često se rabe interdecilni i interpercentilni razmaci koji se naJcesce računaju kao razlika devetoga i prvog decila, odnosno devedesetoga i desetog percentila. Na taj se način mjeri raspon varijacije središnjih 80% podataka, a rubnih 20% podataka (po 1 0% sa svake strane uređenog niza) isključeno je iz analize, dakle znatno manje nego kod in terkvartila . Uz in terkvartil , koji je apsolutna mjera disperzije, može se izračunati i koeficijent kvartilne devijacije (simbol Vq) kao odgovarajuća relativna mjera disperzije, tj. ona koja se također računa pomoću dvaju kvartila: (2.42.)
72
POGLAVU E 2
Disperzija je to manja što je Vq bliže nulL Koeficijent kvartilne devijacije spada među relativne mjere disperzije. Računa se dijeljenjem interkvartila zbrojem kvartila, sa svrhom da se mjerne jedinice u brojniku i nazivniku pokrate i tako dobije relativna mjera lišena mjernih jedinica koje onemogućuju usporedbu disperzije skupova podataka izraženih u različitim mjernim jedinicama. D isperzija izostanaka devetero radnika izmjerena koeficijentom kvartilne devijacije iznosi: V
q
8-4 :=
8+4
=
0,3 3 .
Vidimo, dakle, da je disperzija osrednja, tj. 0,3 3 ili, izraženo u postotku, 3 3%. Raspon varijacije i interkvartilni razmak prikazuje se nekom od varijanata Tukeyevih grafikona " Box and Whiskers Plot", skraćeno " Box-Plof', odnosno " B-P". Takav grafikon sadrži pravac s aritmetičkim mjerilom za vrijednosti numeričke varijable od do X",�\. Paralelno u z pravac s mjerilom položen je pravokutnik, tj. " ku tija" (engleski: box), čija je stranica, koja je paralelna s mjerilom, duljine interkvartilnoga razmaka. Krajevi kutije sežu od mjesta koje odgovara prvom kvartilu do mjesta koje odgovara trećem kvartilu. Krajevi se kutije naZivaju "hinge(s)" , što je engleska riječ za šarku ("pant") . l . Unutar kutije je oznaka, obično crtica ili križić, na pOZiciji koja odgovara medijalnoj vrijednosti. I z kutije na obje strane izlazi po jedan "brk" (engleski izraz "whisker" znači mačji brk). Kao pomoćno sredstvo za određivanje njihove duljine služe nam prethodno izračunane unutarnje i vanjske međe (ograde) 1 7.Unutarnje su međe udaljene od rubova kutije po 1 , 5, a vanjske po 3 interkvartilna razmaka. M eđe se ne ucrtavaju u grafikon, one su, kao što je već rečeno, samo pomoćno sredstvo za određivanje duljine brkova koji izlaze iz k utije. Brkovi sežu do vrijednosti u nizu koje su još unutar unutarnjih međa, tj. koje su jednake ili veće od donje unutarnje međe, odnosno jednake ili manje od gornje unutarnje međe. X"';II
za primjer duljine izostanaka 9-ero radnika imali smo: Xi:
1,
2, 4, 5 , 6, 7, 8, 1 6, 20 dana, QI
dana.
4 dana, Mr
Donja unutarnja međa = QI - 1 , 5 Iq = 4 1 , 5·4 veće od -2, to će lijevi brk sezati do XlIIi"' tj. do l .
6 dana, Q3
=
8 dana i
Iq
= 8-4 = 4
-2. Budući da s u sve vrijednosti niza
Gornja unutarnja međa Q, + 1 , 5 Iq = 8 + 1 , 5-4 1 4 . Kako između vrijednosti 8, na kom je mjestu desni kraj kutije Uer je 8 ujedno i vrijednost trećega kvartila), i gornje =
16) Zbog toga u ispisima računalnih programa često Ul kvartilne vrijednosti staji oznaka H. 17) Prijevod engleske riječi "fence", sa značenjem: meda, ograda.
OSNOVNI POJMOVI I TEHNIKE DESKRI PTIVNE STATISTIKE
73
unutarnje međe tj. l 4 nema podataka, desni se brk izostavlja, a dvije izolirane vrijednosti 1 6 i 20, koje su između gornje unutarnje i vanjske međe prikazane su zvjezdicom 1 8 . .... G rafikon 2 . 2 6 . Box-Plot za podatke o izostancima g-oro radn i ka
*
N
M
""
u"l
...,
*
I',
co
(1'1
o N
dani
Pokazat ćemo Box-Plot na još jednom primjeru. Primjer: Godišnji prinosi dionice "XTERM" u % (varijabla uređena po veličini) : Xi:
- 1 0,-7 -2, 0, 2, 4, 4, 5 , 5 , 5 , 6, 1 2 , 20, 22 %.
QJ = 0%, Me = 4 , 5%, Q3
=
6% i Iq = 6
°
= 6%.
Donja unutarnja međa = 0 - 1 , 5·6 = -9 % Gornja unutarnja međa = 6 + l ,5·6 15 % Donja vanjska međa = 0 - 3·6 = - 1 8 % Gornja vanjska međa = 6 + 3·6 24 % .... G rafikon 2 . 2 7 . Box-Plot god išnj i h pri nosa dion ice "XTERM"
*
*
*
%
Vidimo da l ijevi brk seže od ruba kutije do vrijednosti a da je podatak - 1 0 prikazan zvjezdicom jer je manji od donje u nutarnje međe, koja iznosi -9 . Desni brk seže do vrijednosti 1 2 . koja je posljednja u nizu koja je još manja od gornje unutarnje međe. Vrij ednosti 20 i 22 prikazane su zvjezdicom jer se nalaze u području između obiju gornjih međa.
18) Znakovi kojima se prikazuju vrijednosti izmedu unutarnjih i vanjskih meda razlikuju se kod pojedinih statističkih programa. MINITAB se npr. korisij zvjezdicama, a SAS malim znamenkama O.
74
POGLAVUE 2
Kad imamo vrijednosti koje padaj u izvan vanjskih međa. prikazujemo ih drukčijim znakom, najčešće malom nulom. Vrijednosti koje se nalaze između unutarnjih i vanjskih međa zaslužuju posebnu pažnju analitičara budući da su relativno rijetke. za distribucije frekvencija s jednom točkom gomilanja podataka, tj. za unimodaine distribucije. očekuje se da izvan unutarnjih međa padne manje od l % podataka. Još su rjeđi podaci izvan vanjskih međa - vjerojatnost njihova pojavljivanja je manja od l %0 1 9• Općenito, svakom podatku između unutarnjih i vanjskih međa treba posvetiti dužnu pažnju jer je on potencijalni "ou tlier"2o, potencijalna atipična vrijednost. B-P dijagram je izvrsno sredstvo za njihovo otkrivanje. Outiieri su ekstremne vrijednosti koje strše u skupu prikupljenih podataka i mogu biti pogrešne: možda se radi o pogrešno pribilježenim podacima, možda je došlo do greške pri unosu podataka. Moguće je i da se radi o podacima koji pripadaju nekoj drugoj populaciji. ali i o neobičnim podacima iz iste populacije. U gornjem primjeru atipična su dva posljednja podatka. Oni su prikazani zvjezdicama � . U takvom bi slučaj u bilo uputno istražiti faktore koji su u tjecali na formiranje tako visokih prinosa od 20% i 22%, u dvjema od ukupno 1 4 godina n a koje s e podaci i z primjera odnose.
2.4.3. Srednje apsolutno odstupanje Š to su podaci gušće nagomilani oko srednje vrijednosti, disperzija je manja i obratno. Da bismo uočili koliko su npr. podaci blizu izračunane aritmetičke sredine. promatramo razlike Xi X . M eđutim. prosjek svih takvih razlika nema smisla računati jer je on uvijek jednak nuli, tj. -
N
O,
zbog kompenzacije odstupanja s pozitivnim i negativnim predznacima u brojniku (vidi prvo svojstvo aritmetičke sredine). Stoga mjera disperzije srednje apsolutno odstupanje ili MAD (kratica engleskog naziva: Mean Absolute Deviation) ignorira predznake odstupanja podataka od njihove aritmetičke sredine. Ona je dana izrazom:
MAD = ..:=.!..-N
za pojedinačne podatke, odnosno izrazom
19) Vidi: McClave,Benson and Sincich,str. 84.
20) Engleski izraz sa značenjem: "koji leži izvan"(niza) .
(2.43.)
OSNOVNI POJMOVI I TEHN I KE DESKRIPTIVN E STATISTIKE
75
( 2.44.)
za distribuciju frekvencija. Umjesto aritmetičke sredine u navedenim se izrazima može rabiti medijan ili neka druga srednja vrijednost. Ako se rabi medijan, ta mjera rezultira najmanjom vrijednosti, zbog svojstva medijana da je zbroj odstupanja podataka od medijana uzetih . apsolutno, minimalan. Kako, međutim, računanje s apsolu tnim vrijednostima ima određenih nedostataka, MAD se rjeđe rabi kao mjera disperzije numeričkih nizova, a više kao mjera uspješnosti prognoziranja u analizi vremenskih nizova.
2.4.4. Varijanca, standardna devijacija i koeficijent varijacije Kompenziranje odstupanja Xi X negativnog predznaka s onima pozitivnog predznaka, može se, osim njihovim promatranjem u apsolutnom iznosu, spriječiti i njihovim kvadriranjem, budući da su kvadrati nenegativni. Tako je nastala mjera disperzije poželjnih algebarskih svojstava, varijanca, i njezin pozitivni drugi korijen, standardna devijacija. Varijanca (simbol cl 21) je definirana izrazima: -
N
(2.45.)
za pojedinačne vrijednosti, odnosno
(2.46.)
za distribuciju frekvencija. Iz gornjih izraza vidimo da je varijanca prosjek kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine. Varijanca je potpuna mjera disperzije - u njezi� u 2!)
cr
( čitaj: sigma) je malo slovo grčkog alfabeta. Podsjetimo se da se velikim slovom sigma, tj. 1: koristimo kao znakom zbrajanja.
76
POGLAV U E 2
računanju sudjeluju sve vrijednosti analiziranoga numeričkog obilježja. Varijanca, međutim, ima nedostatak da je nepodesna za interpretaciju , jer je izražena u mjernim jedinicama dignutim na kvadrat. Taj se nedostatak otklanja vađenjem pozitivnoga drugog korijena te se dobiva mjera disperzije standardna devijacija (simbol a):
i=1
o'
N
(2.47.)
za pojedinačne, negrupirane vrijednosti i
o'
(2.48.)
za distribuciju frekvenCija. Primijetimo da se u potonjem slučaju simbol x može odnositi bilo na originalne vrijednosti obilježja (ako su formirane grupe), bilo na njihove procjene, tj. na vrijednosti razrednih sredina. Standardna deVijaCija se interpretira kao prosječno odstupanje vrijednosti numeričke varijable od njezine aritmetičke sredine. Izražena je u mjernim jedinicama varijable . U svrhu u sporedbe disperzije u različitim skupovima podataka rabi se relativna mjera disperzije, koeficijent varijacije, kojom se veličina disperzije izražava u postotku (u odnosu n a aritmetičku sredinu) :
v
� · 1 00 . x
(2.49.)
Prije no što prlmJenma ilustriramo izračunavanje varijance, standardne devijacije i koeficijenta varijacije, izrazit ćemo varijancu u terminima momenata, što je tema sljedećeg odjeljka.
2.5. Ostali pokazatelji numeričkih nizova 2.5. 1 . Momenti Momenti numeričkih nizova su parametri koji se računaju kao prosjeci zbroja odstupanja vrijednosti numeričke varijable od odabrane konstante dignutih na neku potencij u . Razlikujemo centralne, glavne i l i momente oko (aritmetičke) sredine i pomoćne momente.
OSNOVN I POJMOVI I T E H N I KE DESKRIPTIVN E STATISTIKE
77
Ovisno o tome n a koju potenciju se dižu odstupanja, govorimo o redu pojedinoga momenta. Opći oblik momenta oko sredine (oznaka p 22) reda r za pojedinačne, negrupirane podatke glasi:
Pr
= -'-'---- , r N
za distribuciju frekvencija
Pr
Pr
0, 1 ,2, ...
(2. 50.)
je definiran izrazom:
= .:.;;;.:.--;---- , r
0, 1,2, . . . .
(2 . 5 1 .)
i=J
Po l , a PI = O, 2, vidimo da su oni
N ulti i prvi centralni moment se ne računaju jer je za svaki skup podataka što se vrlo lako dokazuje. Ako u i zraze (2. 50) i (2. 5 1 ) uvrstimo za r jednaki varijanci, tj,
=
P 2 = 1j2 .
Računanje centralnih momenata može biti mukotrpno. Jednostavniji je način njihova dobivanja putem tzv. pomoćnih momenata. U tu svrhu rabimo dvije vrste pomoćnih momenata: momente oko nule i momente oko "a" (oko konstante kod iranja). za momente oko nule koristimo se oznakom m, a za momente oko konstante kodiranja a koristimo se oznakom m . Opći oblik pomoćnoga momenta oko nule reda r za negrupirane podatke glasi:
, r = 0, 1 ,2, . . .
(2.52.)
a z a distribuciju frekvencija
k
L. xU;
;=J ":"":k,......- ,r = 0" 1 2, . . . . L. J; ;=1
22)
p=
grčko slovo, čitaj: "mi".
(2. 5 3 . )
78
POGLAV U E 2
Opći oblik pomoćnog momenta oko konstante kodiranja glasi:
a
reda
r
za negrupirane podatke
N
m, r
L d;
- i= 1
T -
- -- , N
(2 . 54.)
0, 1 2 . . . ,
,
a za distribuciju frekvencija k
m
'
r
=
L d;/; i=1
k
L /;
,r =
(2. 55.)
0, 1 , 2 . . '''
i=1
Iz izraza (2 . 52.) i (2 . 5 3.) vidi se da je prvi moment oko nule jednak aritmetičkoj sredini obilježja X. Također, iz izraza (2.54 . ) i (2. 5 5 .) vidimo da je prvi moment oko a jednak
aritmetičkoj sredini kodiranog obilježja D. Ili, simbolički, m,
=
x
i m;
=
d.
Uloga pomoćnih momenata je isključivo tehničke prirode. Pomoćni momenti služe jednostavnijem računanju centralnih momenata pa se, nakon što ih izračunamo, služimo izrazima koji povezuju pomoćne s centralnim momentima, i to: f1 2 = m2 - m / , (2. 56.) 12 . 2 lh f12 = b (m2 - m l ) . (2 . 5 7.) I
·
Simbol b označuje konstantu kojom se prilikom kodiranja (linearne transformacije) dijele razlike Xi a ( vidi definicioni izraz (2. 1 6.) za linearno transformirano obilježje). -
Treći moment oko sredine dobiva se izrazima: f1 J = mj -3mj m2 + 2 m/ , " ,3 3 ' Ih f13 = b (m3 - 3m l m 2 + 2m l ) . ·
.
Četvrti moment oko sredine računa se pomoću izraza: 4 f1 4 = m4 - 4m , m3 + 6m/m2 - 3 m, , 2 14 1 4 ·. Ih f14 = b (m 4 - 4mlm3 + 6m l m2 - 3m l ) . I
I
I
I
(2. 5 8.) (2. 59.) (2.60.) (2.6 1 .)
il primjerima koji slijede pokazat ćemo računanje drugoga momenta oko sredine f12' tj. varijance, te standardne devijacije i koeficijenta varijacije. Prvi se primjer odnosi na negrupirane vrijednosti, a drugi na distribuciju frekvencija.
Primjer 5 . Proizvodnja artikla " AH tokom 5-dnevnog radnog tjedna kretala se kako slijedi: X : 32, 34, 30, 28, 24 kom.
Preglednosti radi, uredit ćemo varijablu po veličini i prikazati postupak računanja u tabeli:
OSNOVNI POJ MOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
�
79
Tabela 2 . 36.
Proizvodnja u kom
Xi
X/
Xi - 3O
di
d/
24
576
-6
-3
9
28
784
-2
-1
30
900
32
1024
2
1
O
34
1 1 56
4
148
4440
-
x
O
5
1
O 1
2
4
-1
15
N
N
LX i - = m = i=l l
4
3
2
l
1 48
----r::;- = 5
--
= 29,6 kom.,
LX � 4440 - 888 i=l - -m2 - -N 5 _
_
!-l2 = (I2 = m2 - m/ = 888 - 29,62 = 1 1 ,84 (I = ..jl l,84
=
3, 44 kom.
Do istih rezultata dolazi se alternativnim postupkom pomoću linearne transformacije, tj . pomoću momenata oko konstante kodiranja a. Taj je postupak prikazan u stupcima 3 , 4 i 5 tabele 2.36., koji su odijeljeni od prvih dvaj u stupaca nešto debljom crtom. N
N
L df L di l - = m ' = -l i=1 ' d l N = --S = -O' 2 m2 = i=N
--
x
= ml = a + bm;
=
IS
=-=3 5
30 + 2 · (-0,2) = 29,6 kom.
2 !-l 2 = (I 2 = b 2 ( m2' - m ,l ) = 2 (3 - (-0,2» 2
2
= 1 1 ,84 .
Dodajmo dobivenim rezultatima koeficijent varijacije: v
=
(I . 1 00 = 3, 44 . 1 00 = 1 1,62% . x
29,6
Prosječna dnevna proizvodnja u tom je tjednu, dakle, iznosila 29,6 komada, s prosječnim odstupanjem od 3,44 komada, odnosno s prosječnim relativnim odstupanje od 1 1 , 62%. Disperzija je u ovom slučaju izuzetno mala, što znači da je reprezentativnost izračunane
80
POGLAVUE 2
aritmetičke sredine vrIo velika. Obično smo s koeficijentima varijacije ispod 20% vrlo zadovoljni. U praksi. medutim. nisu rijetkost koeficijenti varijacije iznad 1 00%. Jasno je da u takvim slučajevima moramo gledati na aritmetičku sredinu s velikom rezervom i nadopuniti analizu drugim pokazateljima. Postupak računanja varijance i standardne devijacije distribucije frekvencija u primjeru koji slijedi sadržan je u dvjema tabelama. U prvoj tabeli su konstruirane kolone potrebne za računanje navedenih pokazatelja pomoću pomoćnih momenata oko nule. a u drugoj pomoću momenata oko konstante kodiranja a. ....
Tabela 2 .3 7 . Kontro l a težine proizvoda UA" dala je sljedeće rezultate Razr sredina
Kol.
Kol.
2x3
4x3
Težina u gramima
Broj proizvoda
Xi l
fi
Xi 3
80 - 90
4
85
340
28900,0
90 - 95
6
92,5
555
5 1 337,5
2
!
x/Ji
xJi
I
4
5
100
20
97,5
1950
1 9 0 1 25,0
100 - 105
10
102.5
1025
105062,5
105 - 1 10
8
107,5
860
92450,0
1 10
2
115
230
26450,0
4960
494325,0
95
1 20
50
Ukupno
6
L x Ji =) ml = i 6
i
6
=
L Ji i=)
/J.2
=
a
Z
4960 --
=
50
'
= .J45,86 = 6. 77 grama i
v
=
x
=
� I-I
= m2- m / = 9886,5 - 99,22 = 4 5,86 ,
a
a
99 2 grama ' m 2
L x �Ji
. 1 00 = 6 ,77 . 1 00
99,2
6,8% .
6
L Ji i=1
=
494325 50
=
9886' 5
81
OSNOVNI POJ MOVI I TEH N I KE DESKR I PTIVNE STAT ISTIKE
Iste pokazatelje dobivamo kodiranjem:
�
Tabela 2 .38. Ko l.
Težina u gramima
Broj proizvoda
Razred. sredina
Xi
Ji
Xi
Xi - a
80 - 90
4
85
90 - 95
6
2
l
Ko l .
5x2
6x5
di
dJi
d/Ji
-12,5
- 2,5
-10
25
92,5
-5
-1
-6
6
5
4
3
6
7
95 - 100
20
97,5
O
O
O
O
100 - 105
10
102,5
5
1
10
10
105 - 1 1 0
8
1 07,5
10
2
16
32
1 1 0 - 120
2
115
17,5
3,5
-
50
Ukupno
-
-
6
d=m
l.
=
" L..J dI I
I
i=l--=
6
LJ;
17 = -- = O ,34 50
24,5
17
97,5
6
, m2 .
L.. " dl2 f·I =
i=l
6
I fi
97,5 = --= 1,95 50
i=l
i=l
x = ml = a + hm;
7
=
97,5 + 5 · 0,34
2 2 P2 = a 2 = b (m2' - ml. ) = 5 ( 1 ,95 2
-
=
99,2 grama 2
0,34 ) = 45 , 86.
Vidimo da smo alternativnim postupkom došli do jednake varijance. Možemo, dakle, zaključiti da je prosječna težina kontroliranih proizvoda 99,2 grama, s prosječnim odstupanjem od 6,67 grama, odnosno s prosječnim relativnim odstupanjem od 6,8%. I u ovom je primjeru disperzija izrazito mala pa je prema tome reprezentativnost izračunane aritmetičke sredine vrlo dobra.
2.5.2. Standardizirano obilježje Standardna devijacija, koja je pozitivna konstanta, rabi se, među ostalim, i za provedbu postupka standardizacije numeričke varijable X. Standardizacija je postupak specifične linearne transformacije (kodiranja) dan izrazom : Zi
x
·
-
x
' -, i =a
=
1, . . . , N
(2.62.)
82
POG LAVLl E 2
Xi
Slijedi da je
X+
=
a Zi.
Radi se, dakle, o specifičnoj linearnoj transformaciji s konstantama kodiranja X i o: Standardizirano obilježje pokazuje za koliko se standardnih devijacija originalno obilježje razlikuje od aritmetičke sredine. Standardizirana varijabla Z je pokazatelj udaljenosti pojedinih vrijednosti varijable X od njezine aritmetičke sredine, pri čemu je ta udaljenost izražena brojem standardnih devijacija. Na primjer, ako za neku vrijednost numeričke varijable njezina pripadna standardizirana vrijednost iznosi 2, znači da je ta vrijednost veća od prosjeka za dvije standardne devijacije. U tom je smislu standardizirano obilježe pokazatelj relativnog položaja pojedinih vrijednosti numeričke varijable unutar niza. Poznato je, naime, da se u području oko aritmetičke sredine širine tri standardne devijacije na svaku stranu nalazi oko 90% podataka bilo kog skupa23. Prema tome, apsolutne vrijednosti Zi veće od tri upućuju na to da se radi o ekstremnim vrijednostima originalnog obilježja X. Standardizacija obilježja nam također omogućuje grafičku usporedbu numeričkih nizova s podacima izraženim u različitim mjernim jedinicama. Bud ući da je obilježje Z neimenovano, lišeno mjernih jedinica (mjerne jedinice u brojniku i nazivniku izraza (2.62.) krate se) , moguće je, npr., pri konstrukciji dvaju poligona frekvencija na istom grafikonu koristiti se zajedničkom osi apscisa unatoč različitostima originalnih obilježja. Usto na takvom grafičkom prikazu aritmetička sredina obaju nizova koji se uspoređuju pada na isto mjesto, u točku u kojoj je Zi O. Iz definicionog se, naime, izraza (2.62 .) vidi da za Xi X � Zi O.
=
=
=
Transformirana varijabla Z ima posebna svojstva. Aritmetička sredina standardiziranog obilježja jednaka je nuli, a njegova standardna devijacija jedinici: N
-
N
N
X; - x I a z = � = ;=1 N N I z;
I (Z; _ z)2 ;=1
z
I z; N
�
N
a2 = l � a
z
= �'1l
;=1
N
N
az2
I (x; - :x) =0 Na
=
x; - x I( a J N
N
-
;=1
N
;=1
I (X; _ :x)2
..:. i= -'I____ N
I (X i _ :x)2
=
l ,
i=l
l .
2.5.3. Mjere asimetrije Osim disperzije, interesira nas i način na koji su podaci raspoređeni oko srednje vrijednosti. Distribucija podataka oko srednje vrijednosti može biti simetrična, a može pokazivati slabiju 23) Detaljnije o tome u poglavlju o pravilu Čebiševa u: (26) Šošić, Ivan, Serdar Vladimir (2000), Uvod u statistiku. Zagreb: Školska knjiga.
OSNOVNI POJMOVI I TEH N I K E DESKRI PTIVNE STATI ST I K E
83
ili jaču asimetriju. Asimetrija može biti bilo pozitivna, bilo negativna. Ako je graf distribucije više razvučen prema većim vrijednostima numeričkog obilježja, govorimo o pozitivnoj asimetriji. U suprotnom slučaju, kad su najmanje vrijednosti ekstremne, distribucija je negativno asimetrična. Postoji nekoliko mjera asimetrije. Na mjere asimetrije postavljaju se sljedeći zahtjeVi: one moraju biti neimenovani brojevi, lišeni mjernih jedinica, kako bi se omogućila u sporedba asimetrije podataka izraženih u različitim mjernim jedinicama. Nadalje, mjere asimetrije moraju moći poprimiti pozitivne vrijednosti, negativne vrijednosti i nulu (u slučajevima pozitivne asimetrije, negativne simetrije i u slučaju odsutnosti asimetrije) . Vrijednosti koje mjere asimetrije poprimaju moraju biti i z zatvorenog intervala, da bi ih se moglo vrednovati.
Koeficijent aSimetrije a3 24 je potpuna mjera asimetrije. Temelji se na odstupanjima podataka od aritmetičke sredine, tj. na razlikama Xj X dignutim na treću potenciju. li prvom stupnju te razlike nisu podesne za mjerenje asimetrije, budući da je njihov zbroj jednak nuli. Parne potencije ne dolaze u obzir jer su pozitivnog predznaka, pa iskazivanje negativne asimetrije pomoću njih nije moguće. Za mjerenje asimetrije podesne su neparne potencije odstupanja podataka od aritmetičke sredine jer je njihov zbroj bilo pozitivnog, bilo negativnog predznaka, bilo nula, ovisno o tome radi li se o pozitivnoj, negativnoj asimetriji ili o simetriji. Ako je distribucija pozitivno asimetrična, odstupanja pozitivnog predznaka pretežu nad onima negativnog predznaka. li negativno asimetričnoj distribuCiji je obrnuto. li simetričnoj distribuciji se razlike (xj- X ) 3 >0 kompenZiraju razlikama (Xj - X )3 <0. Zbog toga mjera asimetrije a3 u brojniku sadrži treći moment oko sredine, /13 . On je najjednostavniji moment oko sredine kojim se može izraziti smjer i intenzitet asimetrije u numeričkim nizovima. li nazivniku je standardna devijacija dignuta na treću potenciju kako bi se postiglo kraćenje mjernih jedinica u brojniku i nazivniku , tj . njihovo eliminiranje. Dakle, (2.63.) Mjera a3 po apsolutnoj vrijednosti najčešće' ne prelazi 2, osim u slučaju vrlo jake asimetrije, kada može prijeći tu granicu . Pearsono17e mjere asimetrije (oznaka Sk od engleskog: skewness zakošenost, nagnutost) zasnivaju se na odnosu moda, medijana i aritmetičke sredine u distribucijama frekvencija. Taj odnos možemo ilustrirati grafički: =
(4) Čitaj, alfa tIi.
84
POGLAVUE 2
� G rafikon 2 .2 8 . Položaj srednji h vrijednosti u distri bucijama frekvencija Simetritna distribucija:
Pozitivno (desnostrano) asimetritna distribucija:
Negativno (ljevostrano) asimetritna distribucija:
�� A Mo Me x
x Mo Me
x Me Mo
Vidimo da se u simetričnoj distribuciji sve tri srednje vrijednosti poklapaju, tj . vrijedi jednakost: i Ma Mc. II pozitivno asimetričnoj distribucij i se ispod tjemena krivulje, kao vrijednost s najvećom frekvencijom , smjestio mod. Aritmetička je sredina, kao labilna srednja vrijednost, odvučena najvećim vrijednostima numeričkog obilježja najjače u desno, dok se medijan, kao troma pozicijska vrijednost, smjestio približno na trećini razmaka izmedu aritmetičke sredine i moda. za pozitivno asimetričnu distribuciju vrijedi: Mo < Mc < i ) kao i i - M" ::;; 3 ( X - MJ II negativno asimetričnoj distribuciji je poredak srednjih vrijednosti obrnut, tj . vrijedi nejednakost: X < Me. < M". Medijan je i tu smješten bliže aritmetičkoj sredini, tj. vrijedi relacija X - M,, ::;; 3 ( X - MJ =
=
Stoga su Pearson ove mjere dane izrazima:
Sk
_ i - M"
-
--a
(2 . 64.)
(2 . 65.) za Pearsonove mjere vrijedi : ISk I � 3 , osim ako se radi o asirnetriji vrlo velike jakosti, kada ta brojka može biti premašena. II nazivniku izraza (2.64.) i (2.65.) je standardna devijacija, u svrhu kraćenja mjernih jedinica u brojniku s onima II nazivniku.
Bowleyeva mjera asimetrije (simbol Sic<) temelji
se na odnosima kvart ila i medijana u distribucijarna frekvencija koji su ilustrirani grafikonom 2.28.
OSNOVNI POJMOVI I TEH N IKE DESKRIPTIVNE STATISTIKE
85
� G rafikon 2 . 2 9 . Odnos kvarti l a i medijana u d istribucijama frekvencija Negativno (ljevostrano) asimetrična distribucija:
Pozitivno (desnostrano) asimetrična distribucija:
Simetrična distribucija:
U simetričnoj su distribuciji kvartili jednako udaljeni od medijana, tj . vrijedi: Q,j
M, := M, - Qj
,
odnosno Q3 +
Q/
2M, ==
O.
U pozitivno asimetričnoj distribuciji treći kvartil je udaljeniji od medijana nego je to prvi kvartil, tj. Q3 - Mc > M, - Qj
,
odnosno Q3 +
Q,
2Me >
O.
U negativno asimetričnoj distribuciji razmak između prvoga kvartila i medijana je veći od razmaka između medijana i trećega kvartila, pa gornje nejednakosti mijenjaj u smjer, tj. Q3 - Me < Me - Qj
,
odnosno Q3 +
Qj - 2Me <
O.
Bowleyeva mjera dana je izrazom: (2.66.) U nazivniku Bowleyeve mjere je interkva.rtil, radi eliminiranja mjernih jedinica iz izraza (2.66.) kraćenjem. Računanje mjera asimetrije demonstrirat ćemo na već danom primjeru SO proizvoda, čija težina je bila predmetom analize. U svrhu računanja trećeg momenta oko sredine. tabele 2.37. i 2.38. su nadopunjene kolonama x/j;. odnosno d/j;.
86
....
POG LAVUE 2
Tabela 2 .3 9 . Razred. sredina
3x2
fi 2
Xi
x/; 4
Xi i
4
85
340
28900,0
90 - 95
6
92,5
555
5 1337,5
4748 7 1 8,8
95 · 1 00
20
97,5
1 9 50
190125,0
1 8537 187,5
Težina u
Broj roizvoda
Xi 1
80 - 90
3
5
1 05
10
102,5
1 025
105062,5
1 0768906,3
1 05 - 1 1 0
8
1 07,5
860
92450,0
9938375,0
1 10 · 1 20
2
1 15
230
26450,0
3041 750,0
94325,0
49491437,5
1 00
, m2
=
9886, 5
,
te
4949 1 437,5 50
m3
989828,75 · 3 · 99 ,2 · 9886,5 + 2 . 99,23
P3
....
Kol.
989828' 7 5 .
=
=
- 1 0,674
Tabela 2 .40. Težina u gramima
Broj proizvoda
Razred. sredina
Xi
fi 2
Xi
4
85
9 0 - 95
6
92,5
100
20
97,5
100 - 105
10
102,5
105 - 1 10
8
107,5
1 1 0 - 120
2
115
Ukupno
50
l
80 . 90 95
3
Ko l
Xi
4
a
di 5
.
Ko l
.
Ko l.
5x2
6x5
7x5
dJi
d/fi 7
d/fi - 62,5
6
8
·12,5
-2,5
·10
25
-5
-1
-6
6
O
O
O
O
O
5
1
10
10
10
10
2
16
32
64
1 7,5
3,5
7
24 ,5
85,75
17
97,5
9 1 ,25
-6
•
OSNOVNI POJMOVI I TEH N I KE D ES K R I PTIVN E STATI ST I K E
,
0,34 , m 2
, 1 ,9 ) t e m 3 _
=
9 1 ,2 5
= -
1 ,825 .
SO
,3
"
87
3mjm 2 + 2mj ) ).1.3
=
5 3 ( 1 ,8 2 5 - 3 · 0,34 · 1 ,9 5 + 2 . 0, 343)
=
- 1 0,674 .
Vidimo, dakle, da je distribucija gotovo simetrična jer je asimetrija od -0,03 praktički zanemariva. za istu ćemo distribuciju izračunati i obje Pearsonove mjere, kao i Bowleyevu mjeru asimetrije.
Aritmetička sredina distribucije iznosi 99,2 iH" 97,9 , 1 03 , 7 5 (provjerite točnost ovih pokazatelja za vježbu). ,
99,2 - 97,9 6,77
(j
--,-_-,,-,-) (j
=
=
M,
98,75, Q I
=
95,625 , Q3
=
° "1 9
3(99,2 - 98,7 5) 6,77
=
=
° " 20
te
1 03,7 5 + 9 5,62 5 - 2 · 98,7 5 1 03,75 - 9 5,625
0,23.
Vidimo da ove tri mjere upućuju na približno isti zaključak, a taj je da se radi o neznatno izraženoj pozitivnoj asimetriji. Ti su rezultati na prvi pogled kontradiktorni s izračunanim a3 , koji upućuje na zanemarivo mal u negativnu asimetriju. Za očekivanje je bilo da sve izračunane mjere upućuju na isti zaključak o jakosti i smjeru asimetrije. One se brojčano ne moraju poklapati, ali moraju pružati istu sliku analizirane distribucije. Treba , međutim, imati na umu da ni Pearsonove, ni Bowleyeva mjera nisu potpune, pa u ovakvom slučaju , kad asimetrija gotovo d a n e postoji, one mogu oscilira t i oko nule i poprimiti različiti predznak. il svakom slučaju, zajedničko sVim izračunanim pokazateljima je da je asimetrija neznatna.
2.5.4. Mjera zaobljenosti Mjerom zaobljenosti a. (alfa četiri) upotpunjujemo našu predodžbu o izgledu distribucije. ivljera zaobljenosti definirana je izrazom: (2.67.) Dobivene brojčane rezultate uspoređujerno s vrijednosti te mjere za tzv. normalnu distribuciju. Normalna ili Gaussova distribucija je najpoznatija i najvažnija teorijska
88
POGLAVUE 2
distribucija, o kojoj će biti više riječ u poglavlju u kom ćemo obraditi neke postupke iz teorije uzorka. U svrhu interpretacije koeficijenta zaobljenosti na ovom ćemo mjestu opisati samo njezin izgled. To je simetrična krivulja karakteristična zvonolikog oblika, koja se aSimptotski približava osi apscisa i njezin a4 iznosi 3. Ako je a 4 distribucije koju analiziramo veći od 3 , ona j e šiljastija (užeg i višeg vrha) od normalne. Ako j e a4 manji od 3 , ona je plosnatija (niža i šira) od normalne. Za vrednovanje rezultata izračunavanja a4 koristimo se i vrijednosti tog pokazatelja jedne druge teoretske distribucije, tzv. pravokutne ili uniformne distribucije. To je distribucija čije su ordinate jednake pa je njezin graf (ako je varijabla kontinuirana) paralela s osi apscisa. Njezin a4 iznosi 1 ,8. Ako je a4 distribucije koju analiziramo manji od 1 ,8, distribucija ima oblik slova "U". Tipični oblici koje distribucij e poprimaju za različite vrijednosti mjere asimetrije predočeni su grafikonom 2.30.
� G rafikon 2.30. Zaobljenost d i stribucija za razl ičite vrijednosti mjere asimetrije al Normalna distribucija, (l4=3
b) Distribucija šiljastija od normalne (l4>3
dl Pravokutna (uniformna) distribucija, (l4=1 ,8
c) Distribucija plosnatija od normalne (l4<3
e) "U" distribucija (uleknuta), O<(l4<1 , 8
Za prethodno analiziran u distribuciju 50 proizvoda prema težini izračunat ćemo mjeru zaobljenosti a4• Prethodno je potrebno izračunati četvrti moment oko sredine. Računanje četvrtog momenta izvest ćemo, demonstracije radi, na dva načina: pomoću momenata oko nule i pomoću momenata oko konstante kodiranja a. U tu svrhu treba tabele 2.39. i 2.40.
OSNOVNI POJ MOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
89
nadopuniti još po jednim stupcem, potrebnim za računanje brojnika odgovarajućega četvrtoga pomoćnog momenta. To su stupci:
Nastavak tabele 2 .40.
Nastavak tabele 2.39.
, i
Kol.
Kol.
6x3
8x5
x/h
di4.fi 9
7
208802500,0
1 56,25
439256484,4
6
180737578 1,3
O 10
1 1 0381 2890,6 106837531 2 , 5
•
128
349801 2 50,0 i
300.125
49774242 18,8
v
600,375
,
•
•
CetvrtJ pomocni moment oko nule iznoSI:
fl4
m4
49774242 1 8, 8 ==
50
=
99548484 , 3 8
99548484, 3 8 - 4 · 99,2 · 989828 , 7 5 + 6 . 99,22 · 9 886,5
3 . 99 , 24
6 7 7 3 , 7062 a
4
=
.!!.i.. .!!.i.. (T
fli.
4
6 7 7 3,7 1 =
45,86
2
=
3 22 , .
Četvrti pomoćni moment oko a iznosi: 600,3 7 5 50
fl.
=
=
1 2 ' 007 5
fl
4
54 ( 1 2 ,0075 - 4 . 0, 3 4 . 1 , 82 5 + 6 . 0 , 3 42 ' 1 , 9 5 - 3 . 0, 3 44 )
Rezultat a. 3 ,22 pokazuje da je distribUcija tj. uža i viša od normalne distribucije.
50
67 7 3 , 7 062.
proizvoda prema težini neznatno šiljastij
2.5.5. Mjere koncentracije Mjere koncentracije su vrlo prikladna statistička oruđa sa širokim mogućnostima primjene u ekonomskoj analizi. One nam npr. pružaju informacijU o ravnomjernosti ili neravnomjernosti razdiobe dohotka, novčanih sredstava štediša, te razne druge imovine.
90
POGLAVUE 2
I movina može biti ravnomjerno raspodijeljena na veliki broj privrednih subjekata, a može biti koncentrirana na samo njih nekoliko. Medu najpoznatije pokazatelje koji u pućuju na postojanje i stupanj koncentracije podataka ubrajaju se Lorenzova krivulja i Ginijev koeficijent koncentracije. Lorenzova se krivulja j iz nje izvedene mjere po pravilu rabe za analizu ravnomjernosti raspodjele dohodaka. bogatstva i općenito stečenih materijalnih dobara. Također se mogu s uspjehom primijeniti i u analizi ravnomjernosti raspodjele tržišnih udjela, te poreznih i drugih opterećenja. Statističkim rječnikom rečeno. mjere koncentracije pruzaJu uvid u ravnomjernost (ili neravnomjernost) raspodjele totala po članovima skupa podataka. Stupanj ravnomjernosti te raspodjele uočavamo analizom točaka Lorenzove krivulje. Njezin graf se konstruira u dijelu prvoga kvadranta pravokutnoga koordinatnog sustava omeđenog nulom i jedinicom na obje osi (ili sa ° i 100, ako se analizira pomoću postotaka) . Na os apscisa nanosi se aritmetička mjerilo za vrijednosti empirijske funkcije distribucije (kumulativnog niza " manje od") računane pomoću relativnih frekvencija. Na os ordinata nanosi se isto takvo mjerilo za vrijednosti kumulativnog niza udjela (bilo proporcija. bilo postotaka) subtotala 'f; u totalu T. Lorenzova krivulja počinje od ishodišta, tj . od točke s koordinatama (0,0), dok su koordinate ostalih točaka (FJxi) FdT,))· Primijetimo da su oznake koordinata točaka jednake i za slučaj pojedinačnih vrijednosti obilježja i za slučaj distribucije frekvencija. ali se njihovo računanje razlikuje. Tako za pojedinačne vrijednosti obilježja ,
FJx) =
N
i = 1, , N
'
...
'1' = za distribuciju frekvencija
FJxJ
i
=
L >j ' j�J i L > Jj j�! T
N
�: > j j =i=1
,
Jj Pj = N ' k
T = Lx Jj '
j =i=1
i .j
1 . ,N.
i ,j
1, . ,k.
i,j
l , . . , k. .
.
..
(2.68.)
..
(2.69.)
Želimo li konstruirati Lorenzovu krivulju za distribuciju u kojoj su frekvencije izražene kao proporCije. moramo, da bismo izračunali udjele podtotala u totalu, sukcesivno dijeliti produkte P,xi aritmetičkom sredinom, budući da je
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
91
N U tom je slučaju, dakle, j
I XjPj x
i ,j
} , . . ,k..
(2.70.)
Napominjemo, takoder, kako je svejedno da li se u svrhu računanja kumulativnih udjela podtotala u totalu najprije podtotali dijele totalom, pa se dobiveni udjeli nakon toga postupno zbrajaju ili se podtotali najprije postupno zbrajaju pa se zatim dobivene parcijalne sume dijele totalom Ger je nazivnik u oba slučaja isti) . Sve točke Lorenzove krivulje leže ispod pravca jednakosti raspodjele promatranog obilježja po Lorenzu dohodaka ili bogatstva spojnice točaka (0,0) i C l , l ) . Pravac jednakosti raspodjele dan je izrazom F.lxJ FIOJ Riječima, tako zamišljena jednakost bi bila postignuta kad bi odredeni kumulativni udio dohotka ili ine imovine pripadao po veličin i jednakom kumulativnom udjelu nosilaca imovine. Na primjer, u tom bi slučaju 1 0% stanovnika imalo l O%imovine. 20% stanovnika bi imalo 20%imovine itd. Drugi ekstrem je krajnja nejednakost. kad je sva imovina u rukama samo jedne jedinke, tj. za i N, F,(xj) Fil�). l . Za sve ostale vrijednosti i, i l , . . N- l , FT(T), O. Između tih dvaju ekstrema, unutar troku ta omeđenog točkama (0,0), ( I .o) i ( l , 1 ) leži Lorenzova krivulja. Apscise točaka Lorenzove krivulje su u slučaju pojedinačnih podataka jednako udaljene. tj. kažemo da čine ekvidistantni niz. Njezin je prikaz za N 4 dan grafikonom 2 . 3 1 . =
=
=
..
.. G rafikon 2 .3 1 . S hematski prikaz Lorenzove krivulje za N
=
=
4.
=
92
POGLAVLJ E 2
Vidimo npr. da udjelima jedinica 1/4, 1/2 i 3/4 pripadaju znatno manji udjel i imovine ili , općenito, ekonomskog dobra čija s e (ne)ravnomjernost raspodjele mjeri. Primijetimo također da Lorenzova krivulja ima N+ l točaka. Stupanj nejednakosti raspodjele mjeri se Ginijevim koeficijentom koncentracije koji se izvodi direktno pomoću Lorenzove krivulje. Š to je Lorenzova krivulja udaljenija od pravca jednakosti, nejednakost raspodjele je, a time i koncentracija ekonomskog dobra na manji broj jedinki, veća. C inijev se koeficijent koncentracije (oznaka G) definira kao odnos površine što ju zatvara pravac jednakosti i Lorenzova krivulja i površine trokuta s vrhovima (0,0) , ( l ,Q) i ( 1 , I ) . Na grafikonu 2.32. smo prethodno opisanu površinu iznad Lorenzove krivulje označili sa A, a onu ispod nje sa B, pa je Cinijev koeficijent koncentracije odnos površine A i zbroja površina A i B, tj .
G
A A+B
( 2 . 7 1 .)
Dvostruka površina A i kvadrat sa stranicom duljine l u istom su odnosu kao površina A i trokut površine 0 . 5 ispod pravca jednakosti, tj . zbroj površina A i B : 2A
2A = � . A+B
Kako je 2A
G
2 B , to se alternativno Cinijev koeficijent koncentracije računa kao l
2B ,
(2.72.)
jer povrsmu A nije moguće izračunati izravno, već samo kao razliku 0.5 B, ako su relativne frekvencije iskazane kao proporcije25• Očito je da Cinijev koeficijent može poprimati samo vrijednosti iz intervala [ O, l J . Uz potpunu bi se jednakost razdiobe Fy{T;) pa bi površina A iščezla te bismo Lorenzova krivulja podudarala s pravcem Fix.) imali : G O. Uz potpun u bi nejednakost (sva imovina u posjedu jednoga jedinog sudionika u razdiobi) površina B iščezla i G bi poprimio vrijednost l . -
25) Ukoliko su relativne frekvencije iskazane kao posMei, B se oduzima od 5000 (112 od 100 x 1 00).
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
� G rafikon
93
2.32. ix/) F
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1 , 1 )
Flr;)
(0,0)
Izraz za Ginijev koeficijent koncen tracije računan kao l minus dvostruka površina B za pojedinačne podatke glasi:
G = l
N
-
l - L [FT ( Ti ) + Fr C(-I )] .
N i=1
(2.73.)
Zbrojevi [ Fr(T;) + FT(Tj_ /) l čine stranice trapeza smještenih ispod Lorenzove krivulje, koji čine površinu B na grafikonu 2.32 .To je još uočljivije na grafikonu 2 . 3 \ . gdje se jasno razabiru tri prema gore okrenuta trapeza i na početku, počevši od ishodišta, trokut, jer je FT(To) = O pa je prvi trapez degenerirao u .trokut. Visine svih trapeza i trokuta su jednake i iznose l/N (na grafikonu 2 . 3 \ . po 1/4) . i
L Xj = Uvrštavanjem odgovarajućih kvocijenata j �r za kumulativne udjele podtotala
FT(Tj )
i
FT(l:_/), svođenjem na zajednički nazivnik, te neznatnim modifikacijama izraza (2 .73.) dolazimo do još jednostavnijeg izraza za Ginjev koeficijent koncentracije: N
G
=
N
2L ix i - ( N + l)Lx i ,..,-_...:. -- i=.. . I_ ----'-i=..I .:.. ..:. N
_ _
N L Xi i= 1
(2.74.)
94
POGLAVLJ E 2
Simbol i u izrazu (2.74.) označuje redni broj podatka. Ginijev koeficijent koncentracije za grupirane podatke, tj . za distribuciju frekvencija glasi:
G
=
1 -
k
'L Pi [FT ( T; ) + FT Cf;-I )]
(2. 7 5 .)
;=1
Računanje Gin ijeva koeficijenta primjenom i zraza (2.73.) i (2.74.) pokazat ćemo na primjeru lO poduzeća jedne grane kod kojih je zabilježen godišnji promet (u mil. DEM) kako slijedi: Xi:
li
0,4 , 0,9, 1 ,2, 1 5, 1 2 , 1 ,4, 0,8, 6, 1 , 3
l.
svrhu računanja pokazatelja koncentra'Cije, varijablu je potrebno urediti po veličini. To, kao i daljnji postupak računanja, sadrži tabela 2.4 1 .
�
Tabela 2 .4 l . Promet kumulativ no
Kum. udjeli totala
Sr(T)
Fr(Ti)
Redni broj poduzeća
Promet u mil. DEM
i
Xi
iXi
l
2
3
4
5
l
0, 4
0, 4
0,1
0,1
0, 4
0,01
0,01
2
0,8
1,6
0,1
0,2
1,2
0,03
0,04
3
2,1
0,0525
0,0825
Pi
=
liN
Fixi)
6
7
Fr(Ti)+ Fr(1i-J) 8
0,9
2,7
0,1
0,3
4
l
4
0,1
0, 4
3,1
0,0775
0,13
5
1 ,2
6
0,1
0,5
4 ,3
0,1 075
0,185
6
1 ,3
7,8
0,1
0,6
5,6
0,1 4
0,2475
7
1 ,4
9,8
0,1
0,7
7
0 , 1 75
0,3 1 5
8
6
48
0,1
0,8
13
0,325
0,5
9
12
1 08
0,1
0,9
25
0,625
0,95
15
1 50
0,1
1,0
40
1,0
40
338,3
1,0
-
-
10 -
1 ,625 -
4,085
Brojevi u stupcima 5 i 7 su apscise i ordinate točaka Lorenzove krivulje, koja je prikazana na grafikonu 2.33.
OSNOVNI POJMOVI I TEH N I K E DESKRIPTIVNE STATI ST I K E
95
� G rafikon 2 .33 . Kum. udjeli u prometu
Flr;) 1 ,0
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -f-.....,..,=F'----+---+-t---+--+-t---l
0,0 0, l 0,2 0, 3 0,4 0,5 0,6 0,7 0,8 0,9 1 ,0
Kum. proporcija poduzeća
Fx (Xi)
Vidimo da se radi o dobro izraženoj koncentraciji jer je Lorenzova krivulja dosta odmaknuta od pravca jednakosti. To se uočava i usporedbom kumulativnih udjela poduzeća i pripadnih udjela prometa u stupcima 5 i 7 tabele 2.4 l .Vidimo da na 8 od 1 0 poduzeća otpada svega 32,5% prometa, a na 9 poduzeća ukupno 62,5% prometa. Jedno jedino poduzeće drži čak . 3 7 , 5% prometa ( 1 00-62 , 5 ) . To pokazuje i izračunati Ginijev koeficijent koncentracije dobiven primjenom izraza (2.74.): N
G=
N
2 L ix - (N + l)2 > ;=1
'
N
NL x;
i=1
'
=
2 · 338,3 - (1 0 + 1) · 40 = 0' 59 1 5 . 1 0 . 40
i=1
Do istog rezultata dolazimo i pomoću izraza (2 .73.) koji se od izraza koji se primjenjuje za grupirane podatke razlikuje samo po tome što je pi= liN za svaki i, pa je liN kao konstanta izlučen ispred znaka zbrajanja:
96
POGLAVU E 2
G= l
� I[FrCfJ+FTCfi-1)]
N i=l
-
= 1-
{ llI O)
·4,085
=
0,5915.
U primjeru kOji slijedi pokazat ćemo računanje Ginij eva koeficijenta koncentracije za grupirane podatke:
Tabela 2.42. Poduzeća na tržištu A prema veličini prometa
....
Promet
Broj
u mil.
podu-
DEM
zeća
Xi
fi
Razr sred.
Podtotali
Xi
xl;
Udjeli podtotala
Kumulat. udjeli podtotala
xl/T
FriTJ
Proporcija poduzeća
Pi
Kumulat.
Koi}
udjeli
x
poduzeća
F.(xJ
kol 9
[FT(1i)+ FT(Tj./)]
p;'[]
120
0,5
3
4
60
0,027
0,027
0,2 1 1
0,2 1 1
0,027
0,006
l -2
200
1,5
300
0,136
0,163
0,351
0,561
0,190
0,067
1
O-l
2
5
6
7
8
9
10
2-5
175
3,5
6 1 2,5
0,277
0,440
0,307
0,868
0,603
0,185
5 - 10
55
7,5
412,5
0 , 1 87
0,627
0,096
0,965
1,067
0,103
1 0 - 50
15
30
450
0,204
0,830
0,026
0,991
1 ,457
0,038
50 -100
5
75
375
0,170
1,000
0,009
1 ,000
1 , 830
0,016
Ukupno
570
-
2210
1,000
.
1.000
0,4 1 5
Primjenjujemo izraz (2.75.):
G
= 1-
k
LPi[FT(Tj)+ FrCfi-1)] i=l
= l
0,415
0,585.
Vidimo da je i na ovom tržištu koncentracija dosta jaka jer površina između pravca jednakosti i Lorenzove krivulje iznosi 58,5% površine trokuta koji zatvaraju točke (0,0), (l ,O) i (l,l). I u ovom primjeru se do tog zaključka može doći analizom ordinata i apscisa točaka Lorenzove krivulje sadržanih u kolonama 6 i 8 tabele 2.42. Na 96,5% poduzeća, npr., otpada svega 62,7% prometa. N ajveća poduzeća, kojih je jedva 1% (proporcija 0,009), ostvaruju 17% prometa na tom tržištu itd.
Na grafikonu 2.33. prikazana je Lorenzova krivulja za distribuciju frekvencija iz tabele 2.42.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
97
� Grafikon 2 .34. Kum. udjeli u prometu
FrfT,) 1,0 .. .. - .. �
- � .. ��.--------- .......... -------
0,9
0,8
0,7
0,6
0,5
0,4 0,3
0,2
0,1
�,O
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,6 0,9 1,0
Kum. proporcija poduzeća
Fx(Xi)
Izračunani Ginijev koeficijent treba uvijek nadopuniti Lorenzovom krivuljom i analizirati njezin oblik u konkretnom slučaju. Ginijev koeficijent koncentracije, naime, ima nedostatak da njegova jednaka b rojčana vrijednost ne mora značiti jednaku nejednakost raspodjele, i to treba imati na umu kod njegova računanja. Naime, kad bi npr. trećina sudionika sudj elovala u raspodjeli s udj elom n ula, a ostale dvije trećine bile ravnomjerno raspodijeljene na ostatak sudionika, koeficij ent bi koncentracije bio isti kao i kad bi na jednog sudionika u raspodjeli otpala jedna trećina dobara, ostali b i sudionici ravnomjerno sudjelovali u raspodjeli preostale dvije trećine dobara. Takav slučaj ilustrira grafikon 2.35.
� Grafikon 2 . 35. FrfT;) 1
-------------. -----• • - •• ---- • • -----
2/3
1/3
Oi"'-�-_f_---_+_--__l o
1/3
1
Fix;)
98
POGLAVUE 2
Vrlo prikladni pokazatelji neravnomjernosti udjela pojedinih sudionika u raspodjeli nekoga ekonomskog dobra su Iwncentracijski omjeri. Koncentracijski omjer Creda r jest udio takvog dobra koje drži r najvećih sudionika, tj. on se definira kao
(2.76.) i=1
Na primjer, koncentracijski omjeri reda dva i tri za podatke iz tabele 2.4 1. iznose: C 2
15+12 40
= 0,675
i C3
15+ 12+ 6 40
0,825.
Znači, na dva posljednja poduzeća otpada 67,5% prometa, a na tri posljednja poduzeća otpada 82,5% prometa. Do istih se rezultata dolazi analizom kumulativnih proporcija podto tala u stupcu 7 tabele 2.41. Ako na prvih osam poduzeća otpada samo 32,5% prometa tada na preostala dva po prometu najveća poduzeća otpada ostatak do 100% ostvarenog prometa. Znači, C2 = l 0,325 0,675. Također, Cl = l 0, 175 = 0,825. -
-
II
METODA UZORKA 3.1. Osnovne zadaće metode uzorka Metode izložene u prethodnom poglavlju jesu metode deskriptivne statistike; pomoću njih se opisuju j analiziraju prikupljeni podaci. Prikupljanje podataka o obilježjima svih jedinica statističkog skupa, tj . iscrpno promatranje, često je preskupo ili zahtijeva previše vremena, a katkad nije ni moguće, ako je on npr. beskonačan. Katkada je u svrhu kontrole kvalitete potrebno uništiti proizvode. Dio proizv�da se u tu svrhu može žrtvovati, ali cijela proizvodnja ne, a ona je ta čija nas kvaliteta zanima. U takvim se slučajevima pribjegava reprezentativnom promatranju kojim se obuhvaća samo dio jedinica statističkog skupa. Na taj način dobiveni podaci čine dio ili podskup skupa podataka, ali se zaključci dobiveni temeljem njegove statističke analize protežu na sve podatke, za koje rabi mo naziv osnovni skup ili populacija. Do valjanih zaključaka o osnovnom skupu dolazimo primjenom metoda inferencijalne statistike. Podskup osnovnog skupa, koji je u takvom slučaju predmet statističke obrade, naziva se uzorak. Da bi uzorak mogao odgovoriti zadaćama koje se na njega postavljaju, a to je prije svega da se pomoću njega dobiveni zaključci mogu protegnuti na cijeli osnovni skup, on mora biti reprezentativan. To znači da po svoj im karakteristikama mora biti nalik na osnovni skup, tj .
1 00
POGLAV U E 3
mora predstavljati osnovni skup u malom. To se postiže ispravno provedenim izborom jedin ica u uzorak I . Pouzdanu informaciju o populaciji omogućuje slučajni izbor elemenata u uzorak. Slučajni izbor podrazumijeva da je za svaki element populacije poznata vjerojatnost2 izbora u uzorak. I zbor jedinica u uzorak može biti namjeran ako u uzorak biramo elemente koje smatramo tipičnima za pojavu koja se istražuje. Takav se izbor primjenjuje prije svega iz pragmatičnih razloga. Razlikujemo izbor jedinica u uzorak s ponavljaftjem i bez. ponavljmtja, ovisno o torne vraćaj u li se one nakon i zbora u osnovni skup i mog u li ponovno biti birane u uzorak ili ne. Označimo sa 11 opseg, tj. broj elemenata u uzorku, a sa N opseg populacije. Tada je broj različitih uzoraka koje j e moguće izabrati i z osnovnog skupa (bez ponavljanja) dan izrazom
( N\ za broj kombinacija od po n elemenata iz skupa od N elemenata. I\nJlJ·
Jednostavni slučajni izbor je takav izbor kod kojega svaki od jednaku vjerojatnost izbora. Drugim riječima, svaka je od
(�J
(';J
različitih uzoraka irna
mogućih kombinacija od po n
elemenata jednako vjerojatna. Rezultat takvog načina izbora je jednostavni slučajni uzorak. Kod njega za svaki element populacije postoji jednaka vjerojatnost izbora u uzorak. Pritom je izbor jednog elementa u uzorak neovisan o izboru drugoga. Postupci koje ćemo opisati u ovoj knjizi baziraju se na takvom uzorku. Pomoću uzorka provodimo dvije vrste postupaka. U prve ubrajamo postupke procjenjivanja karakteristika osnovnog skupa na temelju istovjetnih karakteristika izračunanih iz uzorka. Drugo su ispitivanja istinitosti pretpostavki o nepoznatim karakteristikama populacije. Obje vrste postupaka počivaju na predodžbi o tzv. sampling< distribuciji.
1) O tome opširnije u knjizi Šošić. I .. Serdar. V.•UlIOđ u statistiku. Zagreb: Š kolska knjiga 2000.
2) U ovom kontekstu se misli na klasično definiranu vjerojatnost. na vrijednost kvocijenta broja "povoljnih" slučajeva realizacije nekog dogadaja i
(:) N (N) Nl
broja mogućih slučajeva.
3)
- čitaj:
izralom:
povrh (iznad) n, U kombinatarici se rabi za označavanje broja kombinacija od po n elemenata iz skupa od
;
11
111(."1
4) od engleskog: sample
/I)!
uzorak
, Oznaka
Nl N ( Čitaj
faktorijel) označava umnožak prirodnih brojeva od 1 do
N.
N
elemenata, Dan je
METODE UZORKA
101
3.2. Distribucija procjenitelja Prije n o što protumačimo pojam sampling distribucije, moramo uvesti pojmove procjenitelj i Procjenitelj je postupak, formula koja se primjenjuje na podatke iz uzorka, a procjena je broj, rezultat primjene procjen itelja. Procjenitelj je varijabla. Izraz za bilo koji statistički pokazatelj će, primijenjen na različite uzorke, rezultirati različitim vrijednostima.
procjena.
Kao što je već rečeno, iz osnovnog skupa veličine N moguće je na slučajni način izabrati
(:)
5
uzoraka veličine n. Za svaki od tih uzoraka mogla bi se npr. izračunati aritmetička
sredina (ili bilo koji drugi pokazatelj) . One bi međusobno varirale ovisno o torne iz kojeg bi uzorka bile izračunane. Znači, procjenitelj je u ovom primjeru aritmetička sredina varijabla, i to sampling varijabla, a varijacije među svim mogućim njezinim vrijednostima nazivamo sampling varijacije6• Budući da je riječ o slučajnim uzorcima, n ije izvjesno koju će vrijednost popri miti aritmetička sredina konkretnog uzorka. Stoga kažemo da je procjenitelj slučajna varijabla7 čija se distribucija naziva sampling distribucija. Ovisno o korn se procjeniteIju, tj. pokazatelju koji se računa iz uzorka radi, govorimo o sampling distribuciji aritmetičke sredine, medijana, varijance itd. Postupci procjena i ispitivanja istinitosti pretpostavki o karakteristikama populacije temelje se na svojstvima sampling distribucije. Poznavanje svojstava sampling distribucije n ekog procjenitelja omogućuje zaključke o istovjetnom pokazateiju populacije. Prema grupi teorema matematičke statistike poznatoj pod imenom centralni grani�l1i teorem, sampling distribucija aritmetičke sredine je normalna ako je i distribucija podataka u populaciji normalna, a ako nije, ali je uzorak dovoljne veličine, tj. ako je n?30, ona je približno normalnog oblika. Prema istom je teoremu aritmetička sredina sampling distribucije aritmetičke sredine, tj. njezina očekivana vrijednost8, jednaka aritmetičkoj sredini osnovnog skupa. Uz oznaku
E(X)
za očekivanu vrijednost9 aritmetičke sredine i J.l (grčko slovo, čitaj:"mi") za aritmetičku sredinu populacije, to se svojstvo, za koje se rabi termin nepristranost 10 iskazuje:
5) U svrhu razumijevanja pojmova na kojima se baziraju postupci inferencijalne statistike, potrebno je imati na umu da je broj mogućih komilinacija
(N) \."
redovito golem.
6) Različite moguče vrijednosti sampling varijable, lj. procjene koje bi ona mogla poprimiti, pripisujemo različitim uzorcima, pa odatle naziv sampling varijacije. Slobodno prevedeM: "koje se pripisuju u.rorku"
7) Vrijednosti slučajne varijable realiziraju se s odredenom vjerojatnosti.
8) "tl aritmetičku sredinu distnbucije vjerojatnosti rabi se izraz oče!rjvana vrijednosi.
9) engleski. expected value (očekivana vrijednosO, ili kraće: expectation (očekivanje). odatle simbol E
10) O nepristranoj procjeni guvorimo ako je očekivana vrijednost nakog pokazatelja (karakteristike) jednaka tom pokazateiju osnovnog skupa. U protivnom. procjena je pristrana (engleSKi: biased). Procjena varijance i standardne devijacije su primjeri pr"lstranih procjena. Očekivana vrijednost varijance, ijo aritmetička sredina njezine sampling distribucije manja je od varijance populacije.
1 02
POGLAVUE 3
Spomenuto svojstvo da se, bilo da je riječ o normalnoj distribuciji u populaciji, bilo da je uzorak dovoljne veličine uzet iz populacije koja nije normalna, sampling distribucija aritmetičke sredine može smatrati normalnom vrlo je važno jer su izraz za normalnu distribuciju i njezina svojstva poznati. Normalna je distribucija najpoznatija i svakako najprimjenjivanija teoretska distribucija kontinuirane numeričke varijable. Ona je dvoparametarska distribucija koja ovisi o vrijednosti aritmetičke sredine i standardne devijacije, što znači da su za svaki različiti par vrijednosti (fl, (J') njezin graf, a time i površina različiti. U postupcima koji spadaju u područje inferencijalne statistike, u kojima se donose zaključci s nekom vjerojatnosti, rabi se tzv. jediniZ11a ili standardizirana normalna distribucija. Njezino j e obilježje, kao što ime kaže, standardizirano, a frekvencije su izražene kao proporcije. Takva distribucija čini distribuciju vjerojatnosti slučajne varijable, budući da je površina ispod njezina grafa jednaka l, što je uvjet za svaku distribuciju vjerojatnosti. Njezina je površina tabelirana, pa iz tablica možemo npr. očitati kolika je vjerojatnost da neka vrijednost numeričke varijable premaši aritmetičku sredinu za najviše Zj standardnih devijacija. Ta je vjerojatnost dana površinom za vrijednosti pozicionirane desno od aritmetičke sredine distribucije do točke Zj Aritmetička sredina distribucije (preciznije: očekivana vrijednost, jer je riječ o distribuciji vjerojatnosti) poklapa se s nul-točkom, budući da je varijabla standardizirana.
� Slika 3.l. Skica površina ispod standardizira ne normalne krivulje
Zi
3.3. Procjena aritmetičke sredine U postupku procjenjivanja aritmetičke sredine osnovnog skupa pomoću aritmetičke sredine uzorka možemo postupiti na dva načina. Prvi način je procjena točkom (engleski: point estimate) , a drugi je intervaina procjena. Na primjer, zanimaju li nas prosječna primanja stanovnika nekog područja, možemo izabrati uzorak od n stanovnika tog područja, izračunati aritmetičku sredinu uzorka X , tj. prosječna primanja osoba u uzorku i zaključiti da su ona
METODE UZORKA
1 03
istovjetna prosJecmm primanjima stanovnika cijelog područja. Takav bi postupak činio procjenjivanje točkom. Izraženo simbolima: jJ = X.
Znak"" ., (čitaj: "kapa") iznad simbola za aritmetičku sredinu populacije označuje da se radi o njezinoj procijenjenoj vrijednosti. Izračunana aritmetička sredina uzorka je samo jedna od točaka sampling distribucije i nama nije poznata njezina točna pozicija u odnosu prema aritmetičkoj sredini populacije p. Da bismo dobili intervainu procjenu aritmetičke sredine populacije, oko izračunane aritmetičke sredine uzorka formiramo interval određene širine, ovisno o željenoj pouzdanosti (ili povjerenju) procjene. Š to je interval širi, procjena je pouzdanija, veća je vjerojatnost njegove istinitosti, tj . veća je vjerojatnost da će se u njemu naći aritmetička sredina populacije. Formiramo li uži interval oko aritmetičke sredine uzorka, procjena intervalom će, doduše. biti preciznija, ali će i vjerojatnost njegove neistinitosti, vjerojatnost pogrešne procjene biti veća. Pri opredjeljivanju za interval određene širine obično radimo kompromis između pouzdanosti i potrebne preciznosti. Interval procjene aritmetičke sredine populacije gradimo tako da aritmetičkoj sredini uzorka s jedne strane dodamo, a s druge od nje oduzmemo stanoviti broj standardnih pogrešaka aritmetičke sredine. Standardna pogreška (greška) pro(jenitelja u našem slučaju aritmetičke sredine - jest n aziv za standardnu devijaciju njegove sampling distribucije. Koliko ćemo standardnih grešaka dodati, odnosno oduzeti od aritmetičke sredine uzorka, ovisi o željenoj pouzdanosti intervalne procjene. il općem slučaju aritmetičkoj sredini s jedne strane dodajemo, a s druge strane od nje oduzimamo Zi standardnih grešaka procjene. Broj Zi se naziva koeficijent pouzdanosti procjene. Alternativni naziv za Zi je koeficijent povjerenja. Najčešće se formiraju intervali procjene s 95%-tnom pouzdanosti, u kom slučaj u koefiCijent povjerenja iznosi 1 ,96. On se očitava iz tablica površina ispod normalne krivulje. -
Tablica površina ispod normalne krivulje (tablica A u prilogu) sadrži, kao što to ime kaže, površine ispod njezina grafa desno od aritmetičke sredine distribucije, pa do neke točke Zi . Distribucija je simetrična pa je dovoljno n�vesti površine samo na jednoj strani distribUCije. Ž elimo li formirati interval procjene s određenom pouzdanosti, npr. 9 5%, to znači da moramo formirati interval takve širine da je u njemu sadržano 95% podataka normalne distribUCije. Preračunato u proporcije, to iznosi 0,95. Moramo dakle u tablici naći površinu koja iznosi 0,95 : 2 = 0,4750, jer tablica sadrži samo površine na desnoj polovini distribUcije. Vrijednosti Zi sadržane su u pretkoloni i u zaglavlju tablice tako da se njihov cjelobrojni dio i prva decimala nalaze u pretkoloni, a druga decimala u zaglavlju tablice. il našem se slučaju površina 4750 (nula na početku decimalnog broja je ispuštena radi štednje prostora) nalazi na presjeku retka 1 ,9 i stupca ,06, pa je traženi Z = 1 ,96. To je prikazano na slici 3.2.
1 04
POGLAVLJE 3
� Slika 3.2. Očitavanje vrijednosti
Zj
druga decimala
z
.. E 'u " 'o '"
�
a. +
� " 'f .�
..cl
Qj
:5'
iz tabl ica površina ispod normal ne krivulje
0.0 0.1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 O,g 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7
I� �9
2,0 2,1
1
11475001 -- � -- _ - _ _
--------------
Interval procjene aritmetičke sredine glasi:
p{X-Zj{O':;: X+Zj{O':;:} ::; f.1::;
=
i-y.
( 3 . 1 .)
Središnja točka intervala je aritmetička sredina uzorka X oko koje se gradi interval, sa željom da se u njemu nađe aritmetička sredina populacije f.1. . Simbol P označava pouzdanost, povjerenje odnosno vjerojatnost (engleski: probability) . Grčkim slovom y (gama) označena je vjerojatnost pogreške u procjeni aritmetičke sredine populacije, pa razlika l - yoznačuje pouzdanost intervalne procjene, tj . vjerojatnost njezine istinitosti. Ako je npr. pouzdanost l-y = 0.95, to znači da je od mOgUĆih
( �J
intervala
širine od po 1 ,96 standardnih grešaka oko aritmetičke sredine pojedinog uzorka, njih 95% istinitih U z koeficijent pouzdanosti z je indeks y!2, budući da se, kako je gore opisano, koeficijent pouzdanosti iz tablice površina ispod normalne distribucije očitava za polovinu pouzdanosti, a time ujedno i polovinu vjerojatnosti pogreške u procjeni, y. Stoga je u slučaju intervalne procjene = Z;12' Osim koeficijenta povjerenja" moramo izračunati i standardnu grešku aritmetičke sredine. U izrazima za njezino računanje rabe se sljedeći simboli: 0':;: standardna greška aritmetičke sredine,
Zj
o'
=
standardna devijacija populacije (ako je otprilike poznata),
METODE U Z ORKA
s
a
N
N
f
1 05
standardna devijacija uzorka, =
standardna devijacija populacije procijenjena pomoću uzorka (ili, kraće: ocjena standardne devijacije), opseg populacije (osnovnog skupa), opseg uzorka, frakcija izbora. To je odnos veličine uzorka i veličine osnovnog skupa. tj. f = n/N. U zimamo j u u obzir prilikom izbora odgovarajućeg izraza za standardnu grešku. Izraz za računanje standardne greške biramo ovisno o tome je li frakcija izbora manja ili je jednaka ili veća od 0,05 . Recipročna vrijednost frakcije izbora N/n zove se korak izbora.
Standardna se greška aritmetičke sredine računa pomoću izraza danih, preglednosti radi, u tabeli:
..
Tabela 3.1. Izraz za standardnu grešku aritmetičke sredine ax
a
ax
ax
=
Uvjeti za primjenu izraza
a
J;;
a
poznata ij<0,05
IN-n
�N1
a
a
a
poznata ij;:: 0,05
nije poznata ij
nije poznata ij;:: 0,05
{3 . 2 . l
(3.3.)
{3.4.l
(3.5.)
1 06
POGLAVUE 3
U posljednja dva izraza može se u brojniku. umjesto procjene standardne devijacije populacije pomoću uzorka, cT, uporabiti standardna devijacija uzorka, s, ali se tada izrazi 3.4. i 3 . 5 . neznatno modificiraju. Procjena standardne devijacije populacije pomoću uzorka definira se pomoću izraza:
(3.6.) za u zorak pojedinačnih, negrupiranih podataka, odnosno,
-'-'----,
n-I
k
L fi = n ,
(3.7 .)
i=1
za grupirane podatke u uzorku . Iz obaju se izraza vidi da se oni od standardne devijacije uzorka s II razlikuju samo po nazivniku izraza pod korijenom, tj. vrijedi S
gl -
(3.8.)
n-l'
Uvrštavanjem izraza (3.8.) za cr- u izraze ( 3 .4.) i (3.5.) tabele 3 . 1 . dobivamo:
..
Tabela 3.1. (nastavak)
s
�
eJ'x
ll)
s
�
� N- l
Standardna devijacija uzorka dana JC izrazom s =
a
a
(3.9.)
nije poznata if<0,05
nije poznata if;:::
(3.10.)
0, 05
="---- la pojedinačne, odnosno sa
.1 =
grupirane podatke, tj, distribuciju frekvencija ularka, a računa se na načine opisane u prethodnom poglavlju.
11..c:"'-----
la
METODE UZORKA
1 07
Prilikom formiranja i ntervala procjene aritmetičke sredine populacije koristimo se koeficijentom pouzdanosti z ako je poznato da je distribucija populacije približno normalna i ako je usto poznata njezina standardna devijacija, ili ako j e uzorak dovoljno velik. Naime, prema Centralnom graničnom teoremu , sampling distribucija aritmetičke sredine dosta brzo konvergira normalnoj distribuciji, tako da je za n � 30 upotreba koeficijenta Z iz tablica površina ispod normalne distribucije opravdana. Ako standardna deVijacija populacije nije poznata, pa se procjenjuje pomoću uzorka, za uzorke veličine n < 30, koristimo se koeficijentom t iz tablica Studentovel2 distribucije, uz uvjet da je distribucija podataka u osnovnom skupu normalna. Studentova distribucija je teorijska distribucija vjerojatnosti kontinuirane slučajne varijable t koja j e dana kvocijentom
X-p.
t =- -' S
(3.1l.)
U broj niku Studentova t je razlika distribuirano, to je
E(X) = J.1
'
X
-
J.1.
Kako j e obilj ežje X osnovnog skupa normalno
iz čega slijedi da je E( t )
=
o.
Studentova distribucija ovisi o samo jednom parametru v (grčko slovo, čitaj: n i) kOj i se naziva broj stupnjeva slobode (engleski: degrees of freedom), a dan je izrazom v=n
l.
(3.12.)
Ustvari, Studentova distribUcija j e naziv za familiju distribucija od koj ih oblik svake pojedine distribucije ovisi o određenoj vrijednosti v. Varijanca slučajne varijable t dana je izrazom: v
--
v
2
n-l = n 3
--
(3.13.)
S porastom veličine uzorka varijanca od t. se približava jedinici, pa se za n Studentova t može uporabiti standardno normalno distribuirana varijabla Z.
;:::
30 umjesto.
Studentova distribucija j e tabelirana na takav način da se iz tablica očitava koeficijent t za određen u proporciju jedinica koje se odbacuju s njeZina desnog kraja. U pretkoloni tablice su navedeni stupnjevi slobode, a u zaglavlju su koeficijenti t za proporcije jedinica 0, 1 0, 0,0 5 , 0,025 , 0,0 l i 0,005 smještenih na desnom kraj u distribucije. Želimo l i , n a primjer, načiniti intervainu procjenu aritmetičke sredine populacije s 95%-tnom pouzdanosti, moramo formirati interval takve širine da se u njemu nađe proporcija od 0,95 jedinica S tudentove distribucije. U takvom j e slučaju proporcija preostalih jedinica smještenih na krajevima d istribucije l 0,95 0,05. Na desnom kraju distribucije se u tom slučaju nalazi proporcija j edinica 0,05:2 :::: 0,02 5 , pa ćemo traženi koeficijent pouzdanosti naći u stupcu t02i i u retku 12) Autor distribucije je statističar Gosset koji ju je publicirao pod pseudonimom "Student", pa je po tome distribucija dobila ime.
1 08
POG LAVLJ E 3
koji odgovara broju stupnjeva slobode u konkretnom slučaju (veličini uzorka umanjenoj za jedan). U općem slučaju, dakle, u svrhu formiranja intervalne procjene iz tablice očitavamo , tj. t za r/2 jedinica koje se odbacuju s desnog kraja distribucije i za v stupnjeva slobode, v II -l (vidi skicu iznad tablice B). Želimo li npr. intervainu procjenu s 95%-tnim povjerenjem, a uzorak je velič'ine 20, traženi se koeficijent pouzdanosti (povjerenja) nalazi u tablici B na presjeku 19. retka i stupca t.uz; i iznosi 2,093. Slijede dva primjera intervalne procjene aritmetičke sredine, i to na temelju velikog, i na temelju malog uzorka. Primjer 3.3.1.U tvornici automobilskih guma ispituje se trajnost 100 slučajno izabranih automobilskih guma. Prosječno trajanje testiranih guma mjereno brojem prijeđenih kilometara iznosilo je 50000 km. Standardna devijacija cjelokupne tvorničke prOizvodnje guma procijenjena je na 7000 km. Želi se formirati interval procjene aritmetičke sredine uz pouzdanost 95%. S obzirom na to da se radi o velikom uzorku (tj. n> 30) možemo pretpostaviti da je sampling distribucija normalna i u procjeni se koristiti koeficijentom pouzdanosti z 1,96 iz tablice A. Standardna greška aritmetičke sredine, u ovom slučaju kad je cf poznata izbora manja od 0,05, jer se radi o beskonačnom osnovnom skupu, iznosi
i
kad je frakcija
Traženi je interval procjene:
P�
-
Zrj,Cfx ::; f.1::; x + Zrj,Cfx
J= 1- r
P{50000 -1,96· 700::; f.1::; 50000 + 1,96 ·700} P{48628::; f.1::; 51372}
0 ,95
0,95.
Uz pouzdanost (povjerenje) 95%, dakle, procjenjujemo da se prosječno trajanje guma u cjelokupnoj tvorničkoj proizvodnji kreće između 48628 km i 51372 km. Primjer 3.3.2. U uzorku od 20 tekućih računa od njih 4857 u nekoj banci, ustanovljeno je, sa stanjem 31.12.2000., sljedeće prekoračenje raspolOŽivih sredstava (kn): 150
122
O
32
30
196
10
17
17
120
1100 1964
100
20
30
O
]06 1961
]0 961
Želimo uz pouzdanost 95% procijeniti prosječno prekoračenje raspolOŽivih sredstava na svim tekućim računima te banke. U tu svrhu moramo najprije izračunati aritmetičku sredinu i standardnu devijaciju uzorka, te nakon toga standardnu grešku aritmetičke sredine. Iz podataka uzorka izračunano je:
M ETODE UZORKA
109
20 20 LX; = 6946 , LX7 = 995 1 776 , pa je ;=1
;=1
x= 6946 =347 3 s= 995 1 776 20 ' 20 Kako standardna devijacija populacije devijacije uzorka, tj. a
s�
n
o'
( 6942066 )2
=
6 1 3,9 8.
nije poznata, procijenit ćemo ju pomoću standardne
.
Frakcija izbora u ovom je slučaju manja od n-I pa se standardna greška računa pomoću izraza =
0,05
(20 4: 85 7=0,004), s = _ _=6 1 3 9, 8 = 140, 86 . � .120 -1 0'x
•
Koeficijent povjerenja glasi:
{
P x -tr!z O'
tr12
X
u ovom slučaju iznosi
:<:; J-l
2 093. , Interval procjene aritmetičke sredine
x}
:<:; x+ tr!z O' =1 - r
} 0,95 P{34 7,3 -2,093 · 140, 86 :<:; J-l :<:; 347 3, + 2,093 · 140 ,86 = P{52,49 :<:; J-l :<:; 642, 1 } = 0,95 . Interpretacija: Uz pouzdanost (povjerenje) 95% procjenjujemo da se prosječno prekoračenje raspoloživih sredstava na svim tekućim računima te banke kreće između 52,49 i 642, I I kn. 3.4. Procjena totala populacije Kako je aritmetička sredina populacije kvocijent totala populacije i njezina opsega, slijedi da je total populacije T = 2x jednak umnošku opsega populacije N i aritmetičke sredine populacije J-l, tj. N J-l = T. Odatle slijedi da se u procjeni totala populacije može pogriješiti N puta onoliko koliko se griješi u procjeni njezine aritmetičke sredine. Kao procjena totala populacije brojem (simbol 1Jx' ), služi nam aritmetička sredina uzorka pomnožena opsegom populacije, tj.
.
Ix'= Nx.
(3. 1 4.)
Za intervainu procjenu totala potrebna nam je i standardna pogreška totala (simbol O'E,)' Ona je jednaka umnošku opsega populacije i standardne pogreške njezine aritmetičke sredine:
(3. 1 5.)
1 10
pOGLAVLlE 3
Interval procjene totala osnovnog skupa glasi:
P{
LX'
Z
j(J
I<:S;
T::;; LX' + Z
�;,(J
Ix
}I-
( 3.1 6 .)
r ,
ili, za mali uzorak (u < 30) uzet iz normalne populacije (ako se standardna devijacija populacije procjenjuje iz uzorka):
P
{
LX' t -
j{ CJ"Ix
::;; T
j{
:s; LX' + t CJ"Ix
Primjer 3.4. 1 .je nadopuna primjera povjerenje (95%) kao i prije procijeniti tekućim računima te banke.
}1 -
( 3.1
r .
3. 3.2. pro,cjenom totala populacije. Zelimo uz isto ukunp o prekoračenje raspoloživih sredstava na svim
= 4 85 7 ·34 7 ,3 1 6 86 836 1, NCJ"x = 4 85 7 ·140 ,86 6 84 1 57 02 ,
=Nx
P{ - J{ LX'
t
CJ"Ix ::;;
J{
T:S; LX' + t
x-
CJ"I. }
r
P{16 86 836,l- 2,09 3·6 84 1 57,02 :S; T :::; 1 6 86 836,1 + 2,09 3'6 84 1 57 02 , } 0,95 P {254 89 5,46 :S; T:::; 31 I 87 76 74 , } 0 95, . S povjerenjem od 95% procjenjujemo da se ukupno prekoračenje raspoloživih sredstava na svim tekućim računima te banke kreće između 254 89 5 46 , i 31 1 87 76 7, 4 kn. Do istogB smo =
rezultata mogli doći još jednostavnije, množenjem krajeva intervala procjene aritmetičke sredine opsegom populacije N:
P{4 857 · 52 49 , :s; Nf.' ::;; 4 85 7 ·642 !, l }= 0 95, P {25494 3,9 3::S: T :::; 31 1 87 2 8,27 } 0,95 =
3.5. Procjena propon:ije populacije Proporcija populacije p definira se kao omjer broja
elemenata populacije s određenim
obilježjem 1\1 i opsega populacije N: Nl
P=N'
o:S;p:S; l .
13) Male brojčane razlike granica dvaju intervala nastale su zbog zaokruživanja međurezultata na dvije decimale.
( 3.1 8.)
M ETODE UZORKA
III
Proporciju preostalih N-M jedinica koje nemaju traženo obilježje, tzv. alternativnu proporciju označavamo sa q , N M N
q Vrijedi: p + q
(3. 19.)
l.
Proporciju p osnovnog skupa procjenjujemo pomoću proporcije uzorka p koja je omjer broja podataka uzorka s traženim obilježjem m i opsega uzorka n: 111
1\
(3.20.)
p=-,O:S;p:5, l . A
n
Alternativna proporcija uzorka q čini kvocijent preostalih uzorka:
n
-
m
podataka uzorka i opsega
(3.2].)
Također vrijedi :
"
"
p + q = l. Proporcija uzorka
p je
nepristrani procjenitelj proporcije populacije p, tj. njegova očekivana
vrijednost jednaka je proporciji populacije:
E(p)=p. "
za velike uzorke j e sampling distribucija procjenitelja
smatra velikim ako su granice intervala °
proporcije) veće od
p±
p približno normalna. Ovdje se uzorak
3 ap (ap je oznaka za standardnu pogrešku
i manje od ]. Kao kriterij za dovoljnu veličinu uzorka može se
primijeniti i praktično pravilo da je u tom slučaju
n
p� >9.
Standardna pogreška proporcije računa se pomoću izraza: CT, =, I'
CTA =
p
/ pq
Vn-I
[JI;"
.
N- n N-I
,
ako je frakcija izbora J == !!... � 0,05 te N
J!!L , ako je J < 0,05. It-I
ProporCija uzorka
p
(3.22.)
(3,23.)
čini procjenu proporcije populacije p brojem, a interval procjene
proporcije za velike uzorke glasi:
112
POGLAVUE 3
( 324 . .) Za. male uzorke procjenjivanje na takav način nije moguće.
Primjer 3.5 . l. Građevinski poduzetnik treba preuzeti pošiljku od 5000 keramičkih pločica. Medu 200 pločica, izabranih na slučajni način iz pošiljke, nadeno je 40 pločica druge klase. Uz pouzdanost 90% treDa procijeniti proporciju pločica druge klase u cijeloj pošiljci.
40 = 0,2 (što čini procjenu proporcije populacije brojem). P 200 =
' Kako je tražena pouzdanost 90%, to je iz tablice A potrebno očitati koeficijent povjerenja z za površinu koja iznosi polovinu pouzdanosti, tj. za 0 90 , 2= : 0,45 . Među površinama navedenim u tablici nema površine koja iznosi točno 0 4500, , pa ćemo potražiti onu koja je najbliža tom broju (bilo da je veća, bilo da je manja od njega). U ovom su slučaju to dvije 1,64 , bilo za z = 1 ,65 . površine: 0,44950 i 0,4505 3,pa se možemo odlučiti bilo za z Konstruirat ćemo interval pouzdanosti s koeficijentom z 1,64. Standardnu ćemo grešku proporcije računati pomoću izraza
200 0,04 < 0,05 . Alternativna J 5000 pločica iznosi 1- 0,2 0 8., Dakle, . Izbora
= -- =
(J' A
l'
=
gA
H , jer je frakcija
tl - I
proporcija uzorka. proporcija prvoklasnih
=:
(JA
l'
0 028. ,
=
Interval procjene proporcije glasi:
{
P ;-
p
�
p�
P+
J
l
Y
, P{0,2 -1,64 ·0 028 , � P � 0 2, + 1 64, ·0,028 } 0 90 P{O,I72 � P � 0 228 , } 0,90 . Interpretacija: Uz pouzdanost 90% procjenjujemo da se udio pločica druge klase u cijeloj pošiljci kreće između 0,1 72 i 0,228, odnosno, izraženo u postotku, izmedu 17,2 i 22,8% . =
=
M ETODE UZORKA
1 13
3.6. Određivanje veličine uzorka u svrhu provedbe postupaka
�Irocjenjivanja Za provedbu opisanih postupaka procjenjivanja potrebno je prethodno odrediti veličinu uzorka. il svrhu procjenjivanja aritmetičke sredine populacije koristimo se izrazima
(3.25.)
(3 .26.) Sa no označena je prethodna veličina uzorka. Simbol () u brojniku izraza (3.25 .) oznacuJe otprilike ocijenjenu standardnu devijaciju populacije, a V u brojniku izraza ( 3 .26.) otprilike ocijenjen koeficijent varijacije populacije. il nazivnicima obaju izraza je pogreška koju smo voljni tolerirati u procjeni, jedanput dana u apsolutnom izrazu, tj. u mjernim jedinicama varijable - simbol d u izrazu (3.25 .) , a drugi put u relativnom izrazu - simbol dr U izrazu (3 .26.). Izbor izraza koji ćemo rabiti za izračunavanje veličine uzorka ovisi o tome raspolažemo li podatkom o približnoj veličini standardne devijacije populacije ili o njeZinu koeficijentu varijacije. Ako raspolažemo s informacijom o disperziji populacije u apsolutnom izrazu, dakle standardnom devijacijom, tada ćemo i pogrešku u procjeni koju smo voljni tolerirati, a koja je u nazivniku izraza za prethodnu veličinu uzorka, izraziti u mjernim jedinicama. il protivnom ćemo, tj. ako nam je na raspolaganju otprilike ocijenjeni koeficijent varijacije populacije, i pogrešku koju smo voljni tolerirati u procjeni izraziti relativno. Simbol z u oba izraza je pojednostavnjeni zapis koefiCijenta pouzdanosti ZY/2' Nakon što se izračuna prethodna veličina uzorka primjenom jednog od izraza (3.25.) ili ( 3 .26.), ispitujerno veličinu frakcije izbora s tako izračunanom veličinom uzorka, tj. računamo vrijednost kvocijenta �. Ako je frakcija izbora manja od 0,05, tada je prethodna N
veličina uzorka ujedno i konačna, tj. no = n. Ako je frakcija izbora jednaka ili veća od 0,05, računamo konačnu veličinu uzorka primjenom izraza
n =� l no + N
(3.27.)
Primjer 3.6. 1 . Treba procijeniti prosJecnu starost stanovnika nekoga velegrada pomoću jednostavnoga slučajnog uzorka. Na temelju prijašnjih popisa stanovnika ocjenjuje se standardna devijacija populacije sa 7 godina. Koliko stanovnika treba izabrati u uzorak u
1 14
POGLAVLJE 3
svrhu dobivanja intervalne procjene uz 95%-tnu pouzdanost ako se pritom ne želi pogriješiti više od 2 godine? 1,96,7,\ 2 47 . _If __--I 110d 2 )
-ZO"J2 (
\
Kako se radi o stanovnicima velegrada, to je frakcija izbora manja od 0,05. Frakcija 0,05 naime znači da je osnovni skup po veličini jednak dvadeseterostrukom uzorku, a frakcija manja od 0,05 znači da osnovni skup premašuje dvadeseterostruki uzorak, što je u slučaju velegrada sigurno točno. Dakle, u ovom je slučaju prethodna veličina uzorka ujedno i konačna, tj. tlo = n = 47. Primjer 3.6.2. Treba procijeniti prosječni saldo na tekućim računima jedne banke. Koliko tekućih računa od njih ukupno 3220 treba uključiti u jednostavni slučajni uzorak ako se ne želi pogriješiti u procjeni za više od 1 0%? Koeficijent varijacije osnovnog skupa ocijenjen je sa 50%. Pouzdanost procjene je 99%. Za 99%-tnu pouzdanost koeficijent z iznosi 2,58 (površina koju tražimo u tablici A iznosi 0,99:2 = 0,4950, a najbliže vrijednosti tom broju su od njega jednako udaljeni brojeVi 0,49492 i 0,49506, pa smo proizvoljno izabrali O, 49506).
=( ��J
Ito
1 66,4 1 :3220 uzorka 11= l
+!:!L N
166,41. Slijedi ispitivanje frakcije izbora:
=
=
0,05 168
>
0,05, pa je potrebno računanje konačne veličine
,
1 _ _1 6_6.:-,4_ _ = 1-8 :' 23 "" 158 tek "h mcuna. 1+0,05 168 UCI
v
Postupak određivanja veličine uzorka za procjenu proporcije populacije istovjetan je određivanju veličine uzorka za procjenu aritmetičke sredine populacije. Izrazi za računanje prethodne veličine uzorka razlikuju se od prethodno opisanih izraza (3.25.) i (3.26.) samo po torne što su standardna devijacija i koeficijent varijacije populacije dani u terminima proporcija, tj.
o"
.J"P-:;j i
V=
t . Daklc,
(3.28.)
1 15
METODE UZORKA
(3.29.) Ako p. a time i q nisu poznati, u postupku određivanja veličine uzorka u svrhu procjene proporcije populacije pretpostavljamo najveći mogući varijabilitet promatranog obilježja u populaciji. U tom su slučaju p i q jednaki i iznose svaki po 0 5,, pa je standardna devijacija 0 5, ,a njezin koeficijent varijacije 100%. populacije
Primjer 3.6 .3. U svrhu kontrole ujednačenosti kvalitete masovne proizvodnje artikla A želi se procijeniti proporcija defektnih proizvoda. Koliko proizvoda treba na slučajan način izabrati u uzorak radi procjene uz 95%-tnu pouzdanost i uz maksimalnu grešku koja se tolerira u procjeni od 0,005? Proporcija defektnih proizvoda cjelokupne tvorničke proizvodnje ocjenjuje se na 0 02. ,
p 0 02 , q l 0,02 0,9 8 z2pq 1,96 20. 02, 0. 9, 8 1 88proizvoda. no = 7 = =
Kako je frakcija manja od 0,05, jer se radi o beskonačnom osnovnom skupu, to je
1 88.
l1u
=
n
=
Primjer 3.6.4. Uoči izbora za članove lokalne samouprave na području na kom je u biračke popise upisano 75500 osoba, želi se procijeniti proporcija glasača stranke "Z" . Koliko osoba treba na slučajan način izabrati u uzorak ako se želi načiniti intervalna procjena uz 95%-tnu pouzdanost i ako se pritom ne želi pogriješ!ti više od 5%? Kako proporcija populacije nije poznata od prije, to ćemo pretpostaviti maksimalni mogući varijabilitet dvaju obilježja osnovnog skupa (glasača stranke "Z" i glasača svih ostalih stranaka zajedno). U tom je slučaju p q 0,5 , pa koeficijent varijacije populacije
fi.loo iznosi 1 00%. Maksimalna pogreška koju smo voljni tolerirati u procjeni izražena je
VP
,
relativno, u postotku, pa stoga u brojniku izraza određivanje veličine uzorka mora biti relativna mjera disperzije populacije, njezin koeficijent varijacije. za
1 16
POGLAVUE 3
20.;lb, tj. •
2
2
1,9 6 1 00 = 1 5 36,64 :::d 5 37 glasača. Kako je frakcija izbora otprilike 5� 1 5 36,64 = O ,O204, sto Je ISpOd SC! to Je' = n = 1 37 . 5 7 5 500
no =--'---=-= --
V
10,
"
110
3.7. Ispitivanje pretpostavki o nepoznatim karakteristikama populacije 3.7 1 Testiranje hipoteze da je aritmetička sredina populacije jednaka nekoj .
.
vrijednosti Kako je već rečeno u uvodnom dijelu ovog poglavlja, pomoću uzorka provodimo dvije vrste postupaka: postupke procjenjivanja karakteristika osnovnog skupa i ispitivanja istinitosti pretpostavki o nepoznatim karakteristikama populacije. O pojedinoj od karakteristika populacije možemo imati vlastitu predodžbu. Ta predodžba može, ali ne mora, odgovarati istini. Ako npr. imamo predodžbu o vrijednosti aritmetičke sredine populacije, to ujedno znači da imamo predodžbu o očekivanoj vrijednosti sampling distribucije aritmetičke sredine, budući da je ona jednaka aritmetičkoj sredini populacije. Da bismo ispitali istinitost naše pretpostavke o nepoznatoj aritmetičkoj sredini populacije, postavljamo par tvrdnji, preciznije, hipoteza (budući da su još neprovjerene), i to: hipotezu Hv ili tzv. nul-hipotezu i hipotezu HJ ili alternativnu hipotezu. Nul-hipoteza glasi da je aritmetička sredina populacije fl jednaka nekoj pretpostavljenoj vrijednosti flu, dok alternativna hipoteza tvrdi suprotno, tj. da su one različite. Simbolički, Ho : fl = flo, ili Hu: fl - flo = O HJ: fl #flu, ili Hl: fl flo, #0. Da bismo ispitali istinitost tvrdnje nul-hipoteze, biramo jz osnovnog skupa uzorak i izračunamo njegovu aritmetičku sredinu x . Ona se po pravilu razlikuje od vrijednosti flo zbog sampling varijacije. Podsjetimo se, iz osnovnog skupa veličine N moguće je na slučajni
način izabrati
(�) uzoraka veličine
n,
čij e aritmetičke sredine variraju. Suština testiranja
sastoji se u prosuđivanju koliko je vjerojatno da aritmetička sredina slučajno izabranog uzorka pripada sampling distribuciji sa sredinom flo, odnosno drugim rijeČima, koliko je vjerojatno da je uzorak izabran iz populacije sa sredinom flo.. Ako je razlika između pretpostavljene i iz uzorka izračunane sredine mala, ako su one blizu, zaključujemo da je
METODE UZORKA
1 17
moguće da je uzorak uzet iz populacije sa sredinom !-lo, odnosno da je nul-hipoteza istinita. Da bismo odredili koju udaljenost od aritmetičke sredine populacije smatramo malom, oko nje formiramo interval od određenog broja ( kraći zapis: z) standardnih grešaka aritmetičke sredine. Ako se aritmetička sredina uzorka nalazi unutar tog intervala, zaključujemo da je nul-hipoteza moguća, tj. da je moguće da je aritmetička sredina populacije, iz koje je uzet uzorak, f.Jo. Taj se interval naziva intervalom prihvaćanja nul-hipoteze, a njegove se granice nazivaju kritičnim granicama (simbol za donju i c2 za gornju kritičnu granicu). On je dan izrazom: Zi'
CJ
(3.30.)
Skica takvog testa dana je na slici 3.3. � Slika 3.3.
1(111 111111111111111..
Podrućje HI P
Grčko slovo
!lo o
d
r u
ć j e
Ho
II( 111111111111111111'
Podrućje HI
u indeksu koeficijenta z označava razinu (nivo) značajnosti. Značajnost ili proporcija podataka sampling distribucije izvan intervala prihvaćanja nul hipoteze, tj. proporcija podataka smještenih lijevo od i desno od , kao što je to prikazano na slici 3.3. Naime, ako se aritmetička sremna uzorka nađe unutar kritičnih granica, razliku između nje i pretpostavljene aritmetičke sredine populacije smatramo slučajnom, u smislu da ju pripisujemo sampling varijaciji. Ako aritmetička sredina uzorka pada u područje izvan kritičnih granica , razliku između nje i pretpostavljene aritmetičke sredine populacije !-lo smatramo prevelikom a da bi bila slučajna. Tako velike razlike između aritmetičke sredine uzorka i pretpostavljene sredine nazivamo značajnima, i njih tumačimo kao znak pripadnosti nekoj drugoj sampling distribuciji sa sredinom f.JJ. Kad bi se npr. (vidi sliku 3.4.) aritmetička sredina uzorka našla na položaju A, smatrali bismo mogućim da je uzorak uzet iz populacije sa sredinom !-lo, pa bismo prema tome mogli uz dani nivo signifikantnosti a smatrati nul hipotezu istinitom. Za uzorak čija bi se aritmetička sredina našla na poziciji B , nul-hipotezu bismo morali odbaciti jer bi razlika između nje i pretpostavljene aritmetičke sredine populacije bila prevelika a da bismo ju mogli proglasiti slučajnom. Do istog bismo zaključka došli kad bi se aritmetička sredina uzorka našla na poziciji C. a
signifikantnost je
CJ
C2
1 18
POG LAVU E 3
� Slika 3.4.
C
Koeficijent značajnosti
C,
f.A.o
zal očitavamo iz tablice 12
A
A
B
za površinu 0,5
signifikantnost od 5%, tj. za a = 0,05, površina u tablici 0,5 - 0,025 = 1,96 (vidi sliku 3.5.).
-
�.
=
2
Tako je npr. za
0,4750 i pripadni z
� Slika 3.5.
Z=1,96
Nul-hipoteza je nesigurna i mi ju uVijek nastojimo odbaciti (anulirati - odatle ime nul hipoteza) u korist alternativne hipoteze H, koja je mnogo sigurnija. U području prihvaćanja nul-hipoteze možemo zamisliti modaine vrhove bezbroj sampling distribucija sa sredinama različitim od pretpostavljene Jia. Ako sredina uzorka pada u to područje a pripada bilo kojoj od njih, mi to nismo u stanju ustanoviti. Velika je vjerojatnost da je uzorak uzet iz osnovnog skupa sa sredinom Jia, ali i iz nekoga drugog osnovnog skupa, čija je aritmetička sredina blizu Jlo. jer su u tom području modaini vrhovi (što znači najveća proporcija jedinica) distribucija sa sredinama različitim od Jia. Ako sredina uzorka pada izvan intervala prihvaćanja nul hipoteze, znatno je veća vjerojatnost da ona ne pripada sampling distribuciji sa sredinom Jia
M ETODE UZORKA
1 19
(a time i da je hipoteza HI istinita) , jer je proporcija jedinica te distribucije lijevo i desno od kritičnih granica mala (slika 3.6.). Stoga tvrdnju za koju smo zainteresirani formuliramo kao HI hipotezu. � Slika 3.6.
I
fT
,
' '
��
!-
flo
Prethodno izlaganje implicira da su pri opredjeljivanju u prilog vjerojatnosti istinitosti tvrdnji koje su formulirane kao dvije suprotstavljene hipoteze, moguće greške. Postoje dVije vrste grešaka kod testiranja: greška tipa l igrešlw tipa ll. Grešku tipa I činimo ako odbacujemo nul-hipotezu, a ona je istinita. Naime, moguće je, budući da je riječ o jednostavnom slučajnom uzorku, da njegova aritmetička sredina padne izvan kritičnih granica, a da on pritom ipak pripada populaciji sa sredinom Jia. Sampling distribucija aritmetičke sredine za veliki uzorak ima oblik normalne distribucije, čiji se krajevi asimptotski približuju osi apscisa, što znači da proporcija jedinica na njezinim rubovima nije nula, a time ni vjerojatnost da uzorak pruži ekstremno veliku ili malu aritmetičku sredinu. Ako se desi takav slučaj, tj. da je aritmetička sredina uzorka koji je uzet iz populacije sa sredinom Jio (što mi ne znamo u vrijeme provedbe testiranja) izvan kritičnih granica, odbacit ćemo nul-hipotezu i time počiniti grešku tipa I. Vjerojatnost da učinimo grešku tipa I jednaka je razini signifikantnosti a, jer je tolika proporcija aritmetičkih sredina sampling distribucije sa sredinom Jio izvan . područja prihvaćanja nul-hipoteze. Grešku tipa II, koja se naziva jJ, činimo ako prihvatimo neistinitu nul-hipotezu kao moguću. Kao što je već spomenuto, nul-hipoteza nije sigurna. U području njezina prihvaćanja može se naći aritmetička sredina uzorka uzetog iz populacije sa sredinom različitom od Jia. U takvom bismo slučaju prihvatili nul-hipotezu kao moguću i time počinili grešku tipa II. Veličina greške tipa II računa se kao dio površine pod sampling distribUcijom s alternativnom sredinom Jil' koji se nalazi u području prihvaćanja nul-hipoteze. Š to je manja vjerojatnost da se počini greška tipa II, veća je snaga testa S, definirana izrazom S = I jJ. (3.3 1 .) Obje vrste mogućih grešaka pri testiranju ovise o širini intervala prihvaćanja nul-hipoteze. Š to je interval uži, veća je vjerojatnost da ćemo počiniti grešku tipa I, a manja da ćemo počiniti grešku tipa II i obratno. Stoga pri odlučivanju o razini signifikantnosti, koja utječe -
1 20
POGLAVLJE 3
na �irinu intervala izmedu kritičnih granica, vodimo računa o mogućim posljedicama obiju vrsta grešaka i opredjeljujemo se za veću vjerojatnost pogreške, čije su posljedice blaže.
z
Do zaključka o mogućoj istinitosti ili odbacivanju nul-hipoteze može se, osim pomoću kritičnih granica, doći i usporedbom empirijskog i tabličnog omjera, kao i pomoću p
vrijednosti.
Empirijski koeficijent značajnosti z· je udaljenost izračunane aritmetičke sredine uzorka od pretpostavljene aritmeti('ke sredine populacije J.lo izražena u standardnim greškama:
z' = l x::ol
Tablični z omjer je koeficijent značajnosti
z%
(3.32.) ' koji je udaljenost kritičnih granica od
pretpostavljene aritmetičke sredine populacije /Jo, tj.
z = Z% = I CI,2�,ut
(3.33.)
Ako je empirijski, tj. izračunani z· manji ili jednak koeficijentu značajnosti izvadenom iz tablice površina normalne distribucije, zaključit ćemo da je nul-hipoteza moguća. U protivnom, tj. ako je z' strogo veći od z , prihvatit ćemo alternativnu hipotezu Hl' To je
%
logično, jer ako je z· ::; z
%
'
znači da je aritmetička sredina uzorka bliže ili jednako udaljena
od pretpostavljene sredine distribucije populacije no što su to kritične granice cJ i C2• Na drugi način iskazano to znači da se aritmetička sredina uzorka nalazi u intervalu prihvaćanja nul-hipoteze.
Empirijska razina značajnosti (signifikt.mtnosti) ili p-vrijednost predstavlja proporciju jedinica sampling distribucije čija je udaljenost od aritmetičke sredine distribucije J.lo veća no što je to udaljenost aritmetičke sredine uzorka. Empirijska razina signifikantnosti računa se tako da se od 0, 5 oduzme površina za z' i dobivena razlika pomnoži s dva. Empirijska razina signifikantnosti ili p-vrijednost prikazana je na slici 3.7. šrafiranom površinom.
� Slika 3.7.
METODE UZORKA
121
LT svrhu donošenja odluke o eventualnoj mogućoj istinitosti nul-hipoteze ili o njezinu
odbacivanju
u
korist
alternativne
hipoteze,
uspoređuje se p-vrijednost
s
razinom
signifikantnosti a . Ako je p-vrijednost veća od ct, (a to će se desiti samo ako je aritmetička
.
sredina uzorka unutar kritičnih granica), zaključujemo da je nul-hipoteza moguća. Ako je manja
ili
jednaka
a,
prihvaćamo
alternativnu
hipotezu
Hl'
P-vrijednost
možemo
interpretirati i kao najmanju razinu signifikantnosti uz koju je moguće odbaciti nul hipotezu. Opisani postupci pri testiranju provode se na velikom slučajnom uzorku malom uzorku, ako se pri testiranju smije rabiti koeficijent
z
(n:::::
30) ,kao i na
iz tablice površina ispod
normalne krivulje. Kod malog uzorka je to slučaj ako se standardna pogreška aritmetičke sredine računa pomoću standardne devijacije populacije koja je poznata, te ako je distribucija promatranog obilježja u osnovnom skupu normalna. Ako se testiranje provodi s malim
(n<
30)
slučajnim uzorkom uzetim iz normalno
distribuirane populacije s nepoznatom standardnom devijacijom (pa se standardna pogreška aritmetičke sredine računa pomoću standardne devijacije uzorka način. Koeficijent značajnosti je tada Studentov
t.
izračunati p-vrijednost, zbog načina na koji je tablica Primjer
)
s ,
postupa se na analogni
LT takvom slučaju jedino nije moguće
B
konstruirana.14
3.7.1. 1.
100 litara mlijeka ispituje točnost deklariranog navoda 3,2% . Razina značajnosti 5%, frakcija izbora manja od 0 05 , .Prosječni sadržaj mliječne masti nađen u uzorku iznosi 2,9%, sa standardnom devijacijom 1 , 59 . LT mljekari se na slučajnom uzorku od
da je prosječni postotak mliječne masti sadržan u litri mlijeka
Standardna greška aritmetičke sredine iznosi
Kako je signifikantnost
5% ,odnosno a ='0 05 , ,to je
iznose:
Zal =Z00 ' 25 12
Donja granica intervala prihvaćanja nul-hipoteze iznosi
=
1,96 .Kritične granice
2 ,8864, a gornja 3,5 136 .Da bismo 2 9, .Ona je u ovom
donijeli odluku, gledamo kamo nam pada aritmetička sredina uzorka, slučaju veća od donje granice
Cl
i manja od gornje kritične granice
2, 886 4 < 2,9 < 3,5 136 � Hohipoteza je moguća.
cz:
Do istog zaključka dolazimo i usporedbom empirijskog i iz tablica izvađenog koeficijenta 14)
To, naara VilO, Ile vrijedi, koristimo li se nekim od statističkih račullalllih programa.
z:
122
POGLAVU E 3
1- 1,8751 "" 1,88 . Odluka: 1 , 88
< 1 ,96 => Ho hipoteza je moguća.
Izračunat ćemo i p-vrijednost. Površ ina iz tablice A za
z
'
iznosi:
P( z = 1 , 88) = 0,46995, pa je p-vrijednost = (0, 5
0,46995)·2
=
0,060 1 .
Kako j e p-vrijednost veća o d zadane signifikantnosti a, tj. 0,060 1 > 0,05, znači d a nul
hipotezu nije moguće odbaciti jer je očito da se aritmetička sredina uzorka nalazi unutar kritičnih granica. Tek u z signifikantnost veću od 0,060 1 bilo bi u ovakvom slučaju moguće odbaciti nul-hipotezu u korist alternativne.
II sve tri razmotrene varijante donoš enja odluke zaključak je isti, tj. da uz razinu
signifikantnosti 5% prihvaćamo nul-hipotezu kao moguću, tj. moguće je da je prosječni postotak mliječne masti 3,2%.
Izračunat ćemo i veličinu greš ke tipa I I ako je stvarni prosječni postotak mliječne masti u litri mlijeka manji od deklariranog i iznosi 3, l . Na slici 3 . 8. skicirana j e vjerojatnost da se učini
greš ka tipa II kao d io površ ine pod sampling d istribucijom sa sredinom /JJ = 3 , l koji se nalazi u intervalu između 2, 8864 i 3. 5 1 36 .
.. Slika 3.8.
Vidimo d a s e tražena površ i n a sastoji od dviju površ ina, koje zbrojene čine
{J.
D a bismo
očitali tražene površ ine iz tablice A, moramo prethodno izračunati udaljenost kritičnih granica od alternativne sredine u standardnim greš kama:
M ETODE UZORKA
1 23
1 2,8864 3, 1 1 1- 1 3351 1 335 � P 0, 40988 0,1 6 =
=
"
2,585 � p = 0,495 20
fi 0,40988 + 0,4952 0,90508. Snaga testa je mala: S = l fi = 0,09492 (9,5%). =
3.7.2. Jednosmjerna testiranja pretpostavki o nepoznatoj aritmetičkoj sredini
populacije U praksi smo ['esto zainteresirani ne toliko za tvrdnje tipa da je aritmetička sredina populacije jednaka nekoj pretpostavljenoj vrijednosti. koliko za tvrdnje da ona bilo premašuje neku vrijednost, bilo da je ispod neke vrijednosti J.lv. Tada se provode tzv. jednosmjerni testovi, i to test na donju ili test na gornju granicu. Na primjer, može nam kao kupcu mliječnih proizvoda biti stalo da postotak mliječne masti bude barem 3,2% ( po mogućnosti i viši). Istinitost tvrdnje ovakvog tipa provjerava se pomoću testa na gornju granicu. U tom slučaju hipoteze glase: Ho ; J.l :{J.lo. ili Ho ; J.l J.lo ::;; O H I : J.l > J.lo. ili H J.l J.lo> > O. Riječima. nul-hipotezom tvrdimo da aritmetička sredina populacije ne premašuje vrijednost J.lo , a alternativnom hipotezom tvrdimo suprotno. Skica takvog testa dana je na slici 3.9 . I :
.... Slika 3.9.
-------------... ''( ,... '_ '" . .... 11·. 111111111111)1
P o d r u č j e
;.
PodlUčje HI
1 24
POGLAVUE 3
Kod takvog načina provedbe testa formira se samo jedna kritična granica, i to gornja granica Kod jednosmjernih je testova, bilo da se radi o testu na donju, bilo na gornju granicu, cijela signifikantnost, tj. proporcija podataka sampling distribucije izvan područja prihvaćanja nul hipoteze, smještena na jednom od njezinih krajeva. Stoga uz koeficijent značajnosti stoji indeks a, a ne a/2 kao kod dvosmjernog testa. Koeficijent očitava se iz tablice A za površinu 0,50 - a. Za signifikantnost 5 %, površina iz tablice iznosi 0 , 5 - 0,05 = 0,45000 a pripadni iznosi 1 ,64. Kod jednosmjernog testa na gornju granicu odluka se pomoću kritične granice C2 donosi na sljedeći način: ako je aritmetička sredina uzorka x manja ili jednaka kritičnoj granici nul hipoteza ja moguća , tj. moguće je da je aritmetička sredina populacije f.1o ili manja od nje. Ako je aritmetička sredina uzorka veća od gornje kritične granice prihvaćamo tvrdnju hipoteze H kao vjerojatniju, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije veća od J.1o. ili, simbolički: x ::; Cz => Ho je moguća x > C2 => prihvaćamo H Do odluke usporedbom empirijskog i tabli čnog omjera dolazi se na isti način kao i kod dvosmjernog testa. Ako je empirijski, tj. izračunani manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključuje se da je nul hipoteza moguća. U protivnom, tj. ako je z' strogo veći od prihvaća se alternativna hipoteza H , . Odluka pomoću p-vrijednosti također se donosi na isti način kao i kod dvosmjernog testa, samo se ona računa neznatno drugačije. Empirijska razina signifikantnosti se kod jednosmjernih testova računa tako da se od 0,5 oduzme površina za Za jednosmjerni test na donju granicu hipoteze glase: Ho : J.1 2 J.1o, ili Ho : p - J.10 2 0 Ht : p < J.1o, ili Ht : J.1 - J.1o , < O . Riječima, nul-hipotezom tvrdimo da je aritmetička sredina populacije veća ili jednaka pretpostavljenoj vrijednosti J.1o , alternativnom hipotezom tvrdimo suprotno, tj. da je aritmetička sredina populacije manja od pretpostavljene. Skica takvog testa dana je na slici 3. 10. Za
Z OI
C2,
C2,
l
j.
Z
z'
Za ,
z' .
a
M ETODE U ZORKA
1 25
.... Slika 3. 1 0 .
1I(: ltllllltlllllllllll }tll
Područje H I
P o d r u č j e
Kod testa na donju granicu formira se samo kritična granica
Ho
CJ:
Odluka pomoću kritične granice ako je aritmetička sredina uzorka X veća ili jednaka kritičnoj granici nul-hipoteza ja moguća, tj. moguće je da je aritmetička sredina populacije /4) ili veća od nje. Ako je aritmetička sredina uzorka manja od prihvaćamo tvrdnju hipoteze H kao vjerojatnij u, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije manja od P o ' lli, simbolički: X ;:: Hu je moguća x < =:> prihvaćamo H l ' Postupak donošenja odluke usporedbom empirijskog i tabličnog omjera, kao i pomoću p vrijednosti isti je kao i kod testa na gornju granicu, Primjer 3,7, 1 .2. Tržišna inspekcija podvrgava mlijeko iz mljekare kontroli zbog prijave da je prosječni sadržaj mliječne masti u litri mlijeka manji od deklariranih 3,2%. Uz razinu signifikantnosti S % provodi se test na donju granicu: Cl
c"
:
(' l '
I
('I =:> Ci
z
HI : P
<
3,2,
Uz istu veličinu uzorka i iste rezultate koje je pružio uzorak kao u primjeru 3,7, 1 . 1 ., donja kritična granica iznosi: CI
Ci
= 3.2 -1 64·0 , 1, 6 = 2,9376 .
1 26
POGLAVUE 3
Kako je aritmetička sredina uzorka 2 ,9 manja od donje kritične granice, odbacit ćemo nul hipotezu u korist alternativne: 2,9 < 2,9376 =} prihvaćamo Hj• Možemo, dakle, zaključiti da je prosječni postotak mliječne masti u mlijeku koje isporučuje mljekara čija je proizvodnja podvrgnuta kontroli, manji od deklariranih 3,2% . Do istog se zaklj učka može doći i usporedbom empirijskoga i tabličnog omjera, kao i pomoću p-vrijednosti: . 2,9 - 3,2 1,88 l ,64 =} pn'hvacamo ' fl > II 0,16 z
1
=
z
I
=:
p-vrijednost = (0,50 - P (z :::: 1 ,88» = 0,5 - 0,46995 0,03005 < a 0,05 => prihvaćamo H Izračunat ćemo i veličinu greš ke tipa II ovaj jednosmjerni test, ako stvarni prosječni postotak mliječne masti u litri mlijeka iznosi 3, l. Na slici 3. 1 1 . skicirana je vjerojatnost da se učini greš ka tipa II kao dio površ ine pod sampling distribucijom sa sredinom Jil = 3, l koji se nalazi u područj u prihvaćanja nul-hipoteze, tj. desno od donje granice 2,9376. I
za
.... Sli ka 3. 1 1 .
CI
3, 1
3,2
Vidimo ponovno da se tražena površ ina sastoji od dvijU površ ina, koje zbrojene čine {3. Računamo udaljenost kritične granice od alternativne sredine u standardnim greš kama i pripadnu površ inu iz tablice A: z
=
1
2 ,9376 - 3 0,1 6
=
j- 1,0 151
=:
1.02 =} P(z
1 ,02) = 0,3 46 1 4.
Druga površ ina je 0,50 (cijela desna polOVina površ ine ispod normalno distribuirane sampling distribuCije), pa je greš ka tipa Il: {J = 0,3461 + 0,50 0,846 14. Snaga testa je i ovog puta mala: S l - {J 0, 1 5386 ( I 5,39%) . Vjerojatnost da se izbjegne prihvaćanje neistinite nul-hipoteze iznosi 1 5,39% . =
METODE U ZORKA
1 27
3.7.3. Ispitivanje p retpostavki o nepoznatoj p ro porciji populacije
Testiranje pretpostavki o nepoznatoj proporcij i populacije moguće je samo uz uvjet da se radi o velikom uzorku, jer samo se u tom slučaju sampling distribucija može aproksimirati normalnom distribucijom. Postupci su istovjetni onima za testiranje pretpostavki o aritmetičkoj sredini populacije, a oznake koje se rabe su u terminima proporcija. Specifičnost postupaka testiranja pretpostavki o nepoznatoj proporciji populacije je samo računanje standardne greške proporcije. Naime, kako a priori pretpostavljamo da je nul-hipoteza istinita, to se pomoću pretpostavljene proporcije populacije, koju označavamo sa pu. računa standardna greška proporcije. Kod postupaka testiranja, dakle, koristimo se sljedećim izrazima za računanje standardne greške: , ako je frakcija izbora f
� : , ako je f PO O
(J . I'
=
n
N
� 0,05
i
< 0,05.
Primijetimo da je pod korijenom u nazivniku ovih dvaju izraza n (a ne n- l ) , jer ovdje ne procjenjujemo varijancu populacije iz uzorka već računamo s varijancom Prijo, koja je točna ako je točna nul-hipoteza. Kod testa na dvije granice ispituje se istinitost para tvrdnji Ho : p = po' ili Ho : p - po O HI : p r! pu, ili H J : p - pu, r!O. Nul-hipotezom se tvrdi da je proporcija populacije P jednaka nekoj pretpostavljenoj vrijednosti po, dok alternativna hipoteza tvrdi da se one razlikuju. Interval prihvaćanja nul hipoteze dan je sa Ako iz uzorka izračunana proporcija pada u taj interval, zaključujemo da je nul-hipoteza moguća, tj. da je uz danu razinu značajnosti a moguće da proporcija populacije iznosi po. Ako je proporcija uzorka izvan tog intervala, bilo da je lijevo od donje, bilo da je desno od gornje kritične granice, odbacujemo nul-hipotezu u korist alternativne: A
c I :::; p :::; c 2" => H o A
P < Cl A
p > C2
)
=>
je moguća,
. . , . . pnhvacamo HI hipotezu kao IstinitU.
.
1 28
POGLAVLJE 3
I
ovdje se, osim pomoću kritičnih granica, do odluke može doći i u sporedbom empirijskog i tabličnog z omjera, kao i pomoću p-vrijednosti.
Empirijski koeficijent značajnosti z' je, kod testiranja pretpostavki o proporciji populacije, udaljenost izračunane proporcije uzorka od pretpostavljene proporcije populacije PO izražena u standardnim greškama: z
z
Tablični
1\
•
omjer je koeficijent značajnosti
�
z
,
koj i je udaljenost kritičnih granica od
pretpostavljene proporcije populacije po, tj. Po
7 � -
p
Ako je empirijski, tj. izračunani z' manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključit ćemo da je nul-hipoteza moguća. II ' protivnom, tj . ako je z strogo veći od z% , prihvatit ćemo alternativnu hipotezu H / : z
"
:::; z
z" >
% � H o je moguća, �
prihvaćamo H/.
Empirijska razina značajnosti računa se na isti način kao kod simetričnog (dvosmjernog ) ' testa o pretpostavljenoj sredini populacije, tj. od 0,5 se oduzme površina za z i dobivena razlika pomnoži s dva. Odluka se pomoću p-vrijednosti donosi na isti način kao prije opisanim testovima, tj . p-vrijednost > p-vrijednost :::;
a =? Ho je a�
moguća, ili
prihvaćamo H I kao istinitu.
lednosmjerni testovi o pretpostavljenoj proporciji populacije provode se na isti način kao istovjetni postupci glede pretpostavljene aritmetičke sredine populacije, koj i se provode na velikom uzorku, uz opisane izmjene u terminima. Isto vrijedi i za računanje greške tipa Primjer
ll.
3.7.3 . 1 .
II uzorku robe veličine 200 izabranom i z vrlo velike pošiljke, nađeno j e 1 0 proizvoda
greškom:
s
METODE UZORKA
129
a) Procijenite uz 95%- tnu pouzdanost proporciju proizvoda s greškom u cijeloj pošiljci. b) I spitajte istini tost tvrdnje dobavljača le robe da postotak proizvoda s greškom ne prelazi 8%. Signifikantnost 2%. Ima l i kupac robe osnove da zatraži sniženje ugovorene cijene robe? Pod a) je radi formiranja i ntervalne procjene potrebno i zračunati proporciju uzorka, standardnu grcšku proporcije i izvaditi koeficijent povjerenja (pouzdanosti) iz tablice A:
p= n 1\
10
m
=
200
0,05 = p rocjena brojem,
Radi se o vrlo velikoj pOŠiljci pa je u tom slučaju
�
= l - 0,05
n < < N J5 ,
=
0,95.
što povlači da je
standardna pogreška proporcije računa pomoću izraza
gl\ J..!L
n-I
=
0,05 · 0,95 1 99
f < 0,05. Stoga se
= 0,0 1 5.
Za veliki uzorak i pouzdanost procjene 0,95 već smo prije očitali iz tablice A ZO,DlS = 1 ,96, pa
je traženi i nterval: P{0,05+ 1,96 ' 0,0 1 5}
P{
0,0206 -:;,
p :::;
0,0794 }
0,95 , odnosno
0,95.
Uz pouzdanost 95% procjenjujemo da se p roporcija proizvoda s greškom kreće izmedu 0,0206 i 0,0794, odnosno između 2,06 i 7,94%. Pod b) je potrebno provesti sljedeći test na donju granicu: Ho : P � 0,08 HI :
p
<
qo = l
0,08. 0,08
=
0,92,
aA
p
J
pOqO •
==
rz
0,08 · 0,92 200
= 0,0 1 9 .
Razina signifikantnosti a = 0,02, a površina koja se traži u tablici A iznosi 0,50 - 0,02 =
0,4800. Površina najbliža tom broju iznosi 0,47982, pa je pripadni ZO,D2
2 , 05.
Računamo donju kritičnu granicu: CI 1\
Odluka: ]J
=
0 , 08 - 2 ,05·0,0 1 9
0 , 05 > 0,04 1 05
0,04 1 05.
Ho je moguća (nismo j u uspjeli odbaciti), pa zaključujemo
da je proporcija proizvoda s greškom 0,08 ili više, a ne manje kao što tvrdi dobavljač robe. Kupac robe i ma osnove zatraž.iti sniženje ugovorene cijene robe,
15)
<<
. čitaj znatno manje od
1 30
POGLAVUE 3
Do istog se zaključka dolazi i usporedbom empirijskog i tabličnog omjera, kao i pomoću P vrijednosti: z
z
·
=
/\
P - Po aA
p
1
1
= ° ,05 - 0 ,0 8 = 1 - 1 ,5791 0:: 1,5 8 0,019
1 , 5 8 < 2,05 => Hoje moguća. p-vrijednost = 0,50 - P(z 1 , 5 8 ) = 0,50 - 0,44295 = 0,05705 > 0,02 a, što opet znači da se proporcija uzorka nalazi u intervalu prihvaćanja nul-hipoteze. Da bismo uspjeli odbaciti nul-hipotezu, signifikantnost bismo motali povećati na više od 5,7 1 %.Testiranje uz nivo značajnosti od npr. 6% dovelo bi do željenog odbacivanja hipoteze HJ• Za gornji ćemo primjer izračunati i vjerojatnost da se prilikom testiranja počini greška tipa I l , ako je alternativna proporcija populacije PI = 0,04. Kao što se vidi iz slike, grešku jJ u ovom slučaju čini površina veličine 0,50 P ( I ), gdje je =
=
-
Z
I
- Pl = CI = a
PI
Z
0 ,04105 - 0,04 ,8 1 7. 0,04 · 0,96 200 o::
jJ 0 , 50 - 0,46926 0 , 03074. Snaga ovog testa je velika, jer je mala vjerojatnost da se počini greška tipa Il, što se vidi i iz slike, jer je unutar intervala prihvaćanja nul-hipoteze samo "rep" distribucije sa sredinom pt- S = 1-0,0307 = 0,9693. =
� Slika 3. 1 2 .
=
•
REG RESIJSKA I KO RELACIJSKA ANALIZA 4.1 . Svrha regresjjske analize
Statistička analiza čije su metode i tehnike razmotrene u prethodnim poglavljima jednodimenzionalna je jer je predmet analize bila samo jedna statistička varijabla. No svijet koji nas okružuje nije tako jednostavan pa je često potrebno analizu pojedinačnih varijabli nadopuniti dvodimenzionalnom ili višedimenzionalnom analizom, tj. istodobnom analizom dviju ili više statističkih varijabli. Pojave koje nas interesiraju često su međusobno povezane i spoznati njihovu uzročno-posljedičnu vezu, osim što je izazov, može biti od velike ekonomske koristi. To je svrha regresijske i korelacijske analize. Veza između dViju (ili više) pojava u realnom ekonomskom okruženju nije funkcionalna, kakva je svojstvena matematici. Da je npr. veza između proizvodnje i dobiti funkcionalna, onda bi bilo moguće precizno izračunati dobit za svaku predvidivu razinu proizvodnje. To, svakako, nije slučaj jer na veličinu dobiti mogu, osim proizvodnje, utjecati i brojni drugi čimbenici, od prirodnih nepogoda do tržišnih poremećaja svake vrste, a mnoge os njih nije moguće predvidjeti.
132
POG LAVLJ E 4
Veza koja je predmet regresijske i korelacijske analize jest stohastička ili statistička. Ona je labavija od funkcionalne veze jer osim varijabli čija se povezanost ispituje, uključuje i varijablu koja sumarno izražava sve moguće čimbenike koje nije moguće kvantificirati. Naime, funkcionalna je veza između dViju varijabli oblika Y = f(X), dok je statistička veza predočena modelom jednostavne regresije oblika Y = f(X) + (4. 1. ) Simbolom Y označena je zavisna varijabla, a simbolom X nezavisna varijabla, tj. pojava čiji se utjecaj na pojavu Y ispituje. Sa je označena varijabla nepoznatih utjecaja na zavisnu varijablu Y. Ovakav se model naziva aditivnim jer je varijabla pribrojena funkcijskim vrijednostima f(X). Jedna od zadaća regresijske analize je određivanje oblika regresijske funkcije f(X) ( kraće: regresij e), koja u danom slučaju predočuje povezanost pojava koje se istražuju. i
u.
u
u
4.2. Dijagram rasipanja
Za određivanje oblika regresije kao vrlo prikladno a jednostavno sredstvo služi dijagram rasipanja. Konstruira se tako da se u koordinatni sustav, ili samo u jedan njegov dio, unose parovi vrijednosti varijable X i Y, tj. on se sastoji od točaka (x" y) Najčešće se za konstrukciju toga dijagrama koristi prvi kvadrant ili dio njega, ovisno o vrijednostima obiju varijabli u konkretnom slučaju. Iz rasporeda točaka u dijagramu raSipanja zaključujemo o obliku , smjeru i jakosti veze. Na slikama 4. 1 . 4.4. prikazano je nekoliko mogućih izgleda dijagrama rasipanja. Na primjer, veza među pojavama može biti linearna što sugeriraju točke na dijagramu 4. I .a), ili krivolinijska kao što je predočeno dijagramom 4 . 1 . b) tl
.. Slika 4. 1 .
bl
al y
y
o o o
x
l) Riječ "jednostavna" ovdje znači da je u model uključena samo jedna nezavisna varijabla X.
x
REG RESIJSKA I KORELACIJSKA ANALIZA
1 33
Ako se radi o linearnoj vezi, raspored točaka duž zamišljenoga pravca na dijagramu može biti počevši od lijevoga donjeg prema desnom gornjem uglu (slika 4.2. a) ili obratno, počevši od lijevoga gornjeg prema desnom donjem uglu (slika 4.2. b). li prvom slučaju linearna je veza pozitivnog, a u drugom negativnog smjera . ... Sli ka 4.2. bl
al y
y
o o o o o o o o o o o o o o o o o o o o o o
o o o o o o o o o o o o o o o o o o o o o o
x
x
Nadalje, točke mogu biti gušće ili rjeđe raspoređene oko zamišljene funkcije (bilo da je ona linearna ili krivolinijska), što upućuje na jaču ili slabiju vezu među statističkim varijablama koje su predmet analize. Povezanost varijabli X i Y predočena slikom 4.3.a jača je, dok je ona predočena slikom 4.3.b slabija. ... Slika 4.3. b)
al y
y
o
x
o
o o
o o o o o o
:
o
o
o
x
1 34
POGLAVUE 4
na kraju, odsutnost pravilnosti u rasporedu točaka na dijagramu rasipanja govori u prilog zaključka o nepostojanju veze, što je ilustrirano slikom 4.4 .
l
.... Slika 4 . 4 . y
o
o
x
4.3. Jednostavna linearna regresija
Najjednostavniji slučaj regresijske funkcije jest linearna funkcija, tj. f(X) = a + bX Ako smo se opredijelili za linearnu regresijsku funkciju (kraće: regresij u), potrebno je još oCij eniti parametre i b. Parametri se ocjenjuju metodom najmanjih kvadrata; ona se sastoji u iznalaženju regresije određenih svojstava. Kroz točke predočene dijagram om rasipanja treba povući pravac koji ima svojstva prosjeka, tj. zbroj odstupanja opaženih vrijednosti zavisne varijable od vrijednosti ocijenjenih pomoću regresijskog pravca mora biti jednak nuli i zbroj kvadrata odstupanja opažen ih (empirijskih) vrij ednosti zavisne varijable od pripadnih regresij skih vrijednosti (vrijednosti koje leže na traženom regresijskom pravcu) mora biti minimalan. Na slici 4.5. skiciran je dijagram rasipanja, regresijski pravac s Ocijenjenim parametrima, tj. pravac: a
+ bX
(4.2.) i naznačena je udaljenost (mjerena paralelno s osi ordinata) proizvoljne , i-te točke od njega. Y= a
R EG R ESIJSKA I KORELACIJSKA ANALIZA
135
� Slika 4.5. y
Xi
o
o o
)('Oi�..;.� o o
o
o
:
. o o o :o : o o o o o
x
Traženi je pravac geometrijsko mjesto točaka najbližih opaženim vrijednostima zavisne varijable Y, tj. on odgovara zahtjevu: n
yJ2 =min., �)Yi i=1 odnosno , ako za Yi supstituiramo a + bxj, -
"
(4. 3.)
� )Yi - a - bx i ) 2 min . =
i=1
(4.4.)
Traži se, dakle, minimum kvadratne funkcij e. Postupak traženja minimuma sastoji se u uzastopnom deriviranju izraza (4. 3 . ) po parametrima a i b . Dobivene se derivacije izjednačuju s nulom i kao rezultat tog postupka dolazimo do dviju jednadžbi poznatih pod nazivom nonnalne jednadžbe: II
n
I Yi = na + b I x ; i=1 i=l n
n
n
I Xi Y i = a I x ; + b I x 7 . i=1 i=1 i= 1
(4. 5 .)
Njihovim rješenjem dolazi se do izraza za ocjene parametara i b: a
II
I X i Y i - nXji
=I b = ...:.i--' ,, 2 � X i - nx- 2
___ _
(4.6. )
136
POG LAVLJE 4
(4.7.)
a y - hi .
I zraz (4.6.) za b moguće je modificirati i pisati na više načina. Umjesto i zraza U
brojniku može npr. stajati II
L (Xi
-
x)2 ) ili kao
n
L (Xi x)(Yi -
ji) . Nazivnik
II
L X; nx 2
"
L X i Yi - nxy i=l
često se piše u formi
na ; , tj. kao produkt broja parova vrijednosti varijabli X i Y i varijance
varijable X. U tablici 4. 1 . izložen je postupak računanja parametara linearne regresijske jednadžbe i dane su regresijske vrijednosti. U zmimo, na primjer, da neko poduzeće analizira podatke o ostvarenom prometu i dobiti (oboje u mil. kn) u osam uzastopnih godina:
..
Tabela 4. 1 . Regresijske vrijednosti
Dobit
Xi
Yi
20
l
20
400
1 ,05
30
3
90
900
2,35
40
3,5
140
1600
3,65
50
5
250
2500
4,95
70
7
490
4900
7,55
80
8,5
680
6400
8,85
l
2
I
XJ!i 3
x;f 4
Yi 5
90
9
810
8 100
10, 1 5
100
13
1300
10000
1 1 ,45
480
50
3780
34800
50,00
Prije no što izračunamo parametre l inearne regresije, prikazat ćemo 8 parova vrijednosti prometa i dobiti iz stupaca l i 2 na dijagramu rasipanja:
1 37
REGRESlJSKA I KORELAClJSKA ANALIZA
... Sli ka 4.6.
u
Dobit
m i l . Kn
13
O
12 11 10 9
O
8 7
O
O
6 5
O
4 3
O
O
2 O O 10
20
30
40
50
60
70
80
90
1 00
�� Kn
u mil.
Vidimo da su točke raspoređene približno u pravcu, i to počevši od lijevoga donjeg prema desnomu gornjem uglu. Veza između prometa i dobiti je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge varijable. Veza je također prilične jakosti jer su točke blizu zamišljenoga pravca. Napominjemo da se ovdje radi o školskom primjeru, s malim brojem parova vrijednosti. Samo je po sebi razumljivo da se bolji, statistički utemeljeniji zaključci, dobivaju na osnovi dulje serije vrijednosti obiju varijabli. Prelazimo na ocjenjivanje parametara linearne regresije primjenom izraza Prethodno treba izračunati aritmetičke sredine obiju varijabli:
4 80 6 - = 50 = 6 28 O, Y 8 3 7 80 - 8· 60· 6,25 = 7 80 = 0 13 34 800 8· 6000 ' . 6,25 0,1 3·60 = · 1,5 5. ,
b a
II
(4.6.) i (4.7.).
)
ovom slučaj u , dakle, regresija s ocijenjenim parametrima glasi: y
.
1,55
+
0 , 13
x.
Parametar a interpretiramo kao Vrijednost regresije za Vrijednost nezavisne varijable n ula. Njegova nam interpretacija redovito nije bitna. II ovom bismo ga slučaju in terpretirali kao očekivani gubitak od 1 ,5 5 miL kn ako ne bi bilo prometa. Parametar b se još naziva regresijski
1 38
POGLAVLJE 4
koeficijent i on je najvažniji pokazatelj u regresijskoj analizi. On pokazuje za koliki se iznos
teoretski (tj. prema dobivenoj jednadžbi) mijenja zavisna varijabla, za jedinični porast nezavisne varijable. Prema tome, ako promet poraste za l mil. kn, na temelj u jednadžbe očekujemo povećanje dobiti za 0, 1 3 mil. kn, tj . regresijska vrijednost dobiti se povećava za 0, 1 3 mil. kn . Regresijske su vrijednosti teoretske vrijednosti, vrijednosti koje bi zavisna varijabla trebala poprimiti na temelj u jednadžbe s ocijenjenim parametrima. Za dani niz empirijskih vrijednosti n ezavisne varijable X, pripadne se regresijske vrijednosti računaju njihovim A
uvrštavanjem u regresijsku jednadžbu Y :
YI a + bx1 ]2 = a + bx2
U našem primjeru:
j\ Y2 Y3 A
=
- 1 , 5 5 + 0, 1 3 ·20
1 ,05
1 , 5 5 + 0, 1 3·30 = 2 , 3 5 1 , 5 5 + 0, 1 3 -40
3 ,6 5
+ 0, 1 3 · 1 00 = 1 1 ,4 5 Stupac broj 4 tablice u primjeru 9. 1 . sadrži svih osam regresijskih vrijednosti. Vidimo da j e njihov zbroj jednak 5 0 . To je ujedno kontrola točnosti postupka jer zbroj empirijskih vrijednosti zavisne varijable mora biti jednak zbroju pripadnih regresijskih vrijednosti, tj. mora vrijediti:
Regresijske se vrijednosti mogu pojedinačno analizirati. Uzmimo npr. prvu regresijsku vrijednost 1 ,0 5 . Ona čini procjenu nivoa zavisne varijable, dakle procjenu veličine dobiti, za dani nivo nezavisne varijable, u ovom slučaju za promet od 20 mil. kn. Kako je pripadna stvarna (empirijska) vrijednost dobiti samo I mil. kn, to je razlika YI
YI ::::
l
1 ,05 = - 0,05. To znači da je prvom regresijskom vrijed nosti n ivo dobiti
precijenjen za 0,05 mil. kn ili, relativno izraženo, za 5%. Općenito, razlike yi
yi
Ui su
R EG R ESIJSKA I KORELACIJSKA ANALIZA
vrijednosti varijable neobjašnjenih odstupanja o d teoretskih vrijednosti koje rezidualnim 2 odstupanjima. Za njih se pretpostavlja da su normalno distribuirana ° i konačnom varijancom. Relativna reziduaIna odstupanja dobivaju se reziduaInih odstupanja pripadnom empirijskom vrijednosti zavisne varijable i
139
s e naZIvaJU sa sredinom dijeljenjem m noženjem
kvocijenata sa 1 00, tj.
jJ =
R egresijski pravac
- 1 , 5 5 + 0, 1 3
x
ucrtan je na slici 4.7. U d ijagram raSipanja. To j e
učinjeno pomoću dvije točke čije su ordinate dobivene računanjem regresijske vrijednosti za proizvoljno odabranu vrijednost nezavisne varijable. II ovom je slučaju pravac p rovučen kroz točke T1 (20, 1 ,05) i 'J�(1 00, 1 1 ,45), tj . kroz točke dobivene računanjem prve i osme regresijske vrijednosti. Za u crtavanje regresijskog pravca može se u zeti i točka Cx, ji) , jer je to točka kojom prolazi svaki regres ijski p ravac. Također se može uzeti i točka (O, a) , tj. odrezak na osi ordinata, ako je za konstrukciju dijagrama rasipanja korišten cijeli prvi kvadrant koordinatnog sustava, jer samo u tom slučaju on sadrži svoju n ul-točku .
.... Sli ka 4 . 7 . Dobit
o
13
12 11 10 9 8 7 6
o
5 4
o
3 2 1
O 10
T, 20
30
40
50
60
70
80
90
1 00
Parametar u mil. Kn
Regresij ske su vrijednosti pogodno sredstvo za prognoziranje. Na pnmJer, možemo izračunati koliku dobit možemo očekivati ako bi promet porastao na 1 1 0 mil. kn: 2) o d latinskog: resiđuum • ostatak
140
POGLAVUE 4
Y(x=I IO)
= - 1 , 5 5 + 0, 1 3 · 1 1 0
=
1 2 , 75 mil. kn.
4.4. Ol:jena reprezentativnosti regresije Nakon što smo ocijenili parametre regresijskog pravca, postavlja se pitanje njegove reprezentativnosti. Regresijski je pravac reprezentativniji što je udaljenost parova opaženih, tj . empirijskih vrijednosti od njega manja, tj . što su mu točke na dijagramu rasipanja bliže. Prije no što se pozabavimo mjerama reprezentativnosti, razmotrit ćemo tzv. jednadžbu analize varijance, koja je podloga za računanje pokazatelj ? reprezentativnosti regresije. Ona glasi: n
I (Yi i=l
-
y)2 =
n
I (j\
-
i=l
y)2 +
n
I (Yi i=l
-
yy l.
(4.8.)
Jednadžbu čine tri sume kvadrata čije ćemo značenje ilustrirati pomoću raščlambe dijela ordinate proizvoljne točke iz dijagrama rasipanja.
� Slika 4.8. y
T;(Xi,Yi)
o
o
:} : A
�
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
'Oi-
x
o
o
'-\1-� o
_
o
_ _ _ _ _ _ _ _
o
i � �� _
o
/
_ _ _ _ _ _
o
o
x
3) Pod nazivom jednadžba analize varijance u statističkoj se literaturi podrazumijeva bilo jednadžba triju varijanci:
11
i=1
L (y . - )7) I
11
2
11
L (j . - yl 2
i=1
-'=--- + l
11
n
1=1
L (y - j ) J
same varijance (jer je nazivnik triju varijanci isti).
n
l
2
, bilo njihovih brojnika, budući da su brojnici triju varijanci u istom odnosu kao i
141
REG RESIJ SKA I KO RELACIJSKA ANALIZA
Promotrimo ordinatu točke Tj (xj,Yj) na slici 4.8., preciznije njezin dio do linije Y Y . To je dužina Yi - ji . Ona siječe regresijski pravac u točki čija je ordinata pripadna regresijska vrijednost Yi . Dužina Yi - ji podijeljena je na dva dijela, na dio između regresijskog pravca i prosjeka, dužinu Yi - ji i dužinu Yi - Yi ' tj. dužinu između i-te točke i regresijskog pravca Y . Vrijedi ,dakle, =
(4 .9.)
Razliku Yi ji smatramo protumačenom regresijskom jednadžbom - oč�kujemo, budući da je pravac izraz veze među analiziranim pojavama, da za neku i-tu vrijednost nezavisne varijable zavisna varijabla poprimi teoretsku, tj. regresijsku vrijednost Yi ' Ono što nismo u stanju objasniti jesu su razlike Yi - Yi ' pa ih nazivamo neprotumačenima. Želimo li relaciju (4.9.) izraziti sumarno, za svih n točaka, koliko je parova vrijednosti dviju varijabli, moramo odstupanja kvadrirati. Kako točke na dijagramu rasipanja leže iznad i ispod pravca, tj. kako je -
II
II
II
LYi = L Yi , to je L (Yi - Yi ) = O . i=1 i=1 i=1 II
Isto vrijedi i za zbrojeve odstupanja L (Yi
II
L (Yi - ji) . Stoga se ukupna odstupanja i=1 i=1 kvadriraju i njihovom se raščlambom dolazi do jednadžbe analize varijance (4 .8.). Za dijelove jednadžbe analize varijance uobičajeno se rabe kratice. Za ukupnu sumu kvadrata II
L (Yi - ji) 2 koristit ćemo se kraticom i=1 II
-
ji)
ST (S
=
protumačen u sumu kvadrata L (Yi - ji)� kraticom II
i=1
suma, SP
T =
totalna, tj. ukupna), za
i za neprotumačenu ili reziduainu
sumu kvadrata L (Yi - Yi ) 2 kraticom SR. Vrijedi dakle, i=1 ST = SP + SR.
Iii, precizno: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne . varijable od njezine prosječne vrijednosti jednak je zbroju kvadrata odstupanja regresijskih vrijednosti od prosjeka i zbroju kvadrata odstupanja empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti. Elementi jednadžbe analize varijance podloga su za računanje pokazatelja reprezentativnosti regresije. Kako je regresija to reprezentativnija što su joj točke na dijagramu rasipanja bliže,
1 42
POG LAVUE 4
kao prikladna mjera reprezentativnosti služi varijanca regresije ili reziduaina varijanca cr �
.
Ona se računa kao prosjek reziduaine sume kvadrata:
cr y�
( 4. 1 0 ) .
n
Drugi korijen iz varijance regresije je standardna devijacija regresije:
(4 . 1 1 .) Ona je prosJecno odstupanje opaženih, tj. empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti.
Koeficijent varijacije regresije Vy , koji predstavlja prosječno relativno odstupanje empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti jest omjer regresijske standardne devijacije i aritmetičke sredine zavisne varijable pomnožen sa 1 00:
V·y
cr
(4. 1 2 .)
· 1 00 .
Y
Dijeljenjem protumačene sume ukupnom sumom kvadrata dobiva se koeficijent determinacije (simbol re ) kao pokazatelj jakosti veze među dvjema analiziranim varijablama, a time ujedno i pokazatelj reprezentativnosti regresije. On je dan izrazom: n
L eYi
R 2 = -'-i=n-"
____
L (Yi
(4. 1 3 .)
;=1
Što je veza jača, pravac je reprezentativniji, tj. udio protumačenih u ukupnim odstupanjima je veći, a udio neprotumačenih ili reziduainih odstupanja manji. Vrijednost H2 bliže jedinici znači veću reprezentativnost regresije, manju disperziju točaka oko regresije. Koeficijent determinacije se može izraziti i kao l minus udio reziduainih u ukupnim odstupanjima :
n
L (Yi y) 2 i=1
-
(4. 1 4.)
REGRESIJSKA I KORELACIJSKA ANALIZA
1 43
Komponente jednadžbe analize varijance računaju se pomoću sljedećih izraza:
II II L (Yi y) 2 = L y�-ny 2 i=l i=l II
L (Y; y) 2 = ncr; i=1
,
ili
4.
Protumačena suma kvadrata najjednostavnije se računa tako da se regresijski koeficijent b pomnoži svojim broj nikom. tj.
� (Yi
y)2 = b
[� XiYi - nxyl'
odnosno
n II L (Yi y) 2 = bL (Xi - X)(Yi -y) a može se izračunati i pomoću izraza ;=1 i=l II II II = aL y; +b L xiy; - ny2 , L G; ;=1 1=1 ;=1 11 II II x = 2 2 2 2 _ x; - nx 2 ) x1 b i b y) ( ) ( L L LeV 1=1 1=1 1=1 II II II L
Reziduaina se suma kvadrata najlakše izračuna kao razlika ukupne kvadrata ili pomoću izraza:
II n n II L (Yi - yJ 2 LY; aLY; - bL X; Yi ;=1 ;=1 1=1 i=l II L ( Yi Yi ) 2 ST(1 - R2 ) . i =l
4) Simbol "
� označava varijaneu varijable Y. ij " ;
II
ST "
,
ili
i
protumačene sume
144
POGLAVUE 4
Za regresijsku jednadžbu kojom je predočena veza između varijabli " dobit" i "promet" iz tablice 9. 1 . izračunat ćemo elemente jednadžbe analize varijance i ocijeniti njezinu reprezentativnost. s'" l
n "'
' '"n i=l
-) - = L.... y2;- ny = L.... ( Yi - Y i=1
-
2
4 1 8,5-8 . 6,252 = 1 06.
Zbroj kvadrata empirijskih vrijednosti varijable Y, 4 1 8, 5 , dobiven je kvadriranjem, pa potom n
zbrajanjem vrijednosti iz stupca br. 2 tabele 4. 1 ., tj. L i = 1 2 n
SP =
L (Yi y) 2 i=1
=
L (Yi Yi ) 2 ;=1
SR
n
Varijanca regresije
b[i X;Yi 1=1
nxy
]
i=l
=
0, 1 3 ·780
ST - SP = 1 06 - 1 0 1 ,4
=
=
+ 32 + 3 , 52 + ... +
1 32•
1 0 1 ,4
4,6.
Y iznosi
8 standardna devijaCija regresije
koeficijent varijacije
= 0, 575 , n
L (Y; - Yi ) 2 i=::!..,I ...!.: = �0,575 o' y = ___
n
Vy =
= 0,7 58, te
· 100 = 0,75 8 . 1 00 = 12'13% . 6,25 Y _
Vidimo da je reprezentativnost linearne regresijske jednadžbe s ocijenjenim parametrima veoma dobra. Empirijske vrijednosti zavisne varijable u prosjeku se razlikuju od pripadnih regresijskih vrijednosti za 0,758 mil. kn. Ili, empirijski se podaci o dobiti u prosjeku razlikuju od pripadnih teoretskih vrijednosti, vrijednosti koje očekujemo na temelju jednadžbe s ocijenjenim parametrima, za 0,758 mil kn. Interpretacija koeficijenta varijacije regresije: prosječno relativno odstupanje empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti iznosi 1 2 , 1 3%. Koeficijent determinacije za naš primjer iznosi
REG R ESIJSKA I KORELACIJSKA ANALIZA
145
i=1
Vidimo, dakle, da je udio protumačenih u ukupnim odstupanjima 0,965 504, odnosno, da je otprilike 9 5 ,66% ukupnih odstupanja protumačeno linearnom regresijskom jednadžbom.
4.5. Koeficijent linearne korelacije Korelacijskoj je analizi, kao i regresijskoj, svrha istražiti povezanost među pojavama (statističkim varijablama) . I zmeđu regresijske i korelacijske analize nema jasno određene granice i izrazi regresijska i korelacijska analiza često se upotrebljavaj u kao sinonimi. Postoji ipak stanovita razlika, uglavnom u pristupu. U korelacijskoj je analizi naglasak na mjerenju stupnja povezanosti između varijabli, dok je u regresijskoj analizi naglasak na izražavanju veze prikladnim analitičkim izrazom, odnosno modelom. Pokazatelj jakosti i smjera dviju pojava je Pearsonov koeficijent linearne korelacije nazvan po imenu svoga tvorca Karla Pearsona. Podloga za njegovo računanje je raspored točaka, tj . parova opažen ih vrijednosti dviju varijabli u dijagramu rasipanja. Promatraju li se odstupanja empirijskih vrijednosti pojedine varijable od njezine prosječne vrijednosti, tj . odstupanja Xi - X . kao i odstupanja y, - y i razmotri li se njihova kovarijanca, tj . prvi mješoviti moment varijabli X i Y oko sredine:
L (Xi - X)(Yi - ji)
/lli = ------n
(4. 1 5 .)
vidi se da kovarijanca može poslužiti kao �jera jakosti i smjera veze. Podijelimo li dijagram rasipanja (slika 4.9.) pravcima X = x i Y = Y na četiri kvadranta (četvrtine) , vidimo, na primjer, da su , ako se radi o pozitivnoj linearnoj vezi, točke (xj, Yj) pretežno raspoređene u prvom i trećem kvadrantu dijagrama rasipanja. Š to je veza slabija, raspršenost točaka je veća i više ih ima i u ostalim kvadrantima. Odstupanja Xj - x i y; - y točaka koje se nalaze u prvom
i trećem kvadrantu istog su predznaka, pa njihovi produkti ulaze s pozitivnim predznakom u brojnik kovarijance i na taj je način povećavaju. Identična odstupanja točaka smještenih u drugom i četvrtom kvadrantu dijagrama rasipanja suprotnog su predznaka, pa njihovi produkti ulaze s negativnim predznakom u sumu koja je broj nik kovarijance i na taj je način smanjuj u.
1 46
POGLAVUE 4
.... Slika 4.9. y
o
o
, x r-fibo �n :_ _ _ n9 Tdxl,Yl) ___
X2-XO :, o ,l: , , I
_
Y3-Y
oo : o o
, :
.
I
I
:
o
O
o :
:
o
: 'o : _ _ _ _ ..
. :
_
;" _ n _ _ n n� : X4 -Jbo T3 (X3, Y3) ' xrx
:
.. _ _ .Q
,: t ,
_
Yl-Y>O
Y4-Y
o o
x
Kod negativne linearne povezanosti dviju varijabli položaj točaka je obrnut: one su pretežno u drugom i četvrtom kvadrantu, a samo manji broj ih je smješten u prvom i trećem kvadrantu. Kovarijanca mjeri stupanj kovarijacije, tj . varijacije obiju varijabli oko njihovih aritrnetičkih sredina, čime se izražava njihov odnos. Kovarijanca kao mjera jakosti i smjera veze, međutim, ima nedostatak da ovisi o mjernim jedinicama u kojima su varijable izražene. Taj se nedostatak otklanja standardizacijom obiju varijabli. Kovarijanca standardiziranih vrijednosti je prije spomenuti Pearsonov koeficijent linearne korelacije i dan je izrazom: fl
r =
�)Xi - X)(Yi - ji)
...!.::!----
,
· l s;; r s;; L
(4. 1 6. )
Simbol r dolazi od engleskog "relation", što znači odnos. Pearsono v koeficijent korelacije poznat je i pod nazivom produkt-moment formula. Š to je po apsolutnoj vrijednosti bliže jedinici, povezanost varijabli je jača. Njegove vrijednosti s negativnim predznakom upućuju na negativnu povezanost varijabli, tj. da porast jedne varijable prati pad druge varijable. Pearsonov koeficijent linearne korelacije moguće je pisati na više načina. Njegov je broj nik jednak broj niku regresijskog koeficijenta b pa ga je moguće izraziti i kao
R EG R ESIJSKA I KOR E LACIJSKA ANALIZA
1 47
fl
r
" L-. xl"Yl" - nxy"'
(4. 1 7.)
Produkt broja parova vrijednosti dviju varijabli n i njihovih standardnih devijacija u nazivniku također je moguće zapisati u drugom obliku, što rezultira novim varijantama izraza za koeficijent linearne korelacije: n
L X iYi - nry r
JI
i=1
n
L(Xi - x) 2 L (Yi - )il
(4. 1 8.)
i=1
i=1
r
(4. 1 9.)
Daljnjom modifjkacijom izraza za kovarijancu standardiziranih vrijednosti obiju varijabli dobiva se izraz za r kao produkt regresijskog koeficijenta b i omjera standardnih devijacija obiju varijabli: r
(4.20.)
Do koeficijenta linearne korelacije može se doći i putem koeficijenta detenninacije:
r
i=1
( 4.2 1 .)
n
L(Yi i=1
-
5')2
Kod primjene ovog izraza treba obratiti pažnju na predznak drugoga korijena. Predznak koeficijenta linearne korelacije i predznak regresijskog koeficijenta b jednaki su, pa ako se npr. radi o negativnoj regresijskoj vezi, moramo ispred drugoga korijena staviti negativni predznak. Nadalje, ovaj izraz treba imati na umu kod zaključka o jakosti linearne regresijske veze. Na primjer, kod koeficijenta l inearne korelacije 0,7 bilo bi pogrešno, s obzirom na to da je 0,7 blizu l , zaključiti da se radi o jakoj vezi. Pripadni je, naime, koeficijent determinacije Of = 0,49, što znači da je svega 49%, dakle manje od polovine ukupnih odstupanja
1 48
POGLAV U E 4
protumačeno linearnom regresijskom vezom. U takvom bi se slučaju radilo o vezi osrednje jakosti. za primjer varijabli "dobit" i "promet" predočenih u tablici 9. 1 . izračunat ćemo Pearsonov koeficijent linearne korelacije primjenom izraza (4. 1 7 . ) . Prethodno je još potrebno izračunati standardne devijacije obiju varijabli.
cr
r
cr x
==
3,640
..!::.!._ . __
==
=
"
Lx;y; - nxy
780
-'.; i= ::.!. I____ r == n cr xcr y
8 · 3,640 · 27,386
==
J
6000 8
'= 27'386
O'978 .
Do istog se rezultata dolazi i primjenom izraza (4.20. ) : r ==
b� cr r
==
0,1 3 ·
27,386 3,640
0,978 ,
kao i vađenjem drugoga korijena iz koeficijenta determinacije: r ==
..JR2 == .J0,9566
0,978 .
4.6. Inferencijalno-statistički pristup regresijskoj analizi; tabela AN OVA Prethodno opisane metode regresijske analize koj e se primjenjuju na empirijske podatke spadaju u područje deskriptivne statistike. Moguć je, međutim, i drukčiji pristup jer se empirijske vrijednosti dViju varijabli mogu shvatiti kao uzorak iz zamišljenoga beskonačnog osnovnog skupa. ti tom se slučaju provode postupci inferencijalne statistike, kao npr. procjene regresijskih parametara brojem i i ntervalom i testiranje hipoteza o parametrima regresijskog modela. Za ocjene parametara regresije se simbolima ci i
r3
'
tj.
y
metodom naj manjih kvadrata u takvom pristupu koristimo
R EG R ESIJSKA I KORELACIJSKA ANALIZA
A
fi
A
y = a + !-,x .
149
(4.22.)
Kape " iznad simbola parametara naznačuju da su oni procjenitelji zamišljenih "pravih " parametara regresije osnovnoga skupa, tj . regresije opisane modelom A. "
Y=
a
+ �X +
e.
(4.23.)
Sa e je označena slučajna varijabla koja sumarno izražava različite u tjecaje na zavisnu varijablu koje nije moguće kvantificirati i čija je očekivana vrijednost nula. Za svaku se vrijednost varijable X u populaciji mogu realizirati različite vrijednosti varijable Y, a očekivane vrijednosti varijable Y, uz uvjet da se realiziraju pojedine vrijednosti varijable X, leže na pravcu koji nazivamo ("prava") regresija populacije, tj . na pravcu E(Y ) =
a
+ �X .
(4.24.)
Ne ulazeći u detaljnije izlaganje pretpostavki na kojima model počiva, ograničit ćemo se samo na opis postupaka procjenjivanja parametara i testiranja nekih pretpostavki o parametrima populacijske regresije. Prethodno ćemo prodiskutirati tabelu poznatu pod imenom ANOVN. Ona je standardni dio kompj utorskih izlaza statističkih programa za provedbu regresijske analize i sadrži elemente potrebne za provedbu postupaka inferencijalne statistike.
�
Tabela 4.2. ANOVA Izvor varijacija
Stupnjevi slobode
l
2
protumačenih modelom reziduaina odstupanja Ukupno
Zbroj kvadrata 3
Sredina kvadrata 4
k
SP
SPIk
n-k + l
· SR ST
SRln -k+ 1
n- l
-
Empirijski F-omjer 5
SP l k SR l n - k + l -
U stupcu br. 2 nalaze se stupnjevi slobode jer se, kako u postupcima procjenjivanja, tako i u provedbi različitih testova, rabe teoretske distribucije koje ovise o broju stupnjeva slobode. U stupcu br. 3 su sve tri sume kvadrata: protumačena, neprotumačena ili reziduaina i ukupna. Uz protumačenu sumu kvadrata vezano je k stupnjeva slobode, pri čemu je k broj nezavisnih
5) Od engleskog: Analysis of Variance
1 50
POGLAVUE 4
varijabli u modelu6. U modelu jednostavne linearne regresije, s jednom nezavisnom varijablom, k = l . Uz ukupnu sumu kvadrata vezano je tl l stupnjeva slobode, tj . broj parova7 vrijednosti dviju varijabli umanjen za l . Ostatak od II k+ l stupnjeva slobode vezan je uz reziduaInu sumu kvadrata. U četvrtom su stupcu dvije varijance, u čijim su nazivnicima stupnjevi slobode iz stupca br. 2. Reziduaina varijanca, sa n - k+ l stupnjeva slobode u nazivniku j e ocjenitelj varijance populacijske regresije i dana je izrazom
( 4.25.) U petom je stupcu kvocijent dviju varijanci iz stupca 4. O n čini empirijski F- omjer8 pomoću kojega se p rovode neki od testova. U sklopu analize povezanosti varijabli "dobit" i "promet" navedenih u tablici 9. 1 . sastavit ćemo i tabelu ANOVA:
...
Tabela 4.3. ANOVA Izvor varijacija
Stupnjevi slobode
l
2
protumačenih modelom reziduaina odstupanja Ukupno
Zbroj kvadrata 3
1
1 0 1 ,4
6
4,6
7
1 06,0
Sredina kvadrata 4
101,4
Empirijski F-omjer 5
1 32,26
0,7666 -
-
Drugi korijen iz ocjenitelja varijance je ocjenitelj standardne devijacije regresijske populacije, tj.
6) Osim modela jednostavne linearne regresije koji se razmatra u ovoj knjizi. postoji model multiple ili višestruke regresije kod kojeg se lavisna varijabla Y objašnjava pomoću više nezavisnih varijabli X. Opći oblik tablice ANOVA prezentiran u tabeli 4.2. vrijedi za oba modela. 7) Samo kod jednostruke regresije kod višestruke ili multiple regresije imamo više nezavisnih varijabli pa ne možemo govoriti o parovima vrijednosti varijabli.
8J F· distribucija (nazvana po slatističaru fiscneru) jest teoretska distribucija keja omogućuje zaključivanje o omjeru dviju varijanci iz različitih populacija.
REGR ESIJSKA I KORELACIJSKA ANALIZA
i=l
a
V= �
n-k+l
cr Y
1 51
(4.26.) (4.27.)
· 1 00
je ocjenitelj koefiCijenta varijacije regresije.
0,7666, ocjena standardne deVijacije .j0,7666 = 0,876 miL kn, te ocjena koeficijenta varijacije 0 , 766 , 1 00 = 12 , 26%. U ovom je 6,25
U gore navedenom primjeru ocjena varijance iznosi
slučaju reprezentativnost regresije vrlo dobra.
U okviru inferencijalnog pristupa računa se i korigirani koeficijent determinacije, pri čijem se računanju uzimaju u obzir stupnjevi slobode vezani uz ukupnu (n - l ) i reziduainu (n - k + l ) sumu kvadrata . . On je dan izrazom:
( 4.28.)
IF
Korigirani koeficijent determinacije jednak je ili manji od koeficijenta determinacije, tj. jp R 2. On može čak poprimiti i vrijednost manju od nule, što se ističe kao njegov nedostatak.
:s:
za isti primjer analiziranih varijabli ("promet" i "dobit") korigirani koeficijent determinacije
iznosi
7 - 0,9,6604) = 1 --(1 6 _
=
0,94937 1 .
I ntervalne procjene parametara dobivaju se tako da se parametru ocijenjenom iz uzorka s jedne strane doda, a s druge oduzme t sta� dardnih grešaka tog parametra. Studentov se tr12 očitava iz tablice B za, u slučaj u jednostavne linearne regresije, n-2 (općenito za n-k+ l ) stupnj eva slobode. Interval procjene parametra cl linearne regresije s jednom nezavisnom varijablom X glasi:
{
p a: - t!i'Ga � a � a: + t!i'Ga
}=l-r .
(4.29 .)
1 52
POGLAVUE 4
Standardna pogreška parametra
0' a. =
a
računa se pomoću izraza:
;=1
II
( 4. 30.)
nL(x; _ X) 2 i=1
Interval procjene parametra � glasi: (4. 3 1 .) Standardna greška parametra � dana je izrazom:
2 L(X; _ X)2 i=1 o'
�
II
( 4.32.)
Ako želimo procijeniti intervalom očekivanu vrijednost zavisne varijable Y za neki nivo nezavisne varijable Xa, tj . ako za taj nivo želimo procijeniti vrijednost koja pripada populacijskoj regresiji, moramo najprije izračunati regresijsku vrijednost uvrštavanjem vrijednosti Xa u regresijsku jednadžbu s ocijenjenim parametrima:
Yo = a + bxa . Nakon toga se oko te regres ijske vrijednosti formira interval od tY/2 standardnih pogrešaka regresije, tj . interval (4. 3 3.)
Želimo li za dani nivo nezavisne varijable Xa procijeniti pripadnu vrijednost zavisne varijable Y, tj . vrijednost individualne opservacije
yo
'
interval oko regresijske vrijednosti
Yo
jer je standardna pogreška u tom slučaju povećana za jedinicu pod drugim korijenom: (4.34.)
je širi
REGRESIJSKA I KORELACIJSKA ANALIZA
1 53
Osim procjenjivanja parametara, inferencijalni pristup regresiji obuhvaća i testiranja pretpostavki o parametrima. Tako npr. možemo ispitati objašnjava li nezavisna varijabla X dovoljno dobro varijacije zavisne varijable Y, tj . je li njezina prisutnost značajna. Drugim riječima, može nas zanimati je li varijabla X potrebna u modelu ili je suvišna. Možda izbor varijable X u konkretnom slučaju nije bio najsretniji, pa u želji da objasnimo varijacije varijable Y trebamo možda u model uključiti neku drugu nezavisnu varijablu. II takvom slučaju postavljamo par hipoteza: Ho :
�
H, :
� :;/: O.
= °
(4. 3 5 . )
Pretpostavka da je parametar � regresijskog modela jednak nuli omogućuje isključivanje nezavisne varijable X iz modela, jer ako u jednadžbu Y a + I3X uvrstimo 13 = 0, desna se strana jednadžbe reducira na opći član a. Za razliku od nul-hipoteze kojom se iskazuje da je prisutnost nezavisne varijable u modelu suvišna, alternativnom se hipotezom tvrdi da je prisutnost nezavisne varijable potrebna u modelu. Prihvaćanje alternativne hipoteze znači prihvaćanje tvrdnje da se uz neku razinu značajnosti a, varijacijama nezavisne varijable X mogu objasniti varijacije zavisne varijable Y. Do odl � ke se dolazi usporedbom empirijskoga i teorijskoga ( tabličnog) t omjera. Empirijski omjer t računa se pomoću izraza:
. �.
t =
u' p
i uspoređuje s koeficijentom t za polovicu signifikantnosti stupnjeva slobode ss = n k + l .
(4.36.)
a (test je dvosmjeran)
i za broj
Za t''" s ta/2 zaklj učujemo da j e nul-hipoteza moguća, tj. moguće j e da j e nezavisna varijabla X suvišna u model u . Z a t "" > taj2 odbacujemo n ul-hipotezu u korist alternativne, tj. na razini signifikantnosti a
smatramo prisutnost nezavisne varijable u modelu X značajnom. Držimo da tada nezavisna varijabla X značajno pridonosi objašnjenj u zavisne varijable Y.
Do odluke se može doći i pomoću empirijske razine signifikantnosti, tj. pomoću p vrijednosti (na uobičajeni način, kao što je to objašnjeno u poglavlju o teoriji uzorka), ako se koristimo nekim od programa za računalo koji ju sadrži u svom ispisu, jer je njezino izravno računanje suviše zamršeno za svakodnevne potrebe. Na analogni se način može testirati značaj nost prisutnosti općeg člana a . Postoje još brojni testovi pretpostavki o parametrima regresijskih modela, posebno kod modela s više nezavisnih varijabli (modela višestruke ili multiple regresije) , ali je to materija izvan opsega ovoga rada.
1 54
POG LAVLJ E 4
4.1. Korelacija ranga Za razliku od prethodno izloženih metoda korelacijske analize kojima se mjerI stupanj povezanosti varijabli X i Y, korelacija ranga je metoda kojom se mjeri povezanost rangova dviju varijabli. Korelacija ranga je, zbog svoje jednostavnosti, vrlo raširena metoda neparametrijske statistike. Njome se koristimo kad želimo istražiti eventualnu povezanost dviju varijabli ranga, ali i kod numeričkih varijabli. Ako npr. na temelju dijagrama raSipanja pretpostavljamo da je možda u pitanju krivolinijska veza, čije istraživanje iziskuje opsežnija računanja, onda je često zgodno kao prethodnu, tzv. pilot-metodu, rabiti korelaciju ranga, pa tek nakon toga odlučiti upustiti li se u kompliciranije računske operacije ili ne. Jaka korelacija među rangovima dviju varijabli, naime, još ne mora značiti jaku vezu među vrijednostima dviju varijabli, mada je vjerojatna. Vrijednosti dviju varijabli se rangiraju po veličini, i povezanost se njihovih rangova mjeri Spearmanovim koeficijentom korelacije ranga definiranim izrazom:
(4. 3 7 .) Sa d, su u izrazu (4. 37.) označene razlike među rangovima pojedinih vrijednosti varijable X i r(yJ Vrijednostima pojedine varijable pridruženi su rangovi tako da je tj. di najmanjoj vrijednosti pridružen rang l, sljedećoj po veličini vrijednosti iste varijable rang 2 itd. Maksimalni mogući rang je n. Ako se neka od vrijednosti pojedine varijable ponavlja, onda se svakoj od njih pridružuje aritmetička sredina pripadajućih rangova. Takvi se rangovi, koj i se računaj u kao aritmetička sredina nekoliko rangova, nazivaju "vezani" (engleski: "tied") rangovi. Poželjno je da ih ne bude previše.
Y
,
Računanje Spearmanova koeficijenta korelacije ranga predočit ćemo na primjeru . .\lovinari dvaju časopisa birali su menadžera godine. Desetorici istih kandidata su novinari pojedinog časopisa davali bodove, kojima je mjerena njihova uspješnost. Izračunat ćemo stupanj korelaCije kriterija ocjenjivanja obaju uredništava:
1 55
REGRESIJSKA l KORELACIJSKA ANALIZA
...
Tabela 4.4. Bodovi dodijeljeni od uredništva časopisa
Redni broj kandidata
A
B
Xi
Yi
2
l
3
Rang vrijednosti varijable X
r(xi ) 4
Rang vrijednosti varijable Y
r(Yi)
Razlike rangova
Kvadrati razlika rangova
di
d/
r(xi)-r(Yi)
5
6
7
1
53
48
8
6
2
4
2
15
32
2
5
-3
9
3
30
62
6
7
-1
1
8
-l
1
-1
4
47
64
7
5
60
70
9
10
l
6
75
65
10
9
1
1
7
14
17
l
2
-1
1
8
25
28
4,5
3
1 ,5
2,25
9
25
30
4,5
4
0,5
0,25
10 Ukupno
19
16
3
1
2
-
-
55
55
O
4 24,5
Objašnjenje rangova u stupcu br. 4: najmanjoj vrijednosti varijable X, 1 4, pridružen je rang 1 . Sljedeći su po veličini brojevi bodova u drugom stupcu I S i 19 pa su njima pridruženi rangovi 2 i 3. Nakon toga slijede dva po veličini jednaka broja bodova, 25, a kako su na redu rangovi 4 i 5. to je svakoj od vrijednosti 25 pridružena aritmetička sredina tih dvaju rangova, ,
tj.
+
4 5 2
=
4,5 Slijedi po veličini 30 bodova, kojima je pridružen rang 6 itd. .
n
r s
6"Ld? i=l
n3 n
= --- = _
6 · 24,5
1 03 - 1 0
O, 85 l 5 .
Vidimo d a j e Spearmanov koeficijent korelacije ranga dosta blizu jedinice, što znači d a je veza među rangovima dViju varijabli pozitivna i dosta jaka. Kandidat kojeg je jedno uredništvo ocijenilo dobro, prošao je dobro i kod drugog uredništva i obrnuto. To upućuje na dosta dobru usklađenost kriterija obaju uredništava.
•
VREM ENSKI N IZOVI
5.1 . Vremenski niz - definicija i vrste Vremenski je niz skup kronološki u ređenih vrijednosti neke pojave, i te se vrijednosti nazivaj u frekvencijama vremenskog niza. Razlikujemo dvije vrste vremenskih nizova ovisno o tome je l i riječ o pojavi promotrenoj u nekom trenutku vremena ili u nekom vremenskom intervalu. Frekvencije intervalnoga vremenskog niza odnose se na vremenske intervale i nastaju zbrajanjem. Tako npr. zbrajanjem dnevnih proizvodnji dobivamo tjednu proizvodnju, zbrajanjem tjednih, mjesečnu, zbrajanjem mjesečnih kvartainu proizvodnju itd. Kažemo da frekvencije intervalnoga vremenskog niza imaju svojstvo kumulativnosti. Kod pojava koje je moguće promotriti samo u nekom trenutku vremena, frekvencije vremenskoga niza čine saldo pojave u tom momentu. Tako, na primjer, bilježimo broj zaposlenih u nekom poduzeću na određeni dan; dan prije i dan nakon obavljenog snimanja broj se zaposlenih može razlikovati jer radna snaga fluktuira. Isto je sa stanjem (saldom) tekućeg računa na određeni datum. Nizovi takvih podataka nazivaju se trenuta{ni vremenski nizovi. Njihove se frekvencije ne smiju zbrajati. Ako je na određeni dan u nekom poduzeću
158
POGLAVLJE 5
zaposleno 25 radnika i mjesec dana nakon toga ponovno njihov isti broj , tj. 2 5 radnika, ne smijemo ih zbrojiti i reći da je u ta dva mjeseca u poduzeću bilo zaposleno 50 radnika, jer se radi o istim osobama. Isti iznos duga na tekućem računu u dva uzastopna dana ne znači dvostruki iznos duga itd.
5.2. Grafičko prikazivanje vremenskih nizova Vremenski se nizovi grafički prikazuj u linijskim i površinskim grafikonima. Trenutačni se nizovi, budući da nemaju svojstvo kumulativnosti, prikazuju samo linijskim grafikonima. Za prikazivanje intervalnih vremenskih nizova služe i linijski i površinski grafikoni. Na os apscisa nanosi se mjerilo za vrijeme, a na os ordi� ata mjerilo za vrijednosti pojave, tj. mjerilo za frekvencije. Površinski grafikon čine stupci, bilo da su međusobno spojeni, bilo da je među njima mali razmak I za lakše unošenje podataka u grafikon, a i za njihovo kasnije čitanje, može se konstruirati mreža vodoravnih i okomitih linija koje prolaze točkama označenim na mjerilu.
�
Tabela 5. 1 . Novoprijavljeni i broj prijavljen i h u zavodima za zapošljavanje u RH (u 000) Godina
Novoprijavljeni radi zapošljavanja
Prijavljeni, stanje krajem godine
I
2
3
1982.
133
107
1 983.
134
113
1984 . 1985.
141
121
139
124
1986.
137
122
1987.
133
127
1988.
142
144
1989.
117
145
1990.
183
195
199 1 .
218
283
Izvor: Statistički ljetopis RH 1992., str. 103
Tabela 5 . 1 . sadrži dva vremenska niza, jedan intervalni Uer je godišnji podatak o broju novoprijavljenih nastao njihovim zbrajanjem tokom godine) i jedan trenutačni. Slijede njihovi grafički prikazi. 1) Ranije, prije pojave računala, crtalo se ručno i stupci su bili međusobno spojeni. Danas, u eri računala, sve se češće intervalni nizovi prikazuju neznatno razmaknutim stupcima, jer su takvi grafovi lakše izveđivi pomoću stanđardnih programa instaliranih na računalima.
VREMENSKI N IZOVI
� Grafikon 5. 1 . Novoprijavljeni u zavod ima za zapošljavanje u RH (u 000) Broj osoba 220 200 1 80 1 60 1 40 1 20 1 00 80 60 40 20 0 �-1��-r-+���-r-1��-r-+-----Godina
Izvor: st. ljet. RH 1992, str 103.
� Grafikon 5.2. Novoprijavljeni u zavodima za zapošljavanje u RH (u 000) Broj osoba 220 200 1 80 1 60 1 40 1 20 1 00 80 60 40 20 O �--���--�-+--�����-+--�---Godina
Izvor: St. ljet. RH 1 992, str 103.
159
1 60
POGLAVUE 5
� Grafikon 5.3. Broj prijavljenih u zavodima za zapošljavanje u RH (u 000), stanje krajem godine Broj osoba 300 280 260 240 220 200 1 80 1 60 1 40 1 20 100 80 60 40 20 0 ���4--+--��-4--+-��----
Izvor: 5t. ljet. RH 1 992, str 1 03.
Ako vremenska razdoblja na koja se odnose frekvencije in tervalnoga vremenskog n iza nisu jednaka, potrebno je korigirati frekvencije, i to tako da se smanje frekvencije koje se odnose na veća vremenska razdoblja. Ako, na primjer, nakon godišnjih podataka o nekoj proizvodnji slijede mjesečni podaci, tada treba godišnje podatke, radi usporedivosti, prilagoditi mjesečnim podacima, tj . podijeliti ih s 1 2 , a ne povećavati mjesečne podatke množenjem s 1 2, jer bi to značilo pretpostaviti da je godišnja proizvodnja jednaka dvanaesterostrukoj mjesečnoj proizvodnj i, odnosno pretpostaviti ravnomjernost odVijanja proizvodnje u svim mjesecima unutar jedne godine. Napominjemo da se korigirati smiju samo frekvencije i ntervalnog niza. Kako se frekvencije trenutačnoga vremenskog niza ne smiju zbrajati, to n i njihovo d ijeljenje nije dopušteno.
VREMENSKI N IZOVI
�
161
Tabela 5.2. Proizvodnja a rtikla "X" Proizvodnja ut
Korigirane frekvencije
2
3
368
92
1 998.
416
104
1 999.
432
108
2000.
464
1 16
2001 , I.
123
1 23
II.
1 18
118
Godina, kvartal I
1 997.
li ovom s u primjeru prve četiri godišnje frekvencije podijeljene s četiri i n a taj j e način proizvodnja u prva dva kvartala 200 1 . učinjena u sporedivom s proizvodnjo prethodnih godina.
� Grafikon 5 .4 . Proizvodnja artikla "X" Proizvodnja 1 40
u t.
1 20 1 00 80 60 40 20 o -L--+---+----I--�f---+-:IL+-:. godina, kvartal l . f--: 1 997
1 998
1 999
2000
2001
Frekvencije vremenskoga intervalnog niza koje se odnose na nejednaka vremenska razdoblja mogu se prikazati i tako da se u svrhu poboljšanja čitljivosti grafikona manja razdoblja, kao što su to u ovom slučaju kvartali, prikažu većim odsjeČcima na osi apscisa nego što bi to
1 62
POGLAVUE 5
nalagalo poštivanje aritmetičkog mjerila, ali se u takvom slučaju mora načiniti vertikalni prekid grafikona. Nakon prekida grafikona može se na osi apscisa nastaviti s odsječcima mjerila iste veličine kao i prije vertikalnog prekida, a može ih se po želji i smanjiti, ovisno o raspoloživom prostoru. Promjena veličine odsječaka na osi apscisa nakon vertikalnoga prekida grafikona ne znači povredu aritrnetičkog mjerila jer se vertikalni prekid grafikona tumači kao prostor između dva zasebn a grafikona. Grafikon 5 . 5 . prikazuje iste podatke kao u prethodnom primjeru, ali uz upotrebu vertikalnoga prekida grafikona.
� G rafikon 5.5. Proizvodnja a rtikla "X" Proizvodnja u I.
1 40 1 20 1 00 80 60 40 20 o -'--f----+---+---+---+-lH--:-+--:c:+- godina, kvartal I. II. 2000 1 998 2001 1 999 1 99 7
Vremenski se nizovi grafički uspoređuju linijskim grafikonom. U tu svrhu moraju biti ispunjeni neki uvjeti. Naime, kod grafičke usporedbe dviju pojava na istom grafikonu, za prikaz svake od njih koristi se zajednička koordinatna os. Znači, frekvencije obaju n izova moraju se odnositi na ista vremenska razdoblja jer su oznake za vrijeme na osi apscisa za oba niza zajedničke. Za upotrebu zajedničke osi ardinata preduvjet su iste mjerne jedinice za obje pojave. Osim toga, frekvencije obaju nizova moraju varirati na približno jednakoj razini, tj . ne smiju se suviše razlikovati jer bi u protivnom njihoVi grafovi bili previše razmaknu ti, čime bi njihova usporedba bila otežana. Iznimka je slučaj kad nas interesira baš razlika među frekvencijama dvaju nizova koj i se uspoređuju , drugim riječima kad želimo prikazati saldo dviju pojava kao, na primjer, kod razlike uvoza i izvoza (sjenčani dio na grafikonu 5 . 7 .). Slijede dva primjera usporedbe vremenskih nizova linijskim grafikonom u z korištenje aritmetičkoga mjerila na obim koordinatnim osima.
VREMENSKI N IZOVI
..
Tabela 5.3. Prosječne aktivne vagane kamatne stope poslovnih banaka
u RH 1 997
Kamatne stope na kredite Mjesec l I.
bez valutne klauzule 2
s valutnom klauzulom 3
1 7,62
20,08
II.
17,17
1 7,64
III.
1 6,89
18,11
IV.
1 6 ,87
1 6,97
V.
1 5,79
16,55
VI.
1 5,30
1 5 ,42
VII.
14,96
1 5,23
VIII.
14,24
1 5,67
IX.
14,29
1 5 ,82
X.
14,59
1 5,92
XI.
13,73
1 5 , 54
14,06
14,40
XII. Izvor: Stat. ljetopis RH
1998., str. 2Q4
.. Grafikon 5 . 6 . Prosječne aktivne vagane kamatne stope poslovnih banaka
u RH 1 997.
Kamatna stopa 22 20
Q
. .
18
, .
16
" " 0 "' '' ..0 '' '' Wo,
14
.. ...
().. ,. .. o. .. ... o
12 10 - bez valutne
8 6
•••
4
klauzule s valutnom klauzulom
2 O
I.
II.
III.
IV. V.
Izvor: Stat. ljetop;, RH 1 998, str. 204.
Vl. VII. VIII. IX.
X. XI. XII.
Mjesec
1 63
1 64
�
POG LAVLJE 5
Tabela 5 .4. Vanjskotrgovi nska bilanca RH u m i l . $ po tekućem tečaju
Izvoz 2
Uvoz 3
1 99 1 .
3292
3828
1 992.
4597
4461
1993.
3903
4666
1994.
4260
5229
1 995.
4633
7510
1 996.
4�12
7 788
1997.
4171
9 1 04
Godina l
IZVOf: Stat.
�
ljetopis RH 1998., str. 321
Grafikon 5 . 7 . Vanjskotrgovi nska bilanca RH u m i l $ po tekućem tečaju •
Kamatna stopa
9500
9000
8500 8000 7500
7000
6500
6000 5 500 5000
4500
.. . ... .. �..
4000
"
,
,
P : : ,, , , , , , , 4
' �'
,,
..o�
*' _
t)
!.
, .-
izvoz
3500
__ o
3000
uvoz
500 o
1 99 1
Izvor: Stat. ljetopis RH
1 992
1 993
1 998, str 321.
1 994
1 995
1 996
1 997
Godina
VREMEN SKI N IZOVI
1 65
Na grafikonu 5 . 7 . korišten je horizontalni prekid grafikona zbog toga što mjerilo na osi ordinata mora početi od nule. Bez prekida, veliki bi dio grafikona bio prazan jer su frekvencije velike - naj manja je 3292. I zbor manjih mjernih jedinica na osi ordin a ta ne bi bio zadovoljavajuće rješenje jer se ne bi mogle dobro uočiti razlike među pojedinim frekvencijama. Stoga je načinjen prekid, tako da je ispod mjesta prekida oznaka jedne mjerne jedinice ( 500 mil. $), a nakon prekida je nastavljeno s oznakama od 3 500 mil. $ na više. Ako želimo grafički usporediti dva vremenska niza, a nisu ispunjeni uvjeti za korištenje aritrnetičkog mjerila na osi ordinata, moramo u tu svrhu rabiti logaritarnsko mjerilo na toj osi. Logaritarnsko se mjerilo konstruira tako da se na dužinu proizvoljne veličine, koju odaberemo kao jediničnu, nanesu oznake na mjestima koja odgovaraju logaritrnima brojeva od l do 1 0. Na primjer, ako izaberemo 1 0 cm kao jediničnu dužinu , tada početak te dužine označimo s l , jer je logaritarn l jednak nuli. Na udaljenosti 3 cm od početka dužine stavljamo oznaku 2, jer je log\O 2 = 0,30 1 03, dakle otprilike 3/1 0 jedinične dužine. Na udaljenosti 4,48 cm od početka jedinične dužine je oznaka 3, jer je log\03 = 0,477 1 2 , itd. Zadnja točka jedinične dužine je l , tj . loglo 1 0. Odabrana jedinična dužina naziva se ciklus logaritamskog mjerila. Treba naglasiti da je ordinata s nanesenim logaritamskim mjerilom samo izvadak iz beskonačnoga logaritamskog mjerila, jer je područje definicije logaritarnske funkcije od -oo do oo . Stoga posljednja točka ciklusa može, ako je to potrebno, biti ujedno prva točka sljedećeg ciklusa. Sljedeći bi ciklus počeo s 1 0 i završio sa 1 00 itd. Za prikaz frekvencija vremenskoga niza može se kao početna brojka mjerila izabrati bilo koja brojka, u kom slučaju je točka na kraj u jedinične dužine deseterostruka početna brojka. Razlike dvaju uzastopnih ordinata su razlike logaritarna, a kako je razlika logaritama jednaka logaritmu kvocijenta, b tj . log b log a = log - , jednake razlike dviju ordinata predstavljaju jednake kvocijente, a dakle jednake relativne promjene. Znači, ako je pojava koju prikazujemo porasla za određeni postotak u odnosu prema prethodnom razdoblju, njezin graf će imati uvijek jednaki nagib bez obzira za kakav smo se izbor brojeva na osi ordinata odlučili. Dvostruki nivo pojave u odnosu prema prethodnom vremenskom razdoblju bit će uvijek prikazan jednakom strminom, bez obzira na to je li to porast od 2 na 4, od 2 50 na 500 ili od 3 , 5 na 7. Bez obzira na to kako smo izabrali brojeve na mjerilu, graf iste pojave uvijek jednako izgleda, samo se ovisno o izboru mjerila pomiče gore - dolje. Ako se frekvencije dvaju nizova koje treba grafički usporediti brojčano jako razlikuju, tj. variraj u li na različitim razinama, onda se njihovi grafovi mogu podesnim izborom mjerila po volji približiti i na taj način lakše analizirati. U takvim se slučajevima za svaki od dvaju nizova konstruira po jedno mjerilo. Na isti se način postupa ako su pojave izražene u različitim mjernim jedinicama. -
166
POGLAVUE 5
� Grafikon 5.8. Konstrukcija logaritamskog mjerila a)
10 9 8 7 6 5 4
�
b)
Nano�enje razdiobe n a jedinićnu duZinu:
- - - - - - . - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
----.------------------------------
3
-----
2
}
3 em
4, 77
cm
8,4 5
7,78 cm
6 em
9:03 cm
cm
9,54 cm
Primjeri gotovih mjerila:
10 9 8 7 6 5
200 1 80 1 60 1 40 1 20 1 00
4
80
1 ,2
3
60
0,9
2
40
0,6
20
0,3
1 0 cm
Tabela 5.5. Proizvodnja ugljena i plina u RH Godina
Proizvodnja ugljena
1
u
OOOt 2
Proizvodnja
plina u mil. ml 3
1 993.
105
2068
1 994.
96
1 792
1995.
75
1966
1996.
64
1 786
1997.
49
1717
Izvor: Stat. ljetopis RH 1 998., str. 261
3,0 2,7 2,4 2,1 1 ,8 1 ,5
VREM ENSKI N I Z OVI
... Grafikon 5.9. Proizvodnja ugljena i plina
u
167
RH Plin u mil. m3 4000 3600 3200 2800 2400 2000
Ugljen u 000 t . 200 1 80 1 60 1 40 1 20 1 00 80
1 600
60
1 200 800
40
..... ugljen
- plin
20 +---�--�---+----+ 400 1 993 1 994 1 995 1 996 1 997
izvor: Stat ljetopis RH 1 998, str 261.
Ako pojava pokazuje sezonska kolebanja (npr. noćenja turista, građevinski radovi, prodaja čokolade, školskih knjiga itd.), osim linijskoga grafikona u pravokutno m koordinatnom sustavu, rabi se polarni dijagram. On je osobito prikladan ako treba prikazati mjesečne podatke za više uzastopnih godina. Mrežu dijagrama u tom slučaju čine koncentrične kružnice i dvanaest međusobno jednako udaljenih radij-vektora čij i je početak u središtu kruga. Na jednom od njih je naneseno aritmetičko mjerilo s ishodištem u središtu kruga. Graf sezonske pojave na takvom grafikonu podsjeća na puževu kućicu .2 Skica takvog prikaza sezonske pojave dana je na grafikonu 5 . 1 0 .
... G rafikon 5. 10. IV.
III.
VL
II.
VII. ---H��H-t-f-+--- L XII.
VIIL IX.
X.
XI.
2) Čitatelje zainteresirane za detaljniji prikaz polarnoga grafikona upućujemo na; ŠoŠiĆJ. Serdar.V.: Uvod u Statistiku.
1 68
POGLAVUE 5
5.3. Osnovni statistički pokazatelji vremenski h nizova 5.3.1 . Pokazatelji pojedinačnih apsolutnih promjena Pojedinačne apsolu tne promjene pojave su razlike dViju frekvencija vremenskoga niza. Računamo li pritom razlike uzastopnih frekvencija. govorimo o pojedinačnim uzastopnim promjenama neke pojave. Uz oznaku y, za frekvencij u vremenskog niza koja se odnosi na vrijeme t, one su dane izrazom ( 5 . 1 .)
... , n,
Osim pojedinačnih uzastopnih diferencija, mogu se računati razlike frekvencija u odnosu prema frekvenciji nekoga odabranog (fiksnog ) razdoblja )'ll: 1 ,2 ,
...
(5.2.)
, n.
5.3.2. Individualni indeksi Indeksi su relativni brojevi koji pokazuju odnos jedne pojave (ili skupine pojava ako su u pitanju skupni indeksi) u različitim vremenskim momentima ili različitim vremenskim razdobljima. Ako se pomoću njih prati dinamika jedne pojave, riječ je o individualnim indeksima. I ndividualni se indeksi dijele na verižne indekse (oznaka VI) i indekse na stalnoj bazi (oznaka l.). Verižni su indeksi dani izrazom
VI
= -1!..... · 1 00 ,
2,3, .
YH
..
, n.
( 5 . 3 .)
Verižni indeksi pokazuju relativne promjene pojave u promatranom razdoblju u odnosu prema prethodnom razdoblju. i'\azivaj u se još i lančani i ndeksi i indeksi s promjenljivom bazom. Indeksi na sta[noj bazi dani su kvocijentom
t
""
1 ,2, . , n. .
.
( 5 .4.)
I ndeksi na stalnoj bazi su proporcionalni originalnim podacima (frekvencijama), jer se pri njihovu računanju sve frekvencije dijele s odabranom frekvencijom (Y,l) , koja služi kao baza usporedbe razine pojave u različitim vremenima. I zbor baze usporedbe zahtijeva poznavanje pojave koja se analizira jer se različitim izborom baza mogu pružiti sasvim oprečni utisci o njoj. habere li se npr. najmanja frekvencija kao bazna. svi će bazni indeksi (osim onog za bazno razdoblje koji iznosi 1 00) biti veći od 1 00. Obrnuto, izabere li se najveća frekvencija
1 69
VREMENSKI N IZOVI
kao bazna, indeksi će, osim onog za bazno razdoblje, biti manji od 1 00. Indeksi na stalnoj bazi pogodno su sredstvo za manipulacije različitog tipa jer se njima može proizvesti željen i , bilo optimistički, bilo pesimistički dojam o analiziranoj pojavi. Stoga s e pri donošenju zaključaka na temelju izračunanog niza indeksa na stalnoj bazi preporučuje oprez. Ako od indeksa oduzmemo 1 00, dobijemo postotak (stopu) promjene razine pojave u odnosu na bazno razdoblje. Kod verižnih je indeksa baza nivo pojave u prethodnom vremen u (vremenu t- I ) , a kod baznih, nivo pojave, tj . frekvencija odabranog fiksnog vremena B.
il tabeli 5 . 6 . su za dani vremenski niz (proizvodnja artikla "A" u tonama u razdoblju 1 99 5 .2000.) izračunani verižni i bazni indeksi, te pojedinačne apsolutne promjene frekvencija niza.
....
Tabela 5.6.
Godina
Proizvodnja u tonama
Uzastopne promjene proizvodnje
t
YI
Promjene proiz. u odnosu prema 1 995.
Ay,
A y,
1 99 5.
59
-
1996.
80
21
21
1 3 5,6
1 35,6
1997.
III
31
52
138,8
188,1
1998.
1 13
2
54
101,8
191,5
1999.
1 10
-3
51
97,3
186,4
2000.
1 24
14
65
1 1 2,7
2 10,2
l
3
4
Verižni indeksi proizvodnje
Indeksi 1995 = 100
vt
II
5
O
6
1 00,0
Interpretacija nekih izračunanih (prvih3) diferencija u stupcu 3: 1 996. god. proizvedena je 2 1 tona artikla "A" više nego prethodne 1 99 5 . godine. 1 999. god. proizvelo se 3 tone tog artikla manje u odnosu prema prethodnoj godini itd. Iz stupca br. 4 razabiremo da je 1 996. godine proizvedeno 2 1 , sljedeće godine itd. tone više nego početne 1 995. godine.
zatim 5 4
Interpretacija verižnih indeksa iz kolone S , za 1 998. i 1 999. godinu: 1 998. godine proizvodnja se povećala za 1 ,8% u odnosu prema prethodnoj, tj. 1 997. godini, dok se 1 999. smanjila za
3) Diferencije izračunanih diferencija predstavljaju druge diferencije itd.
1 70
POGLAVUE 5
2,7% u odnosu prema 1 998. godini. Navedeni postoci pojedinačne uzastopne stope promjena analizirane pojave.
+
1 , 8%
-2 ,7% nazivaju se
Interpretacija dvaju posljednj ih baznih indeksa iz stupca br. 5 : 1 999. godine proizvodnja artikla "AH bila je za 86,4% veća od proizvodnje 1 99 5 . god ine. Sljedeće, 2000. godine, proizvodnja je u odnosu prema 1 99 5 . godini povećana za 1 1 0,2%. za grafički se prikaz verižnih indeksa rabi dio pravoku tnoga koordinatnog sustava s naglašenom linijom V, = 1 00. S tom su l inijom spojene dužine okrenute prema gore ako prikazuju indekse veće od 1 00, ili prema dolje ako prikazuju indekse manje od 1 00. Vrh pojedine d užine je iznad oznake razdoblja t, a dužina je spojena s linijom V, 1 00 n a mjestu koje je iznad oznake prethodnog razdoblja, tj. razdoblja t- l . Grafikonom koji slijedi prikazani su verižni indeksi iz stupca br. 5 tabele 5.6.
..... Grafikon 5. 1 1 . Verižni indeksi proizvodnje artikla "A" za razdoblje 1 995.2000.god . Veritni indeks 140 130 120 110 100 +_---i----�---+---=�--��--+_--
90
Izvor: St.
1 99 5
1996
1997
1998
1 999
2000
Godina
ljet. RH 1992, str 103.
Kako je niz indeksa na stalnoj bazi proporcionalan originalnim frekvencijama, njegovo je grafičko prikazivanje gotovo istovjetno prikazivanju originalnih frekvencija l inijskim grafikonom, s time da je naglašena linija I = 1 00. Grafikon 5. 1 1 . sadrži prikaz indeksa na stalnoj bazi iz s tupca br. 6 tabele 5.6.
VREM ENSKI N IZOVI
171
..... Grafikon 5 . 1 2 . I ndeksi proizvodnje artikla "A" , za razdoblje 1 995.- 2000 .god . , 1 995. := 1 00 Indeks 220
210
200
1 90 1 80 1 70 1 60 1 50
140
130 1 20 1 10
1 00 �����--r---+---�--�--1 995
1 996
1 997
1 998
1 999
2000
godina
Želimo li grafički usporediti dv;] niz;] i ndeksa, oni moraj u biti istovrsni . Na istom se grafikonu smiju prikazivati bilo samo verižni, bilo samo bazni indeksi. Nadalje, ukoliko se grafički uspoređuju nizovi indeksa na stalnoj bazi. njihove se bazne frekvencije moraju odnositi na isto vremensko razdoblje t. Zbog proporcionalnosti originalnim podacima, indeksi na stalnoj bazi mogu se vrlo jednostavno preračunati na drugu bazu, na taj način da se svi indeksi podijele s indeksom za razdoblje čiji je nivo pojave odabran kao nova baza usporedbe i pomnože sa 1 00 . Drugim riječima, s i ndeksima na stalnoj bazi postupa se kao i s originalnima frekvencijama. To vrijedi i za preračunavanje indeksa na stalnoj bazi u verižne - svaki se dijeli s prethodnim i množi sa
100 .
Želimo li npr. bazne indekse iz stupca br. 6 tabele 5 .6. preračunati u niz indeksa s bazom u 1 999. godin i , moramo svaki indeks iz tog stupca podijeliti sa 1 86,4 i pomnožiti sa 1 00:
� . 100 = .53 6 1 86,4 1 35,6 . 1 00 1 86,4 1 88,1 . 1 00 100,9 1 86,4 ,
l 72
POGLAVUE 5
1 9 1,5 1 86,4 1 86,4 1 86,4
1 00
1 02,7
1 00
1 00,0
2 1 0,2 . 1 00 = 1 l 2,8 1 86,4 Verižni se indeksi najjednostavnije preračunaju u bazne indekse s bazom u prvoj godini (odnosno p rvom razdoblju) niza. Na prvom mjestu je tada UVijek 1 00. Nakon toga se prepiše verižni indeks za razdoblje 2 V2 Ger na prvom n:jestu u nizu verižnih indeksa stoji crtica, tj. nema podatka) . Drugi se indeks V2 potom množi sa sljedećim verižnim indeksom, tj . indeksom Vl "očišćenim" prethodno od množenja sa 1 00. M noženje sa 1 00, naime, smije u krajnjem rezultatu biti sadržano samo jedanput. Dobiveni se indeks zatim množi sa sljedećim verižnim indeksom podijeljenim prethodno sa 1 00 i td. Postupak preračunavanja verižnih indeksa u bazne prikazujemo II tabeli br. 5 . 7 . ,
�
Tabela 5.7. Preračunavanje verižnih i ndeksa u bazne, s bazom u prvom razdoblju niza Verižni
Razdoblje
l
indeks i
� 2
Postupno množenja
t,
3
4 1 00
-
1 00
2
V2
V2
3
Vj
V2 ' V/IDO
4
V4
Vi V/IDO ' V/I DO
Vn
Rezultat: indeksi na stalnoj bazi
l
n
Objašnjenje m noženja u stupcu br. 3 :
Vl' V;/IOO ' V/JOO· ... ' V,/JOO
YI
YI
1 00
1 00
� . 1 00
· 1 00 · 21..
21.. · 1 00
YI
Y2
· l OO · 21.. ·
· 1 00 ·
5
· 1 00
YI YI
J,
=
Y2
Y2
Y,
YI
Y3
o
o
YI
� YJ
· l OO
· lOO
VREMENSKI N I Z OV I
U tabeli koja slijedi provedeno je preračunavanje verižnih indeksa iz stupca br. u bazne.
...
1 73
5 tabele 5.6.
Tabela 5.8. Godina
Verižni indeksi
l
2
t
Postupno množenje indeksa iz stupca br. 2
VI -
1995.
100
3
Rezultat: 1/ , 1995 100 4
100
1996 .
1 35,6
135,6
1 35,6
1997 .
138,8
135,6 1 ,388
188,2
1 998.
101,8
188,2 1 ,018
191,6
1 999.
97,3
1 9 1 ,6 0,973
1 86,4
2000.
1 1 2,7
186,4 1 , 127
210, 1
Pomoću n iza indeksa, bilo baznih, bilo veriž.nih, te samo jedne originalne frekvencije i z razdoblja za koje s u indeksi računati, moguće j e rekonstruirati cijeli n i z originalnih frekvencija. Dovolj no je npr. znati da je 2000. godine proizvedeno 1 2 4 tone proizvoda "AH pa se pomoću indeksa mož.e rekonstruirati proizvodnja za svaku od pojedinih godina. Verižni
�.IOO I I 2,7, pa je J1 999 1,11 2274 1 10 tona. J1 999 I l� l B tona �. Verižni indeks za 1 999. godinu je 97,3, tj. 1 00 97,3 , pa je J indeks za tu godinu je
i td. 2 1 0,1
N a sličan =
1 12,7, tj.
način
=
možemo
1 24 . od atl e -- · 1 OO , pa Je JJ995
se
J I995
=
=
=
J I 998
koristiti
1 24 :>- 9 O -2,1 0 1 =
,
1 998
=
0,9 i3
indeksima n a stalnoj ' tona. K ak o Je
=
bazi.
I ndeks
59,0 b azna frek vencija J8
s kojom se u postupku računanja bazni h indeksa dijele sve frekvencije i množe sa 1 00, to se sve ostale frekvencije dobivaju množenj ima .YB · (lt: 1 00) : JB
· 1 00 ==>
Y
. t
I
t :: )'B . .
1 00
Prema tome, ostale ćemo frekvencije dobiti množenjima:
59 · 1 , 356 = 80 59 · 1 ,88 1 = 1 1 1 JI997 59 · 1 ,91 5 = 1 1 3 J1998 J1999 = 59 · 1 ,864 = 1 l 0. J1996
174
POGLAVLJE 5
5.3.4. Skupni indeksi Skupnim indeksima mjerimo relativne promjene skupine pojava. Skupni se indeksi računaju kao vagani prosjeci individualnih indeksa. Ako nas npr. interesira kretanje prodajnih cijena nekih vrsta roba, onda na promjenu cijena više utječu cijene robe koja se u većim količinama pojavljuje na tržištu. Stoga se pri računanju skupnih indeksa cijena one ponderiraj u količinama proizvoda koji su u pitanju, dok npr. pri računanj u relativnih promjena količina skupine artikala, kao ponderi služe cijene proizvoda itd. Najčešće se računaju tri vrste skupnih indeksa: skupni indeksi količina, skupni indeksi cijena i skupni indeksi vrijednosti. Svaki je skupni indeks kvocijent skupine veličina tekućega ili izvještajnog razdoblja u odnosu prema takvoj skupini veličina baznog razdoblja, razdoblja u odnosu prema kojemu se dinamika skupine veličina iskazuje. Način računa�ja skupnih indeksa nije jedinstven. Ovisno o načinu ponderiranja razlikujemo Laspeyresove i Paascheove (čitaj Lasperove i Pašeove) skupne indekse. Laspeyresov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina, dan je izrazom:
k L iiL. I 00 · qioPio q i::.,O .: i ..:..:, Q OI ( PO ) - ...!. -i=:!..,. k Lq iOPiO _
___
(5.5.)
S a O označene s u sve veličine baznog (nultog) razdoblja, a s l veličine tekućega ili izvještajnog razdoblja. Količine su označene sa q , a cijene sa p. Oznaka qiJ na primjer, predstavlja i-tu količinu izvještajnog razdoblja. Oznaka QOI (po) znači da se radi o skupnom indeksu količina (Q), indeksi OI upućuju na to da se uspoređuju razdoblja O i l , a po u zagradi upućuje na to da su za pondere korištene cijene nultog razdoblja. Kod svih Laspeyresovih indeksa ponderi su iz nultog, tj . baznog razdoblja. Produkti količina i cijena qiOPiO čine vrijednosti - u ovom slučaju baznog razdoblja. Ponderi qiOPiO mogu se izraziti i relativno, u kom slučaju oni predstavljaju strukturu vrij ednosti pojedinih artikala u baznom razdoblju, tj . : ,
WiO
=
q OP k i iO (100) . LqiOPiO
(5.6.)
i= 1
Struktura vrijednosti može biti dana bilo kao proporcije, bilo u obliku postotaka, pa je stoga množenje sa 1 00 u gornjem izrazu u zagradama. S relativno izraženim ponderima Laspeyresov skupni indeks količina poprima oblik:
VREMENSKI N I ZOVI
1 75
k
I R · 1 00 · WiO - ..qiO .::,.k . Q OI ( Po ) -_ ..!..:·:.!.I ..:.: I WiO i=1
__ _
(5 . 7 .)
Laspeyresov skupni indeks količina u agregatnom obliku dan je izrazom: k
Iq il PiO ( = · 1 00 , ) QOI PO i;1 IqiOPiO i=1
( 5 . 8.)
a dobiven je sređivanjem izraza ( 5 . 5 . ) kraćenjem sa qiQ u brojniku. Paascheovi sku pni indeksi se razlikuju od Laspeyresovih po načinu ponderiranja. Kod Laspeyresova indeksa količina ( 5 . 5 . ) individualni se indeksi količina ponderiraju produktima q,OPiO, dakle vrijednostima baznog razdoblja. Kod Paascheova skupnog indeksa količina kao ponder služe produkti qiOPd, dakle količine baznog po cijenama izvještajnog razdoblja. Na to, da se radi o Paascheovu indeksu, upućuje i oznaka P I u zagradi na lijevoj strani izraza koji slijede. Izraz za Paascheov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina glasi: k
I R . l OO · qioPiI qi. .:,O _ ...!.: : I ..:..:. Q OI ( PI ) - i=:.!... k I qiOPil i=1
__ _
(5 .9.)
Isti indeks s relativno izraženim ponderima glasi: k
I R . I OO . Wil i=:.!... : I ..:..:. .q i.:,-O Q OI ( PI ) -_ ...!.: k I w i] i=1
_ _ _
'
(5 . 1 0.)
pri čemu ponderi Wj predstavljaju strukturu vrijednosti pojedinih artikala iz baznog razdoblja po cijenama izvještajnog razdoblja, tj . :
1 76
POGLAVUE 5
( 5 . 1 1 .)
Paascheov skupni indeks količina u agregatnom obliku, dobiven sređivanjem brojnika izraza ( 5 .9.), glasi: k
LqilPil ) · 1 00 . QOI (PI i;1 LqiOPiI i=1
(5. 1 2.)
=
Analogno skupnim indeksima količina, računaju se i skupni indeksi cijena. Kod Laspeyresovih indeksa individualni se indeksi cijena ponderiraj u vrijednostima baznog razdoblja, produktima qiUPiU, a kod Paascheovih indeksa ponderira se s količinama izvještajnog, po cijenama baznog razdoblja, tj. s produktima qilPiU . Laspeyresov skupni indeks cijena, računan kao vagana aritmetička sredina individualnih indeksa cijena, dan je izrazom: k
L lli · 1 00 . qiOP;o
OI (qO ) - ..!;-i-=.!.l--=P....:.i.::-Ok LqiOP;o i=1
R
____
-
( 5 . 1 3.)
S relativno izraženim ponderima Laspeyresov skupni indeks cijena poprima oblik: k
L lli . 1 00 · wio
P OI (qO ) - -'-i=---'I__i..O ..,. LWiO i=l
R
k
_ _ __
-
'
( 5 . 1 4 .)
te u agregatnom obliku: k
LPilqiO i;1 · 1 00 . ( ) qo Ol P LP iOqiO i=l =
( 5 . 1 5.)
VREMENSKI N IZOVI
1 77
Slijede tri izraza za Paascheove skupne indekse cijena:
( 5 . 1 6.) i=]
k
L ..fu. . lOO , wil
P01(qj) = -"=-"'-'7--i=l
k
L Pilqil PoMI ) = i;:1 L P Oq ;=1
(5. 1 7. )
i
· 1 00 .
( 5 . 1 8)
il
Skupni indeks vrijednosti računa se samo u agregatnom obliku , i to tako da se vrijednosti izvještaj nog razdoblja (zbroj produkata qilPI1 ) podijele s vrijednostima baznog razdoblja ( zbrojem produkata q;aPio) i kvocijent pomnoži sa sto: k
V.
OI
L q"Pil -
i=l k
Lq oP O i=l
;
. 1 00 .
( 5. 1 9. )
i
Skupni s e indeks vrijednosti može dobiti i množenjem dvaju skupnih indeksa količina i cijena, od kojih jedan (svejedno koji) mora biti Laspeyresov, a drugi Paaseheov. Primjer: U veletrgovini "A" zabilježen je u dvije godine sljedeći promet triju vrsta robe.
...
Tabela 5 . 9 . Vrsta robe
Cijena po toni u 000 kn
Količina u tonama
1 999.
2000.
1 999.
2000.
PiO
Pil
qiO
qu
staklo
18
20
25
22
porculan
24
25
18
20
keramika
10
8
28
35
l
2
3
4
5
178
POGLAVUE 5
tabeli koja slijedi izračunat ćemo sve elemente potrebne za računanje Laspeyresovih indeksa količina:
U
....
Tabela 5 . 1 0 . Količine Individualni indeksi količina
Vrijedno-
Produkti
sti 1999.
stupaca 2 i 3
2000.g.
Struktura
po
vrijednosli 1999.
cijenama 1999.
Vrsta robe
1
Produkti stupaca 2 i 6
qil . 1 00 qw
q,o PiO
2
3
q il
- ·
qiO
. 1 00 qiO PiO ·
q ilPiO
WtO
5
6
4
qjl l O o. i1';o qiQ •
7
88
450
39600
396
38,7
3405,6
porculan
III
432
47952
480
37, 2
41 29,2
keramika
125
staklo
Ukupno
-
280
35000
350
24. 1
3012,5
1 1 62
122552
1226
100,0
10547,3
"
I !iJl . 1 00 · qioPiO ) ...!.:i-:.c.1 -'-.:. :,-. ( QOI Po - - q. ;0:: k IqiOPiU i=1 _
_ _ _
1 22 5 5 2 = 1 0 5' 5 1 1 62
k
I !iJl . 1 00 · wiO
Q0 1 ( WU) = -'=-'-'-';---
1 05, 5
i=1 k
IqiJPiU
· 1 00 1 226 ' 1 00 = 10 5, 5 . QO I(PO) = ikI 1 162 Iq ;op;o ;=1 Količine navedenih trij u vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999. godini za 5 , 5 % u prosjeku , raču nano po cijenama 1 999. godine. U
nastavku tabele dani su elementi potrebni za računanje Paascheovih indeksa količina:
VREMENSKI NIZOVI
Vrsta robe
Količine 1999, po cijenama 2000,g, qiOPil
Produkti stupaca 2 i 8 q il
- ·
qiQ
1 00 qiO Pi I ·
9
8
Vrijednosti 2000,
Ponderi
qilPil
Wi1
10
II
Produkti stupaca 2 i I I q 'l
' ·
qiQ
1 00 wiI ·
12
staklo
500
44000
440
42,6
3748,8
porculan
450
49950
500
38,3
425 1 ,3
keramika
224
28000
280
19.1
2387,5
1 1 74
1 21 950
1 220
100.0
10387,6
Ukupno
l 79
k
( ) Q 01 PI
=
� !liL · I 00 · w il L.. , ;=1
q,o k L Wi]
1 0387 6 = 100 ' = 1 03' 9
;=1
Količine navedenih triju vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999 . godini za 3,9% u prosjeku, računano po cijenama 2000 . godine.
180
POG LAVLJE 5
Slijedi nastavak tabele u kom je i zložen postupak raču nanja skupnih indeksa cijena:
Vrsta robe
Individualni indeksi
Produkti stupaca
Produkti stupaca
13 i 3
13 i 6
cijena
PiO 13
100
PiO
1 00 ' qiOPiO 14
Pl
'
PI O
·
l OO
,
Produkti stupaca 13 i 5
wO
i
PiO
15
· 1 0 0 · qilPiO
Ponderi
w11
Produkti stupaca 1 3 i 17
Pl ' · I OO , wiI PiO
-
18
16
17
staklo
III
49950
4295,7
43956
32,3
3585,3
porculan
104
44928
3868,8
49920
39,2
4076,8
keramika
80
Ukupno
22400
1928,0
28000
28,5
2280,0
1 1 7278
10092,5
1 2 1876
1 00,0
9942,1
Računamo tri varijante Laspeyresova indeksa cijena: k
'" P 'I · I OO · L.. i=l PiO
qiOPiO
1 1 7278 1 1 62
=
1 00'9
i=1
-'=--'-':,--__ = 1=1
10092,5 100 9 100 =
'
I
Cijene triju vrsta robe povećane su 2000. godine u odnosu prema prethodnOj 1 999. godi n i za 0,9% u prosjeku, računano po količinama 1 999. godine.
VREMENSKI N I ZOVI
181
Slijede tri Paascheova skupna indeksa cijena:
k P L -;l · I OO · q'l P 'O 1 2 1 876 P01 ( ql ) = ...!.::.!...�---- = l226 = 99,4 I
I
;=1
k P i1 · 1 00 · Wi1 L __ P i I oM P I ) = ..!;i-::!....:;...:;°7-k--- 9942,1 = 99'4 100 L WiJ i=1
Na kraju ćemo izračunati i skupni indeks vrijednosti:
VO I
=
k L qil Pil 1 . 1 00 = 1 220 · 100 1 05 0 . ;= k 1 162 ' Lq;o P;o ;=1
Isti se rezultat može dobiti množenjima odgovarajućih indeksa količina i cijena, i to:
� l (PO ) ·POI (ql) = 105,5·0,995 = 1 05,0 Vo I = Qo I (PI ).pOI (qo) = 1 03,9· 1,009 = 1 04,84 ", 1 05. Vrijednost prometa triju vrsta roba povećala s e 2000. godine u odnosu prema prethodnoj, 1 999. godini u prosjeku za 5%. VO I
=
Zbog nepostojanja jedinstvene metodologije računanja skupnih indeksa, računa se i tzv. Fischerov " idealni" skupni indeks količina, odnosno cijena. On se računa kao geometrijska sredina dvaju i ndeksa količina (odnosno cijena), od kojih je jedan Laspeyresov, a drugi Paascheov. Za prethodni primjer Fisherovi skupni indeksi bi iznosili:
QO I
.J105,5 · 1 03,9 = 1 04,7
POl .J1 00,9 · 99,5 = 1 00,2 .
182
POGLAVUE 5
Za potrebe ekonomskih analiza u statističkim se zavodima raču naj u različiti posebni oblici skupnih indeksa količina, kao npr. indeksi fizičkog obujma različitih grana proizvodnje, te različite vrste skupnih indeksa cijena, kao skupni indeksi cijena poljoprivrednih proizvoda, industrijskih proizvoda, skupni indeksi cijena u trgOVini na veliko, u trgovini na malo itd. Od posebne je važnosti slmpn i indeks troškova života, kao posebni oblik skupnog indeksa cijena. Pri njegovu se računanju prate promjene cijena samo artikala i usluga potrebnih za svakodnevni život. Služi za izračunavanje realnih plaća i indeksa realnih plaća prema obrascima: ' real nI" Iznos place
=
. der1-.. ' ln e; realm'Jl placa
nominalni iznos indeks troškova života : I OO
=
iznos nominalnih indeks troškova života
· 1 00.
Postupak dijeljenja nominalnih iznosa skupnim indeksom cijena (a indeks troškova života je vrsta skupnog indeksa cijena) je "čišćenje" nominalnih iznosa od inflacije i naziva se deJlacioniranje.
5.3.5. Srednje vrijednosti vremenskih nizova 5.3.5. 1 . Aritmetička
sredina
Izbor srednje vrijednosti vremenskog n iza ovisi o tome radi li se o intervalnom ili trenutačnom vremenskom nizu, te radi li se o stacionarnoj ili dinamičnoj pojavi . Ako se radi o intervalnom vremenskom nizu i o stacionarnoj pojavi, čije frekvencije variraju oko neke zamišljene paralele s osi apscisa, jednostavna aritmetička sredina je prikladna srednja vrijednost vremenskog niza. II takvom, dakle, slučaju računamo:
Reprezentativnost izračunanog prosjeka mjerimo na uobičajeni način, tj. pomoću varijance, standardne devijacije j koeficijenta varijaCije: II
2)y, t=1
11
VREMENSKI N IZOVI
1 83
V = � ·l OO . Y
Varijancu, odnosno standardnu devijaciju računamo najlakše preko momenata, bilo onih oko nule, bilo onih oko odabrane konstante "a" , kao što je to opisano u prethodnim poglavljima. Aritmetičku sred inu intervalnog niza računamo i onda kad raspolažemo s vrlo malim brojem frekvencija, npr. podacima o proizvodnji za tri mjeseca. U takvom se slučaju može izračunati prosjek triju frekvencija njihovim zbrajanjem i dijeljenjem s tri, bez obzira na eventualnu odsutnost njihove stacionarnosti, mada je pitanje što se time dobiva. 5.3.5.2.
Kronološka sredina
Za trenutačni vremenski niz, ako je stacionaran (što vidimo npr. iz grafičkog prikaza) i ako je pojava snimana u jednakim vremenskim razmacima, računa se kronološka sredina pomoću i zraza
Y1 + y
_ _ , _ "
,li
2
==
11-1
+ ""
n-l
y
LJ ·l 1-2
( 5.20.)
To je oblik izraza za vaganu aritmetičku sredinu u kojoj su ponderi vremenska razdoblja između dvaju sukcesivnih snimaka pojave. Ako razdoblja nisu jednaka, ponderi se posebno računaju tako da se razdoblja između pojedinih datuma, na koje se podaci odnose, raspodijele na po dva jednaka dijela. Svaki se podatak, tj . frekvencija, množi ponderom koj i čine polovica razdoblja prije i polovica razdoblja nakon datuma na koji se t a frekvencija odnosi. U općem slučaj u , izraz za kronološku sredinu , s vremenskim razdobljima w kao ponderima glasi: n
L:Yt w/ y = -,-I==..!I_ L:w/ n
( 5 .2 1 .)
1=1
Primjenu kronološke sredine pokazat ćemo na dva pnmJera. U oba se slučaja radi o trenutačnim i stacionarnim nizovima, što se vidi po frekvencijama koje variraju oko 200. Hačunat ćemo prosječni broj zaposlenih jednog poduzeća u razdoblju od devet mjeseci. U prvom su primjeru frekvencije ekvidistantne, tj. među njima je jednaki vremenski razmak\ a u drugom nisu. 4) Jedl1Qslavl1Qsti radi, ulimamo da su svi mjeseci jednake veličine.
1 84
..
POG LAVLJ E 5
Ta bela 5 . 1 1 . Zapos l e n i u poduzeću "A" 1 .-g . mjesec 2000 . , stanje krajem mjeseca
Mjesec
Broj zaposlenih
t
YI
l
!
Ponderi Wt
2
Yili-Jt
3
4
l.
200
0,5
100
2.
200
l
200
3.
202
l
202
4.
201
l'
201
5.
1 99
1
199
6.
202
1
202
7.
200
1
200
8.
203
1
203
9.
202
0,5
101
Ukupno
8
1 608
Iz postupka izloženog u tabeli 5 . 1 1 . vidi se da je i zraz ( 5 .20.) samo specijalni slu čaj izraza ( 5 . 2 1 .), odnosno, u slučaj u jednako vremenski udaljenih podataka poluzbroj što i množenje frekvencija J I i JtI ponderima 0,5 i njihovo zbrajanje nakon toga.
11-1
J
JI + )"2 + L Jt 2 t",)
---�=- = ...!.::.!.--
n -l
1 608 8
-- =
201 zaposlenI. .
2
isto je
VREME NSKI N I ZOVI
�
1 85
Tabela 5. 1 2 . Zaposleni u poduzeću "A" 1 . - g . mjesec 2000 . , stanje krajem mjeseca Mjesec
B roj zaposlenih
t
y,
1.
200
Razdoblja
Polovine razdoblja
3
4
2
l
2
l
l
3
9.
202
Ukupno
-
6
l
200
1 ,5
303
2
402
2,5
500
l
202 1607
1,5 1,5
200
7.
y,w,
5
0,5 0,5
201
4.
w,
l
202
3.
Ponderi
2
l l
8
-
8
n
ji
2 >, w,
=
-'-.'=--,-1__ n
1 607
= __ =
L W,
8
200,87 5 "". 20 1 zaposleni.
' =1
Kolone 3 i 4 tabele 1 1 . 2.2. jesu pomoćne kolone i mogu se izostaviti. Ovdje su u metnute radi razjašnjenja računanja pondera WtO Prvi ponder 1 u stupcu br. 5 jest polovina od 2 mjeseca, koliko je proteklo između datuma kada su zabilježena prva dva podatka. Drugi ponder je 1 , 5 , tj . polovina o d 2, plus polovina jednomjesečnog razdoblja koje slijedi, 0 , 5 itd.
5.3.5.3. Geometrijska sredina Radi li se o dinamičkoj pojavi (bez obzira na to je li niz intervalni ili trenutačni) , može nas interesirati brzina njezina rasta ili pada. Prosječni tempo promjene pojave u nekom razdoblju
1 86
POG LAVLJ E 5
računa se pomoću geometrijske sredine. Ona se definira kao (n- I ) korijen produkta verižnih indeksa vremenske serije: G Kako
/I{j V
2
je
YI
. . ll
.
Y3 '"
1 00 .
\!
. /I-l V/I
( 5 .22.)
.
V3 = h. · 1 00 . . . V,,_ I ==
yz
YII-2
· 100 . V,,=
Y,,-l
· 1 00 .
njihovim
množenjem dolazi do kraćenja brojnikn indeksa V2 s nazivnikom indeksa Vl . kraćenja broj niku indeksa Vl s nazivnikom indeksa V. itd. Ako pomnožirno svih YI- I verižnih indeksa dobivamo: Y2'Y3
•
..
G = n-l
· Yn.)·Yn
=
fi:. . I OO .
V YI
� · 1 00 n-1 pa j e YI
'
•
( 5 .2 3 . )
Geometrijska sredina je izrazom ( 5 .22.) i ( 5 . 2 3 . ) dana u obliku prosječnoga verižnog indeksa. Kako je množenje sa 1 00 kod računanja indeksa prisutno samo i nterpretacije radi Uer je interpretiranje u postocima vrlo rašireno i omiljeno). to se ono može i izostaviti. U tom se slučaju izraz za geometrijsku sredinu reducira na
G=
n-fi .
( 5 .24.)
Geometrijska sredina, računana pomoću izraza ( 5 .24.) , dana je u obliku prosječnoga verižnog indeksa iz kog je uklonjeno množenje sa 1 00 s Iz istog se izraza vidi da je za računanje geometrijske sredine dovoljno podijeliti posljednj u s prvom frekvem:ijom niza i izvaditi korijen veličine 11 - L Geometrijska se sredina može računati i pomoću indeksa n a stalnoj bazi jer s u proporcionalni originalnim frekvencijama p a modifikacija prethodnog izraza ( 5 .24.) za geometrijsku sredinu glasi: G = Il
-f.
.
( 5 .2 5 . )
Treba napomenuti da s e geometrijska sredina smije računati samo za pojave u razdoblju u kome one bilo neprekidno rastu. bilo neprekidno padaju. U takvim su slučajevima svi verižni indeksi ili iznad ili ispod 1 00. Također. osim što svi verižni indeksi moraj u biti bilo veći, bilo 5) Mnogi autori razlikuju indekse od koeficijenata. Kvocijente razina pojave dvaju razdoblja koja se usporedulu, bel množenja s a 100 nazivaju koeficijentima, a nakon množenja sa 100 indeksima. Ima, međutim, autora koji se dosta ležerno odnose prema tim nazivima ; rabe naziv indeks bez obzira na to je li obavljeno množenje sa lOO ili ne.
VREMENSKI N IZ OVI
1 87
manji od 1 00, oni moraju biti i približno istog reda veličina, jer u protivnom računanje geometrijske sredine ne bi imalo smisla. Na primjer, kad bi jedne godine pojava porasla u odnosu prema prethodnoj za 2% (verižni indeks 1 02), a sljedeće za 1 20% (verižni indeks 220) , onda ne bi bilo uputno tvrditi da se pojava u tom razdoblju prosječno godišnje povećavala za 49,8%, tj. približno za 50% (
.JI 02 · 220
=
1 49,8 ).
Pomoću izračunane geometrijske sredine možemo utvrditi prosječnu stopu kojom se pojava u prosjeku mijenjala u promatranom razdoblju. Ako je geometrijska sredina izračunana u obliku prosječnoga verižnog i ndeksa, dakle ako je u rezultatu sadržano množenje sa 1 00, stopa se računa kao kod svakog indeksa, tj. prosječna stopa promjene
=
prosječni verižni indeks - 1 00.
Dakle, ako je geometrijska sredina računana pomoću izraza (5.22.) ili (5.23.), prosječna stopa promjene iznosi:
S
C
IDO.
( 5.26.)
Ako je geometrijska sredina računana pomoću izraza ( 5 .24.) ili ( 5 . 2 5 .) , tj. ako je dana u formi prosječnoga verižnog indeksa "očišćenog" od množenja sa 1 00, prosječna se stopa promjene pojave u promatranom razdoblju računa pomoću obrasca:
S
(C 1) · 100.
(5.27.)
Geometrijska sredina je vrlo pogodno sredstvo za planiranje. za buduće se razdoblje izračunaju teoretske frekvencije na takav način da se početna empirijska frekvencija za svaku sljedeću godinu (ili neku drugu vremensku jedinicu) množi planiranom geometrijskom sredinom. Primjenu geometrijske sredine ćemo pokazati na jednostavnom primjeru. U tabeli 5 . 1 3. koja slijedi dani su podaci o proizvodnji artikl� "A" u tonama za razdoblje 1 994.-2000. za empirijske su podatke izračunani verižni indeksi te pojedinačne stope promjena, kako bi se potkrijepila opravdanost računanja geometrijske sredine, U stupcu 5 dane su teoretske frekvencije.
188
�
POG LAVLJ E 5
Tabela 5. 1 3. Proizvodnja tonama
Godina
u
Verižni indeksi proizvodnje
Pojedinačne stope promjena
Teoretske (očekivane) frekvencije
Ostvareno planirano
V,
SI
YI
YI - YI
-
-
400
-
t
YI
1994.
400
1995.
414
1 03,5
3,5
416
-2
1996.
432
1 04,3
4,3
433
-
1997.
450
1 04,2
4,2
450
O
1998.
470
1 04,4
4,4
468
2
1999.
480
102,1
2,1
487
-7
2000.
506
105,4
5,4
506
O
2
I
3
4
5
6
l
Vidimo da pojava neprekidno raste jer je svaka empirijska frekvencija u stupcu 2 veća od prethodne, te da su svi verižni indeksi veći od sto i usto približno istog reda veličina, što se vidi i iz stupca s pojedinačnim stopama uzastopnih promjena koje su u rasponu od 2, 1 do 5,4%. Znači, uvjeti za računanje geometrijske sredine su ispunjeni. Ona u ovom slučaju iznosi: G
=
,,-lu.: VJ; =
7-�
506 400
;:::; 1,04 .
Do geometrijske sredine možemo doći i vađenjem šestoga korijena iz produkta verižnih indeksa iz stupca br. 3, odnosno:
G
�
'-4V, . V, . ... . V._, . v.
�
.�tr 1=2
V, VI 03,5 · 1 04,L. · 1 05,4 �
�
V1,263 7443 5 5 · 1 0" " 1 04.
Na prvi je pogled vidljivo da je prvi način računanja mnogo jednostavniji i treba ga rabiti kad god raspolažemo originalnim frekvencijama ili njima proporcionalnim veličinama (indeksima na stalnoj bazi, na primjer) .
VRE M E NSKI N IZOVI
189
Iz oba s e rezultata vidi d a j e prosječna stopa porasta proizvodnje artikla " A " u razdoblju 1 994.-2000. iznosila 4% na god in u, tj .
S (G - 1) · 1 00 ( 1 ,04 =
S
=
G - 1 00
1 04
1 00
1 ) · 1 00
4%, odnosno
4%.
U stupcu br. 5 su teoretske frekvencije, tj. frekvencije kakve bi bile da se proizvodnja ravnomjerno povećavala, tj . da je rasla točno prema izračunanoj stopi. One su izračunane tako da je početna empirijska frekvencija povećana u sljedećoj godini za 4% itd . Preciznije,
YI
YI = 400
416 4 1 6 · 1 ,04 = 400 . 1 ,042 = 4 3 3
487 · 1 ,04 = 400 · 1 ,04" = :;06. FrekvenCije u stupcu br. 5 moglo se izračunati i unaprijed, odmah nakon isteka 1 994. godine. Zamislimo da je poduzeće za razdoblje do 2000. godine planiralo prosječni godišnji porast proizvodnje od 4%. U tom bi slučaju plan u cijelosti bio ispunjen, mada je u nekim godinama bilo i podbačaja plana, kao što se vidi iz stupca br. 6 . Planiranje budućih frekvencija za razdoblja nakon n-tog provodi se tako da se posljednja, tj. n-ta empirijska frekvencija pomnoži geometrijskom sredinom dignutom na odgovarajuću potenciju. Tako, ako računamo prognozu za dva razdoblja unaprijed, posljednju empirij sku frekvenciju množimo s geometrijskom sredinom dignutom n a kvadrat itd. Kod korištenja geometrijske sredine u svrhu prognoziranja treba procijeniti hoće li se i nakon n-tog razdoblja pojava o kojoj se radi dešavati u istim uvjetima kao i do tada, je samo u tom slučaju prognoziranje opravdano. Zbog toga nije preporučljivo prognozirati za dugo razdoblje . unaprijed. Za prethodn i primjer prognoza za 2003. godinu iznosi:
Y2003. A
506 · 1 ,04 3
569 tona.
5.3.5.4. Trend Kod dinamičkih vremenskih serija često želimo uočiti i na pogodan analitički način izraziti dugoročnu tendencij u razvoja pojave u vremenu. Vremenska se serija Y uobičajeno predstavlja kao zbroj nekoliko komponenata:
Y 6)
T + e + s + R6 .
( 5 .28.)
Takav model naziva s e aditivnim, z a razliku o d multiplikalivnog modela koji čini umnožak navedenih komponenata. gdje je
Y
T· C· S R..
1 90
POGLAVU E 5
T je oznaka za dugoročnu tendenciju razvoja pojave u vremenu, tj. trend komponentu.
e označuje cikličku komponentu kojom su izražena odstupanja od trenda koja se pripisuju općim poslovnim i ekonomskim uvjetima u kojima se pojava odvija. S izražava sezonsku komponentu kojom se opisuju fluktuacije vremenskog niza koje se ponavljaju u određeni m razdobljima vremena. Na primjer, u zimskim su mjesecima aktivnosti u građevinarstvu na najnižoj razini. R je rezidualna komponenta. Ona je neobjašnjeni ostatak pojave nakon što se glavnina obj asni trend komponen tom, te cikličkom i sezonskom komponentom. ReziduaIna se komponenta može djelomično pripisivati nepredvidivim rijetkim događajima, kao što je potres ili teroristički akt, a djelomično nepredvidivim akcijama ljudi. Premda često nije moguće izolirati svaku od komponenata zasebno (to vrijedi ponajprije za cikličku komponentu), ovakva formulacija modela pomaže analitičarima vremenske serije da bolje shvate fluktuacije analizirane pojave. Trend se izražava kao funkcija vremena modelom: Y = f (X) + u.
( 5 .29.)
Pojava je, dakle, u nekom vremenu predstavljena zbrojem funkcijske vrijednosti f (X) vrijednosti slučajne varijable u. Ako npr. na temelju grafičkog prikaza pojave Y zaključi mo da se pojava linearno mijenja u vremenu, odlučit ćemo se za linearnu funkciju, tj. za
f(X)
a + bX.
Linija trenda s ocijenjenim parametrima glasi (kao i kod linearne regresije) :
Y = a + bX,
(5. 30.)
a parametri a i b ocjenjuju se metodom najmanjih kvadrata. za svaku jedinicu vremena jednadžba linearnog trenda s ocijenjenim parametrima glasi Y,
a+
bx"
(5.3 1 .)
a ocjene parametara računaju se pomoću izraza: 11
2:>tYt nxy
b = �--/I ,, ?
-2
(5. 32.)
L.,x; - nx !=I
a
y bi .
( 5 . 33.)
t
VREM ENSKI N I ZOVI
191
Računanje parametara jednadžbe trenda demonstrirat ćemo na nekoliko malih, školskih primjera. Prvi se primjer odnosi na proizvodnju artikla HA", dakle na intervalni niz.
�
Tabela 5 . 1 4 . Računanje parametara l inearnog trenda Godina
Proizvodnja u 000 kom
Varijabla vrijeme
t
YI
X/
X/YI
XI
1 996.
15
l
15
l
1 997.
24
2
48
4
1998.
33
3
99
9
3
2
l
4
2
5
1 999.
42
4
1 68
16
2000 .
42
5
210
25
Ukupno
1 56
15
540
55
i = .!2. = 3 , -y = � = 3 1 2 , 5 ' 5 "
L XtYt - nxy
b = ,- l n
'" L.. X t2 - nx 2 -
t=l
a
72 = 7 2 = 540 - 5 . 2 . 3 1' 2 = ' 55 - 5 · 2 lO 2
= Ji -bi = 31,2 - 7,2 · 3 = 9,6 y = 9,6 + 7 , 2 x
x =
1 , 30.06.1996. god.
Jed. za x
Jed. za y
=
l godina
=
000 kom.
CD
Ovo je standardni oblik jednadžbe linearnoga trenda. Ispod jednadžbe trenda uvijek se navode oznake koje omogućuju interpretaciju izračunanih parametara linearnoga trenda. Parametar b općenito predstavlja prosječnu promjen u pojave u promatranom razdoblju za jedinični porast varijable vrijeme. U ovom ćemo slučaju reći da je proizvodnja artikla HA" u promatranom razdoblju prosječno na godinu rasla za 7,2 tisuće komada.
1 92
POGLAVLJE 5
Parametar a nema neku posebn u i nterpretaciju, osim geometrijske, On je veličina ordinate trenda u ishodištu, tj. točki x = O. U ovom slučaju 9,6 je teoretska proizvodnja izračunana na temelj u jednadžbe za nultu, dakle za 1 99 5 . godinu, preciznije proizvodnju dosegnutu na dan 30.06, 1 99 5 , 7 Računanje trenda moguće je jako pojednostavniti drugačijim računanjem vremena, tj , počevši od sredine niza unaprijed i unazad. Kako je vremenska n ul-točka tada u sredini niza, to je aritmetička sredina n a taj način formulirane varijable vrijeme n ula, pa se izrazi za parametre trenda znatno reduciraju, Uz oznake Xr za na taj način transformiranu varijablu ' vrijeme i a i b ' za parametre l inearnog trenda računane pomoću nje, izrazi za njihovo računanje glase: a
= y,
( 5 , 34.)
"
b' =
2:XtJ't
",, 1= -,1__
(5.35,)
/I
2: x; t=1
Za podatke i z prethodnog primjera izračunat ćemo jednadžbu linearnog trenda pomoću izraza (5. 34.) i ( 5 . 3 5 ,) ,
....
Tabela 5. 1 5 . Računanje para metara linearnoga trenda, linea rno transform irana varijabla vrijeme (tj. ishodište u sredini razdoblja) Godina
I
Varijabla vrijeme
YI
XI
15
-30 -24
l
-1 = 2 - 3
O
0 = 3-3
2
3
X
1 997.
24
-2 -l
1 998.
33
O
O 42
l
1 = 4-3
2
84
4
2
1 996,
)l
Objašnjenje za vrijednosti u stu cu br. 3
Proizvodnja u 000 kom
1 999.
42
2000.
42
Ukupno
1 56
=
5-3
10
Ovdje se radi a i nteflla lnom vremenskom nizu, čije su jrekvencijO nastale l�rajanJem tokom promatranag razdo�lja,
U svrhu proved�e raznih
operacija s trendom, pose�no u svrhu računanja teoretskog nivoa pOjave za manja, npr. mjesečna razdol!lja, uzima se da su svi podaci datirani u sredini razdoblja u kom su nastali, Tako se uzima da su godišnji podaci datirani u sredini pojedine godine, tj, na dan 30,06, Ako se trend rabr samo za analizu godišnjih podataka, datum
30,06, u Gznakama uz jednadžbu trenda može se ilGStaviti,
dovoljna je samo oznaka godine,
1 93
VREMENSKI N IZOVI
a
. =
ji
X ""
; = 3 1 ,2 .
3 1 ,2 + 7,2 x
0, 30.06. 1998. gOd.
(?)
Jed. za x = 1 godina Jed. za y = 000 kom. '
Vidimo da se jednadžba CD od jednadžbe @ razlikuje samo u parametru a , što je i logično jer ordin ata na dan 30. 06. 1 998., budući da se radi o rastućem trendu, mora biti veća od ordinate na dan 30. 06. 1 99 5 . za tri prosječna godišnja porasta proizvodnje. Dakle, 3 1 ,2 9,6 + 3· 7,2 . U posljednjem, šestom stupeu tabele 5. 1 5 . pokazano je da se vrijednosti varijable vrijeme iz stupea br. 3 te tabele mogu shvatiti kao rezultat linearne transformaeij e koja se provodi na vrijednostima varijable vrijeme iz stupca br. 3 tabele 5 . 1 4 . prema obrascu: XI XI X . Zbog toga se jednadžba @ naziva i jednadžba na temelju linearno transformirane (kodirane) varijable vrijeme. l\apominjemo da se opisani postupak transformacije varijable vrijeme provodi kod neparne duljine serije. Kod parnog broja frekvencija postupak linearne transformacije je drugačiji i opisan je u primjeru prikazanom u tabeli 5 . 1 8 . ovog poglavlja. -
Pomoću jednadžbe linearnog trenda računaju se trend vrijednosti, tj . vrijednosti koje pojava teoretski poprima na temelju izračunane jednadžbe. One se računaju na isti način kao i regresijske vrijednosti, tj . uvrštavanjem odgovaraj ućih vrijednosti nezavisne varijable vrijeme u jednadžbu trenda s ocijenjenim parametrima. One u našem slučaju iznose:
1 94
....
POGLAVUE 5
Tabe l a 5 . 1 6. Trend vrijednosti
Godina
Trend vrijednosti
t
Y/
l
Računanje trend vrijednosti
"
al pomoću jednadžbe CD
2
3
1996.
1 6,8
1 6,8
=
1 997.
24,0
24,0
=
1 998.
3 1 ,2
3 1,2
=
1 999.
38,4
38,4
2000.
45,6
45,6
Ukupno
156
=
bl pomoću jednadžbe @ 4
9,6 + 7,2 · 1
16,8
9,6 + 7 ,2 · 2
24,0
3 1 ,2 + 7,2 · (- l)
9,6 + 7,2 · 3
31,2
3 1 ,2 + 7,2 · O
9,6 -I: 7,2 · 4
38,4
9,6 + 7,2 · 5
45,6
=
3 1 ,2 + 7,2 . (-2)
3 1 ,2 + 7,2 · 1 =
31,2 + 7,2 · 2
-
-
Vidimo da je zbroj trend vrijednosti jednak zbroju originalnih frekvencija, tj .
n
n
;=1
;=1
L YI LYI '
Frekvencije vremenskog niza, kao i jednadžba trenda (ucrtana pomoću dvije trend vrijednosti) prikazane su na grafikonu 5. 1 3 .
....
Grafikon 5 . 1 3 . Proiz. u 000 kom. 50
40
30
20
10
o
1 996
1 99 7
1 998
1 999
2000
Godina
VREMENSKI N IZOVI
1 95
Jednadžba se trenda, na isti način kao i regresija, rabi za prognoziranje. Prognoziranje unaprijed (ekstrapolacija) opravdano je samo ako se pojava i nakon n-tog razdoblja odvija u približno istim uvjetima kao do tada. Prognoza proizvodnje artikla "A"za 200 1 . godinu pomoću jednadžbe (j) iznosi: 9,6 + 7,2 · 6 '= 52,8 tisuća komada .
hool = )\x:6)
Do istog rezultata možemo doći i pomoću jednadžbe 0 : 3 1,2 + 7,2 · 3 = 52,8 tisuća komada.
Y2001
Ocjena reprezentativnosti izračunanog trenda provodi se na isti način kao ocjena reprezentativnosti regresije. U tu se svrhu računaju varijanca, standardna devijacija i koeficijent varijacije trenda, kao i udio protumačenih u ukupnim odstupanjima.
Varijanca trenda se, jednako kao i kod regresije, računa kao prosjek reziduaIne sume kvadrata:
YI ) 2 (j � = ...:.;;;.:.--- •
y
n
Drugi korijen iz varijance trenda je standardna devijacija trenda:
n
Ona predstavlja prosječno odstupanje opaženih frekvencija od pripadnih trend vrijednosti.
Koeficijent varijacije trenda
V; ,
koji označuje prosje<:'no relativno odstupanje empirijskih
frekvencija od pripadnih trend vrijednosti, jest omjer standardne devijacije trenda i aritmetičke sredine empirijskih frekvencija pomnožen sa 1 00 : (j"
V; = ..:: · 1 00 .
Y
Za prethodno izloženi primjer trenda dat ćemo ocjenu reprezentativnosti spomenutim
mjerama. Prethodno ćemo izračunati sve tri sume kvadrata, dijelove jednadžbe analize varijance. Zbrajanjem kvadrata empirijskih frekvencija dobili smo II
:L>;= ; =1
1 5 2 + 242 + . . .
2 L CYt -yi '= L YI - Tj? n
n
1=1
1=1
541 8
54 1 8 - 5 . 3 1 ,22 = 5 50,8
1 96
POGLAVUE 5
n
n
= bL (XI
L (YI yi -
,=1
li
L (Y, 1=1
-
YI )2
=
-
n
X)(YI ji) II
b·njegov broj nik = 7,2· 72
ji ji) 2 - L ( Yf ) 2
L (Y, 1=1
1=1
32,4 5
=
5 1 8,4
5 50,8 - 5 1 8 ,4 = 32,4.
6,48
Prosječno odstupanje originalnih frekvencija od izračunan ih trend vrijednosti iznosi 2 , 5 5 tisuća komada . V" = .
(J .
2,55 . 1 00 3 1,2
--:? . 1 00
Y
8,1 7%
Prosječno relativno odstupanje originalnih frekvencija od izračunanih trend vrijednosti iznosi 8, 1 7%. SP
ST
=
5 1 8,4 550,8
:=
° 94
'
Udio protumOlčenih u ukupnim odstupanjima iznosi 94%. Svega 6% odstupanja originalnih frekvencija od prosjeka ostalo je neprotumačeno jednadžbom linearnog trenda. Svi izračunan i pokazatelji upućuju na jako dobru reprezentativnost trenda) no treba imati na umu da je ovo školski primjer računan na premalenom broju podataka. U praksi j e poželjno da vremenska serija bude što duža, da bi se moglo upozoriti n a pravilnost u razvoju promatrane pojave. Vremenski se niz također može shvatiti kao uzorak. za potrebe inferencijalne analize i ovdje se formira tabela ANOVA. Kako kod trenda imamo jednu nezavisnu varijablu) varijablu vrijeme, to je k 1 ) pa je opći izgled tabele isti kao kod jednostavne linearne regresije (regresije s jednom nezavisnom varijablom):
VREMEN SKI N IZOVI
....
197
Tabela 5 . 1 7 . ANOVA Izvor varijacija
Stupnjevi slobode
Zbroj kvadrata
Sredina kvadrata
l
2
3
4
l
SP
SP
n 2 n l
SR ST
SRln-2
protumačenih modelom rezidu aina odstupanja Ukupno
-
Drugi korijen iz ocjenitelja varijance (u drugom retku stupca br. 4) devijacije populacijskog trenda, tj .
I
Empirijski F-omjer 5
SP SR l n - 2 -
-
ocjenitelj standardne
( 5 . 36.)
a
-
cr
vj = -=- · 1 00 Y
( 5 . 37.)
jest ocjenitelj koeficijen ta varijacije trenda.
Općenito, postupci inferencijalne s tatistike koji se tiču parametara jednadžbe linearnog trenda istovjetni su postupcima opisanim u poglavlju o regresiji. Izložit ćemo još varijantu računanja jednadžbe l inearnog trenda pomoću l inearno transformirane varijable vrijeme u slučaju parnog broja frekvencija vremenske serije. Računat ćemo parametre jednadžbe linearnog trenda proizvodnje cementa u pogonu poduzeća " Radnik";
1 98
�
POGLAVUE 5
Tabela 5. 1 8. Računanje parametara l inearnog trenda, linearno transformi rana varijabla vrijeme - duljina serije n je parni broj Varijabla vrijeme za standardni oblik jednadžbe
Godina
Proizvodnja u 000 tona
Linearno transfo rm ira na varijabla vrijeme
t
YI
XI
XIYI
x/
1995 .
2
-5
-10
. 25
l
1
3
2
4
5
XI 6
1996.
2,2
-3
-6,6
9
2
1997.
4
-l
-4
l
3
1998.
4,8
l
Objašnjenje za vrijednosti u stupcu br. 3
XI
=
(XI - X ) - 2 7
-5 = (1 -3,5) . 2 -3 (2 -3,5) . 2 =
-l = (3 -3,5) · 2 l (4 -3,5) . 2
4,8
l
4 5
3
5 = (6 -3,5) · 2
1999 .
5
3
15
9
2000 .
6
5
30
25
6
Ukupno
24,0
O
29,2
70
21
=
=
(5 -3,5) . 2 -
U prvih pet stupaca tabele izložen je postupak računanja parametara l inearnog trenda, dok je svrha posljednjih dvaju stupaca razumijevanje linearne transformacije varijable vrijeme. Aritmetička sredina varijable X, sa standardnim načinom brojenja vremena od l do rz (brojevi u stupcu 6) iznosi 2 1/6 = 3 , 5 . Vrijednosti linearno transformirane varijable vrijeme u stupcu br. 3 čine rastući n i z neparnih brojeva, a objašnjenje za njihovo računanje dano je u posljednjem, šestom stupcu . n
LXIYI 1=1
n
LX;
= 29,2 70
=
O'42
1=1
Y = 4 + 0,42 X
X = 0, 3 1 . 1 2. 1997. god. Jed. za x = 1/2 godine Jed. za y = 000 tona.
Q)
VREMENSKI N I ZOVI
1 99
Ishodište trenda, tj . nul-točka na osi apscisa jest datum 3 1 . 1 2. 1 997., tj. sredina između datuma dvaju susjednih podataka u sredini niza. Kako se radi o intervalnom nizu, proizvodnji, to je 4 tisuće tona cementa proizvedenih 1 99 7 . godine datirano u sredini te godine, tj. 30. 06. 1 997. Sljedeći podatak, 4,8 tisuće tona datiran je s 30. 06. 1 998. Sredina između ta dva datuma je 3 1 . 1 2 . 1 997. Varijablu vrijeme čini rastući niz nepamih brojeva, s konstantnom razlikom 2 ((-3)-(-5) = 2, (- 1 ) (-3) = 2 itd . ) , pridruženih godišnjim frekvencijama, Znači, za svaku godinu dalje u nizu, vremenska jedinica u stupcu br. 3 raste za 2, iz čega zaključujemo da je jedinica za vrijeme pola godine. li skladu s izloženim interpretirat ćemo parametar b': u razdoblju 1 99 5 . - 2000. proizvodnja cementa povećavala se prosječno polugodišnje za 0,42 tisuće tona. Parametar u ' čini proizvodnj u dosegnutu na dan 3 1 . 1 2 . 1 997. -
li svrhu analiZiranja razvoja pojave u kraćim vremenskim jedinicama, npr. mjesecima, potrebno je transformirati parametre jednadžbe linearnog trenda s jedinicom varijable vrijeme X veličine 1 godine u parametre koji opisuju kretanje pojave u kraćim vremenskim razdobljima. Želimo li uočiti tendenciju razvoja pojave po mjesecima, što je često slučaj. potrebno je provesti sljedeće preračunavanje parametara (za intervalni niz) : A
a
y = -+ 12
b
-
1 44
X .
(5.38 ) .
Kod provedbe ovog postupka treba voditi računa da nul-točka novoga trenda bude usklađena s datumima podataka. Na primjer, nul-točka trenda ® je 3 1 . 1 2 . 1 997., a mi želimo izračunati mjesečne trend vrijednosti koje moraju biti datirane u sredini mjeseca. Ako želimo prognozirati proizvodnju cementa za rujan 200 1 . , možemo to načiniti na više načina. Jedan od njih je da se, polazeći od jednadžbe ® , provede pomak datuma ishodišta s 3 1 . 1 2. 1 997. na 30.06. 200 1 . , dakle 7 polugodišta unaprijed i b" pomnoži s 2, da se dobije godišnja promjena proizvodnje b:
Y = (4 + 0,42· 7) + 042· 2X Y = 6,94 + 0,84 X
x = 0, 30.06. 2001. god. o
Jed. za x
• Jed. za y
l godina
000 tona.
®
200
POGLAVUE 5
N akon toga preračunavamo parametre: jedinicom za vrijeme
l
�::
6,94 12
'
pa jednadžba linearnog trenda s
mjesec glasi:
Y = 0 , 5 8 + 0,006 X �
x = 0, 30.06. 200 1 . god.
Jed. za x = l mjesec Jed. za y = 000 tona.
Tražena razina proizvodnje za rujan 200 1 . (tj . ordinata trenda na dan 1 5 .09.200 1 . ili mjeseci unaprijed, promatrano iz ishodišta trenda �) iznosi: Y(x=2,5) = 0,5 8 + 0,006 · 2,5 0,595 tisuća tona. B Zbrojenih 1 2 mjesečnih trend vrijednosti za neku godinu moraju dati godišnju trend vrijednost za tu godinu . l
n a kraj u, pokazat ćemo n a još jednom hipotetskom primjeru računanje linearnog trenda trenutačnoga vremenskog niza, kao i računanje mjesečnih trend vrijednosti u takvom slučaj u .
.....
Tabela 5. 1 9. Zaposleni u poduzeću "REM", stanje krajem razdoblja Varijabla
God.2
Broj zapos
vrijeme za standardni
-Ienih
oblik
Trend
Kol.2 x
vrijedno
kol.4
osti
jednadžbe
vrijednosti u
kol.2
stupcu br. 7
vrijeme Xl
6
7
8
l
2,14
-3
-6
-3
Xl
XiYl 4
5
1994.
l
2
3
varijabla
Objašnjenje
Kol.7 x
Yt
Xt/
t
l
2
Linearno transfor.
A
XiYl
x/
,
XI
-
xl - X
10
l
4
1995.
3
2
6
4
4, 1 4
-2
-6
-2
2-4
1 996.
7
3
21
9
6, 1 4
-1
-7
-1
3
O
O
4-4
O
O
1 997.
8
4
32
16
8,14
1 998.
12
5
60
25
10,14
l
12
l
4
l
5-4
1 999.
12
6
72
36
12,14
2
24
4
2
6 4
2000.
13
7
91
49
1 4, 14
3
39
9
3
7-4
Ukupno
57
28
284
140
56,989
O
56
28
8) Točni iznos mjesečne trend vrijednosti za rujan 2001. iznosi 0,591151, a do razlike je došlo zbog zaokruživanja na manji broj decimala. 9) Razlika do 57 je zbog zaokruživanja na 2 decimale.
-
VREMENSKI N IZOVI
2 84 - 7 - 4 - 8,1 4 57 28 8 , 1 4, b x = - = 4, y = 7 7 jednadžba u standardnom obliku glasi: _
_
�
Y = 0, 1 4 + 2 X
x
= l, 31 .J2.l994. god,
Jed. za x
'"
a
-
20l
8 , 1 4 - 2-4 = 0 , 1 4
,
pa
@
l godina
Jed. za y = l zaposleni.
Vidimo da se broj zaposlenih u razdoblju 1 994, - 2000 . povećavao prosječno na godinu za 2. Jednadžba na bazi linearno transformirane varijable vrijeme za isti niz glasi: Y = 8, 14 + 2 X
x =
O, 3 L l2.l997. god. Jed. za x = l godina Jed. za y = l zaposleni.
(J)
b" = 5 6
2 (zbroj kol. 8 : zbroj kol. 9 ) . Kako je broj 28 podataka neparan, ishodište se, tj. nul-točka varijable vrijeme, poklapa sa središnjim podatkom u nizu . Uzastopne se vrijednosti varijable vrijeme x, stoga međusobno razlikuju za I (tj. jednu godinu) i rezultat su linearne transformacije provedene u posljednjoj , desetoj koloni tabele 5 . 1 9. Kako vidimo iz jednadžbe (ž) broj zaposlenih prema trendu na dan 3 1 . 1 2. 1 997. iznosio je 8 i povećavao se prosječno godišnje za 2 . Kako je jedinica za vrijeme u obje jednadžbe, tj. u ® i (ž) jednake veličine, to je nagib obaju pravaca isti: b = b' = 2. U ovom je slučaju a" = ji = 8, 1 4 i
,
Trend vrijednosti prezentirane u stupcu l). tabele 1 2,6. mogu se izračunati bilo pomoću jednadžbe ® bilo (Ž), uvrštavanjem odgovarajućih vrijednosti varijable vrijeme u jednadžbu . M ijenjanje jedinice za vrijeme x = I godina u jedinicu za vrijeme x == I mjesec kod jednadžbe linearnog trenda trenu tačnog niza (čije frekvencije ne nastaj u zbrajanjem) , provodi se prema obrascu: •
b
Y = a + -X ,
12
( 5 .3 9. )
202
POGLAV U E 5
Vidimo da ordin ata u nul-točki trenda ostaje nepromiJenJena, dok se parametar b koji pokazuje prosječni godišnji porast, sada dijeli s 1 2. Primijenimo li to na jednadžbu (J) imamo:
y = 8 , 1 4 + 0, ] 67 X ®
x
=
0, 3 1 . 12.1997. god.
Jed. za x = 1 mjesec
Jed. za y = l zapQsleni.
Prognoza broja zaposlenih za 9. mjesec 200 1 . (tj . na dan 30.09 .200 1 .) iznosi 1 4, 1 4 + 0, 1 67·9 = 1 5,64. Objašnjenje: godišnju trend vrijednost za 2000. možemo shvatiti kao ordin atu " mjesečne" jednadžbe trenda i dodati joj potrebni broj (u ovom slučaj u 9) prosječnih mjesečnih porasta broja zaposlenih.
5.3.6. Neke jednostavne tehnike prognoziranja Osim već opisanih načina prognoziranja pomoću geometrijske sredine ili pomoću l inearnog trenda (koji je samo posebni slučaj regresije), spomenut ćemo neke od jednostavnih tehnika prognoziranja Čija je upotreba relativno česta upravo zbog njihove jednostavnosti. Rabe se samo za kratkoročne prognoze. N ajjednostavnija je metoda kod koje se pretpostavlja da će dosegnuta razina pojave u vremenu t ostati neizmijenjena jedno ili nekoliko razdoblja unaprijed (tzv. pretpostavka status quo), pa frekvencija y, služi kao prognostička vrijednost za sljedeće razdoblje t + l i td. Znači, ako je npr. prodaja nekog artikla u 2000. godini iznosila 2 mil. kn, možemo pretpostaviti da će ona ostati na istoj razini i 200 1 . godine. Ta je metoda pogodna ako je pojava stacionarna, s malim razlikama medu frekvencijama promatranog niza. Vrlo je jednostavna i metoda u čijoj je podlozi pretpostavka status quo razlike. Pretpostavlja se da će promjena razine pojave u sljedećem razdoblju t + l u odnosu prema tekućem razdoblju t, u kom se prognozira, biti jednaka onoj izmedu razdoblja t i razdoblja t l . Tako, ako je u 1 999. godini proizvedeno 30 tona nekog proizvoda i sljedeće, 2000. godine 33 tone, možemo pretpostaviti da će se takav porast za 3 tone nastaviti i u 200 1 . godini, tj. da će proizvodnja iznositi 36 tona. Ovakav je način prognoziranja podesan za pojavu koja se od jednoga do drugog razdoblja m ijenja za približno isti apsolutni iznos, tj. za pojavu s linearnim trendom. Korištenje pretpostavke status quo stope znači predviđanje relativne promjene pojave u razdoblju t + l u odnosu prema tekućem razdoblju t, jednake onoj između razdoblja t i prethodnog razdoblja t - l . Ako je npr. promet neke robe 1 999. godine iznosio 2 5 0000 kn, a sljedeće 2000. godine 325000 kn ili 30% više, može se jednaki relativni porast predVidjeti i za 200 l . godinu, tj. promet od 422500 kn. Opravdanje za primjenu status guo stope je uočeno mijenjanje pojave od razdoblj a do razdoblja za približno isti relativni iznos.
VREMEN SKI N IZOVI
2 03
Opisane tri metode prognoziranja zasnivaju se na naivnim pretpostavkama, ali se zbog svoje ekstremne j ednostavnosti relativno često primjenjuju. Treba, među tim, još jednom naglasiti da su one podesne samo za vrlo ograničeni vremenski horizont .
D O DACI
DODATAK
o ---> z
� Tablica A Površine ispod normalne krivulje. z
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 4,0 4,5
5,0
,00
OOOOO
03983 07926 1 1 79 1 1 5 542 1 9 146 22575 25804 288 1 8 3 1 594 3 4 1 34 36433 38493 40320 4 1 924 433 1 9 44520 45543 46407 47 1 28 47725 482 1 4 486 1 0 48928 49 1 80 49379 49534 49653 49744 498 1 3 49865 49903 4993 1 49952 49966 4997674 4999683 4999966 4999997 1 3
,01
00399 04380 083 1 7 1 2 1 72 1 59 1 0 1 9497 22907 261 1 5 29103 3 1 859 34375 36650 38686 40490 42073 43448 44630 45637 46485 47 1 93 47778 48257 48645 48956 49202 49396 49547 49664 49752 498 1 9 49869 49906 49934 49953 49968
,02 00798 04776 08706 1 2552 1 6276 19847 23237 26424 29389 32121 346 1 4 36864 38877 40658 42220 43574 44738 45728 46562 47257 47831 48300 48679 48983 49224 494 1 3 49560 49674 49760 49825 49874 499 1 0 49936 49955 49969
,03 0 1 1 97 05 1 72 09095 1 2930 1 6640 20 1 94 23565 26730 29673 323 8 1 34850 37076 39035 40824 42364 43699 44845 458 1 8 46638 47320 47882 4834 1 487 1 3 490 1 0 49245 49430 49573 49683 49767 4983 1 49878 499 1 3 49938 49957 49970
,04
0 1 595 05567 09483 1 3 307 1 7003 20540 23891 27035 29955 32639 35083 37286 3925 1 40988 42507 43822 44950 45907 467 1 2 473 8 1 47932 48382 48745 49036 49266 49446 49585 49693 49774 49836 49882 499 1 6 49940 49958 4997 1
Napomena: Ispred svakog broja u polju tablice dolazi decimalni zarez.
,05
0 1 994 05962 09871 13683 1 7364 20884 242 1 5 27337 30234 32894 353 1 4 37493 39435 4 1 1 49 42647 43943 45053 45994 46784 47441 47982 48422 48778 49061 49286 49461 49598 49702 49781 49841 49886 499 1 8 49942 49960 49972
,06 02392 06356 10257 1 4058 1 7724 2 1 226 24537 27637 305 1 1 3 3 1 47 35543 37698 396 1 7 4 1 309 42786 44062 45 1 54 46080 46856 47500 48030 48461 48809 49086 49305 49477 49609 497 1 1 49788 49846 49889 4992 1 49944 49961 49973
,07
02790 06749 1 0642 1 443 1 1 8082 2 1 566 24857 27935 30785 33398 35769 37900 39796 4 1 466 72922 44 1 79 45254 4 6 1 64 46926 47558 48077 48500 48840 49 1 1 1 49324 49492 49621 49720 49795 49851 49893 49924 49946 49962 49974
,08 03 1 8 8 07 1 42 1 1 026 14803 1 8439 2 1 904 2 5 1 75 28230 3 1 057 33646 35993 3 8 1 00 39973 4 1 62 1 43056 44295 45352 46246 46995 476 1 5 48 1 24 48537 48870 491 34 49343 49506 49632 49728 49801 49856 49897 49926 49948 49964 49975
,09
03586 07535 1 1 409 1 5 1 73 1 8793 22240 25490 28524 3 1 327 33891 362 1 4 38298 4 0 1 47 4 1 774 43 1 89 44408 45449 46327 47062 47670 4 8 1 69 48574 48899 49 1 5 8 493 6 1 49520 49643 49736 49807 49861 49900 49929 49950 49965 49976
207
208
Dodaci
o
-- �
r
� Tablica B Kritične vrijed nosti t studentove distri bucije v
l 2 3 4 5 6 7 8 9 10 II 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 120 oo
t.
3,078 1 ,886 1 ,638 1 ,533 1 ,476 1 ,440 1 ,4 1 5 1 ,397 1 ,383 1 ,372 1 ,363 1 ,356 1 ,350 1 ,345 1 ,3 4 1 1 ,337 1 ,333 1 ,330 1 ,328 1 ,325 1 ,323 1 ,3 2 1 1 ,3 1 9 1 ,3 1 8 1 ,3 1 6 1 ,3 1 5 1 ,3 1 4 1 ,3 1 3 1 ,3 1 1 1 ,3 1 0 1 ,309 1 ,307 1 ,306 1 .304 1 ,303 1 ,299 1 ,296 1 ,289 l .282
t.,..
6,3 1 4 2,920 2,353 2,132 2,0 1 5 1 ,943 1 ,895 1 ,860 1 ,833 1 ,8 1 2 1 ,796 1 ,782 1 ,771 1 ,761 1 ,753 1 ,746 1 ,740 1 ,734 1 ,729 1 ,725 1 ,72 1 1 ,7 1 7 1 ,7 1 4 1 ,7 1 1 1 ,708 1 ,706 1 ,703 1 ,701 1 ,699 1 ,697 1 ,694 1 ,69 1 1 ,688 1 .686 1 ,684 1 ,676 1 ,671 1 ,658 1 ,645
Napomena: Ispred svakog broja u polju tablice dolazi decimalni zarez.
\.'"
1 2,7 1 4,303 3, 1 82 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2, 1 79 2, 1 60 2 , 1 45 2, 1 3 1 2, 1 20 2, 1 1 0 2, 1 0 1 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,03 7 2,032 2,028 2.024 2,021 2,009 2,000 1 ,980 1 ,960
t.",
3 1 ,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,82 1 2,764 2,7 1 8 2,68 1 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,5 1 8 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,449 2,44 1 2,434 2.429 2,423 2,403 2,390 2,358 2,326
t...,
63,66 9,925 5,84 1 4,604 4,032 3,707 3,449 3,355 3,250 3 , 1 69 3 , 1 06 3,055 3 ,0 1 2 2,977 2,947 2,921 2,898 2,878 2,8 6 1 2,845 2,83 1 2,8 19 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,738 2,728 2,7 1 9 2.7 1 2 2,704 2,678 2,660 2,6 1 7 2,576
LITERATU RA l.
Barrow, M . ( 1 996), Statistics for Economics, Accounting and Business Studies, 2. izd. London: Longman Group UK Ltd.
2.
Cochran, W.G. ( 1 977), Sampling Techiques, 3 . izd. New York: Wiley.
3.
Dumičić,Srđan ( 1 988), Statističke baze podataka. Magistarski rad, Zagreb: Ekonomski fakultet
4.
Fox, K.A ( 1 968) , Intermediate Economic Statistics. New York: Wiley.
5.
Frank, H. ( 1 974), Introduction to Probability and Statistics: Concepts and Principles. New York: Wiley
6.
Georgoff, D. M., Murdick, RC. ( 1 986) , Manager's guide toforecasting. H arvard Business R eview, Vol ? January/February, I J O· 120.
7.
Gogala, Z. i Pejić·Bach, M. (1 998), Statistički pristup analizi hrvatskog bankovnog sustava mjerenje koncentracije. Ekonomski pregled, 49, str. 5 54 - 567.
8.
Hanke, J. Bacon.
Reitsch, A G . ( 1 989), Business Forecasting, 3 . izd. Boston: Allyn and
9.
Hanke, J . IlI.: I rwin .
Reitsch, A G. ( 199 1 ) , Understanding Business Statistics. Homewood,
10.
Intriligator, M . D. ( 1 978) , Econometric models, techniques, and applications, Pren tice· Hall, Inc., Englewood Cliffs, New Jersey.
l l.
Johnston, J. ( 1 972) , Econometric Methods, 2 . izd. New York: McGraw·Hill.
1 2.
Martić, Lj . ( I 975), Između starog i novog tl mjerenju koncentracije. Statistička revija 2S, str. l ·8 .
B.
Martić, Lj. ( 1 979), Kvantitativne metode za financijske i računovodstvene analize. Z.agreb: Informator.
14.
Martić, Lj . ( I 986) , Mjere nejednakosti i siromaštva. Zagreb: Birotehnika
210
Dodatak
1 5.
McClave, J . T. , Benson, P. G. i Sincich, T. ( 1 998), Statisticsfor Business and Economics, 7. izd. Upper Saddie R iver, NJ: Prentice-Hall International Inc.
1 6.
Mendenhall, W. i Sincich, T. ( 1 988) , Statisticsfor the Engineeing and Computer Sciences, 2 . izd. San Francisco: Dellen Publishing. Co.
17.
Mood, A. M . i Graybill, F. A. New York: McGraw-Hill.
1 8.
Newbold, P. Hall.
1 9.
Pavlić, L
20.
Pfanzagl, Johann ( 1 98 3 ) , Allgemeine Methodenlehre der Statistik, Berlin: Walter de Gruyter & Co.
21.
Rozga, A. i Grčić, B .
22.
Rozga, A.
23.
Schwarze, J. ( 1 990) , Grund/agen der Statistik I , Beschreibende Verfahren, Verlag Neue Wirtschafts-Briefe.
24.
( 1 96 3 ) , Introduction to the Theory of Statistics, 2 .
( 1 99 1 ) , Statistics of Business and Economics.
( 1 970), Statistička teorija i primjena.
Schwarze, J .
Englewood Cliffs: Prentice
Zagreb: Tehnička knjiga.
( 1 999) , Poslovna statistika.
( 1 994), Statistička analiza.
izd.
6.
poboljš. izd.
Split: Veleučilište u Splitu.
Split: Ekonomski fakultet. 5.
izd. Berlin:
( 1 990) , Gnmdlagen der Statistik ll, Wahrscheinlichkeitsrechnung und
induktive Statistile, 3.
izd. Berlin: Verlag Neue Wirtschafts-Briefe.
( 1 998) , Zbirka zadataka iz statistike.
25.
Šošić, I.
26.
Šošić,
27.
Wonnacott, T. H . i Wonnacott, R. J . ( 1 990) , Introductory Statistics for Business and Economics, 4. izd. New York: J. Wiley.
28.
Žugaj, M . . Dumičić, K., Dušak, V. ( 1 999) , Temelji znanstvenoistraživačkog rada. lHetodologija i metodika. Varaždin: Fakultet organizaCije i informatike.
l.
i Serdar, V.
Zagreb: Mikrorad i Ekonomski fakultet.
(2000) , Uvod u statistiku, l l .
izdanje Zagreb: Školska knjiga.