6. fejezet - Szórás analízis (ANOVA analízis)

Tartalom
6.1. A Fischer–Cochran-tétel
6.1.1. A Fischer-Cochran addiciós tétel
6.1.2. A Fischer-Cochran particiós tétel
6.2. Az osztályozás (csoportosítás)
6.2.1. Az egyszeres osztályozás parametrikus modellje
6.2.2. A szórásanalízis hipotézis vizsgálata
6.2.3. Az egyszeres osztályozás ANOVA táblája
6.2.4. A kétszeres keresztosztályozás parametrikus modellje
6.2.5. .A kétszeres keresztosztályozás ANOVA táblája

A szórás analízis olyan esetekben hasznos módszer, amikor egy valószínűségi változó adathalmaza több csoportból áll, és meg akarjuk állapítani, hogy a csoportok mind azonos adathalmaz részei, vagy valamely faktor hatása miatt különböznek egymástól.

A szórásanalízisben tehát az a kérdés, hogy valamely faktor, mint a vizsgált valószínűségi változó értékének kialakításában szerepet játszó tényező, lényeges-e vagy sem, létezik-e egyáltalán hatása, vagy sem.

A kérdést több féle képen is el lehet dönteni, például megvizsgáljuk, hogy az egyes csoportok átlaga (a várható értékük) azonos-e (t-próbával), vagy azt, hogy szórásuk azonos-e (F-próbával, vagy Cochran-próbával). De erre a feladatra a leghatékonyabb módszer a szórások vizsgálata szórás analízissel.

Minthogy a szórást és az átlagot normál eloszlás esetére definiálták, a szórás analízis is kizárólag normál eloszlás esetén alkalmazható. További előfeltétele a szórás analízis alkalmazásának az, hogy a vizsgált valószínűségi változók azonos szórásúak legyenek.

6.1. A Fischer–Cochran-tétel

6.1.1. A Fischer-Cochran addiciós tétel

Ha Q1, Q2, …, Qk független, rendre f1, f2, …, fk szabadsági fokú χ2 eloszlású valószínűségi változó, akkor a

Q = Q1 + Q2 + … + Qk

összeg ugyancsak χ2 eloszlású változó f1 + f2 +, …, + fk szabadsági fokkal (paraméterrel).

6.1.2. A Fischer-Cochran particiós tétel

Bontsuk fel „f” darab független, χ2 eloszlású valószínűségi változó Q négyzetösszegét „k” számú kifejezés összegére:

Q = Q1 + Q2 + Q3 + … Qi + … + Qk

Ekkor annak a szükséges és elegendő feltétele, hogy a Qi-k függetlenek és mind χ2 eloszlásúak legyenek, rendre fi paraméterrel az, hogy fennálljon:

n = f1 + f2 + f3 + … fi + … + fk

6.2. Az osztályozás (csoportosítás)

A szórásanalízis lehet egyszeres és többszörös osztályozás. Ez azt jelenti, hogy vagy azt vizsgáljuk, hogy egyetlen faktornak van-e a teljes adathalmaz részeire hatása, vagy ugyanezt több faktorra vizsgáljuk egyidejűleg. Ennek megfelelően beszélhetünk egyszeres, kétszeres vagy háromszoros osztályozásról. Ennél több faktor hatását nem szokás egyszerre vizsgálni.

Az egyes adatok lehetnek egyszerű számok (paraméterek) és lehetnek maguk is valószínűségi eloszlással rendelkező véletlen eloszlások. Így beszélhetünk a szórásanalízis parametrikus eljárásáról vagy valószínűségi eljárásáról.

6.2.1. Az egyszeres osztályozás parametrikus modellje

A parametrikus modell a következő:

xti = A + Bt + zti

aholxtia megfigyelt értékek

t = 1…ka faktor szintek sorszáma

i = 1…ntaz egyes megfigyelések sorszáma

Aa teljes sokaság várható értéke

és

A= 1 N t=1 k i=1 n t x ti

továbbá N az összes megfigyelés száma:

N= t=1 k n t

Btaz egyes csoportok várható értékének eltérése a teljes átlagtól

Gt = A + Bta csoportátlag várható értéke

z ti = x ti x ¯ ti

ztiaz egyes adatok eltérése a csoportátlagtól:

A zti reziduál (vagy reziduális eltérés) az adatok véletlen hibáját testesíti meg.

Mindezt a 6.1. ábra szemlélteti:

Az adatok véletlen hibája
6.1. ábra - Az adatok véletlen hibája


Egyszeres osztályozásnál az adatokat a XL.táblázat szerint szokás megadni.

XL. táblázat

Adatok elrendezése egyszeres osztályozáshoz

Hatások

Összes adat

t=1…k

Ismétlések

i=1…n

x11

x12

x13

x1, n

x21

x22

x23

x2,n

xk1

xk2

xk3

Átlagok

x ¯ 1

x ¯ 2

x ¯ k

Teljes átlag

x ¯

   

Feltételezések:

  • zti értékei kölcsönösen függetlenek

  • M(zti) = 0

  • s(zti)2 bármely csoporton belül azonos

  • zti(0,s) azaz standard normál eloszlású (a hibák véletlen hibák)

  • Linearitási feltétel:

t=1 k n t B t =0

  • és végül

A= 1 N t=1 k n t s t

Részletezve az összefüggéseket, a csoport átlagok:

B t = x ¯ t = 1 n t i=1 n t x ti

A csoportokon belüli átlagok:

x ¯ t =A+ B t + z ¯ t

A reziduál átlaga:

z ¯ t = 1 n t i=1 n t z ti

A reziduál M várható értéke:

M( z ¯ t )=0

Ezekkel a jelölésekkel

A= x ¯ = 1 N t t=1 k n t x t ¯

z ¯ = i=1 n t t=1 k z ti ¯

6.2.2. A szórásanalízis hipotézis vizsgálata

Nullhipotézis: B1 = B2 = … Bt = 0

Ellenhipotézis:Bt ≠ 0

Az előzőek szerint:

Az egyes adatok eltérése a teljes átlagtól:

x ti x ¯

A csoportátlagok eltérése a teljes átlagtól:

x t x ¯

Az egyes adatok eltérése a csoport átlagtól:

x ti x ¯ t

Ezekre pedig fenn áll az alábbi összefüggés:

x ti x ¯ =( x ¯ t x ¯ )+( x ¯ ti x ¯ t )

Ahol

x ¯ =A+ z ¯

Ezekből képezzük a eltérés négyzetösszegeket:

A teljes eltérés-négyzetösszeg:

Q= t=1 k i=1 n t ( x ti x ¯ ) 2

A csoportok közötti eltérés-négyzetösszeg:

Q 1 = t=1 k n t ( x t ¯ x ¯ ) 2

A csoportokon belüli (maradék vagy reziduális) eltérés-négyzetösszeg:

Q e = t=1 k i=1 n t ( x ¯ ti x t ) 2

És ezekre fenn áll az alábbi összefüggés:

Q = Q1 + Qe

Most meghatározzuk, hogy a minket érdeklő jel (a csoport-hatás, azaz az oszlopok közötti eltérés) szignifikánsan kiemelkedik-e a zajból (azaz a csoportokon belüli ingadozásból). Ehhez a szórásokat F-próbával fogjuk összehasonlítani.

A szórást az eltérés négyzetösszegből képezhetjük: az eltérés négyzetösszeget osztani kell a szabadságfokok számával.

A csoportok közötti eltérés négyzet összeg szabadságfoka k-1, mert k csoport van, és a csoport átlagok képzéséhez 1 szabadságfokot felhasználtunk.

A csoporton belüli négyzetösszegek szabadságfoka N-k, mert az összes N adatból k csoport átlagot képeztünk, tehát k szabadságfokot használtunk fel.

A totál négyzetösszeg szabadságfoka N-1, mert N adatból képeztük és az N adat átlagához 1 szabadság fokot használtunk fel.

A számítás áttekintéséhez az adatokat ANOVA táblában szokták összefoglalni.

6.2.3. Az egyszeres osztályozás ANOVA táblája

Az ANOVA (Analysis of Variances) tábla segít eldönteni, hogy valamely hatás befolyásolja-e a kísérleti eredményt, vagy sem. Az összes mérési adatot a vizsgált hatás különböző szintjei szerint csoportosítjuk, és ha ezek között a csoportok között szignifikáns eltérés van, azt csak a vizsgált hatás okozhatja. A mérési adatoknak egy-egy csoporton belüli ingadozását viszont csakis a véletlen hiba okozhatja. Meg kell határozni, hogy a jel nagyobb-e a zajnál, azaz a csoport-hatás nagyobb-e a véletlen hibánál. Vagyis az a kérdés, hogy a csoportok közötti ingadozás (a csoport-átlagok szórása) szignifikánsan nagyobb-e a csoporton belüli adatok ingadozásánál (a csoportokon belüli szórások átlagánál). Ezt a kérdést egy F-próbával dönthetjük el.

Az egyszeres osztályozás ANOVA táblája a XLI. táblázatban látható.

XLI. táblázat

Az egyszeres osztályozás ANOVA táblája

A szóródás oka

Eltérés négyzetösszeg

Szabadságfok

Szórásnégyzet

Csoportok közötti eltérés

Q1

k-1

(s1)2 = Q1/(k-1)

Csoportokon belüli eltérés (Residuál)

Qe

N-k

(se)2 = Qe/(N-k)

Total

Q

N-1

Fszám = (s1)2 / (se)2

Az Fszám értéket összehasonlítjuk az F-táblázatban található Fkrit értékkel, és ha Fszám> Fkrit, akkor a csoporthatás szignifikáns, ellenkező esetben nem.

A műszaki gyakorlatban 95% szignifikancia szinten (p=0,05) szokás a próbát elvégezni.

6.2.4. A kétszeres keresztosztályozás parametrikus modellje

A kétszeres osztályozás két hatás együttes vizsgálatát teszi lehetővé. (Az együttes vizsgálatot jelzi a „keresztosztályozás” kifejezés.) Eljárhatnánk úgy is, hogy két független egyszeres osztályozást végzünk, azaz először az egyik hatás szignifikanciáját vizsgáljuk meg, azután a másikét. Ekkor azonban egyszerre csak az egyik hatás szórását vennénk figyelembe, és így nagyobbnak tűnne a véletlen hiba, mint valójában, mert a másik hatás okozta szórást is bele számolnánk.

Kétszeres osztályozásnál lehetőség van a kereszt-hatás vizsgálatára is, amennyiben a cellákon belül több adat – minimum két adat – van.

Kétszeres keresztosztályozásnál az adatokat a XLII. táblázat szerint szokás elrendezni.

XLII. táblázat

Kétszeres keresztosztályozás adatainak elrendezése

Oszlop hatások i=1…c

Sor

átlagok

Sor hatások

t=1…r

xtij

j=1…n

Oszlop átlagok

Teljes átlag

Az elrendezésnek megfelelően az egyik hatást sor-hatásnak (Row), a másikat oszlop-hatásnak (Column) nevezik. A sorok és oszlopok keresztezésénél vannak a cellák. A cellákban lévő adatok azonos sorok azonos oszlopa szerint végzett ismételt mérési adatok, tehát ingadozásukat (szórásukat) csak a véletlen okozhatja. Ezért a cellák szórásának átlaga a véletlen hatást tartalmazza.

A kétszeres kereszt osztályozás parametrikus modellje az alábbi:

xtij = A + Rt + Ci + (RC)ti + ztij

t=1…rta sorok száma

i=1…craz oszlopok száma

j=1…nn a cellák száma

A cellák átlaga:

x ¯ ti =A+ R t + C i + (RC) ti + z ti ¯

A sorok átlaga:

x ¯ t =A+ R t + z t ¯

Az oszlopok átlaga:

x ¯ i =A+ C i + z i ¯

A sorok közötti eltérés négyzetösszeg (sor-hatás):

Q r =nc t=1 r ( x ¯ t x ¯ ) 2

Az oszlopok közötti eltérés négyzetösszeg (oszlop-hatás):

Q c =nr i=1 c ( x ¯ i x ¯ ) 2

A cellák közötti eltérés négyzetösszeg (kereszt-hatás vagy kölcsön-hatás):

Q rc =n t=1 r i=1 c [ x ti ¯ x ¯ ] 2

A cellán belüli („maradék” vagy „reziduális”) négyzetösszeg:

Q e = t=1 r i=1 c j=1 n ( x tij x ti ¯ ) 2

A teljes eltérés négyzetösszeg:

Q= t=1 r i=1 c j=1 n ( x tij x ti ¯ ) 2

A teljes eltérés négyzetösszegre pedig fennáll, hogy:

Q = Qr + Qc + Qrc + Qe

A véletlen (másképpen „maradék”, „reziduális”) eltérés négyzetösszegének meghatározásához elegendő a másik négy eltérés négyzetösszeget kiszámolni, mert ezekből a reziduál meghatározható:

Qe = Q – Qr – Qc - Qrc

6.2.5. .A kétszeres keresztosztályozás ANOVA táblája

A fenti kifejezésekkel a kétszeres keresztosztályozás ANOVA táblája a XLIII. táblázatban látható.

XLIII. táblázat

A kétszeres keresztosztályozás ANOVA táblája

A szóródás oka

Eltérés négyzetösszeg

Szabadságfok

Négyzetes közép

Sor-hatás

Qr

r - 1

Qr / ( r – 1 )

Oszlop-hatás

Qc

c - 1

Qc / ( c – 1 )

Kereszt-hatás

Qrc

( r – 1 ) ( c – 1 )

Qrc / ( r – 1 ) ( c – 1 )

Reziduál

Qe

rcn - rc

Qe / ( rcn – rc )

Teljes

Q

rcn - 1

Q / ( rcn – 1 )

Az eltérés négyzetösszegek összege megegyezik a Teljes eltérés-négyzetösszeggel, és a szabadságfokok összege megegyezik a Teljes szabadságfok-számmal.

Minden egyes hatás szignifikanciáját külön F-próbával kell ellenőrizni, mindig a reziduális eltérés négyzetösszeghez képest.

Célszerű először megvizsgálni, hogy van-e kereszthatás. Ha nincs, a kereszthatást (a cellák közötti eltérés-négyzetösszeget) hozzá adjuk a véletlen hatáshoz (a cellákon belüli eltérés négyzetösszeghez), és most már csak a sor- és oszlop-hatást vizsgáljuk a véletlenhez képest.