Contact

Ana-Maria Šimundić
Editor-in-Chief
Clinical Institute of Chemistry
Sestre milosrdnice University hospital
Vinogradska 29
10 000 Zagreb, Croatia

Phone: +385 1 3787 184
Fax: +385 1 3768 280

e-mail address: editorial_office [at] biochemia-medica [dot] com
 

Useful links

Events

Porto 2015

Odabrane teme iz biostatistike:

Martina Udovičić1, Ksenija Baždarić1, Lidija Bilić-Zulle1,2, Mladen Petrovečki1,3. Što treba znati kada izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
 
1Katedra za medicinsku informatiku, Medicinski fakultet Sveučilišta u Rijeci, Rijeka
2Zavod za laboratorijsku dijagnostiku, Klinički bolnički centar „Rijeka“, Rijeka
3Klinički zavod za laboratorijsku dijagnostiku, Klinička bolnica „Dubrava“, Zagreb
Corresponding author: umartina [at] medri [dot] hr
 
Sažetak
 
Korelacija je statistički postupak za izračunavanje povezanosti dviju varijabli. Vrijednost korelacije brojčano se iskazuje koeficijentom korelacije, najčešće Pearsonovim ili Spearmanovim, dok se značajnost koeficijenta iskazuje vrijednošću P. Koeficijent korelacije pokazuje u kojoj su mjeri promjene vrijednosti jedne varijable povezane s promjenama vrijednosti druge varijable. Predznak koeficijenta korelacije (+ ili –) govori nam o smjeru povezanosti. Prilikom izračunavanja korelacije najčešće se pogrješke odnose na uvjete za izračunavanje korelacije, tumačenje koeficijenta i značajnost korelacije, visoke koeficijente korelacije, pretpostavljanje uzročno-posljedične veze, jačinu povezanosti (koeficijent determinacije), te usporedbu dva koeficijenta korelacije.
Ključne riječi: korelacija, Pearsonov koeficijent korelacije, Spearmanov koeficijent korelacije, koeficijent determinacije, pogrješka, statistika
 
Uvod
 
Statistički postupak izračunavanja korelacije jedan je od najčešće korištenih u biomedicini. Korelacija je sukladnost vrijednosti dviju skupina podataka, a iskazuje stupanj povezanosti ispitivanih pojava. Biomedicinska istraživanja često ispituju povezanosti dviju skupina podataka, kao npr. povezanost koncentracije glukoze u krvi s koncentracijom glikiranog hemoglobina ili povezanost biološke dobi i koncentracije kolesterola. Uporaba koeficijenta korelacije ovisi o vrsti podataka, odnosno o ljestvici koju slijede podatci. Najčešće se koriste Pearsonov i Spearmanov koeficijent korelacije (1).
Pearsonov koeficijent korelacije koristi se za varijable na intervalnoj ili omjernoj ljestvici (brojčani podatci) koje su u linearnom odnosu. Linearni odnos varijabli može se očitati s točkastog dijagrama (engl. scatterdiagram) i podrazumijeva kako točke slijede i rasipaju se oko ravne crte, tj. pravca. Ponekad podatci mogu biti međusobno povezani, ali nisu u linernom odnosu i tada ne možemo izračunavati Pearsonov koeficijent korelacije (1). Primjerice, promatramo li, sukladno Michaelis-Mentenovom modelu enzimske kinetike, povezanost brzine enzimske reakcije i koncentracije supstrata u otopini, uviđamo kako je ta povezanost vrlo visoka no nije linearna, već se odnos dviju varijabli opisuje krivuljom.
Pearsonov koeficijent korelacije označava se malim slovom rili rp te može poprimati vrijednosti od -1 do +1. Vrijednost koeficijenta korelacije od 0 do 1 je pozitivna korelacija i označava sukladan rast vrijednosti obje skupine podataka. Primjer pozitivne korelacije jest duljina trajanja šećerne bolesti i stupanj oštećenja kapilara u oku. Što je trajanje bolesti duže, to je veći stupanj oštećenja kapilara. Vrijednost koeficijenta korelacije od 0 do -1 označava negativnu korelaciju, odnosno sukladan porast vrijednosti jedne varijable, a pad vrijednosti druge varijable, npr. s porastom nadmorske visine opada koncentracija kisika u zraku. Potpune povezanosti tj. vrijednosti koeficijenta korelacije r = ±1 nisu svojstvene biološkim sustavima i najčešće se odnose na teoretske modele. Kada koeficijent korelacije ima vrijednost 0, tada on označava nepostojanje linearne povezanosti, što upućuje na činjenicu kako poznavajući vrijednosti jedne varijable ne možemo ništa zaključiti o vrijednostima druge. Primjerice, ukoliko bi promatrali povezanost veličine zjenice oka i koncentracije kalcijevih iona u krvi, mogli bismo zaključiti kako nema povezanosti, tj. svakoj veličini zjenice oka može se pridružiti bilo koja koncentracija kalcijevih iona (jasno, u fiziološkim granicama) (2).
Spearmanov koeficijent korelacije (rho, rs) ili korelacija ranga izračunava se kada jedan od skupa podataka slijedi ordinalnu ljestvicu ili kada raspodjela podataka značajno odstupa od normalne raspodjele te postoje podatci koji značajno odstupaju od većine izmjerenih (engl. outliers) (3). Za razliku od Pearsonovog koeficijenta korelacije koji podrazumijeva linearnu povezanost, za Spearmanov koeficijent korelacije to nije uvjet, a može se računati i na manjim uzorcima (N < 35). U slučaju dobivenog rs= 0 može se zaključiti da povezanosti među varijablama zaista nema (1).
Postupak izračunavanja korelacije često se koristi neispravno te je stoga potrebno prije izračunavanja razumjeti pojam i vrste korelacije, uvjete za izračunavanje korelacije te tumačenje povezanosti kako bi se izbjeglo pogrješno zaključivanje.
U nastavku su navedene neke od najčešćih pogrješaka prilikom izračunavanja korelacija i njhova tumačenja.
Uvjeti za izračunavanje korelacije
Pitanje: Je li ispravno računati Pearsonov koeficijent korelacije za stupanj opeklina na tijelu i trajanje bolničkog liječenja izraženo u danima?
Odgovor: Nije ispravno.
Tumačenje: Prvi korak u izračunavanju korelacije jest provjeriti zadovoljavaju li izmjereni podatci uvjete za izračunavanje Pearsonove korelacije. Stupanj opeklina na tijelu označava se na ljestvici od 1 do 4 i takvi su podatci kategorički (svrstavaju ispitanike u unaprijed utvrđene “razrede”) te slijede ordinalnu mjernu ljestvicu. Duljina bolničkog liječenja izražena u danima slijedi omjernu ljestvicu i bila bi pogodna za računanje Pearsonovog koeficijenta korelacije, ali samo onda kada bi i druga varijabla sljedila intervalnu ili omjernu ljestvicu. Pearsonov koeficijent korelacije računa se samo ako su zadovoljeni sljedeći uvjeti: podatci obje ispitivane varijable slijede intervalnu ili omjernu ljestvicu, podatci barem jedne varijable su normalno, tj. simetrično raspodijeljeni, ispitivani uzorak je velik (N > 35) i zadovoljen je uvjet linearne povezanosti, što treba očitati iz točkastog grafikona (1).
Ukoliko uvjeti za izračunavanje Pearsonovog koeficijenta korelacije nisu zadovoljeni, može se koristiti Spearmanov koeficijent korelacije. U opisanom primjeru stupanj opeklina slijedi ordinalnu ljestvicu pa stoga nije zadovoljen uvjet za Pearsonovu korelaciju, već je potrebno izračunati Spearmanov koeficijent korelacije.
Tumačenje i značajnost koeficijenta korelacije
Pitanje: U istraživanju povezanosti raspoloženja i količine tekućine unesene pijenjem tijekom dana dobivena je povezanost r = 0,12; P = 0,003. Je li ispravno zaključiti kako postoji značajna povezanost raspoloženja i količine popijene tekućine?
Odgovor: Nije ispravno.
Tumačenje: Nakon izračuna koeficijenta korelacije važno je znati kako rezultat protumačiti, odnosno objasniti što vrijednosti koeficijenta korelacije zaista znače. U prikazu rezultata korelacija obvezno se navode koeficijent povezanosti (korelacije) “r” i to brojem s dva decimalna mjesta, te značajnost koeficijenta korelacije “P” brojem s tri decimalna mjesta (4). Ukoliko je koeficijent korelacije značajan s obzirom na postavljenu granicu značajnosti (uobičajeno P < 0,05), zaključujemo da je koeficijent korelacije značajan i da se smije tumačiti. Ukoliko je vrijednost P > 0,05 zaključujemo da koeficijent korelacije nije značajan i tada se bez obzira na njegovu vrijednost ne smije tumačiti. Prilikom tumačenja vrijednosti koeficijenta korelacije vrijede ista pravila i za Pearsonov i Spearmanov koeficijent te se uobičajeno smatra kako vrijednosti r od 0 do 0,25 ili od 0 do –0,25 upućuju kako nema povezanosti, dok vrijednosti r od 0,25 do 0,50 ili od –0,25 do –0,50 upućuju na slabu povezanost među varijablama. Vrijednosti r od 0,50 do 0,75 ili od –0,50 do –0,75 upućuju na umjerenu do dobru povezanost, te vrijednosti r od 0,75 do 1 ili od –0,75 do –1 upućuju na vrlo dobru do izvrsnu povezanost među varijablama (1).
Sukladno navedenome, pogrješno je zaključiti kako postoji značajna povezanost raspoloženja i količine popijene tekućine tijekom dana. Ispravno zaključivanje glasi: nema povezanosti između ispitivanih varijabli (r = 0,12) i to smijemo tvrditi jer je koeficijent korelacije značajan (P=0,003) (5,6).
Visoka vrijednost koeficijenta korelacije
Pitanje: U istraživanju povezanosti visine tijela i biološke dobi dobivena je korelacija r = 0,97. Možemo li zaključiti kako su visina i dob nesumnjivo izvrsno povezani?
Odgovor: Ne, barem ne nesumnjivo.
Tumačenje: Ukoliko je izračunat koeficijent korelacije za biološke varijable r > 0,95, treba posumnjati na pogrješku u mjerenju, uzorkovanju ispitanika ili mogućem prepravljanju izmjerenih rezultata. Zbog prirodne raznolikosti u biološkim sustavima upravo je nemoguće dobiti tako visoki koeficijent korelacije ukoliko su mjerenja učinjena ispravno (reprezentativan uzorak, dovoljno osjetljiv instrument i sl.) (1). Uvijek je potrebno voditi računa o vrsti podataka koji se mjerenjem prikupljaju i statistički obrađuju. Primjerice, ukoliko uspoređujemo vrijednosti glukoze izmjerene u seriji uzoraka krvi s pomoću dva različita instrumenta, tj. biokemijska analizatora, za očekivati je kako će koeficijent korelacije biti vrlo visok (pa i do r = 0,99), što je tada znak dobre usklađenosti dvaju instrumenata.
Povezanost i uzročno posljedična veza
Pitanje: U istraživanju povezanosti koncentracije alkohola u krvi i prometnih nesreća utvrđeni su r = 0,78 i P=0,002. Možemo li zaključiti kako uzimanje alkohola uzrokuje prometne nesreće, tj. promatrane prometne nesreće su posljedica uzimanja alkohola?
Odgovor: Ne, ne možemo.
Tumačenje: Korelacija govori o povezanosti, a ne o uzročno posljedičnoj vezi među varijablama. Dakle, ukoliko postoji visoka povezanost između uzimanja alkohola i prometnih nesreća ne možemo zaključiti da jedna varijabla utječe na drugu, odnosno da uzimanje alkohola uzrokuje nesreće u prometu. Moguće je da veća količina alkohola uzorkuje više prometnih nesreća, no postoji mogućnost značajnog utjecaja ostalih neispitivanih čimbenika ili rijetkih događaja (7,8). U opisanom primjeru to bi moglo biti stanje na cesti, ispravnost vozila, moguća bolest vozača nevezana za alkohol, djelovanje drugih farmakološki aktivnih tvari i sl.
U istraživanjima se korelacija treba ponajprije koristiti za postavljanje hipoteza, a ne za njihovo testiranje kao što se to često sasvim pogrješno koristi (9). Primjerice, utvrdi li se povezanost između varijabli, uzročno posljedična veza dokazuje se znanstvenim pokusom. Jedini pokus kojim se dokazuje uzročno posljedična veza u biomedicini jest randomizirani kontrolirani klinički pokus (10).
Jačina (udio) povezanosti
Pitanje: Usporedbom katalitičke koncentracije dvaju enzima u krvi ispitanika dobivena je povezanost r = 0,52; P = 0,002. Možemo li zaključiti kako vrijednosti enzima imaju 52% zajedničkih vrijednosti katalitičke koncentracije?
Odgovor: Ne, ne možemo.
Tumačenje: Koeficijent korelacije nije mjera jačine povezanosti. Vrijednost koeficijenta korelacije r = 0,52 ne može se tumačiti kao povezanost od 52%, tj. 52% zajedničkih vrijednosti dviju katalitičkih koncentracija enzima. Udio zajedničkih vrijednosti, tj. jačina linearne povezanosti izražava se koeficijentom determinacije. Koeficijent determinacije računa se jednostavno, tj. kvadriranjem koeficijenta korelacije i označava kao r2. Može se računati samo za Pearsonovu korelaciju (3). Stoga je jačina povezanosti (koeficijent determinacije) u ovom primjeru r2 = 0,52 × 0,52 = 0,27, tj. katalitičke koncentracije dva enzima imaju 27% zajedničkih vrijednosti. Dvostruko veća povezanost ne znači i dvostruko veću jačinu povezanosti, npr. ako povezanost iznosi r1 = 0,26, jačina povezanosti biti će r12 = 0,07 (7%) dok za dvostruko veću povezanost r2 = 0,52 jačina povezanosti iznosi r22 = 0,27 (27%).
Usporedba dvaju koeficijenata korelacije istih obilježja u dva uzorka ispitanika
Pitanje: Ispitana je povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu u žena (N1 = 60) i muškaraca (N2 = 40). Koeficijent korelacije za žene iznosi r1 = 0,70, a za muškarce r2 = 0,50; oba su statistički značajna. Možemo li zaključiti da je r1 > r2, odnosno da je u žena veća povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu?
Odgovor: Ne, ne možemo.
Tumačenje: Dva se koeficijenta korelacije nikako ne smiju izravno uspoređivati već je potrebno posebno ispitati značajnost razlike između korelacija dviju skupina podataka. Postupak utvrđivanja značajnosti razlike dvaju koeficijenata korelacije uzima u obzir vrijednost koeficijenata korelacije i veličine oba uzorka (8).
Usporedbom dvaju koeficijenta korelacije u opisanom primjeru utvrđeno je da povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu u žena nije značajno veća od povezanosti istih varijabli u muškaraca (P = 0,132) (11).
 
Zaključak
 
Utvrđivanje povezanosti, tj. korelacije među pojavama (varijablama) važno je oruđe u znanstvenom radu. Primijećene povezanosti dviju pojava omogućuju samo postavljanje hipoteze u znanstvenom pokusu kojim će se tek pokušati utvrditi i uzročno posljedična sveza (koju korelacija nikad ne dokazuje). Osim u biološkim sustavima, osobito u laboratorijskoj medicini, koeficijent korelacije značajan je u proučavanju i usporedbi dvaju analitičkih sustava (metoda, instrumenata i sl.) kada upravo na temelju njegove visoke vrijednosti možemo složeniju metodu zamijeniti, primjerice, jednostavnijom ili jeftinijom. Često korištena u obradbi podataka u znanstvenim radovima, korelacija se nerijetko i zlorabi i to uglavnom zbog neznanja ili zanemarivanja pravila uporabe testa korelacije. Posljedica su tada pogrješni zaključci o znanstvenim hipotezama koji vode u zabludu, a ne k novom znanju.

 

Li­te­ra­tu­ra
 
1.     Dawson B, Tra­pp RG. Ba­sic and Cli­ni­cal Bios­ta­tis­ti­cs. 4th Ed. New Yo­rk: Lan­ge Me­di­cal Boo­ks/McGraw-Hill; 2004.
2.     Až­man J, Frković V, Bi­li­ć-Zul­le L, Pet­ro­več­ki M. Ko­re­la­ci­ja i reg­re­si­ja. Ac­ta Med Croat 2006;60(Suppl 1):81-91.
3.     Pet­rie A, Sa­bin C. Me­di­cal Sta­tis­ti­cs at Glan­ce. 2nd Ed. Oxfo­rd: Blac­kwe­ll Pub­lis­hi­ng; 2005.
4.     La­ng T. Twen­ty Sta­tis­ti­cal Er­ro­rs Even YOU Can Fi­nd in Bio­me­di­cal Re­sear­ch Ar­tic­les. CMJ 2004;45(4):361-70.
5.     Pet­ro­več­ki M, Ga­be­la O, Marcelić T. Statis­ti­cal ma­na­ge­me­nt of au­to­mim­mu­ne di­sea­se da­ta. “New tren­ds in clas­si­fi­ca­tion, mo­ni­to­ri­ng and ma­na­ge­me­nt of au­toim­mu­ne di­sea­ses”, 5th FESCC Pos­tgra­dua­te Cour­se in Cli­ni­cal Che­mis­try, Dub­rov­nik, Oc­to­ber 2005:77-80.
6.     Pet­ro­več­ki M, Gor­nik O, Marcelić T. Pro­cessing and pre­sen­ta­tion of bioc­he­mi­cal re­sear­ch da­ta. Con­gre­ss of the Croa­tian So­cie­ty of Bioc­he­mis­try and Mo­le­cu­lar Bio­lo­gy, Vo­di­ce, Oc­to­ber 2006:42.
 7.   Rum­sey D. Sta­tis­ti­cs for Dum­mies. In­dia­na­po­lis: Wi­ley Pub­lis­hi­ng Inc.; 2003.
 8.   Pe­tz B. Os­no­ve sta­tis­tič­ke me­to­de za ne­ma­te­ma­ti­ča­re. Jas­tre­bar­sko: Nak­la­da Slap, 2002.
 9.   Zou KH, Tun­ca­li KT, Sil­ver­man SG. Cor­re­la­tion and Sim­ple Li­near Reg­res­sion. Ra­dio­lo­gy 2003; 227:617-28.
10.   Marušić M, ured­nik. Uvod u znan­stve­ni rad u me­di­ci­ni. Zag­reb: Me­di­cin­ska nak­la­da; 2004.
11.   Us­po­red­ba dva koe­fi­ci­jen­ta ko­re­la­ci­je. Med­Ca­lc Ma­nual. Dos­tup­no na URL: http://www.medcalc.be/manual/mpage08-06.php Pris­tup­lje­no: 28. ve­lja­če 2007.