Introduktion Den första delen av laborationen baserar sig på mätdata som skapades i samband med en medicinsk studie där en ny metod för att mäta ögontryck utvärderas. Den nya metoden som testas, Applanation Resonance Tonometry (ART), baseras på två olika typer av tester, en dynamisk och en statisk. I datamaterialet finns det också mätningar som har gjorts med tre andra etablerade mätningsmetoder. Dessa är Goldmann Applanation Tonometry (GAT), Ocular Response Analysis (ORA) och Pascal Dynamic Contour Tonometer (PDCT). Den första metoden, GAT, är den metod som används som måttstock (Golden standard) för alla andra metoder. Enheten på mätvärden för de två nya metoderna är mn/hz medan de tre övriga mäter i enheten mmhg. Förutom tryckmätningar finns det mätningar av horhinnans tjocklek, kurvator samt ögats kammarvattenvolym. Samtliga mätningar finns för höger och vänster öga för 97 friska personer. Försökspersonernas ålder, kön samt en ålderskategori (unga eller äldre) återfinns i datamaterialet. Uppgiften i den första delen är att genomföra en principalkomponentanalys av materialet. I laborationens andra del ska två uppgifter ur boken Applied Multivariate Statistical Analysis beräknas med faktoranalys. Metod I en tidigare laboration har det identifierats ett antal personer i datamaterialet som har mätvärden som kan anses vara outliers. Ingen av dessa kommer att tas bort i denna rapport. Dock finns det en person, patient 50, som saknar ett mätvärde för ena ögat. För att materialet ska vara homogent kommer denna person att uteslutas från datamaterialet. Tumregel som används i rapporten är att endast analysera de första principala komponenterna som motsvarar 80 procent eller högre av den totala variationen. I och med att endast tre variabler mäter i samma enhet kommer samtliga analyser av principala komponenter att använda korrelationsmatrisen istället för kovariansmatrisen. I samtliga analyser används funktionen princomp(), denna funktion använder sig av n, inte n-, för att uppskatta kovariansen och korrelationen. Därmed är dessa inte väntevärdesriktiga uppskattningar. I och med det stora antalet observationer anses detta inte vara ett problem och kommer att bortses ifrån. I den första delen av laborationen genomförs principalkomponentanalys för alla icke-kategoriska variabler. Dock har det tidigare visats att kön påverkar några av de övriga variablerna, vilket gör att variablen anses vara interessant att ha med. Därför transformeras variablen till en numerisk, noll för män och ett för kvinnor. Efter att analysen ovan genomförts undersöks om den skiljer sig från analyser som är baserade på en delmängd av observationerna med avseende på könoch åldersgrupper.
I den tredje delen elimineras en variabel i taget för att hitta en sammansättning som kan beskrivas av ett minsta antal principala komponenter. Endast en variabel i taget tas bort för att behålla och utnyttja så mycket information som möjligt. De variabler som kommer från tryckmätningar behålls då de anses vara en vital del av datamaterialet. I den sista delen är syftet att hitta ett gemensamt mått, för alla grupperingar med avseende på ålder och kön, som använder sig av sammanställda värden från de olika tryckmätningarna och eventuellt den information som finns i de övriga variablerna. Resultat Nedan kommer de idéer som presenteras i metoden att analyseras och besvaras. Principalkomponentanalys för alla icke-kategoriska variabler Nedan presenteras korrelationsmatrisen för alla variabler som kommer att användas i efterföljande analyser: Tabell - Korrelationsmatrisen för alla variabler Kön Ålder Tjocklek Kurvatur Volym GAT ORA PDCT ART (dyn) ART (stat) Kön -0,098 0,00 0,3-0,68-0,73-0,044-0,07-0,6-0,73 Ålder -0,098 0,034 0,00065-0,430 0,75 0,87 0,306-0,0-0,39 Tjocklek 0,00 0,034-0, -0,6 0,047-0,0077-0,009 0,9 0,93 Kurvatur 0,3 0,00065-0, -0,09 0,76 0,9 0,097-0,08-0,077 Volym -0,68-0,430-0,6-0,094-0,055-0,097-0,05 0,3 0,9 GAT -0,73 0,75 0,047 0,76-0,055 0,54 0,775 0,55 0,495 ORA -0,044 0,87-0,0077 0,9-0,09 0,54 0,576 0,33 0,94 PDCT -0,07 0,306-0,0090 0,0974-0,05 0,775 0,576 0,6 0,54 ART (dyn) -0,56-0,03 0,89-0,0795 0,3 0,553 0,33 0,60 0,94 ART (stat) -0,73-0,39 0,93-0,0799 0,9 0,495 0,94 0,54 0,94 Nedan visas resultaten av principalkomponentsanalysen som genomförts med alla variabler förutom de kategoriska:
Tabell Koefficienter för de principala kompnenterna 3 4 5 6 7 8 9 0 Kön -0,5 0,09 0 0,77 0,46 0,4 0,34-0,0-0,3 0 Ålder 0,3 0,540 0,49-0,389 0 0 0,3-0,58-0,88 0 Tjocklek 0 0 0,680 0,06-0,505 0,449 0,6 0 0 0 Kurvatur 0 0,69-0,559 0,9-0,687 0 0-0,3 0 0 Volym 0-0,57-0,35-0,8 0 0,500 0,440-0,89-0, 0 GAT 0,459 0,67 0 0-0,05 0 0,90 0,57-0,57 0 ORA 0,353 0,74-0,05 0 0,39 0,60-0,589-0,08 0 0 PDCT 0,474 0,50 0 0 0,35 0 0,346 0,6 0,756 0 ART(dyn ) 0,46-0,74 0 0,90 0-0,83-0,0-0,06 0 0,73 ART(stat) 0,439-0,3 0 0,85 0-0,67-0,4-0,35-0,4-0,67 De fem första principal komponenterna motsvarar 83,5 procent av den totala variansen och uppfyller därmed tumregeln som används i rapporten. I den första principala komponenten, som står för den största delen av variationen, ingår de ursprungliga varaiblerna kön, ålder och samtliga tryckmätningsmetoder. Hornhinnans tjocklek, kurvatur och kammarvattenvolym finns inte med. I den tidigare rapporten hittades ett möjligt samband, män och äldre har högre ögontryck än kvinnor och yngre. Det är intressant att dessa variabler utgör den linjära kombinationen för den första principala komponten.
Figur - Screeplot över varians för de nya principala komponenterna I screeplotten återfinns inget tydligt knä vilket används för att identifiera hur många principala komponenter som ska betraktas som väsentliga och därmed analyseras. Istället används en annan tumregeln vilken är formulerat i metodavsnittet.
Grupperingar efter kön och ålder Nedan undersöks om principalkomponentsanalysen som är baserad på alla observationer (se tabell ) är lika eller skilld från analysen som är baserad på en delmängd av alla observationer med avseende på ålder och kön. För män och kvinnor behövs det fyra principala komponenter för att beskriva 83,3 respektive 8, procent av den totala variansen. För äldre och unga behövs det fem komponenter för att beskriva 84,4 respektive 8,6 procent av den totala variansen. Koeffecienterna redovisas nedan i tabeller: Tabell 3 - Principala komponenter för män 3 4 Ålder -0, -0,648-0,40 Hornhinnans tjocklek -0,9 0,603 Hornhinnans kurvatur -0,96 0,8-0,94-0,859 Kammarvatten volym 0,537-0,56 0,40 Goldmann -0,47 ORA -0,354-0,85-0,374 0,45 PDCT -0,480-0,43 0,30 ART(dyn ) -0,440 0,90 0,380 ART(stat ) -0,46 0,3 0,395
Tabell 4 - Principala komponenter för kvinnor 3 4 Ålder 0,55 0,45 Hornhinnans -0,6-0,30 0,83-0,870 tjocklek Hornhinnans 0,333-0,77-0,53 kurvatur Kammarvatten -0,54-0,43 0,5 volym Goldmann -0,47 0,67-0,00 ORA -0,365 0,65-0,7-0,4 PDCT -0,450 0,46 0,36 ART(dyn ) -0,475-0, 0,6 ART(stat ) -0,455-0,70 0,83 Tabell 5 - Principala komponenter för äldre 3 4 5 Kön 0,5-0,304 0,59-0,64 0,58 Ålder -0,359-0,460 0,698 0,47 Hornhinnans -0,7 0,548 0,6 0,307 0,303 tjocklek Hornhinnans -0,594-0,3 0,88 kurvatur Kammarvatten 0,95-0,64-0,558 0,46 volym Goldmann -0,435-0,73-0,86 ORA -0,408-0,6-0,33 PDCT -0,443-0,34 ART(dyn ) -0,459 0,4 0,00 ART(stat ) -0,446 0,43 0,76
Tabell 6 - Principala komponenter för unga 3 4 5 Kön 0,45 0,575 0,7 Ålder 0,4-0,338 0,57-0,57 0,537 Hornhinnans 0,56 0,6-0,06 tjocklek Hornhinnans 0,339-0,37-0,565-0,34 kurvatur Kammarvatten -0,63-0,479-0,35 0,9 volym Goldmann -0,45-0,389 0,00 ORA -0,07 0,368-0,305 0,38 0,746 PDCT -0,489-0,63-0,0-0,7 ART(dyn ) -0,495 0,9 0,45 ART(stat ) -0,480 0,304 0,74 För alla delmängder av observationerna, som är baserade på kön och ålder, innehåller den första principala komponenten samtliga tryckmätningsvariabler med ungefär lika stora koefficienter. Den första principala komponenten för varje delmängd har ungefär samma struktur som den i tabell. De olika modellerna behöver fyra till fem principala komponenter för att uppnå 80 procent av den totala variationen. Att könsuppdelningen endast behöver fyra beror på att den kategoriska könsvariablen tas bort. De övriga principala komponenterna skiljer sig kraftigt åt. Det går inte att fastställa om skillnaden mellan modellerna givna av principalkomponentsanalysen beror på att delmängderna inte är tillräckligt stora eller om det finns skillda modeller för varje delmängd.
Elimination av en variabel Nedan undersöks om det finns en sammansättning av de ursprungliga variablerna som kan beskrivas av ett minsta antal principala komponenter. Endast en variabel i taget tas bort för att behålla och utnyttja så mycket information som möjligt. De variabler som kommer från tryckmätningar behålls då de anses vara en vital del av datamaterialet. Tabell 7 Antalet med PC som behövs då en variabel tas bort Utan kön Utan ålder Utan tjocklek Utan kurvatur Utan volym Antal PC 4 5 4 4 5 Ackumulerad varation 80,7% 85,7% 8,0% 8,3% 87,3% Genom att eliminera kön, horhinnans tjocklek och kurvatur minskar antalet principala komponenter med ett. Dock erhålls inga betydande reduktioner av de olika sammansättnignarna vilket inte berättigar att en variabel tas bort med hänsyn till syftet med eliminationen, det vill säga att ta bort en variabel för att kunna beskriva materialet lättare med färre principala komponenter.
Komponentanalys över tryckmätningsvariabler I tabellen nedan redovisas grupperingar med avseende på kön och ålder. För varje gruppering visas koefficienterna och den ackumulerade andel av den totala variansen för de två första principala komponenterna. Syftet är att hitta ett gemensamt mått, för alla grupperingar av observationer, som använder sig av sammanställda värden från de olika tryckmätningsmetoderna och eventuellt den information som finns i de övriga variablerna. Tabell 8 Loadings för en modell som innehålller endast tryckmätningsvariabler med avseende på olika grupperingar av observationerna Alla obs. Män Kvinnor Äldre Unga Äldre män Unga män Äldre kvinnor Unga kvin. GAT ORA PDCT ART (dyn) ART (stat ) Akumulerad andel av varians 0.459 0.89 0.474 0. 0.439 0.447 0.450 0.80 0.436 0.95 0.476 0.8 0.44 0.6 0.40 0.539 0.436 0.88 0.356 0.597 0.339 0.646 0.38 0.430 0.49 0.59 0.0 0.858 0.376 0.64 0.84 0.748 0.45 0.30 0.33 0.840 0.479 0.47 0.487 0.57 0.47 0.67 0.458 0.98 0.497 0.4 0.469 0.5 0.49 0.68 0.457 0.53 0.498 0.476-0.469 0.47-0.458 0.480-0.483 0.46-0.493 0.56-0.308 0.467-0.446 0.499-0.49 0.455-0.54 0.50-0.84 0.454-0.59 0.448-0.5 0.457-0.557 0.446-0.566 0.498-0.344 0.440-0.54 0.499-0.408 0.45-0.540 0.488-0.360 65,8 85,4 65,5 87,6 65,7 83,9 76,0 89,7 60,0 79,3 73,3 90,8 59,6 79,3 78,9 90,5 6, 80,0 Om de två grupperingarna för män och kvnnor jämförs med grupperingen som innehåller alla observationer syns det att de har en liknande struktur. Samma sak gäller om äldre män jämförs med äldre kvinnor samt unga män med unga kvinnor. Däremot är det en påtaglig skillnad när äldre jämförs med unga, unga män med äldre män samt när unga kvinnor jämförs med äldre kvinnor. Detta kan betyda att ålder kan påverka det sammanställda måttet av tryckmätningar men kanske inte kön.
Alla beräkningar gjordes om utan de möjliga outliers, som upptäcktes i föregående laboration. Det visade sig att skillnaden mellan värdena var marginell. Anledningen till att detta kontrollerades beror på att beräkningen baseras på korrelationsmatrisen som i sin tur är känslig för outliers. Därmed skulle dessa outliers kunnat påverka utfallet. Kön- och ålders-variablens inverkan kan undersökas vidare genom att plotta scores för de båda principala komponentererna mot varandra där kön och ålder är markerade. Nedan presenteras denna plot: Figur Olika grupperingar av scores för PC mot PC för en modell med bara tryckmätningsvariabler
I figuren ovan syns det tydligt att modellen för ett gemensamt mått för tryck baserat på alla observationer är oberoende av kön, men inte ett oberoende av åldern. I ett försök att skapa ett sammanställt mått som tar hänsyn till ålder, genomfördes en principalkomponentsanalys som innehöll både tryckmätningsvariabler och ålder. Det visade sig att för olika grupperingar av observationer behövdes det fortfarande två principala komponenter för att förklara 80 procent av den totala variansen. Dock visade det sig att grupperingarna inte hade en liknande struktur. När komponenterna plottades mot varandra där åldersgruppen var markerad blev det en tydlig uppdelning mellan unga och äldre. Istället för att kompensera för åldern blev modellen sämre. Figur 3 Åldersgruppering av scores för alla principala komponenter mot varandra för en modell med tryckmätningsvariabler och ålder Även kön infördes vilket inte gav något resultat: antalet principala komponeter som behövdes för att uppfylla tumregeln blev istället tre samt att ingen gemensam struktur för olika grupperingar fanns.
Det kan kanske skapas ett mått som innehåller tryckmätningsvariablerna och någon mer avancerad funktion för ålder, som kan kompensera för avsaknandet av en gemensam struktur för olika åldersgrupperingar. Tills dess att ett sådant mått upptäcks bedöms modellen för alla observationer i tabellen ovan vara ett möjligt sammanställt mått för ögontryck. Slutsats När principal komponent analysen genomfördes på alla variabler upptäcktes det att första komponenten, som står för den största andelen av variationen, bara bestod av tryckmätnings variabler samt ålder och kön. I och med detta ansågs det vara intressant att undersöka om det går att hitta ett sammanställt mått för bara tryckmätnignsvariablerna. För att skapa en modell för ett sammanställt mått för tryck användes tre modeller. En modell med bara tryckmätningsvariablerna, en modell med tryckmätningsvariablerna och ålder samt en modell med tryckmätningsvariablerna, kön och ålder. Av dessa anses modellen som bara består av tryckmätningsvariabler vara den mest lämpade. Den första komponenten anses vara ett viktat medelvärde, den andra komponenten består av skillnaden mellan medelvärdet för GAT, ORA och PDCT och ett medelvärde för ART-metoderna. Det anses finnas en risk att en modell för ett gemensamt mått för tryck som inte tar hänsyn till ålder kommer att underskatta trycket för äldre och överskatta trycket för unga. För att kringgå problemet bör särskillda modeller skapas för unga och för äldre.