Resultat. Principalkomponentanalys för alla icke-kategoriska variabler



Relevanta dokument
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Multivariata metoder

Regressionsanalys av huspriser i Vaxholm

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

ÖVNINGSUPPGIFTER KAPITEL 9

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Tentamen i Matematisk statistik Kurskod S0001M

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

NEPI - Stiftelsen nätverk för läkemedelsepidemiologi

Bygga hus med LECA-stenar

Läs noggrant informationen nedan innan du börjar skriva tentamen

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Uppgift 1. Deskripitiv statistik. Lön

Inlämningsuppgift 4 NUM131

Same same but different : sophantering ur ett socialpsykologiskt perspektiv.

Matematisk modellering fortsättningskurs Visuell variation

Tentamen i Matematisk statistik Kurskod S0001M

Signifikanta skillnader enligt t-test på provytenivå redovisas nedan för varje par.

En ideal op-förstärkare har oändlig inimedans, noll utimpedans och oändlig förstärkning.

ELEVHJÄLP. Diskussion s. 2 Åsikter s. 3. Källkritik s. 11. Fördelar och nackdelar s. 4. Samarbete s. 10. Slutsatser s. 9. Konsekvenser s.

Lönediskriminering praxis bland män?

Datorlaboration 2 Konfidensintervall & hypotesprövning

Inledning Syfte grund Allmänt kring handstående måste


Figur 1. Skärmbild med markerade steg i videon. Diagram och tabell som visar positionerna som funktion av tiden.

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Kodning av ansiktstextur med oberoende komponenter

Riskanalys fo r kritiska IT-system - metodbeskrivning

Avd. Matematisk statistik

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Regressions- och Tidsserieanalys - F4

Enkät rörande boende för äldre i Krokoms Kommun

ÄMNESPLANENS STRUKTUR. Progressionstabellen

Partiklars rörelser i elektromagnetiska fält

NMCC Sigma 8. Täby Friskola 8 Spets

UPPDRAGSLEDARE. Fredrik Wettemark. Johanna Lindeskog

Diskussionsproblem för Statistik för ingenjörer

TNM059 Grafisk teknik Laboration 4 - Färg

STATISTISK ANALYS AV KOMPLEXA DATA

Linjär regressionsanalys. Wieland Wermke

Faktoranalys - Som en god cigarr

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Rättningskommentarer Högre Revisorsexamen hösten 2009

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

Javisst! Uttrycken kan bli komplicerade, och för att få lite överblick över det hela så gör vi det så enkelt som möjligt för oss.

Samverkande Expertnät

9-1 Koordinatsystem och funktioner. Namn:

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

AVGÖRANDEN I VA- MÅL - DEL 5 29:5

Mätningar på solcellspanel

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

5. BERÄKNING AV SANNOLIKHETER

Inledning...3. Kravgränser Provsammanställning...22

Anvisningar för utformning av sammandrag som mognadsprov

Framgångsfaktorer i diabetesvården. Inspiration för utveckling av diabetesvården

MODELLERING AV DYNAMISKA SYSTEM OCH INLUPP 2

TNM011 Grafisk teknik Laboration 3 - Färg

Statens strålskyddsinstituts författningssamling

REPETITION (OCH LITE NYTT) AV REGLERTEKNIKEN

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Eleven kan genomföra undersökningar utifrån givna planeringar och för då utvecklade resonemang om. 4-5 korrekta observationer

Föreläsning 8: Intro till Komplexitetsteori

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Fakta om tidsbegränsade anställningar

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

PM NÄTAVGIFTER Sammanfattning.


Lokal nr 8. Höreda, Eksjö

Arbetsrätt. Ola Brinnen April 2016

Lika eller olika? Hur företagare och unga ser på löner och anställning ELIN BENGTSSON DECEMBER, 2009

Påverkar Dag 0 express däckförsäljningen?

Statistik och epidemiologi T5

Två kulturer på Internet Resultat av faktor- och klusteranalys

5B Portföljteori och riskvärdering

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

GynObstetrik. the33. Graviditetsdiagnostiska metoder. Health Department

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

L A B R A P P O R T 1

Tekniska kontoret erbjuder god service i form av god tillgänglighet, gott bemötande samt leveranssäkerhet. Vi utvecklar och sköter om staden

Introduktion till Blästadsgatans diskussionsforum. Inledning. Layout ej inloggat läge

Föreläsning 6: Introduktion av listor

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

GRUPPARBETE. Kundfokuserad produktutveckling av flygbussarna i Luleå. IEK204 Kundfokuserad produktutveckling Ht-2006

Dnr: Statliga pensioner trender och tendenser

Medelpensioneringsålder

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Journalhanteringssystem för World Scout Jamboree 2011

Viktiga moment i kursplanen

Historia Årskurs 9 Vårterminen 2014

Sammanfattning. Max vikt: 800 kg. Hytten skall vara dämpad. 360 synfält. Det skall vara möjligt att värma och kyla mat.

Våga Visa kultur- och musikskolor

Att göra investeringskalkyler med hjälp av

Besvara följande frågor i anslutning till de utdelade artiklarna:

Transkript:

Introduktion Den första delen av laborationen baserar sig på mätdata som skapades i samband med en medicinsk studie där en ny metod för att mäta ögontryck utvärderas. Den nya metoden som testas, Applanation Resonance Tonometry (ART), baseras på två olika typer av tester, en dynamisk och en statisk. I datamaterialet finns det också mätningar som har gjorts med tre andra etablerade mätningsmetoder. Dessa är Goldmann Applanation Tonometry (GAT), Ocular Response Analysis (ORA) och Pascal Dynamic Contour Tonometer (PDCT). Den första metoden, GAT, är den metod som används som måttstock (Golden standard) för alla andra metoder. Enheten på mätvärden för de två nya metoderna är mn/hz medan de tre övriga mäter i enheten mmhg. Förutom tryckmätningar finns det mätningar av horhinnans tjocklek, kurvator samt ögats kammarvattenvolym. Samtliga mätningar finns för höger och vänster öga för 97 friska personer. Försökspersonernas ålder, kön samt en ålderskategori (unga eller äldre) återfinns i datamaterialet. Uppgiften i den första delen är att genomföra en principalkomponentanalys av materialet. I laborationens andra del ska två uppgifter ur boken Applied Multivariate Statistical Analysis beräknas med faktoranalys. Metod I en tidigare laboration har det identifierats ett antal personer i datamaterialet som har mätvärden som kan anses vara outliers. Ingen av dessa kommer att tas bort i denna rapport. Dock finns det en person, patient 50, som saknar ett mätvärde för ena ögat. För att materialet ska vara homogent kommer denna person att uteslutas från datamaterialet. Tumregel som används i rapporten är att endast analysera de första principala komponenterna som motsvarar 80 procent eller högre av den totala variationen. I och med att endast tre variabler mäter i samma enhet kommer samtliga analyser av principala komponenter att använda korrelationsmatrisen istället för kovariansmatrisen. I samtliga analyser används funktionen princomp(), denna funktion använder sig av n, inte n-, för att uppskatta kovariansen och korrelationen. Därmed är dessa inte väntevärdesriktiga uppskattningar. I och med det stora antalet observationer anses detta inte vara ett problem och kommer att bortses ifrån. I den första delen av laborationen genomförs principalkomponentanalys för alla icke-kategoriska variabler. Dock har det tidigare visats att kön påverkar några av de övriga variablerna, vilket gör att variablen anses vara interessant att ha med. Därför transformeras variablen till en numerisk, noll för män och ett för kvinnor. Efter att analysen ovan genomförts undersöks om den skiljer sig från analyser som är baserade på en delmängd av observationerna med avseende på könoch åldersgrupper.

I den tredje delen elimineras en variabel i taget för att hitta en sammansättning som kan beskrivas av ett minsta antal principala komponenter. Endast en variabel i taget tas bort för att behålla och utnyttja så mycket information som möjligt. De variabler som kommer från tryckmätningar behålls då de anses vara en vital del av datamaterialet. I den sista delen är syftet att hitta ett gemensamt mått, för alla grupperingar med avseende på ålder och kön, som använder sig av sammanställda värden från de olika tryckmätningarna och eventuellt den information som finns i de övriga variablerna. Resultat Nedan kommer de idéer som presenteras i metoden att analyseras och besvaras. Principalkomponentanalys för alla icke-kategoriska variabler Nedan presenteras korrelationsmatrisen för alla variabler som kommer att användas i efterföljande analyser: Tabell - Korrelationsmatrisen för alla variabler Kön Ålder Tjocklek Kurvatur Volym GAT ORA PDCT ART (dyn) ART (stat) Kön -0,098 0,00 0,3-0,68-0,73-0,044-0,07-0,6-0,73 Ålder -0,098 0,034 0,00065-0,430 0,75 0,87 0,306-0,0-0,39 Tjocklek 0,00 0,034-0, -0,6 0,047-0,0077-0,009 0,9 0,93 Kurvatur 0,3 0,00065-0, -0,09 0,76 0,9 0,097-0,08-0,077 Volym -0,68-0,430-0,6-0,094-0,055-0,097-0,05 0,3 0,9 GAT -0,73 0,75 0,047 0,76-0,055 0,54 0,775 0,55 0,495 ORA -0,044 0,87-0,0077 0,9-0,09 0,54 0,576 0,33 0,94 PDCT -0,07 0,306-0,0090 0,0974-0,05 0,775 0,576 0,6 0,54 ART (dyn) -0,56-0,03 0,89-0,0795 0,3 0,553 0,33 0,60 0,94 ART (stat) -0,73-0,39 0,93-0,0799 0,9 0,495 0,94 0,54 0,94 Nedan visas resultaten av principalkomponentsanalysen som genomförts med alla variabler förutom de kategoriska:

Tabell Koefficienter för de principala kompnenterna 3 4 5 6 7 8 9 0 Kön -0,5 0,09 0 0,77 0,46 0,4 0,34-0,0-0,3 0 Ålder 0,3 0,540 0,49-0,389 0 0 0,3-0,58-0,88 0 Tjocklek 0 0 0,680 0,06-0,505 0,449 0,6 0 0 0 Kurvatur 0 0,69-0,559 0,9-0,687 0 0-0,3 0 0 Volym 0-0,57-0,35-0,8 0 0,500 0,440-0,89-0, 0 GAT 0,459 0,67 0 0-0,05 0 0,90 0,57-0,57 0 ORA 0,353 0,74-0,05 0 0,39 0,60-0,589-0,08 0 0 PDCT 0,474 0,50 0 0 0,35 0 0,346 0,6 0,756 0 ART(dyn ) 0,46-0,74 0 0,90 0-0,83-0,0-0,06 0 0,73 ART(stat) 0,439-0,3 0 0,85 0-0,67-0,4-0,35-0,4-0,67 De fem första principal komponenterna motsvarar 83,5 procent av den totala variansen och uppfyller därmed tumregeln som används i rapporten. I den första principala komponenten, som står för den största delen av variationen, ingår de ursprungliga varaiblerna kön, ålder och samtliga tryckmätningsmetoder. Hornhinnans tjocklek, kurvatur och kammarvattenvolym finns inte med. I den tidigare rapporten hittades ett möjligt samband, män och äldre har högre ögontryck än kvinnor och yngre. Det är intressant att dessa variabler utgör den linjära kombinationen för den första principala komponten.

Figur - Screeplot över varians för de nya principala komponenterna I screeplotten återfinns inget tydligt knä vilket används för att identifiera hur många principala komponenter som ska betraktas som väsentliga och därmed analyseras. Istället används en annan tumregeln vilken är formulerat i metodavsnittet.

Grupperingar efter kön och ålder Nedan undersöks om principalkomponentsanalysen som är baserad på alla observationer (se tabell ) är lika eller skilld från analysen som är baserad på en delmängd av alla observationer med avseende på ålder och kön. För män och kvinnor behövs det fyra principala komponenter för att beskriva 83,3 respektive 8, procent av den totala variansen. För äldre och unga behövs det fem komponenter för att beskriva 84,4 respektive 8,6 procent av den totala variansen. Koeffecienterna redovisas nedan i tabeller: Tabell 3 - Principala komponenter för män 3 4 Ålder -0, -0,648-0,40 Hornhinnans tjocklek -0,9 0,603 Hornhinnans kurvatur -0,96 0,8-0,94-0,859 Kammarvatten volym 0,537-0,56 0,40 Goldmann -0,47 ORA -0,354-0,85-0,374 0,45 PDCT -0,480-0,43 0,30 ART(dyn ) -0,440 0,90 0,380 ART(stat ) -0,46 0,3 0,395

Tabell 4 - Principala komponenter för kvinnor 3 4 Ålder 0,55 0,45 Hornhinnans -0,6-0,30 0,83-0,870 tjocklek Hornhinnans 0,333-0,77-0,53 kurvatur Kammarvatten -0,54-0,43 0,5 volym Goldmann -0,47 0,67-0,00 ORA -0,365 0,65-0,7-0,4 PDCT -0,450 0,46 0,36 ART(dyn ) -0,475-0, 0,6 ART(stat ) -0,455-0,70 0,83 Tabell 5 - Principala komponenter för äldre 3 4 5 Kön 0,5-0,304 0,59-0,64 0,58 Ålder -0,359-0,460 0,698 0,47 Hornhinnans -0,7 0,548 0,6 0,307 0,303 tjocklek Hornhinnans -0,594-0,3 0,88 kurvatur Kammarvatten 0,95-0,64-0,558 0,46 volym Goldmann -0,435-0,73-0,86 ORA -0,408-0,6-0,33 PDCT -0,443-0,34 ART(dyn ) -0,459 0,4 0,00 ART(stat ) -0,446 0,43 0,76

Tabell 6 - Principala komponenter för unga 3 4 5 Kön 0,45 0,575 0,7 Ålder 0,4-0,338 0,57-0,57 0,537 Hornhinnans 0,56 0,6-0,06 tjocklek Hornhinnans 0,339-0,37-0,565-0,34 kurvatur Kammarvatten -0,63-0,479-0,35 0,9 volym Goldmann -0,45-0,389 0,00 ORA -0,07 0,368-0,305 0,38 0,746 PDCT -0,489-0,63-0,0-0,7 ART(dyn ) -0,495 0,9 0,45 ART(stat ) -0,480 0,304 0,74 För alla delmängder av observationerna, som är baserade på kön och ålder, innehåller den första principala komponenten samtliga tryckmätningsvariabler med ungefär lika stora koefficienter. Den första principala komponenten för varje delmängd har ungefär samma struktur som den i tabell. De olika modellerna behöver fyra till fem principala komponenter för att uppnå 80 procent av den totala variationen. Att könsuppdelningen endast behöver fyra beror på att den kategoriska könsvariablen tas bort. De övriga principala komponenterna skiljer sig kraftigt åt. Det går inte att fastställa om skillnaden mellan modellerna givna av principalkomponentsanalysen beror på att delmängderna inte är tillräckligt stora eller om det finns skillda modeller för varje delmängd.

Elimination av en variabel Nedan undersöks om det finns en sammansättning av de ursprungliga variablerna som kan beskrivas av ett minsta antal principala komponenter. Endast en variabel i taget tas bort för att behålla och utnyttja så mycket information som möjligt. De variabler som kommer från tryckmätningar behålls då de anses vara en vital del av datamaterialet. Tabell 7 Antalet med PC som behövs då en variabel tas bort Utan kön Utan ålder Utan tjocklek Utan kurvatur Utan volym Antal PC 4 5 4 4 5 Ackumulerad varation 80,7% 85,7% 8,0% 8,3% 87,3% Genom att eliminera kön, horhinnans tjocklek och kurvatur minskar antalet principala komponenter med ett. Dock erhålls inga betydande reduktioner av de olika sammansättnignarna vilket inte berättigar att en variabel tas bort med hänsyn till syftet med eliminationen, det vill säga att ta bort en variabel för att kunna beskriva materialet lättare med färre principala komponenter.

Komponentanalys över tryckmätningsvariabler I tabellen nedan redovisas grupperingar med avseende på kön och ålder. För varje gruppering visas koefficienterna och den ackumulerade andel av den totala variansen för de två första principala komponenterna. Syftet är att hitta ett gemensamt mått, för alla grupperingar av observationer, som använder sig av sammanställda värden från de olika tryckmätningsmetoderna och eventuellt den information som finns i de övriga variablerna. Tabell 8 Loadings för en modell som innehålller endast tryckmätningsvariabler med avseende på olika grupperingar av observationerna Alla obs. Män Kvinnor Äldre Unga Äldre män Unga män Äldre kvinnor Unga kvin. GAT ORA PDCT ART (dyn) ART (stat ) Akumulerad andel av varians 0.459 0.89 0.474 0. 0.439 0.447 0.450 0.80 0.436 0.95 0.476 0.8 0.44 0.6 0.40 0.539 0.436 0.88 0.356 0.597 0.339 0.646 0.38 0.430 0.49 0.59 0.0 0.858 0.376 0.64 0.84 0.748 0.45 0.30 0.33 0.840 0.479 0.47 0.487 0.57 0.47 0.67 0.458 0.98 0.497 0.4 0.469 0.5 0.49 0.68 0.457 0.53 0.498 0.476-0.469 0.47-0.458 0.480-0.483 0.46-0.493 0.56-0.308 0.467-0.446 0.499-0.49 0.455-0.54 0.50-0.84 0.454-0.59 0.448-0.5 0.457-0.557 0.446-0.566 0.498-0.344 0.440-0.54 0.499-0.408 0.45-0.540 0.488-0.360 65,8 85,4 65,5 87,6 65,7 83,9 76,0 89,7 60,0 79,3 73,3 90,8 59,6 79,3 78,9 90,5 6, 80,0 Om de två grupperingarna för män och kvnnor jämförs med grupperingen som innehåller alla observationer syns det att de har en liknande struktur. Samma sak gäller om äldre män jämförs med äldre kvinnor samt unga män med unga kvinnor. Däremot är det en påtaglig skillnad när äldre jämförs med unga, unga män med äldre män samt när unga kvinnor jämförs med äldre kvinnor. Detta kan betyda att ålder kan påverka det sammanställda måttet av tryckmätningar men kanske inte kön.

Alla beräkningar gjordes om utan de möjliga outliers, som upptäcktes i föregående laboration. Det visade sig att skillnaden mellan värdena var marginell. Anledningen till att detta kontrollerades beror på att beräkningen baseras på korrelationsmatrisen som i sin tur är känslig för outliers. Därmed skulle dessa outliers kunnat påverka utfallet. Kön- och ålders-variablens inverkan kan undersökas vidare genom att plotta scores för de båda principala komponentererna mot varandra där kön och ålder är markerade. Nedan presenteras denna plot: Figur Olika grupperingar av scores för PC mot PC för en modell med bara tryckmätningsvariabler

I figuren ovan syns det tydligt att modellen för ett gemensamt mått för tryck baserat på alla observationer är oberoende av kön, men inte ett oberoende av åldern. I ett försök att skapa ett sammanställt mått som tar hänsyn till ålder, genomfördes en principalkomponentsanalys som innehöll både tryckmätningsvariabler och ålder. Det visade sig att för olika grupperingar av observationer behövdes det fortfarande två principala komponenter för att förklara 80 procent av den totala variansen. Dock visade det sig att grupperingarna inte hade en liknande struktur. När komponenterna plottades mot varandra där åldersgruppen var markerad blev det en tydlig uppdelning mellan unga och äldre. Istället för att kompensera för åldern blev modellen sämre. Figur 3 Åldersgruppering av scores för alla principala komponenter mot varandra för en modell med tryckmätningsvariabler och ålder Även kön infördes vilket inte gav något resultat: antalet principala komponeter som behövdes för att uppfylla tumregeln blev istället tre samt att ingen gemensam struktur för olika grupperingar fanns.

Det kan kanske skapas ett mått som innehåller tryckmätningsvariablerna och någon mer avancerad funktion för ålder, som kan kompensera för avsaknandet av en gemensam struktur för olika åldersgrupperingar. Tills dess att ett sådant mått upptäcks bedöms modellen för alla observationer i tabellen ovan vara ett möjligt sammanställt mått för ögontryck. Slutsats När principal komponent analysen genomfördes på alla variabler upptäcktes det att första komponenten, som står för den största andelen av variationen, bara bestod av tryckmätnings variabler samt ålder och kön. I och med detta ansågs det vara intressant att undersöka om det går att hitta ett sammanställt mått för bara tryckmätnignsvariablerna. För att skapa en modell för ett sammanställt mått för tryck användes tre modeller. En modell med bara tryckmätningsvariablerna, en modell med tryckmätningsvariablerna och ålder samt en modell med tryckmätningsvariablerna, kön och ålder. Av dessa anses modellen som bara består av tryckmätningsvariabler vara den mest lämpade. Den första komponenten anses vara ett viktat medelvärde, den andra komponenten består av skillnaden mellan medelvärdet för GAT, ORA och PDCT och ett medelvärde för ART-metoderna. Det anses finnas en risk att en modell för ett gemensamt mått för tryck som inte tar hänsyn till ålder kommer att underskatta trycket för äldre och överskatta trycket för unga. För att kringgå problemet bör särskillda modeller skapas för unga och för äldre.