Kandidatuppsats Statistiska institutionen

Relevanta dokument

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Sänkningen av parasitnivåerna i blodet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Din guide till primär biliär kolangita (PBC) Ocaliva PCB Patientfolder SE.indd 1. Tidigare kallad primär biliär cirros

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Exempel på tentamensuppgifter

Multipel Regressionsmodellen

Patientbroschyr. Jinarc (tolvaptan)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Patientbroschyr. Jinarc (tolvaptan)

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Hepatit inledning Grundkurs 2018

Lösningar till SPSS-övning: Analytisk statistik

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Uppgift 1. Produktmomentkorrelationskoefficienten

ORDLISTA HEPATIT C (HCV)

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Leverpåverkan vid obesitas

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

DELOMRÅDEN AV EN OFFENTLIG SAMMANFATTNING

Metod och teori. Statistik för naturvetare Umeå universitet

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Behandlingsguide för patienter

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

HEPATIT. Personalföreläsning Lars Goyeryd

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Fakta äggstockscancer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Uppgift 1. Deskripitiv statistik. Lön

FARMAKOLOGI, SJUKDOMSLÄRA OCH LÄKEMEDELSKEMI. Sjukdomar i lever, gallvägar, pankreas

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Medicinsk statistik II

OFFENTLIG SAMMANFATTNING AV RISKHANTERINGSPLANEN

Alfa-1-antitrypsinbrist Risk för genetisk KOL

Leversjukdomar. 1. Infektioner (virushepatiter)

Lektionsanteckningar 11-12: Normalfördelningen

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Sjukdomar i lever, gallvägar, pankreas

Din vägledning för. Information till patienter

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Alfa 1-antitrypsinbrist

Om hepatit C. och din behandling

Primär biliär cirros (PBC) Vad är primär biliär cirros? Hur vanligt är PBC? Hur diagnostiseras PBC?... 7

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Cover Page. The handle holds various files of this Leiden University dissertation.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Behandlingsguide Information till patienten

Kapitel 10 Hypotesprövning

ZAVEDOS , Version 1.2 OFFENTLIG SAMMANFATTNING AV RISKHANTERINGSPLANEN

PRIMÄR BILIÄR CIRROS (PBC)

Leversjukdomar. 1. Infektioner (virushepatiter) Virushepatiter (forts.): Hepatit A ( skaldjurshepatit )

OBS! Vi har nya rutiner.

Leverns Struktur. Leverlobulus. Portatrakt. Centralven. V. Porta tillför Näringsämnen Hormoner. A.hepatica Tillför O 2.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Till dig som fått VELCADE. Information till patienter och anhöriga

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Levern och alfa-1. (alfa-1-antitrypsinbrist) 1 ALPHA-1 FOUNDATION

10.1 Enkel linjär regression

AUTOIMMUN HEPATIT (AIH)

Statistik B Regressions- och tidsserieanalys Föreläsning 1

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Föreläsning 12: Regression

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Hur skriver man statistikavsnittet i en ansökan?

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning G60 Statistiska metoder

Sammanfattning av riskhanteringsplanen för Synjardy (empagliflozin/metformin)

Ikterus och dess orsaker. Jan Lillienau

Fakta om akut lymfatisk leukemi (ALL) sjukdom och behandling

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Repetitionsföreläsning

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

FRÅGOR & SVAR INFORAMTION OM VELCADE TILL PATIENT

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

LABORATION 3 - Regressionsanalys

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Din vägledning för KEYTRUDA

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

LABORATION 3 - Regressionsanalys

Autoimmuna sjukdomar är sjukdomar som uppkommer p.g.a. av att hundens egna immunförsvar ger upphov till sjukdom.

Transkript:

Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Statistisk modell för att förutsäga leversjukdom Statistical model for predicting liver disease Kasempan Jityen Självständigt arbete 15 högskolepoäng inom Statistik III, ht 2012 Handledare: Göran Rundqvist

Abstract The purpose of this paper was to examine what influences liver disease conditions. Another aim was to predict which factors play crucial role in liver diseases. All results and analyzes were based on data from the survey conducted by Aditya Instutute of Technology and Management. The survey handed to Indian liver patients and the responses were gathered from 583 individuals in the age range 12-70 year-old. The statistical analyzes included chi square test and binary logistic regression model. The results showed that all the factors together were able to predict liver disease to approximately 61 per cent. What turned out to have the greatest impact on the disease conditions is the variable direct bilirubin (DB). The results also showed that each factor itself, however, was insignificant. Sammanfattning Syftet med den här uppsatsen var att undersöka vad som påverkar leverns sjukdomstillstånd. Ytterligare ett syfte var att göra en prognos för de faktorer som spelar en avgörande roll vid leversjukdomar. Samtliga resultat och analyser baserades på data från en undersökning utförd av Aditya Instutute of Technology and Management. Enkäten vände sig till indiska leversjuka och i analyserna behandlades svar från 583 individer i åldersintervallet 12 70 år. De statistiska analyserna innefattade chi två test samt en binär logistisk regressionsmodell. Resultaten visade att alla faktorer tillsammans kunde förutsäga leversjukdomen med en sannolikhet av ungefär 61 %. Det som visade sig ha störst indikation på sjukdomstillståndet var variabeln direkt billirubin (DB). Resultaten visade även att varje faktor själv däremot var osignifikant.

Innehållsförteckning 1. Inledning...1 1.1 Problemformulering...2 1.2 Syfte...2 1.3 Avgränsningar...2 1.4 Metod...2 1.5 Disposition...3 2. Bakgrund...3 2.1 Leversjukdom...3 2.2 Kännetecken och Symptom...3 2.3 levervärden och Leverfunktionstest...5 3. Logistisk Regression...7 4. Test av Variabler och Modellens anpassning...8 5. Multivariat Normalitetstest...9 6. Empirisk Undersökning...10 6.1 Metodval...10 6.2 Jämförelse mellan logistisk regression och diskriminantanalys...10 6.3 Korrelation bland de oberoende variablerna...11 6.4 Datainsamling...13 7. Resultat av Studien...14 7.1 Modellens Anpassning...14 7.2 Parametrars skattning och deras tolkning...15 7.3 Associering av sannolikheter och observerade respons...18 8. Slutsats...19 Appendix...21 Litteraturförteckning...25 ii

1. Inledning Leversjukdom inräknar ett brett sortiment av sjukdomar och förutsättningar som kan påverka människolivet. Levern är ett organ som har storleken på en fotboll som sitter just under bröstkorgen till höger sida av buken. Utan levern kan man inte spjälka mat eller uppta näringsämne. Man kan heller inte bli av med giftiga ämnen och överleva. Leverproblem kan ärvas eller uppstår till följd av virus och kemikalier. Vissa leverproblem är tillfälliga och försvinner på egen hand, medan andra leverproblem kan pågå under lång tid och leda till allvarliga komplikationer. Ett av de kända leverproblemen är alkoholinducerad leversjukdom som kostar samhället mycket pengar. 1 Alkoholkonsumtionen var år 2005 globalt cirka 6,13 liter ren alkohol per person över 15 år, nära 29 procent var hembränt eller illegalt distribuerad alkohol. I Europa var snittkonsumtionen 12,2 liter/person i Sverige 10,3 liter/person och i Ryssland 15,7 liter/person. I slutet av 1990-talet och i början av 2000-talet ökade alkoholkonsumtionen i Sverige dramatiskt. År 2004 nådde årskonsumtionen rekordhöga 10,5 liter ren alkohol per svensk över 15 år. Sedan dess har konsumtionen minskat och var under 2009 9,3 liter ren alkohol. En positiv utveckling, men fortfarande dricker svenskarna närmare 20 procent mer än i mitten av 1990-talet och konsumtionen är ojämnt fördelad, både vad gäller ålder och kön. Det finns epidemiologiska data som visat på en övertygande korrelation mellan alkoholkonsumtion per capita och prevalens av levercirrhos. Alkohol orsakar 50-60% av de i Sverige diagnostiserade levercirrhoserna. Överkonsumtion av alkohol leder till fettlever och kan leda till alkoholhepatit och/eller levercirrhos. 15-30% av de som överkonsumerar alkohol utvecklar levercirrhos. Diagnostiska kriterier för alkoholinducerad leversjukdom saknas. Det finns inga labprovavvikelser eller histologiska karakteristika som är 2 patognomona för alkoholinducerad leverskada. Inte heller finns det någon definierad gränskonsumtion av alkohol som alltid leder till leverskada. Men som sagt att det inte enbart alkohol som kan orsaka leversjukdom, liksom andra delar av kroppen kan cancer skada levern. Man kan dessutom ärva en leversjukdom såsom hemokromatos. Hemokromatos är en autosomalt recessiv sjukdom och en av de vanligaste ärftliga defekterna i norra Europa. Prevalensen är 1/300 individer i populationen. På grund av att leversjukdomar orsakas av flera olika anledningar och kostar individers pengar och liv. Det är därför viktigt att upptäcka sjukdomarna tidigt så att man hinner bota eller mildra sjukdomssymptomen. För att upptäcka sjukdomarna måste man känna till korrelationer mellan olika faktorer och sjukdomstillståndet. Om man känner till 1 Global Status Report on Alcohol and Health 2011, World Health Organization & http://www.iq.se/content/om-alkohol/alkoholkonsumtion.aspx [Åtkomst: 20 oktober 2012] 2 Betecknar symptom eller fynd som är associerat enbart med ett sjukdomstillstånd i motsats till flera 1

faktorerna som spelar en avgörande roll med sjukdomstillståndet så lyckas man då upptäcka sjukdomarna. I denna undersökning tar man reda på dessa samband. 1.1 Problemformulering Lever är ett av de mest livsviktiga organen. Om lever har bristande funktionsförmåga drabbas man följaktligen av olika slags leversjukdomar exempelvis Hepatit (leverinflammation). Därför är det intressant att undersöka vilka faktorer som påverkar individers leversjukdom. Är det möjligt att med hjälp av en statistisk modell förutsäga individers leversjukdomar? Stämmer denna omständighet med de teorier som finns? 1.2 Syfte Syfte med denna uppsats är att med en binär logistisk modell undersöka hur variablerna Direkt Bilirubin (DB), Alkaliskt fosfatas (ALP), Totalprotein (TP) och Albumin/Globulin-kvot (A/G) påverkar individers leversjukdomar. 1.3 Avgränsningar Studien begränsas till de indiska leversjukorna i nordöstra Indien under 2012. Data har samlats ur centrum för maskininlärning och intelligenta system 3. De 10 variablerna finns tillgängliga men 4 av dessa valdes att inräkna i undersökningen. De består av Direkt Bilirubin (DB), Alkaliskt fosfatas (ALP), Totalprotein (TP) och Albumin/Globulin-kvot (A/G). Variablerna baseras på levervärde som är en grupp laboratorieanalyser. De kontrolleras av blodprov och används för att mäta funktionen hos patients lever. Flera variabler än de som inkluderas i denna undersökning kan ha innebörd för patienters sjukdomstillstånd. Av den orsaken att tid samt tillgång till data är begränsade har dock inte fler variabler undersökts. 1.4 Metod Utifrån centrum för maskininlärning och intelligenta system under 2012 hämtades statistik om indiska leversjuka. Det finns totalt 583 individer indelade i två grupper. De som drabbades av ett slags leversjukdom och de som var friska. Helt slumpmässigt drogs sedan var och en av grupperna 50 individer för att sedan ska använda i analysprocessen. Med hjälp av en logistisk regression skattades därefter sambandet mellan de oberoende variablerna och sjukdomstillståndet där utfallen redan kända (sjuk eller frisk). De oberoende variablerna matades in för att kontrollera om antingen var signifikant eller inte. De skattade koefficienterna användes sedan för att beräkna sannolikheter och att bygga en modell. Den avslutade modellen användes sedan för att förutsäga sjukdomstillståndet. För analysen användes programmen SAS och SPSS. 3 Center for machine learning and intelligent systems 2

1.5 Disposition I avsnitt 2 beskrivs leversjukdomar i allmänhet, vad som är sjukdomarna, de vanligaste leversjukdomar som människor ofta drabbas av samt leverfunktionstest. Vidare förklaras i avsnitt tre och fyra om metoden som används i denna studie samt olika testen som genomfördes för att testa signifikansnivåerna på data. I avsnitt fem beskrivs om multivariat normalfördelning bland olika variablerna. Den empiriska undersökningen kommer i sjätte avsnittet där metodval, korrelation mellan variablerna, datainsamling och metodjämförelse upplysas. Resultat på undersökning ges i avsnitt sju. Det utgör bl. a. modellens anpassning, odds och sannolikhetsberäkning och associering av sannolikheter och observerade respons. Slutligen redovisas slutsatsen av uppsatsen och förslaget till fortsatt forskning. 2. Bakgrund 2.1 Leversjukdom Är ett samlingsnamn som åsyftar till skador eller sjukdomar i levern. Leversjukdomar kategoriseras både som orsak och effekt som har på levern. Orsaker kan vara infektion, skada, exponering för läkemedel eller giftiga föreningar, en autoimmun process eller en genetisk defekt som leder till deponering och bygga upp skadliga ämnen såsom järn eller koppar. Effekter kan vara inflammation, ärrbildning, hinder, koagulationssvårigheter och leversfett. 2.2 Kännetecken och symptom Symptom för de vanligaste leversjukdomarna är som följande: 2.2.1 4 Alkoholinducerad leversjukdom utvecklas vanligen efter år av överdrivet alkoholintag. Ju längre tid som alkohol överdrivet konsumeras och ju större mängd intas, desto högre sannolikheten att utveckla alkoholrelaterade leversjukdomar och andra leverproblem. Symptomen är oftast värre efter en period av drickande, och tenderar att variera med svårighetsgraden. Symptomen kan vara buksmärta och ömhet, ascites (vätskeansamling mellan membranen), förvirring, muntorrhet, trötthet, feber, gulsot, aptitlöshet, illamående och viktökning på grund av ascitesen. 2.2.2 Levercancer är ett växande leverproblem, och förblir i allmänhet oupptäckta tills den har nått långt framskridna eftersom de flesta människorna inte uppvisar symptomen tidigt från början. Genom att skydda sig från cirrhos och hepatit dvs. de två främsta orsakerna till sjukdomen kan man kraftigt minska risken att utveckla levercancer. Symptomen kan vara en gul 4 källa till avsnitten 2.2.1till 2.2.6: http://www.puristat.com/livercleansing/liver-disease-symptoms.aspx [åtkomst den 5 november 2012] 3

missfärgning av huden och ögonvitorna (gulsot), buksmärta särskilt i den övre högra delen av buken, svullen buk, förstorad lever, allmän svaghet och trötthet, aptitlöshet, illamående, kräkningar och viktnedgång. 2.2.3 Levercirrhos anses allmänt vara den 4: e etappen av alkoholinducerad leversjukdom, ett progressivt tillstånd som orsakar leverskador. Den vanligaste orsaken till levercirrhos, är kronisk alkoholism som utgör ungefär 40 procent av de 26,000 människor som dör av sjukdomen. Cirrhosen kännetecknas av en ersättning av frisk vävnad med fibrös vävnad, regenerativ noduler och skrumplever. Den resulterande härdningen av levern stör blodcirkulationen och så småningom leder till irreversibel leverskada och en fullständig förlust av leverfunktionen. Under de tidiga stadierna upplever många människor med cirrhos inga leverskadors symptom. Dock som ärrvävnad ersätter friska celler och leverfunktion börjar svika, kan en person uppleva en mängd olika symptom och komplikationer. Symptomen kan vara buksmärta, onormal ansamling av vätska i bukhålan (ascites), blödning från svullna venerna i matstrupen eller tarm, Mörkt cola-färgad urin, blåmärken, utmattning, trötthet, gallsten, insulinresistens och typ 2-diabetes, kliande händer och fötter, aptitlöshet, levercancer, leversövervikt, förlust av intresse för sex, illamående och andra system som fungerar som impotens, nedsatt njurfunktion och benskörhet, portal hypertension (ökat blodtryck i venerna som transporterar blod från bukorganen till levern), känslighet för läkemedel, små spindel-liknande blodkärl under huden, svullnad av ben och fötter från behålls vätska (ödem), hepatisk encefalopati (toxiner i blodet eller hjärnan). 2.2.4 Fettlever (Alkoholfria fettlever - NAFLD) - Fettlever (eller steatos) anses allmänt vara den 1: a etappen av alkoholinducerad leversjukdom. Den exakta orsaken till NAFLD är oklar. Många forskare tror dock att metabola syndromet d.v.s. ett kluster av sjukdomar som ökar risken för diabetes, hjärtsjukdomar och stroke 5 spelar en avgörande roll i utvecklingen av NAFLD. Enkel fettlever (steatos) finns inga symptom medan NASH (Alkoholfritt steatohepatitis) har inflammation som symptomet vilket är tecken på att nekros börjar dyka upp. Så småningom bildas ärrvävnad vilket gör att mer levercellers skada kan komma inträffa. Cirrhos är den sista nivån av svårighetsgrad till NAFLD som resulterar i en hård lever (skrumplever) som inte kan fungera. Cirrhos kan vara dödlig. Man kan ha NAFLD utan några tecken eller symtom. Om det finns symptom, är de normalt vaga och icke-specifik. I de tidiga stadierna kan man uppleva trötthet, sjukdomskänsla, eller en molande värk i övre högra delen av buken. 5 Mayo Foundation for Medical Education and Research (MFMER), Nonalcoholic fatty liver disease http://mayoclinic.com/health/nonalcoholicfatty-liver-disease/ds00577/dsection=3 4

2.2.5 Hepatit är en gastroenterologisk sjukdom. Hepatit betyder inflammation i levern. Hepatit är inte en utan många sjukdomar - Hepatit A till E - där levern blir inflammerad och dess celler skadas som en följd av inflammatoriska kemikalier som produceras och släpps i levern. 6 Kronisk hepatit B-infektion ökar en persons risk att utveckla levercancer med hundra gånger. Symptomen på olika hepatits typers är liknande. Det mest märkbara är gulsot. Eftersom den virala infektionen sprids i levern blir orgeln förstorade och ofta orsakar buksmärtor. Men symptomen kan även vara mörk urin, diarré, förstorad lever, trötthet, feber, gulsot, ledvärk, aptitlöshet, sjukdomskänsla, lätt feber, kräkningar två till tre gånger per dag under de första fem dagarna. Vissa former av hepatit visar mycket få symptom. De presenterar endast när långvariga inflammationen redan lett till cirrhos. Notera att en alkoholhaltig hepatit (steatonecrosis eller akut hepatit) allmänt anses vara den 2: a etappen av alkoholrelaterad leversjukdom. 2.2.6 Gulsot är inte direkt en leversjukdom, utan snarare ett symptom som kan uppstå som en följd av en mängd olika leversjukdomar. Det verkar som en gulaktig missfärgning av huden och ögonvitorna (sclerae) orsakas av onormal ansamling av bilirubin i blodet. Ett orange-gult pigment är bilirubin som är en del av galla. Den bildas i levern som en biprodukt av gamla blodkroppar. När det finns för många röda blodkroppar för levern att hantera, bygger gult pigment i kroppen resulterar i gulsot vilket är ett synligt tecken på leverproblem. Närvaron av gulsot är en indikator på att en person lider av någon av en mängd olika sjukdomar inkluderande Acetaminophen toxicitet, alkoholrelaterad leversjukdom (alkoholrelaterad cirrhos), autoimmun hepatit, bilirubin bearbetningssjukdomar (Crigler-Najjar, Dubin-Johnson, Gilberts eller rotorns syndrom), Blockerad galla kanaler (orsakad av gallsten, infektion, eller tumörer), kronisk aktiv hepatit exempelvis. 2.3 Levervärden och leverfunktionstest Ett antal leverfunktionstest finns tillgängliga för att testa korrekt funktion av levern. Dessa test är för närvaro av enzymer i blodet mest rikligt förekommande i levervävnad eller metaboliter. Behandling vid leversjukdomar har förbättrats avsevärt de senaste decennierna och inbegriper allt från diet till läkemedel och mycket avancerad kirurgi. Trotts detta bygger en del av diagnostiken fortfarande på biopsi. Patienter med leversjukdomar utvecklar symptom sent i sjukdomsförloppet och de upptäckas ofta på grund av att leverprover ingått som ett led i annan utredning. Leverfunktionstester är blodprov som används för att hjälpa till att diagnostisera och övervaka leversjukdom eller skada. Några av dessa test mäter hur väl levern utför sina normala funktioner för att producera 6 Enligt Emory Healthcare, Emory Liver Transplant Center, Disease Information http://www.emoryhealthcare.org/departments/transplant/livertransplant/disease_refer_phys.html. 5

protein och rensa bilirubin, (en blod restprodukt). Andra leverfunktionstest mäter enzymer som leverceller släpper som ett svar på skada eller sjukdom. Testen mäter nivåerna av vissa enzymer och proteiner i blodet. De uppmätta parametrarna innefattar PT/INR, aptt, albumin, bilirubin (direkt och indirekt) och andra. Andra villkor än leversjukdom eller skada kan leda till onormala leverfunktionsvärden. Testresultat kan vara normalt i människor som har leversjukdom eller skada. En läkare kan utföra leverenzym och leverfunktionstest om någon tar en medicin som kan skada levern eller har leversjukdom eller har symtom på leversystem (buksmärtor, illamående och kräkningar, eller gul hud) eller dricker alkohol alltför mycket. Leverprover kan göras tillsammans i en panel eller testas var för sig. Levern filtrerar och bearbetar blodet när det cirkulerar genom kroppen. Den metaboliserar näringsämnen, avgiftar skadliga ämnen, gör blodkoagulationsproteiner och utför många andra vitala funktioner. Cellerna i levern innehåller proteiner som kallas enzymer som driver dessa kemiska reaktioner. När leverceller har skadats eller förstörts läcker enzymerna i cellerna ut i blodet, där de kan mätas genom blodprov. Ämnen som blivit intresserade av oss att undersöka om det finns ett starkt samband mellan oberoende variabler och sjukdomstillstånd består av bilirubin, alkaliskt fosfatas, totalt protein och Albumin/Globulin-kvot. 2.3.1 Biliribin Åttio procent av alla bilirubin härrör från metabolismen av hemoglobin frigörs från senescenta röda blodkroppar. Hemoglobin som frigörs från röda blodkroppar omvandlas till okonjugerad (även kallad indirekt) bilirubin i det retikuloendoteliala systemet. Daglig produktion av okonjugerat bilirubin är 250 till 350 mg. Eftersom detta bilirubin är vattenolösligt, skall det transporteras till levern genom att binda till albumin. Den cirkulerande halveringstiden för okonjugerat bilirubin är <5 minuter. I levern överförs okonjugerat bilirubin från albumin i hepatocyter där det blir konjugerad med glukuronsyra. Konjugerat bilirubin (även kallad direkt bilirubin) därefter utsöndras i gallan och transporteras till tarmen. Konjugerat bilirubin är väsentligen frånvarande från blodet hos friska individer. I den distala ileum och kolon konverteras dold konjugerat bilirubin till stercobilinogen av bakteirer. En liten del återabsorberas i den portala cirkulationen och utsöndras i urinen som urobilinogen. Denna metaboliseringsväg detekteras inte i plasma hos friska individer. För leversjuka så är det dock att hepatocyter skadas och inte kan metabolisera eller utsöndra bilirubin på grund av hemolytisk anemi, akut viral hepatit, avancerad cirrhos och gallgångsobstruktion. Bilirubin produktionen överstiger och leder till gulsot som är den kliniska manifestationen av en förhöjd av plasma bilirubins nivå. Diagnosen genomförs genom att titta på nivåerna av direkt bilirubin. Om direkt bilirubin är normalt, då är problemet ett överskott av indirekt bilirubin. Om direkt bilirubin är förhöjd konjugerar leverns bilirubin normalt men kan inte utsöndra det. Gallgångsobstruktion av gallsten eller cancer bör misstänkas i detta fall. 6

2.3.2 Alkaliskt fosfatas Alkaliskt fosfatas (ALP) är ett enzym i de celler som bekläder gallans ledningar i levern. ALP i plasma kommer att stiga i stora mängden om det finns gallgångsobstruktionen, intrahepatisk kolestas eller infiltrativa sjukdomar i levern. ALP är också närvarande i ben och placentavävnad. Ett test för alkaliskt fosfatas (ALP) kan göras för att kontrollera leversjukdom eller skada på levern. En ALP test kan också användas för att kontrollera levern när läkemedel som kan skada levern tas eller för att kontrollera benproblem såsom osteomalaci, bentumörer och Pagets sjukdom. 2.3.3 Totalprotein Totalproteinstest kan återspegla näring i kroppen och kan användas för att screena och hjälpa till att diagnostisera njursjukdom, leversjukdom, och många andra tillstånd. Ibland vissa tillstånd upptäcktes med rutintestning innan symptomen börjat synas. Om totalprotein är onormal, måste ytterligare test utföras för att identifiera vilket specifikt protein är onormalt lågt eller högt, så att en specifik diagnos kan genomföras. Resultat från ett totalproteinprov ger läkaren information om ens allmänna ställning om hälsa med avseende på ens kost och/eller tillstånd som innebär stora organ såsom njurarna och levern. Men om resultaten är onormala är ytterligare testning krävs vanligtvis för att diagnostisera sjukdomen. Låga totala proteinnivåer kan föreslå en leversjukdom medan höga totala proteinnivåer kan ses med kronisk inflammation eller infektioner såsom viral hepatit. 2.3.4 Albumin/Globulin-kvot Normalt finns det lite mer albumin än globulin i kroppen, vilket ger en normal A/G-kvot av drygt 1. Eftersom sjukdomstillståndet påverkar de relativa förändringarna i albumin och globulin på olika sätt kan detta ge en ledtråd till orsaken av förändringen i proteinnivåer. En låg A/G-kvot kan återspegla överproduktionen av globulinet exempelvis som det kan setts i multipelt myelom eller leversjukdomar. En hög A/G-kvot tyder på underproduktion av immunoglobulin som kan ses i vissa genetiska brister och i vissa leukemier. En normal A/G-kvot är cirka 1,1 till 1,8. Om läkaren finner höga eller låga kvoten, kan han/hon råder ytterligare test såsom leverenzymtest, serumproteintest och så vidare. Det vill säga att det inte finns starkt medicinsbevis att för låg eller för hög A/G-kvot alltid kan leda till leversjukdomen. Det måste bedömas tillsammans med andra prov. 3. Logistisk regression Valet av att använda en logistisk regression beror på att man är intresserad av att undersöka sambandet mellan en beroende variabel, som endast kan anta två möjliga värden, och oberoende variabler. Logistisk modell är en matematisk 7

modelleringsansats som kan användas för att beskriva sambandet mellan de oberoende variablerna X 1, X 2,, X k och en dikotomisk variabel Y, där Y är typiskt kodad som 1 eller 0 för dessa två möjliga kategorier. I detta fall är Y kodad som 1 om sjukdomen föreligger och som 0 om sjukdomen inte föreligger. Den logistiska modellen beskriver förväntade värde för Y i termer av följande logistiskt uttryck: E Y = 1! 1 + exp β! +!!! β! X! (1) där β 0 är ett estimerat intercept, β j är estimerade värde på koefficienterna, E(Y) är ett förväntat värde för beroende variabel, X är en oberoende variabel och Y är en beroende variabel. Y följer den statistiska principen om förväntade värde E(Y) som är lika med sannolikheten att händelse inträffar pr(y=1). På grund av det så kan uttrycket för den logistiska modellen skrivas i den form som kan beskriva sannolikheten för en händelse som: pr Y = 1 = 1! 1 + exp (β! +!!! β! X! ) (2) där β 0 är ett estimerat intercept, β j är estimerade värde på koefficienterna, pr(y=1) är sannolikheten att händelse inträffar, X är en oberoende variabel och Y är en beroende variabel. Den statistiska modellen i (2) är användbar i många olika situationer där en beroende variabel endast kan anta en av två möjliga värden såsom situation i denna undersökning. Första steget i en logistisk regressionsanalys är att postulera en matematisk modell som kan beskriva medelvärde för Y (sjukdomen finns) som en funktion av X:et och β värden. Modellen skattas sedan genom att använda en maximum likelihoodfunktion. 4. Test av variabler och modellens anpassning 4.1 Maximum Likelihood-metod Maximum likelihood-metod är den mest omtyckta tekniken för parametrars uppskattning på en logistisk modell. Likelihoodfunktionen på en logistisk modell ges av 8

L =!!!! e!" 1 + e!"!! 1 1 + e!"!!!! (3) där L är en maximum likelihoodfunktion, β är ett estimerat värde på koefficienten, X är en oberoende variabel och Y är en beroende variabel, vilket ger i sin tur log-likelihoodfunktionen l =!!!! y! ln e!" 1 + e!"! + 1 y!!!! ln 1 1 + e!" (4) där l är ett log av den maximum likelihoodfunktionen, β är ett estimerat värde på koefficienten, X är en oberoende variabel och Y är en beroende variabel. Det är dock mer praktiskt att använda logaritmens funktion eftersom den är monopol växande och uppnår sitt högsta värde vid samma punkt som den vanliga maximum likelihoodfunktionen. Uppskattningen för parametern β fås genom att maximera l (4). 4.2 Wald statistika Wald statistika är den statistika som kan användas för att avgöra om en variabel skulle tas bort eller ej. Nollhypotesen i ett test definieras så att koefficienten inte är signifikant d.v.s. det finns ingen signifikant relation mellan koefficienten och utfallet. Om den i: te variabeln inte är kategorisk så är Wald statistikan definieras av Wald = β! σ!! (5) Där β är ett värde på den skattade koefficienten och σ är ett medelfel. Statistikan följer χ! fördelning med frihetsgrader. 4.3 Likelihood ratio test Modellens anpassning kan testas genom att titta på sannolikhetskvoten (likelihood ratio s test). Sannolikhetskvoten definieras som en sannolikhet att den skattade modellen kan representera data. För att testa nollhypotes transformeras likelihoodfunktionen till -2log L. Statistikan -2log L följer en χ! fördelning med n-q frihetsgrader, där n är ett antal observationer och q är ett antal parametrar i modellen. 9

5. Multivariat normalitetstest Data som följer en multivariat normalfördelning kommer från en speciell täthetsfunktion. Det är relativt lätt att generera slumpmässiga urval som är normalfördelade. Dessvärre är det mycket svårt att avgöra om en datamängd faktiskt kommer från en multivariat normalfördelning. Den mest kända metoden för att utföra testet på detta är dock Mardias test som kan användas för att testa en multivariat snedhet och kurtosis. De ger oss möjligheten att testa nollhypotesen om multinormalitet. 7 Men generellt sett så "fuskar" vi genom att verifiera några villkor som gör att datamängden troligtvis följer en multivariat normalfördelning. Den följande metoden används i alla fall till denna undersökning med hjälp av dataprogram SPSS. 1. Kolla om var och en av variablerna är normalt separat Det kan göras genom att kontrollera med QQ diagram. 2. Kolla om varje par av variablerna gör en ellips Det kan göras genom att kontrollera med ett spridningsdiagram och kanske med ett bivariat box-diagram. 3. Kolla om avståndet från varje punkt till mitten av punkterna är χ! -fördelad Det kan göras genom att kontrollera med en χ! diagram. 6. Empirisk undersökning 6.1 Metodval Det är viktigt med att välja anpassande och ändamålsenlig metod till undersökningen. Det är målsättning och typen av data man har som avgör vilket angreppssätt passar bäst. I denna undersökning har målsättningarna att hitta faktorer som kan förklara sjukdomen signifikant och att finna en modell som kan användas för att förutsäga i dylika fall framöver. De två metoder som kan vara anpassade till data är en logistisk regression som vi valt att använda som analysmetod i denna studie, och en diskriminantanalys. 6.2 Jämförelse mellan logistisk regression och diskriminantanalys Valet mellan dessa två metoder baserar på antaganden som gjorts av de två metoderna själva. En diskiminantanalys antar att data är från en multivariat normalfördelning, medan en logistisk regression inte gör något sådant fördelningsantagande. Överträdelse av multivariat normalitetsantagandet kan ha påverkan till testet. Om man vet att normalitetsantagandet märkligt kommer att överträdas eller om det är grumligt så rekommenderar man att använda en logistisk regression för data som har en blandning av kategoriska och kontinuerliga variabler. I fall att det inte finns några kategoriska variabler inblandade alltid bör den logistiska regressionen användas. En diskriminantanalys bör emellertid användas när multivariat 7 källa: http://www.stat.sc.edu/~habing/courses/530spssf05.html 10

normalitetsantagandet inte överträds eftersom diskriminatanalysen är beräkningsmässigt mer effektiv än den logistiska regressionen. Figur 1: Q-Q diagram av variablerna direkt bilirubin och alkaliskt fosfatas 8 enligt QQ diagrammen ovan så såg vi att punkterna som representerar variablerna direkt bilirubin (DB) och alkaliskt fosfatas (ALP) inte stämmer bra med den normala linjen medan diagrammen av variablerna totalt protein (TP) och albumin/globulin-kvot (A/G), som inte finns här utan de hänvisas till appendixet, stämmer någorlunda bra med den normala linjen. Och om vi också tittar på χ! diagramet (det hänvisas till appendixet) kan vi se att det inte heller stämmer bra med den normala linjen. Vi drar härmed slutsatsen att det inte finns ett verkligt bevis att våra variabler följer en multivariat normalfördelning. Det passar alltså bättre att välja en logistisk regressionsanalys framför en discriminantanalys i och med att den logistiska regressionen inte gör något såndant antagande om multivariat normalfördelningen. 6.3 Korrelation och determinationskoefficient bland de oberoende variablerna För att välja en lämplig modell undersöks korrelationen bland de oberoende variablerna. Korrelationen är ett mått på hur väl punkterna ansluter till regressions-linjen. Ju närmare linjen punkterna ligger desto högre är korrelationen. Med andra ord kan man också säga att korrelationen är ett mått på hur starkt sambandet är mellan två variabler eller flera variabler. Plustecken visar att det är en positiv korrelation. Minustecken visar att det är en negativ korrelation. Ett värde som lika med 1 innebär att det är perfekt korrelation medan nollan innebär att det inte finns någon korrelation alls. Vi försöker att hitta om det finns ett linjärt samband mellan olika variablerna eller inte. Vi vill 8 För fullständigt diagram hänvisas till appendix. 11

inte att våra variabler har starkt samband med varandra annars skulle det tydas på att det finns ett multikolinjäritetsproblem. Vi kontrollerar det genom att köra en enkel linjär regressionsanalys och sedan beräkna 1/1-R 2 som bör vara mindre än 10. Om 1/1-R 2 är mer än 10 betyder det att multikolinjäritetsproblem kan finnas. Tabell 1: Determinationskoefficienten r² ur en linjär regressionsanalys av ekvationen 9 DB = β! + β! ALP + β! TP + β! AG + ε leder till att vi får 1 1 R!!" = 1,374 vilket är mindre än 10 Model R R Square Adjusted R Square 1,521 a,272,249 Tabell 2: Determinationskoefficienten r² ur en linjär regressionsanalys av ekvationen ALP = β! + β! DB + β! TP + β! AG + ε leder till att vi får 1 1 R!!"# = 1,368 vilket är mindre än 10 Model R R Square Adjusted R Square 2,519 a,269,247 Tabell 3: Determinationskoefficienten r² ur en linjär regressionsanalys av ekvationen TP = β! + β! DB + β! ALP + β! AG + ε leder till att vi får 1 1 R!!" = 1,280 vilket är mindre än 10 9 Vad olika förkortningar betyder hänvisas till sidan 15 punkten 7.2 12

Model R R Square Adjusted R Square 3,468 a,219,194 Tabell 4: Determinationskoefficienten r² ur en linjär regressionsanalys av ekvationen AG = β! + β! DB + β! ALP + β! TP + ε leder till att vi får 1 1 R!!" = 1,351 vilket är mindre än 10 Model R R Square Adjusted R Square 4,510 a,260,237 Med hjälp av de fyra tabellerna ovan fick vi veta då att värdena på 1/1-R 2 är mycket mindre än 10 vilket betyder att våra variabler har väldigt låg relation till varandra och kan därför användas för att bygga en modell.. 6.4 Datainsamling Material som består av 4 variablerna och har samlats ur Center for machine learning and intelligent systems analyserades i denna undersökning. I den ursprungliga databasen har 10 variabler och 583 observationer tillgängliga att använda. Istället för att använda all information så gjorde vi om datamaterialet så att endast 4 variablerna valdes. Dessa 4 variabler valdes på grund av att de inte ha några korrelationer mot varandra medan andra variabler såsom albumin, som också finns tillgängliga att utnyttja, valdes inte i och med att det har hög korrelation mot totalprotein som är en av våra variabler. Albuminet är en typ av protein som är mest förekommande i blodet vilket betyder att när man mäter totalprotein så ingår också albuminet. Man behöver därför inte mäta albuminet var för sig en gång till. Kön och ålder är de andra variabler som inte ingick i studien och detta är på grund av att vi är intresserade av faktorer som matvanor och livsstil mer än könet och åldern samt vi baserar vår studie först och främst på leverfunktionstest som är testet använt på sjukhus. Men de andra variablerna kan i alla fall ha inneborden till sjukdomstillståndet. Om någon är intresserad så kan man tillägga andra variablerna till en ny modell. Efter vi fått 4 variablerna med 583 observationer drog vi sedan helt slumpmässigt urvalet till 100 13

observationer. Det består av 50 sjuka och 50 friska. Det nya materialet skrevs in i excel och matades sedan in i programmet SAS för att köra en logistisk regressionsanalys. SAS utskriften analyserades och tolkades sedan med hjälp av tidigare teorier. 7. Resultat av studien 7.1 Modellens anpassning Den logistiska regressionsmodellen bildas genom att använda de oberoende variablerna Direkt bilirubin, Alkaliskt fosfatas, Totalprotein och Albumin/Globulin-kvot. Första steget är att analysera modellanpassning. Den nollhypotes och den alternativa hypotes som krävs för att testa modellanpassningen är H 0 : Hypotesmodellen passar data H a : Hypotesmodellen passar inte data Det är självklart att vi inte vill förkasta H 0. H 0 förkastas ej betyder att vår modell anpassar till data. Statistiken som används baserar på maximum likelihoodfunktionen. Likelihoodfunktionen, L, är definierad som sannolikheten att den uppskattade hypotesmodellen kan väl representera input data. För att testa hypotesen transformeras L till -2logL. Statistikan -2logL eller även kallad likelihood ratio är χ! fördelad med frihetsgrader n-q där q är parametrarna i en modell. Modellen presenteras med 2 värden av -2logL : det ena värdet är för modell som enbart interceptet inkluderas (dvs modellen utan någon variabel) medan det andra värdet är för modell som både interceptet och variablerna (även kallad covariaten i programmet SAS) inkluderas. Ur SAS utskriften är värdet på sannolikhetskvoten (likelihood ratio) med enbart interceptet lika med 138,629 och är χ! fördelad med frihetsgrader som är lika med 99 (100 1). Om man tittar på en χ! tabell med signifikansnivå 0,05 (α = 0,05) så får man det kritiska värdet på 123.23 d.v.s. att det observerade värdet är högre än det kritiska värdet och därför är signifikant på α = 0,05. H 0 förkastas i detta fall, tyder på att hypotesmodellen med endast interceptet inte anpassar till data. Värdet på sannolikhetskvoten (likelihood ratio) är emellertid lika med 108.937 med 95 frihetsgrader (100 5) på den andra modell som både interceptet och covariaten (variablerna) inkluderas. Den andra modellen är däremot ej signifikant på α = 0,05. Detta är på grund av att det observerade värdet på 108.937 är mindre än det kritiska värdet på 118.75. H 0 förkastas i detta fall ej. Hypotesmodellen på den här gången anpassar väl till data. Vi kan, med andra ord, påstår att variablerna har en effekt mot sjukdomstillståndet. Vi testar också huruvida koefficienterna är signifikanta d.v.s. är skilda från noll. Nollhypotesen och alternativa hypotesen för modellen är 14

H! : β! = β! = β! = = β! H! : minst ett β! 0 ; (i = 1, 2, 3,, p) Hypotesen kan på samma sätt som tidigare bildas genom att använda χ! statistika som är rapporterad i SAS utskriften Score (hänvisas till appendixet). Denna statistika, som inte baserar på likelihoodfunktionen, har en asymptotisk χ! fördelning med p frihetsgrader, där p är antalet oberoende variabler. De uppskattade koefficienterna är tillsammans statistiskt signifikanta på α = 0,05 d.v.s. att de är skilda från noll. De har alltså det observerade värdet χ! på 22.24 med 4 frihetsgrader som är högre än det kritiska värdet som ligger just på 9.49. H 0 förkastas. Detta kan tolkas som att det finns ett samband mellan den beroende variabeln Y (sjukdomstillståndet) och de oberoende variablerna. Vi testar alltså både modellen och koefficienterna om de är signifikanta eller ej. Detta är på grund av att vi vill vara säkra på att vår modell kan väl använda till sjukdomsdiagnostiseringen. Andra mått på modellanpassningen (goodness-of-fit) är dock Akaike s information criterion (AIC) och Schwartz s criterion (SC). De här är det alternativa måttet på modellanpassning som har frihetsgrader justerade. Dessa två statistikor har ingen samplingfördelning och används vanligen heuristiskt för att jämföra anpassningen av olika modeller som är skattade genom att använda data från samma undersökning. Ju mindre värde de har, desto bättre. Men för den här studien har vi kontrollerat bara på en modell så att vi inte behöver använda dem på denna undersökning. 7.2 Parametrars skattning och deras tolkning Ur SAS utskriften kan den logistiska regressionsmodellen skrivas som ln p = 1,547 + 0,067DB + 0,003ALP + 0,041TP 0,235AG (6) 1 p Där DB är Direkt Bilirubin ALP är Alkaliskt fosfatas TP är Totalprotein AG är Albumin/Globulin-kvot Tabell 5: Resultat från maximum likelihoodanalysen Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1-1.5474 1.5686 0.9731 0.3239 15

Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq DB 1 0.0668 0.0389 2.9463 0.0861 ALP 1 0.00317 0.00255 1.5455 0.2138 TP 1 0.0409 0.0243 2.8342 0.0923 AG 1-0.2347 0.1017 5.3235 0.0210 Koefficienternas medelfel kan användas för att beräkna t värde, som i detta fall är -0,99 (-1,5474/1,5686) för interceptet, 1,72, 1,24, 1,69 och -2,31 för variablerna Direkt Billirubin, Alkaliskt fosfatas, totalprotein och albumin/globulin-kvot respektive. Kvadrater av de här t värdena ger oss Wald χ! statistikor, som kan utnyttjas för att avgöra om de oberoende variabler vi har är signifikanta eller ej. Ur utskriften är endast koefficienten av albumin/globulin-kvot som är statistiskt signifikant medan de andra koefficienterna är ej signifikanta på signifikansnivå α = 0,05. På grund av detta kan vi dra slutsats att variablerna var för sig inte har någon fullständig betydelse till sjukdomstillståndet. Men från tidigare visste vi dock att de oberoende variablerna tillsammans har effekten på sjukdomstillståndet eftersom modellen med variablerna gör att H 0 ej förkastas. I anledning av det fortsätter vi oss att lita på denna modell. Det är eventuellt inte bäst modell vi fått men den kan i alla fall använda för att förutsäga sjukdomen med en begränsad utsträckning. Koefficienternas uppskattning av de oberoende variablerna tolkas på samma sätt som de koefficienterna av den multipla regressionsanalysen. Koefficienten talar om hur den beroende variabeln kommer att öka i fall att den oberoende variabeln har förändrat. Ur ekvation 6 har vi fått värdet på direkt bilirubin (DB) som är lika med 0,067 vilket kan tolkas som log-odds (logit) av att sjukdomen föreligger skulle öka med 0,067 givet att andra variablerna hålls konstanta. Variablerna alkaliskt fosfatas (ALP), totalprotein (TP) och albumin globulinkvot (AG) kan tolkas på ett analogt sätt som variabeln DB. Det måste märkas emellertid att sambandet mellan log-odds och de oberoende variablerna är linjära medan sambandet mellan odds och de oberoende variablerna är ickelinjära. Det leder till att tolkningarna av de oberoende variablerna också förändrar. Ekvation 6 kan omskrivas som 16

𝑝 =𝑒 1 𝑝!!,!"#!!,!"#!"!!,!!"!"#!!,!"#!"!!,!"#!" = 𝑒 (!!,!"#) 𝑒 (!,!"#!") 𝑒 (!,!!"!"#) 𝑒 (!,!"#!") 𝑒 (!!,!"#!") Ur denna ekvation kan ses att effekterna av de oberoende variablerna på den beroende variabeln sjukdomstillståndet (Y) inte är linjära. Med en ökning i direkt bilirubin ökar oddsen att sjukdomen föreligger med en faktor av 1,07. Oddsen för sjukdomstillståndet är med andra ord 1,07 gånger högre för en individ som är sjuk än en individ som inte är sjuk givet att andra variablerna hålls konstanta. Variablerna alkaliskt fosfatas (ALP), totalprotein (TP) och albimin globulin-kvot (AG) kan tolkas på ett analogt sätt som variabeln DB. Sannolikheten av att vara sjuk kan till och med beräknas genom att omskriva ekvation 6 som följande 𝑝= 1 1+ 𝑒!(!!,!"#!!,!"#!"!!,!!"!"#!!,!"#!"!!,!"#!") (7) För den här ekvationen kan man tolka att sannolikhetsskattningen av att drabbas av leversjukdomen utan någon indikation av några variabler är 𝑝! = 1 1+ 𝑒!!!,!"# = 0,175 (8) Sannolikheten att drabbas av leversjukdomen om indikation enbart på direkt billirubin finns är 𝑝! = 1 1 + 𝑒!!!,!"#!!,!"# = 0,185 (9) Sannolikheten att drabbas av leversjukdomen om indikation enbart på alkaliskt fosfatas finns är 𝑝! = 1 1+ 𝑒!(!!,!"#!!,!!") = 0,175 (10) Sannolikheten att drabbas av leversjukdomen om indikation enbart på totalprotein finns är 𝑝! = 1 1+ 𝑒!!!,!"#!!,!"# = 0,181 (11) 17

Sannolikheten att drabbas av leversjukdomen om indikation enbart på Albumin/Globulin-kvot finns är 1 p! = = 0,144 (12) 1 + e!(!!,!"#!!,!"#) Och slutligen sannolikheten att drabbas av leversjukdomen om indikation på minst en variabel finns är! 1 1 p!!!! (13) ersätta uttrycket med siffrorna; 1 (1 0,175)(1 0,185)(1 0,175)(1 0,181)(1 0,144 0,61 Indikation från variablerna var för sig är liten men betydligt större för variablerna sammantagna. Vilket kan tyda på att modellen kan förutsäga sjukdomstillståndet ganska bra som vi trodde med en sannolikhet av 61 %. Direkt billirubin och Albumin/Globulin-kvoten är de två variabler som ger indikationen på sjukdomstillståndet mest. Direkt billirubin påverkar sjukdomstillståndet positivt d.v.s. ju högre värde på direkt billirubin är, desto högre benägenhet att drabbas av leversjukdomarna. Albumin/Globulin-kvoten påverkar däremot sjukdomstillståndet negativt d.v.s. ju högre värde på Albumin/Globulin-kvoten är, desto lägre benägenhet att drabbas av leversjukdomarna. Om man använder de fyra variablerna tillsammans för att prediktera sjukdomstillståndet kan man då förutsäga sjukdomstillståndet med sannolikheten 0,61 vilket är tillfredställande högt. Med andra ord kan man säga att våra variabler tillsammans kan prediktera om man skulle drabbas av leversjukdomarna eller ej. Men man kan inte använda någon variabel i modellen var för sig för att förutsäga sjukdomstillståndet eftersom den är osignifikant vilket stämmer med läkarens diagnostisering. Läkaren kan inte dra slutsats att man har drabbats av leversjukdomarna bara genom att titta på ett enda värde utan han/hon måste genomföra ytterligare prov. Att man har för högt eller för lågt värde på en av variablerna kan beror på många olika anledningar och ibland behövs det inte alltid komma från leverproblem. Det är möjligt att man har för högt eller för lågt värde på variablerna eftersom man har drabbats av andra sjukdomar som inte är relevant med leversjukdomar. 18

7.3 Associering mellan sannolikheter och observerade respons Associeringen mellan sannolikheter och observerade respons kan avgöras av olika statistikor exempelvis Sommer s D, Gamma och Tau-a och c. De här statistikorna analyserar rangordningskorrelationen mellan PHAT och den observerade responsen. Dessa korrelationer erhålls av first determining total of pairs, i SAS som består av concordant, discordant och tied pair. De transformeras sedan till rangordningskorrelation för att ge ett mått på associeringen mellan den observerade responsen för den beroende variabeln och PHAT. I en logistisk regression definierar en händelse som ett utfall vars responsvärde är lika med 1 och en ickehändelse som ett utfall vars responsvärde är lika med något annat än 1. I detta särskilda fall definieras leversjuka som en händelse och friska som en ickehändelse. Det totala antalet par är en produkt av händelser och ickehändelser. Ett concordant par definieras som det par som är formerad av en händelse och en ickehändelse så att PHAT av en händelse är högre än PHAT av en ickehändelse. Ett discordant par är det par i vilket PHAT för en händelse är mindre än PHAT för en ickehändelse. Tied pair är de par som antingen concordant eller discordant. Det totala antalet par är lika med 2500 i denna undersökning. Det kan ses från tabellen nedanför att discordant par är 20,4 procent som motsvarar 510 par (d.v.s. 20,4 % av 2500). På ett liknande sätt kan det ses att 1985 par (79,5%) är concordant och totalt 5 par (0,2 %) som är tied pair. Tydligen att ju högre antalet concordant pair är, desto större associeringen mellan den observerade responsen och sannolikheten. Exakt hur man konverterar olika typer av paren till rangordningskorrelationen (Sommer s D, Gamma och Tau-a och c) har inte bevisats här. 10 Rangordningskorrelationen har ingen samplingfördelning och det finns inte heller en klar vägledning till vilken av dem som föredrar. Dessutom är Tau-a maximum värde inte lika med ett och beroende av antalet par i data. Det är därför vanligt att rekommendera att endast använda dessa mått för att jämföra korrelationerna av olika modeller. (Sharma, S., 1996). I vårt fall räcker det därför bara med att tolka olika typer av paren och inte konverterar vidare till rangordningskorrelationen. Tabell 6: Associering av sannolikheter och observerade respons Association of Predicted Probabilities and Observed Responses Percent Concordant 79.5 Somers' D 0.591 Percent Discordant 20.4 Gamma 0.592 Percent Tied 0.2 Tau-a 0.299 Pairs 2500 c 0.796 10 Sharma, S. (1996) sidan 326. 19

8. Slutsats Syftet med denna undersökning var att med en logistisk modell undersöka vilka indikationer som kan användas för att prognostisera benägenhet att drabbas av leversjukdomar. Den erhållna modellen kan till och med användas för att prediktera sjukdomstillståndet hos en viss person. Det vill säga om någon genomför leverfunktionstest och får levervärden på de oberoende variablerna kan man då veta hur det relaterar till sjukdomstillståndet genom att sätta variablers värde in i modellens uttryck. De slutsatser som kan erhållnas ur den empiriska undersökningen är att det föreligger ett samband mellan sjukdomstillståndet och variablerna Direkt Bilirubin (DB), Alkaliskt fosfatas (ALP), Totalprotein (TP) och Albumin/Globulin-kvot (A/G). Albumin/Globulin-kvoten (A/G) har nämligen starkast samband till sjukdomstillståndet och sambandet är också negativt d.v.s. ju högre albumin man har i blodet i förhållande till globulin, desto mindre sjukdomsbenägenhet. De andra variablerna har i alla fall positivt samband till sjukdomstillståndet. Relationen mellan sjukdomstillståndet och variabel var för sig är dock svag på signifikansnivå 5 %. Å andra sidan fann vi ett starkt samband mellan sjukdomstillståndet och de fyra variablerna tillsammans för den logistiska analysen. Detta samband kunde säkerställas på en statistisk signifikansnivå 0,05. Det finns emellertid ytterligare variabler som eventuellt kan ge indikation på sjukdomstillståndet som man kan tillägga till en ny modell. Detta är i fall man vill utföra vidare studier kring ämnet. Den nya modellen kan möjligen förklara sambandet bättre än denna modell vilket kan sägas att vi får en bättre modell. Men med en sannolikhet av ungefär 61 procent i denna undersökning är tillfredställande högt för oss. Jag fick lära mig att det är möjligt att använda en logistisk regression för att förutsäga sannolikheter för utfallen. Det är en enkel matematik man utför samt man har ett smart program som kan underlätta arbete. Man behöver alltså inte hela tiden använda en komplicerad matematik för att komma fram till ett resultat. En logistisk regression är till och med anpassad till fler situationer eftersom man inte behöver ha antagandet om simultan normalfördelning som i en diskriminantanalys. 20

Appendix De tre figuren nedanför (Fig 1.- Fig 3.) refererar till avsnitten 5 om multivariat normalitetstest och 6,2 om jämförelse mellan logistisk regression och diskriminantanalys Fig 1. QQ diagram för de olika oberoende variablerna 21

Fig 2. Spridningsdiagram för de olika variablerna Fig 3. Chi två diagram 22

Tabell 1. Olika kriterier för modellanpassnings test som refererar till avsnittet 7,1 om modellens anpassning Model Fit Statistics Criterion Intercept Only Intercept and Covariates AIC 140.629 118.937 SC 143.235 131.963-2 Log L 138.629 108.937 Tabell 2. Olika nollhypotestest som refererar till avsnittet 7,1 om modellens anpassning Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.6924 4 <.0001 Score 22.2395 4 0.0002 Wald 13.0600 4 0.0110 Tabell 3. Analyser av maximum likelihooden som refererar till avsnittet 7,2 om parametrars skattning och deras tolkning Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq 23

Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1-1.5474 1.5686 0.9731 0.3239 DB 1 0.0668 0.0389 2.9463 0.0861 ALP 1 0.00317 0.00255 1.5455 0.2138 TP 1 0.0409 0.0243 2.8342 0.0923 AG 1-0.2347 0.1017 5.3235 0.0210 Tabell 4. Odds-kvoten som refererar till avsnittet 7,2 om parametrars skattning och deras tolkning Odds Ratio Estimates Effect Point Estimate 95% Wald Confidence Limits DB 1.069 0.991 1.154 ALP 1.003 0.998 1.008 TP 1.042 0.993 1.093 AG 0.791 0.648 0.965 Tabell 5. Associering av sannolikheter och observerade respons som refererar till avsnittet 7,3 om associering av sannolikheter och observerade respons Association of Predicted Probabilities and Observed Responses Percent Concordant 79.5 Somers' D 0.591 24

Association of Predicted Probabilities and Observed Responses Percent Discordant 20.4 Gamma 0.592 Percent Tied 0.2 Tau-a 0.299 Pairs 2500 c 0.796 SAS koden för logistisk regressionsanalys: proc logistic data= logo; model patient = DB ALP TP AG /ctable; output out=pred p=phat; proc print; var patient DB ALP TP AG; run;/ 25