Analysmetoder för longitudinella ordinaldata

Storlek: px
Starta visningen från sidan:

Download "Analysmetoder för longitudinella ordinaldata"

Transkript

1 Teknisk-naturvetenskapliga fakulteten Examensarbete i Matematisk Statistik D-nivå, 2 poäng Analysmetoder för longitudinella ordinaldata med tillämpningar på multipel skleros-data Lina Lundberg Institutionen för matematik och matematisk statistik Umeå universitet 9 87 UMEÅ

2

3 Analysmetoder för longitudinella ordinaldata med tillämpningar på multipel skleros-data Lina Lundberg Examensarbete i Matematisk statistik D-nivå, 2 poäng Juni 25

4 Lina Lundberg: Analysmetoder för longitudinella ordinaldata med tillämpningar på multipel skleros-data Institutionen för matematik och matematisk statistik, Umeå Universitet, 9 87 Umeå Lina Lundberg, 25 Detta arbete har skrivits för avläggande av filosofie magisterexamen i ämnet Matematisk Statistik. Arbetet har gjorts på D-nivå och omfattar 2 poäng. Handledare: Peter Anton, Leif Nilsson Examinator: Lennart Nilsson Lina Lundberg: Methods for analyzing longitudinal ordinal data with applications on multiple sclerosis data. Department of Mathematics and Mathematical Statistics, Umeå University, 9 87 Umeå Lina Lundberg, 25 This is a thesis for the degree of Master of Science in Mathematical Statistics. Supervisor: Peter Anton, Leif Nilsson Examiner: Lennart Nilsson

5 Abstract In this thesis we present some methods for analyzing longitudinal ordinal data. The focus is on ordinal random-effects regression models (RRM) and we will discuss the pros and cons with RRM when applying it on Multiple Sclerosis data. The analysis is made with the program MIXOR. Our main conclusion is that these methods are not preferable when analyzing this type of data, mainly because we have several response categories and several repeated observations.

6

7 Tack Först och främst vill jag tacka mina handledare, Peter Anton och Leif Nilsson, för all ovärderlig hjälp jag har fått under arbetets gång. Ni har kompletterat varandra bra. Jag vill även tacka Anna Persson och Stig Johan Wiklund på AstraZeneca för deras förslag på examensarbete och för att de har besvarat många av mina frågor. Dessutom vill jag ge Donald Hedeker ett stort tack för hans hjälp med programmet MIXOR.

8

9 Innehåll Inledning Analysmetoder Threshold of Change Model Random-effects Regression Models (RRM) Skattningar Analys Datamaterialet Enkel analys Analys med RRM Diskussion Referenser A Mixor... 3 B Data- och definitionsfilen C Utskrifter... 35

10

11 Inledning Vid utveckling av nya läkemedel testar man i ett relativt tidigt skede ett flertal olika substanser på djur. Förhoppningen är att man utifrån någon av dessa substanser ska kunna tillverka ett nytt läkemedel. När man testar olika substanser på djur vill man kunna se om man får en önskad effekt. Om man inte får det bör processen avbrytas, ty processen innan ett nytt läkemedel är färdigt för marknaden är väldigt lång och kostsam. Att en substans har önskad effekt på djur behöver dock inte innebära att man får samma effekt av det slutgiltiga läkemedlet på människor. Multipel skleros (MS) är en kronisk neurologisk sjukdom som drabbar nervceller i centrala nervsystemet, dvs. hjärnan och ryggmärgen. Hur sjukdomsförloppet ser ut är väldigt individuellt. Det som sker för en person med MS är att myelinet, fettämnet som isolerar nervtrådarna, inflammeras eller helt enkelt bryts ner. Efter ett tag kan inflammationen lägga sig och myelinet återuppbyggs, antingen helt eller delvis. Personer med MS har således perioder då de är friska och perioder då de är mer eller mindre sjuka. De perioder då en individ är sjuk brukar benämnas skov. För mer information om sjukdomen se Infomedica AB (24-8-3). För att hitta mediciner mot MS gör man först djurförsök i syfte att hitta substanser som sedan kan utvecklas till nya läkemedel. För att kunna undersöka effekten av en substans låter man försöksdjuren (möss, råttor) få en sjukdom som påminner om MS. Anledningen till att försöksdjuren inte får MS, utan en sjukdom som påminner om MS, är att MS troligtvis inte existerar hos djur. Nästa steg är att testa de substanser man tror kan ha en positiv effekt på sjukdomen. Vanligtvis testar man flera olika substanser samtidigt mot en referensgrupp. Ett problem är att kunna avgöra vilken effekt substansen/substanserna har. Efter att man har gett substansen till ett antal försöksdjur kontrollerar man hur sjuka djuren är. Varje dag undersöks djuren och kategoriseras beroende på grad av sjukdom. Det finns tio olika kategorier, från noll till nio. Om ett djur hamnar i kategori noll innebär detta att djuret är friskt, medan kategori nio innebär att djuret har dött. Det datamaterial som skall analyseras består alltså av ordnat kategoriskt data, dvs. ordinaldata. Dessutom har man upprepade mätningar på varje individ, s.k. longitudinellt data. Syftet med detta arbete är att titta på metoder för att analysera denna typ av datamaterial och förhoppningsvis hitta en lämplig metod. 3

12 Hur ska man avgöra om en substans har effekt? I och med att man undersöker flera substanser samtidigt och dessutom har en referensgrupp kan det vara relevant att jämföra olika behandlingsgrupper. Dessutom kan det vara intressant att se hur sannolikheten att vara i ett tillstånd förändras över tiden. Kapitel 2 innehåller beskrivningar av några metoder för att analysera ordinala data. Fokus ligger på Random-effects Regression Models, vilka även används för analysen i kapitel 3.3. I kapitel 3.2 görs en enkel analys av datamaterialet. En enkel analys innebär dels beskrivande statistik och dels grundläggande test där man inte tar hänsyn till datamaterialets komplexa natur. Analyserna i kapitel 3 utförs med hjälp av MIXOR, Matlab och MINITAB. Huruvida den metod som används är lämplig kommer att diskuteras i kapitel 4, dvs. det blir huvudsakligen en diskussion kring modellens för- och nackdelar. 4

13 2 Analysmetoder Vid analys av ordinala data modelleras vanligtvis sannolikheten att tillhöra en kategori, eller närmare bestämt den kumulativa sannolikheten att tillhöra kategori k eller lägre, där k =,, K. Anledningen till att studera den kumulativa sannolikheten är att man då får två utfall och därigenom endast en sannolikhet att modellera, för varje k. Antingen hamnar individen i kategori k eller någon lägre kategori, eller så gör den inte det. Eftersom sannolikheter ligger mellan och kan de vara svåra att modellera linjärt med hjälp av förklarande variabler. Detta leder till att man istället modellerar sannolikheten med en fördelningsfunktion, en s.k. länkfunktion. Johnsson och Albert (999) tar upp några olika länkfunktioner, bland annat den logistiska (logit) samt den normalfördelade (probit). Av de metoder som har introducerats under de senaste 3 åren är logitmodeller för ordinala data de mest populära inom den medicinska världen, enligt Agresti (999). När man arbetar med logitmodeller för ordinaldata förutsätts ofta de förklarande variablerna ha samma effekt för varje kumulativ logit, dvs. man gör ett proportionalitetsantagande. En sådan modell kallas proportional odds model (POM) och beskrivs bland annat i Agresti (22) och Xie et al. (2). Agresti beskriver logistisk regression med kumulativa logitmodeller medan Xie et al. beskriver hur logistisk regression kan uttryckas med Threshold of Change Model (TCM). I TCM antar man att det finns en latent kontinuerlig variabel Z som ej är observerbar och som man egentligen är intresserad att uttala sig om. Denna latenta variabel delas in i K kategorier med hjälp av K - s.k. tröskelvärden ( thresholds ). En tänkbar observation på Z som ligger mellan tröskelvärde k - och tröskelvärde k motsvarar kategori k för den ordinala variabeln Y. Man kan endast observera antalet observationer mellan tröskelvärde k - och tröskelvärde k. Eftersom ett proportionalitetsantagande inte alltid är lämpligt har det utvecklats modeller som inte kräver detta antagande. Petersen och Harrell (99), Hedeker och Mermelstein (2) samt Xie et al. (2) tar alla upp modeller som inte kräver att effekten av de förklarande variablerna är lika för varje kumulativ logit. De senaste 5 åren har fokus legat på att vidareutveckla modeller för ordinaldata så att de även ska kunna hantera upprepade mätningar. När man har upprepade mätningar finns det ett beroende mellan observationerna. Hedeker och Mermelstein (998, 2) beskriver modeller för att analysera longitudinella ordinala data. De modeller de beskriver tillåter att det både finns fixa och slumpmässiga effekter, s.k. Random-effects Regression Models 5

14 (RRM). Detta innebär att individens påverkan på responsvariabeln kan tas med i modellen, dvs. modellen innehåller en slumpmässig individeffekt. Albert (994) beskriver en annan metod för att analysera ordinaldata. I artikeln används en markovmodell för att analysera samma typ av datamaterial som avses analyseras i denna uppsats. För en markovmodell behöver man skatta övergångssannolikheterna och utifrån dessa skulle man sedan kunna bestämma flera intressanta parametrar. Några intressanta parametrar är t.ex. sannolikheten att vara i ett skov, tid till första gången i ett visst tillstånd och förväntat tid i tillstånd j. Det speciella med denna markovmodell är att man har utvidgat tillståndsrummet så att det även innehåller en indikatorfunktion som talar om ifall processen är relapsing eller remitting, dvs. i fall man är på väg att bli sjukare eller friskare. Ett problem med denna metod är att det inte verkar finnas ett bra sätt att jämföra olika grupper, vilket vi vill kunna göra. Vi har valt att inte arbeta med denna modell, men den kan vara intressant för vidare studier. 2. Threshold of Change Model Antag att det finns en ordinal responsvariabel Y med K stycken ordnade kategorier. Låt Z vara en tänkbar bakomliggande (latent) kontinuerlig variabel. Denna variabel är inte observerbar utan den ordinala responsvariabeln Y observeras. Datamaterialet som beskrivs i inledningen har tio kategorier, där kategori innebär att individen är frisk medan kategori 9 innebär att individen är död. Här kan man tänka sig att det finns en latent kontinuerlig variabel som mäter sjukdomsgraden. Kopplingen mellan den latenta och den ordinala variabeln görs genom tröskelvärden. Dessa tröskelvärden betecknas γ och delar in den latenta variabeln i kategorier. Exempel. Antag att variabeln Y har fem olika kategorier. Då kommer det att finnas fyra tröskelvärden, γ, γ 2, γ 3 och γ 4, som delar in den kontinuerliga variabeln i fem olika kategorier. Med detta menas att om slumpvariabeln Z skulle kunna observeras, skulle exempelvis en observation som ligger mellan γ och γ 2 placeras i kategori 2. En grafisk beskrivning av detta finns i figur. 6

15 γ γ 2 γ 3 γ 4 Figur. En illustration av exempel där man ser hur den latenta kontinuerliga variabeln delas in i fem olika kategorier. Vanligtvis används POM vid analys av ordinaldata, dvs. effekterna av de förklarande variablerna förutsätts vara lika för alla kategorier. Detta är dock inte alltid ett lämpligt antagande. Modeller där man förutsätter proportionalitet har därför utvecklats för att även kunna hantera situationer då effekterna av de förklarande variablerna är olika för olika kategorier. Logistisk regression för ordinaldata kan göras antingen med en kumulativ logitmodell eller med en Threshold of Change Model (TCM). Antag att vektorn x innehåller de förklarande variabler som har samma effekt på alla tröskelvärden, medan vektorn u innehåller de förklarande variabler som tillåts ha olika effekt på olika tröskelvärden. TCM kan då skrivas som γ k = a k + bx + bk u, där k =,, K - och a k är tröskelvärdet då man inte tar hänsyn till några förklarande variabler. Parametervektorerna b och b k beskriver de förklarande variablernas effekt på tröskelvärdet. Om b k =, för alla k, motsvarar detta en POM. För POM gäller att om b = finns ingen effekt av de förklarande variablerna. Om däremot bx < blir tröskelvärdet mindre, vilket innebär att sannolikheten att gå från en låg kategori till en högre kategori ökar. På motsvarande sätt, om bx > ökar tröskelvärdet. Med TCM undersöker man alltså hur de förklarande variablerna påverkar tröskelvärdena. En nackdel med TCM är att resultaten kan bli orimliga om någon av de förklarande variablerna är kontinuerlig och om man låter denna 7

16 variabel ha en heterogen effekt på olika tröskelvärden. Detta problem kommer att beskrivas mer ingående i nästa delkapitel. TCM, som den är beskriven här kan inte heller hantera longitudinella data vilket medför att vi måste gå vidare till den mer generella modellen Multilevel TCM", som är en variant av s.k. Random-effects Regression Models. 2.2 Random-effects Regression Models (RRM) Antag att man observerar N individer med n i upprepade mätningar på individ i, i =,, N. Responsvariabeln Y är precis som tidigare en ordinal variabel med K kategorier. En första tanke kan vara att modellera den latenta variabeln Z med vanlig linjär regression. Detta är inte lämpligt ty linjär regression förutsätter att modellfelen är oberoende. Eftersom man har gjort upprepade mätningar på alla individer finns det antagligen ett beroende över tiden. För att hantera detta beroende införs en slumpmässig individeffekt i modellen. Givet denna slumpmässiga effekt är modellfelen betingat oberoende, se Hedeker och Mermelstein (996:24). Modellerna är inte bundna till att bara innehålla en slumpmässig effekt utan kan innehålla flera. RRM är en stor klass av modeller som tillåter att man har flera nivåer av data; longitudinella eller upprepade observationer inom ett kluster. För longitudinella data, med två nivåer, innebär detta att man ser upprepade mätningar som nivå, medan individer ses som nivå 2. På nivå 2 finns det N observationer och på nivå finns det n + n n N observationer. Modeller med slumpmässiga effekter finns både för kontinuerliga och kategoriska data. Här beskrivs dock bara RRM för ordinaldata. De modeller som ansätts för ordinaldata innehåller ofta endast en slumpmässig effekt. Detta på grund av att dessa modeller är väldigt beräkningsintensiva, om man jämför med modeller för kontinuerliga data. Det finns tre skäl till att RRM är bra att använda på longitudinella data. För det första behöver det inte finnas lika många observationer på alla individer, datamaterialet behöver alltså inte vara balanserat. Antagandet man då gör är att de data som finns tillgängliga är representativa för varje individs skillnad gentemot den genomsnittliga tidstrenden i populationen, Hedeker och Mermelstein (2:39). Man förutsätter att man har ignorerbart bortfall, vilket i litteraturen brukar betecknas MAR ( missing at random ). För det andra behöver alla individer inte observeras vid exakt samma tidpunkt och slutli- Om bortfallet inte är ignorerbart krävs det andra metoder för att analysera longitudinella data. En sådan metod är Pattern-mixture modeling, men den kommer inte att ges någon närmare beskrivning av. 8

17 gen kan man med RRM skatta individernas förändring över tiden, dvs. man inkluderar en slumpmässig individeffekt i modellen. Det finns många olika varianter av ordinal RRM med många olika namn. En av dessa är Multilevel TCM (MTCM), där första delen av namnet syftar till att man har flera nivåer i sina data, Hedeker och Mermelstein (998). Här tar man återigen upp tröskelbegreppet som beskrivs i kap 2.. Att arbeta med MTCM innebär i praktiken att man arbetar med kumulativa logitmodeller, Hedeker och Mermelstein (2). Här beskrivs därför analysen med hjälp av kumulativa logitmodeller. Enligt tidigare beskrivning modelleras sannolikheten att en individ tillhör kategori {,, k} med en fördelningsfunktion. En vanlig sådan är den logistiska fördelningsfunktionen Ψ. För en standard logistisk fördelning, som har väntevärde och varians π 2 /3, gäller Ψ ( x) = + exp ( x). () Den modell som Hedeker och Mermelstein (998, 2) beskriver innehåller slumpmässiga effekter v i, däribland en slumpmässig individeffekt. De slumpmässiga effekterna antas vara multivariat normalfördelade. Modellen skrivs som λ k P(Y k vi ) = log = γ k + u αk + x β + w vi, (2) -P(Y k vi ) där k =,, K -, w är designvektorn för de slumpmässiga effekterna och u och x är vektorer med de förklarande variabler som har heterogena respektive homogena effekter. Med homogen effekt menas att de förklarande variablerna har samma effekt på varje kumulativ logit. En modell med endast homogena effekter är en POM. I modell (2) har parametervektorn α ett index k, vilket innebär att denna modell även kan innehålla förklarande variabler som har heterogena effekter. I denna modell är det logaritmen av oddset som modelleras linjärt och eftersom det är en ordinal responsvariabel modelleras de kumulativa sannolikheterna, vilket leder till benämningen kumulativ logit. 9

18 2.2. Skattningar Här nedan följer en beskrivning av hur parametrarna skattas i det allmänna fallet. Antag att modellen ser ut enligt (2). Fördelningsfunktionen för responsvariabeln Y givet de slumpmässiga effekterna v i kan då uttryckas med hjälp av den logistiska fördelningen P k ( k ) = Ψ( λ ) = P Y v i k =. (3) + exp( λ ) k De slumpmässiga effekterna antas vara multivariat normalfördelade med väntevärdesvektor μ = och kovariansmatris Σ. Om kovariansmatrisen är positivt definit kan den Choleskyuppdelas, dvs. den kan skrivas som en produkt av två triangulärmatriser Σ = TT, där T är en matris med enbart nollor under diagonalen. Man kan nu låta v i = Tθ i, där θ i har en multivariat standard normalfördelning. Anledningen till att man gör denna uppdelning är att T är lättare att skatta än Σ. Dessutom blir skattningarna stabilare då värdena ligger nära noll. Modellen kan efter denna omskrivning uttryckas som λ = γ + u α + x β + w Tθ. k k k i Låt Y i, vara en tänkbar vektor innehållande responsvärden för individ i, i =,, N. Sannolikheten för responsvektorn Y i givet de slumpmässiga effekterna ges av n K ( ) ( Yi θi ) Pk P( k ) = i k l, där. j= k = d d k = om Y om Y = k k Parametrarna i modellen skattas med maximum-likelihood-metoden. I korthet går denna metod ut på att man maximerar sannolikheten att få den givna responsvektorn. För att ställa upp den marginella likelihoodfunktionen utnyttjas marginalfördelningen för Y i som ges av h ( Y ) ( Y, θ ) dθ l( Y θ ) g( θ) = i i = l dθ, i i θ θ där g (θ ) är täthetsfunktionen för en multivariat standard normalfördelning. i

19 Låt Θ vara alla parametrar i modellen som ska skattas. Den marginella likelihoodfunktionen blir då N ( ) = h( Y ) L Θ. i= För att förenkla maximeringen av denna funktion kan man logaritmera den. Då erhålls N ( ) = log h( Y ) log L Θ. i= Vektorn Θ = {γ k, α k, β, v(t)} ska skattas för k =,, K-, dvs. för alla tröskelvärden. Derivering sker först med avseende på de parametrar som inte varierar för olika tröskelvärden, nämligen β och v(t), där v(t) motsvarar alla element i triangelmatrisen T. Derivering med avseende på β ger d log L dβ ( Θ) = P P i i P x N ni K k ( k ) h ( Yi ) d k l i i= j= k = k P θ ( k ) och derivering med avseende på v(t) ger d log dv L( Θ) ( T ) = P P P( k ) J P ( k ) ( Y θ) g( θ) dθ ( θ w ) ( Y θ) g( θ) dθ N ni K k h ( Yi ) d k r i i= θ j= k = k l, där betecknar en Kroneckerprodukt och Jr är en transformationsmatris som eliminerar elementen ovanför diagonalen i matrisen θ w. Om man i stället tittar på derivatorna då man deriverar med avseende på de parametrar som varierar för olika tröskelvärden erhålls d log L dγ l ( Θ) = N ( Pk ) akl ( P( k ) ) a ( k ) l ni K h ( Y ) d i k l ( Yi θ) g( θ) dθ, j k Pk P θ ( k ) i= = = vid derivering med avseende på γ l. Vid derivering med avseende på α l ser derivatan ut enligt d log L dα l ( Θ) = ( Pk ) akl ( P( k ) ) a ( k ) l N ni K h ( Y ) d i k i i= j= k = Pk P θ ( k ) u l ( Y θ) g( θ) dθ. För att skatta parametrarna integrerar man numeriskt över de slumpmässiga effekterna θ. Ett sätt att göra detta är med hjälp av så kallade Gauss-Hermite kvadraturpunkter. Se t.ex. Hedeker och Mermelstein (998) eller Hedeker

20 och Gibbons (996) för mer information om dessa numeriska metoder. Ett stort problem är att välja antalet kvadraturpunkter och att välja startvärden. Resultatet kan förändras beroende på vilket val man gör. Lesaffre och Spiessens (2) ger exempel på vad som händer om man ändrar startvärden, antal kvadraturpunkter samt maximeringsmetod. MIXOR använder Fishers method of scoring medan exempelvis SAS funktion NLMIXED använder Newton-Raphson för att maximera likelihoodfunktionen. Även olika maximeringsmetoder leder till olika resultat. Det bör påpekas att i exemplet i den nyss nämnda artikeln tittar man på en POM. Antag nu att alla parametrar är skattade. Eftersom det finns en individeffekt med i modellen kan man skatta den sökta sannolikheten för varje individ. Skattningen av den sökta sannolikheten kan enligt (3) skrivas som Pˆ( Y k v i ) = + exp( ( ˆ γ k + u αˆ k. + x βˆ + w vˆ )) i Vill man däremot bestämma ett genomsnitt för en viss population kan man inte bara sätta individeffekten till noll, utan man måste ta hänsyn till attenueringen som uppstår (se exempel 2), dvs. man måste marginalisera parametrarna. Den marginella sannolikheten kan skrivas Pˆ( Y k) = + exp( ˆ γ k cˆ( u αˆ k, + x βˆ)) där c ˆ = ( ˆ 5 σ + (4) ) σ v 2 2 och där σ är variansen för den logistiska fördelningen och σˆ v är den skattade individvariansen, dvs. den skattade variationen mellan individer. Exempel 2. Antag att det finns två kategorier och endast en förklarande variabel som har samma effekt på båda kumulativa logit. En modell med endast en slumpmässig effekt kan då skrivas som P( Y log P( Y = vi ) * * = + = v β i ) β x + v. i Den marginella modellen kan man skriva enligt 2

21 P( Y log P( Y = ) = β + βx. = ) Observera att parametrarna skiljer mellan de två modellerna ovan. Antag nu att det finns P förklarande variabler. Då, om V(v i ) > gäller enligt Diggle et al. (994b:4) att * (i) β k β k, k =,, P * (ii) β = om och endast om * =. k β k (iii) Differensen mellan β k och β k * β k ökar då V(vi) ökar. Om man antar att den slumpmässiga individeffekten v i är normalfördelad med väntevärde och varians σ v 2 kan man, enligt Diggle et al., skriva β cβ *, där c uttrycks på samma sätt som i (4) och där vektorn β inte innehåller β. Att uttrycka β på detta sätt stämmer överens med de tre villkoren ovan. Eftersom c (, ) skulle sannolikheten felskattas om man lät v i =. Antag att man bara har homogena effekter, dvs. α k =. För en specifik uppsättning förklarande variabler är det endast γ k som förändras. Resultatet blir att man får K - parallella linjer (figur 2). λ ( K ) = γ ( K ) + β x... λ 2 = γ 2 + x β λ = γ + x β Figur 2. Modell med en förklarande variabel x som har samma effekt på alla kumulativa logit. 3

22 Om man däremot tillåter att vissa förklarande variabler har en heterogen effekt på varje kumulativ logit behöver linjerna inte längre vara parallella. Någonstans kommer linjerna att korsa varandra. Man vill att de ska korsa varandra utanför det område man är intresserad av. Detta innebär att om x [a, b] får linjerna ej korsa varandra i intervallet [a, b]. Anledningen till att detta inte får ske är att det skulle medföra att sannolikheten att befinna sig i en viss kategori blir negativ. Så länge de förklarande variabler som tillåts ha heterogen effekt är dummyvariabler kommer detta problem inte att uppstå. Om man däremot låter en kontinuerlig förklarande variabel ha heterogen effekt kan problemet uppstå (figur 3). λ γ ( K ) = ( K ) + K u α... λ = γ + uα λ 2 = γ 2 + uα Figur 3. Modell med en förklarande variabel u som har varierande effekt på olika kumulativa logit. I och med att linjerna korsar varandra är P(Y 2) < P(Y ), vilket innebär att det är en negativ sannolikhet att befinna sig i kategori 2 efter skärningspunkten. Ett sätt att lösa detta problem kan vara att bilda dummyvariabler av den kontinuerliga variabeln. Denna lösning är dock inte alltid realistisk, ty om man exempelvis har en tidsvariabel som består av n tidpunkter kommer man att få n - dummyvariabler. Detta är sällan praktiskt genomförbart. Ett annat sätt är att anta att variabeln har en homogen effekt på varje kumulativ logit. Detta är heller inte alltid en lämplig lösning. 4

23 3. Analys 3. Datamaterialet Datamaterialet som analyseras består av upprepade observationer på 6 djur (råttor, möss). Dessa 6 djur är uppdelade i tre olika grupper, två olika behandlingsgrupper samt en referensgrupp. Med behandlingsgrupper syftas här på olika substanser. Det är alltså inte behandlingar i ordets vanliga bemärkelse. Vi har valt att kalla dessa grupper för A, B och R, där A och B representerar de två olika typerna av behandling och R är referensgruppen. Djuren har undersökts i upp till 42 dagar. En gång varje dygn har man mätt djurets vikt samt kategoriserat djuret beroende på grad av sjukdom. Varje djur har tilldelats ett värde mellan noll och nio beroende på vilka symptom djuret visat. Ett djur som är helt friskt ges värde noll, medan ett djur som har dött ges värde nio. Alla djur har inte varit med till studiens slut, utan vissa har försvunnit ur studien vid ett tidigare tillfälle. Det datamaterial vi har ger dock ingen förklaring till varför djuret har försvunnit ur studien. Därför förutsätter vi i vår vidare analys att bortfallet är s.k. ignorerbart bortfall. Huruvida detta är ett korrekt antagande kommer att diskuteras i kap 4. Individer som hamnar i kategori 9 någon gång under studietiden anses vara med hela studietiden, vilket innebär att den individen placeras i kategori 9 varje dag till dess att studien är slut. Vi har valt att inte använda djurets vikt i analysen, utan bara koncentrerat oss på den ordinala responsvariabeln. Vid en närmare kontroll av datamaterialet upptäcker man att inget djur tillhörde kategori sju eller åtta. Detta innebär att vi i analysen antar att det bara finns åtta kategorier. Metoderna som används för analysen i kap 3.3 kräver nämligen att det finns observationer i alla kategorier. Låt nu,,, 7 representera de åtta olika kategorierna. Vi gör således en rangordning av kategorierna. 3.2 Enkel analys Vi börjar med att grafiskt illustrera hur responsen för individerna i de tre olika grupperna förändras över tiden. 5

24 Grupp A Respons Dag 3 4 individ_ Grupp B Respons Dag 3 4 individ_ Grupp R Respons Dag 3 4 individ_ Figur 4. I figurerna ovan beskrivs hur varje individs respons förändras med tiden. De två övre figurerna beskriver olika behandlingsgrupper medan den nedre figuren beskriver referensgruppen. 6

25 Som vi kan se i figur 4 finns det en stor variation mellan individer i de olika behandlingsgrupperna. Det är väldigt svårt att dra några långtgående slutsatser från dessa figurer, men vissa tendenser kan upptäckas. Om vi betraktar grupp R ser vi att flera individer hamnar i ett skov efter ungefär tio dagar, i alla fall fler än för de två övriga grupperna. Dessutom är det fler i denna grupp som dör, dvs. som hamnar i kategori 7. För ordinaldata är det inte lämpligt att använda medelvärden eftersom dessa skulle förändras om man benämnde de ordinala kategorierna annorlunda. I detta fall kan vi däremot tolka medelvärdet som en sorts medelrang, eller rättare sagt ett medelvärde av observerade rangvärden. Om vi ritar upp medelrangerna kan vi konstatera att grupp R har en betydligt högre medelrang än de övriga grupperna. 5 4 Medelrang för grupp A, B respektive R Variable medelrang_a medelrang_b Medelrang_R Medelrang Dag 3 4 Figur 5. Medelrangen för varje dag, för respektive grupp. Låt y vara observationen på individ i, dag j. Medelrangen för varje dag (figur 5) är beräknad genom y i y j =, N där N j är antalet individer som är kvar i studien vid tid j. En första tanke kan vara att jämföra grupperna med hjälp av variansanalys. Tyvärr kan vi förkasta hypotesen att de tre variablerna (Medelrang A, B och R) har samma varians, vilket är en förutsättning vid variansanalys. Det finns fler anledningar till varför variansanalys inte är lämpligt för denna typ av datamaterial. Bland annat finns det troligtvis ett beroende mellan observationerna inom respektive stickprov. Man bör alltså använda andra, mer lämpliga, metoder. j 7

26 Ett alternativ är att använda en ickeparametrisk metod. Vi tror att det sker förändringar över tiden och använder därför en metod där vi kan blockbilda över tiden. En sådan metod är Friedmans test. För att kunna använda denna metod krävs det att man har minst två grupper samt minst två block. Vidare krävs det att det finns exakt en observation för varje block och grupp. Antag att vi har g grupper och b block. Tabell 2. Beskrivning av hur data är uppdelat på grupp och block. Block Block b Grupp x x b Grupp g x g x gb I korthet går denna metod ut på att man först rangordnar de g observationerna som finns i respektive block, beräknar en total rang för varje grupp och slutligen bildar en teststatistika. Nollhypotesen är att fördelningarna är lika i alla block och mothypotesen att någon av fördelningarna är stokastiskt större i varje block. Vi använder nu Friedmans test för att analysera vårt datamaterial. Det resultat som erhålls är att hypotesen kan förkastas (p-värde,). Det finns således en skillnad mellan de tre populationerna, som i detta fall är Medelrang A, Medelrang B samt Medelrang R. Tabell 3. Antal observationer, median, total rang och medelrang för de tre grupperna A, B respektive R. Grupp Antal obs Median Total rang Medelrang A B R Vi vet att det finns en skillnad mellan de tre grupperna, men utifrån detta resultat kan vi inte uttala oss om vilka grupper det är som skiljer sig åt. För kunna uttala oss får vi parvis jämföra grupp i och j. Hur en parvis jämförelse kan göras beskrivs bl.a. i Tamhane och Dunlop (2). Hypotesen kan förkastas, med total signifikansnivå α, om r i r j q > ( g ), α g 2 6b g, +, där r i och rj är medelrang för grupp i respektive j och q kommer från studentized range distribution. Genom att använda denna fördelning tar vi hänsyn till att vi gör flera test. Om vi väljer en total signifikansnivå på 5 % 8

27 kommer vi att förkasta hypotesen då differensen mellan gruppernas medelrang är större än,5. I vårt fall finns det alltså skillnader mellan grupp A och R samt mellan grupp B och R. Grupp R skiljer sig alltså från de andra två grupperna. Djur som får behandling (grupp A och B) mår bättre än djur i referensgruppen. 3.3 Analys med RRM Vi kommer nu att använda ordinal RRM för att analysera vårt datamaterial. Analysen görs med hjälp av programmet MIXOR, som beskrivs närmare i appendix A. Vi har testat ett flertal modeller för att få en så bra anpassning som möjligt. Det som är gemensamt för alla dessa modeller är att de har två dummyvariabler (GruppA och GruppB) där en indikerar tillhörighet till grupp A och en till grupp B. Förutom dessa två dummyvariabler innehåller modellerna någon eller några variabler som behandlar tiden. Längre fram kommer vi även att tillåta samspelstermer i modellen. Vi har dessutom testat modeller med både homogena och heterogena effekter. Den modell vi först har valt att anpassa är P(Y k vi ) λ k = log = γ k + α kgruppa + α 2kGruppB + α 3 - P(Y k vi ) k Dagstd, (5) där Dagstd är standardiseringen av variabeln Dag. En modell med Dag och en modell med Dagstd bör ge samma resultat, men vid större modeller (med Dag 2 eller liknande) kan man få problem om datorns precision ej är tillräcklig. I modell (5) tillåts alla de tre förklarande variablerna ha en heterogen effekt på varje kumulativ logit, vilket i praktiken innebär att parametrarna varierar för olika k. För denna modell erhålls -2logL = 554, där L betecknar den anpassade modellens likelihoodvärde. Med -2logL får man ett mått på hur bra anpassad modellen är, lägre värden indikerar på en bättre anpassning. Här ska dock påpekas att antalet kvadraturpunkter skiljer sig jämfört med de kommande modellerna. För att erhålla ett resultat var vi här tvungna att ange ett lägre antal kvadraturpunkter (kapitel 2.2.). Man kan även tänka sig en modell där Dagstd har en homogen effekt, nämligen λ k = γ k + αkgruppa + α 2kGruppB + βdagstd. (6) 9

28 Parametern framför variabeln Dagstd har inte ett index k. För denna modell blev -2logL = 5424, vilket är en liten försämring jämfört med modell (5). Detta resultat är väntat ty en större modell ska ge ett lägre värde på -2logL. I kapitel 2.2. redogjorde vi för problem som kan uppstå då en kontinuerlig variabel tillåts ha en heterogen effekt. För att försöka komma runt detta problem samt för att försöka få en bättre anpassning har vi även testat att ta med Dagstd 2 i modellen. Termer av högre grad är inte lämpliga att ta med i modellen eftersom Dagstd och Dagstd 3 är starkt korrelerade. Detsamma gäller för Dagstd 2 och Dagstd 4. För att jämföra modeller (med olika antal heterogena effekter) kan man göra ett likelihoodkvottest. En förutsättning är då att den ena modellen är en delmängd av den andra modellen. Med ett sådant test kan man avgöra om det skett någon förbättring i modellanpassningen. Skillnaden i antal skattade parametrar för de två olika modellerna ger antalet frihetsgrader för den χ 2 - fördelning som testvariabeln, 2(logL2 - logl), asymptotiskt antar under nollhypotesen. L och L2 betecknar maximal likelihood för de två modeller som jämförs. Hur nollhypotesen formuleras beror på vilka två modeller som jämförs. Om man vill avgöra om en förklarande variabel har heterogen effekt är nollhypotesen att den förklarande variabeln har samma effekt på alla kumulativa logit, dvs. αl = α m för alla l m, l =,, K -, m =,, K -. Förutom de två nämnda modellerna har vi tittat på flera andra modeller. Vi har bland annat testat med logaritmen av dag som förklarande variabel. Detta gav dock en väldigt dålig anpassning. Det är svårt att på ett bra sätt jämföra modeller som innehåller olika förklarande variabler, dvs. då den ena inte är en delmängd till den andra, men genom att bestämma -2logL kan vi få en indikation på vilken modell som verkar vara bäst. Följande modell är den modell som får lägst värde på -2logL och verkar således vara den bästa av de hittills anpassade modellerna, λ + 2 k = γ k + α kgruppa + α 2kGruppB + α 3k Dagstd α 4k Dagstd. (7) Värdet på -2logL blev Att bara bestämma -2logL och sedan påstå att denna modell är den bästa är inte helt lämpligt. Det finns fler saker vi bör undersöka. För modeller där en kontinuerlig variabel tillåts ha en heterogen effekt bör vi först och främst kontrollera att alla skattade sannolikheter är positiva. Alla sannolikheter som skattas utifrån modell (7) är positiva. Ett annat sätt att undersöka modellen är plotta sannolikheterna som skattas från modellen tillsammans med sannolikheterna som skattas utifrån datamaterialet. En bra modell bör resultera i en bra anpassning. Modell (7) ger tyvärr en relativt dålig anpassning. Samma sak gäller även för modell (5). 2

29 Vid studiens start är alla de tre grupperna lika; sker det sedan någon förändring tyder detta på att modellen bör innehålla samspelstermer. Vi har även delat upp datamaterialet på respektive grupp. För varje grupp har vi sedan anpassat en modell som bara innehåller en förklarande variabel, Dagstd. Koefficienten framför den förklarande variabeln varierade för de tre olika grupperna. Detta är också ett tecken på att det finns samspel. Vi går därför vidare och anpassar modeller med samspelstermer. Betrakta modellen λ k = γ k + α kgruppa + α 2kGruppB + βdagstd + + β Dagstd GruppA + β Dagstd GruppB. 2 3 (8) För denna modell erhålls -2logL = 537, vilket kan jämföras med modell (6). Enligt ett likelihoodkvottest är modell (8) bättre än modell (6). Vi testade även en modell med samma förklarande variabler som modell (7), men där variabeln Dagstd tilläts ha en heterogen effekt. Vi såg en förbättring i - 2logL, men anpassningen till de, utifrån datamaterialet, skattade sannolikheterna blev relativt dålig. Det råder stor osäkerhet kring val av antal kvadraturpunkter samt val av startvärden. Därför känns det osäkert, dels med de modeller vi redan testat, men främst med mer komplexa modeller. Tillåter vi att alla förklarande variabler har en heterogen effekt, dvs. även samspelstermerna, får vi ingen konvergens överhuvudtaget. Därför har vi valt att inte arbeta med fler modeller. Utifrån de modeller som har testats är modell (8) den som verkar vara bäst. Den har inte lägst -2logL, men den ger en förhållandevis bra anpassning till de skattade sannolikheterna, figur 6-8. Låt oss därför göra en närmare undersökning av modell (8). För den intresserade finns data- och definitionsfilen till MIXOR i appendix B. Utskriften från MIXOR återfinns i appendix C. Tabell 4. De skattade parametrarna för varje k, utifrån modell (8). Alla parameterskattningar är signifikant skilda från (p-värde <.5) Intercept Grupp A Grupp B Dagstd Dagstd*GruppA Dagstd*GruppB σ v 2.59 Utifrån de skattade parametrarna kan man nu bestämma oddset att befinna sig i kategori {,, k}, där k =,,, 6. För att beskriva hur detta resultat tolkas betraktar vi ett exempel. 2

30 Kategori Kategori Kategori 2 Kategori Kategori 4 Kategori Kategori 6 Kategori Figur 6. Den observerade (*) samt den skattade ( ) sannolikheten att en individ ur grupp A tillhör en viss kategori en viss dag. De åtta figurerna ovan svarar mot de åtta kategorierna. Observera att dag har standardiserats. De skattade sannolikheterna kommer från modell (8) och har marginaliserats. 22

31 Kategori Kategori Kategori 2 Kategori Kategori 4 Kategori Kategori 6 Kategori Figur 7. Den observerade (*) samt den skattade ( ) sannolikheten att en individ ur grupp B tillhör en viss kategori en viss dag. De åtta figurerna ovan svarar mot de åtta kategorierna. Observera att dag har standardiserats. De skattade sannolikheterna kommer från modell (8) och har marginaliserats. 23

32 Kategori Kategori Kategori 2 Kategori Kategori 4 Kategori Kategori 6 Kategori Figur 8. Den observerade (*) samt den skattade ( ) sannolikheten att en individ ur grupp R tillhör en viss kategori en viss dag. De åtta figurerna ovan svarar mot de åtta kategorierna. Observera att dag har standardiserats. De skattade sannolikheterna kommer från modell (8) och har marginaliserats. 24

33 Exempel 3. Låt oss börja med fallet då k =. Vi kan nu skriva P( Y P( Y v ) v ) i i = exp( GruppA +.67GruppB 2.25Dagstd Dagstd GruppA.45Dagstd GruppB). Vi vill nu bestämma oddset att befinna sig i kategori efter en viss bestämd tid. Antag att vi vill göra detta dag 42, vilket svarar mot dagstd =.67. Vi kan beräkna oddset för var och en av de tre grupperna. P( Y v ) P( Y vi ) P( Y vi ) = exp P( Y vi ) P( Y vi ) = exp =. P( Y v ) i Grupp A: = exp( ) =. 27 Grupp B: ( ) =. Grupp R: ( ) 44 i Utifrån detta ser vi att oddset att tillhöra kategori är sex gånger större för grupp A än för grupp R och att oddset är 2.5 gånger större för grupp B än för grupp R. Jämförelser mellan grupp A och grupp B visar att oddset är ungefär 2.5 gånger högre för grupp A. Det kan alltså finnas en skillnad även mellan grupp A och B. Vi undersöker nu fallet då k = 6. Det känns intressantare att bestämma oddset att vara i kategori 7 istället för oddset att tillhöra kategori {,, 6}. På grund av detta inverterar vi kvoten, vilket ger P( Y P( Y 6 v ) 6 v ) i i = exp( GruppA.74GruppB Dagstd.57Dagstd GruppA +.45Dagstd GruppB). Antag återigen att Dagstd =.67. P( Y i Grupp A: = exp( ) =. 3 P( Y P( Y 6 v ) 6 v ) i i Grupp B: = exp( ) =. 5 P( Y P( Y 6 v ) 6 v ) i i Grupp R: = exp( ) =. 4 P( Y 6 v ) 6 v ) i 25

34 Detta medför att oddset att tillhöra kategori 7 är elva gånger större för grupp R än för grupp A, ungefär tre gånger större för grupp R än för grupp B respektive fyra gånger större för grupp B än för grupp A. Resultatet i exempel 3 visar på att oddset att dö är högst om man tillhör grupp R. Vidare beräkningar visar att oddset att tillhöra en hög kategori, vid studietidens slut, är högre för grupp R än för de övriga två grupperna. Precis som den enkla analysen tyder resultatet på att de två behandlingsgrupperna är bättre än referensgruppen, dvs. substanserna man testar verkar ha en positiv effekt på sjukdomen. Genom att betrakta figur 6-8 ser man att anpassningen är sämre för kategori och 7. Att anpassningen är dålig för kategori kan till stor del bero på att under de första dagarna tillhör alla individer den kategorin; alla är alltså friska. För kategori 7 är det istället så att ingen individ tillhör denna kategori förrän i slutet av studietiden. 26

35 4 Diskussion Vi börjar med att resonera kring eventuellt bortfall. I analysen i kapitel 3 antog vi att vi hade ignorerbart bortfall. Vi kunde därför använda ordinal RRM, ty dessa modeller kan hantera denna typ av bortfall. Frågan är nu om vi har gjort ett korrekt antagande. Vissa individer kan tas ut ur studien på grund av att de är för sjuka och om så är fallet är det inte lämpligt att anta att bortfallet är ignorerbart. För just denna typ av datamaterial är det inte alltid ett lämpligt antagande och man bör således använda andra, mer lämpliga, metoder. En metod som vi har sett nämnas i exempelvis Hedeker och Mermelstein (2:39) är Pattern-mixture modeling. Då förutsätter man inte längre att bortfallet är ignorerbart. Nu till detta att individer kan kategoriseras som död. Vad innebär det för vår analys att en kategori är absorberande? Eftersom vi tittar på sannolikheten (eller oddset) att vara i ett visst tillstånd spelar det ingen roll att en kategori är absorberande. I kapitel 3.2 analyserades datamaterialet med hjälp av en icke-parametrisk metod (Friedman). Resultatet blev att det fanns en signifikant skillnad mellan de tre grupperna och vi kunde även se mellan vilka grupper som skillnaderna fanns. Friedmans test och andra icke-parametriska metoder har dock vissa begränsningar. Antag att vi har en grupp G där individerna hamnar i ett skov tidigt och sedan inte blir bättre utan individerna ligger på en konstant nivå. Antag vidare att i en annan grupp G2 blir individerna sjukare och sjukare med tiden. I början har individerna i G en högre medelrang, medan det i slutet av studien gäller det omvända. Om man skulle använda Friedman för att jämföra grupper skulle man inte hitta någon skillnad. Det räcker alltså inte att använda Friedmans test utan vi behöver andra metoder som kan upptäcka skillnader i fall som dessa. Ett annat problem är att modeller för att analysera longitudinella ordinaldata kräver stora datamaterial eftersom det är väldigt många parametrar som ska skattas. När vi använder RRM krävs det att det finns många observationer i varje kategori, vilket tyvärr inte alltid är fallet. Om man låter en förklarande variabel ha en heterogen effekt krävs det dessutom att det finns observationer i varje kategori, för alla nivåer på den förklarande variabeln. I datamaterialet som analyseras finns det tio kategorier varav två helt saknar observationer. Därför har vi i analysen antagit att det endast finns åtta kategorier. De artiklar vi refererar till och som beskriver ordinal RRM med ickeproportionella odds har exempel med få responskategorier och få upprepade mätningar. Detta verkar vara en förutsättning för att få bra anpassade modeller, om man inte har väldigt stora datamaterial. Det skulle alltså vara bra om vi kunde reducera antalet responskategorier ytterligare. Eftersom det krävs så 27

36 stora datamaterial blir tyvärr möjligheten att använda dessa modeller relativt begränsad, speciellt då man har många responskategorier. I samband med detta skulle det vara intressant att simulera ett stort datamaterial och testa dessa modeller på det materialet. I det simulerade datamaterialet ska det för varje dag och för varje grupp finnas observationer i varje kategori. Vi har med tid (Dagstd) som en kontinuerlig variabel i modellen. I kapitel 2.2. konstaterade vi att om vi skulle låta en kontinuerlig variabel ha en heterogen effekt skulle detta kunna medföra att de skattade sannolikheterna blir negativa. Exakt detta problem uppstod för vissa av modellerna. Det är dock så att om vi låter Dagstd ha en homogen effekt på varje kumulativ logit uppstår inte längre detta problem. Det förefaller således mest lämpligt att modellen ser ut på det senare sättet. De allra första modellerna vi testade innehöll inte några samspelstermer. Anledningen till detta var främst att vi inte ville testa alltför avancerade modeller. En alternativ ansats kunde ha varit att börja med ännu mindre modeller; nämligen genom att undersöka varje grupp för sig, dvs. arbeta med tre datamaterial. Med hjälp av de mindre modellerna hade man kanske kunnat hitta ett bättre sätt att hantera tiden, för att få en så bra anpassning som möjligt. Mindre modeller leder inte till lika stora problem med konvergensen. En ytterligare anledning till att ordinal RRM inte är att rekommendera för analys av datamaterial, liknande det vi tittat på här, är de numeriska metoderna. Hur många kvadraturpunkter och/eller vilka startvärden man väljer kan i hög grad påverka resultatet. Systemen av likelihoodekvationer har inga tydliga maximum och således blir skattningarna instabila. En utförligare diskussion om detta finns i Lesaffre och Spiessens (2). Återigen, det är inte bara kvadraturpunkterna som påverkar resultatet. Även val av maximeringsmetod kan medföra förändrade resultat, framförallt kan variansskattningarna bli olika, vilket leder till olika p-värden vid test av hypoteser. I programmet MIXOR används Fishers method of scoring som maximeringsmetod; detta går inte att ändra. Anser man att andra maximeringsmetoder är lämpligare får man leta efter andra program alternativt göra ett eget. Startvärdena kan man däremot antingen låta programmet välja eller också kan man bestämma dem själv. Vår slutsats är således att dessa metoder inte är lämpliga på datamaterial som liknar det som vi har analyserat. Vill man ändå använda dessa metoder bör man minska antalet responskategorier och helst inte göra så många upprepade mätningar. 28

37 Referenser Agresti A. (999). Modelling ordered categorical data: Recent advances and future challenges. Statistics in Medicine 8, Agresti A. (22). Categorical data analysis (2 ed). Hoboken, New Jersey: John Wiley & Sons, Inc. Albert P. S. (994). A Markov Model for Sequences of Ordinal Data from a Relapsing-Remitting Disease. Biometrics 5, 5-6. Diggle P., Liang K.-Y., Zeger S. L. (994). Analysis of Longitudinal Data. New York: Oxford University Press. Hedeker D., Gibbons R. D. (996). MIXOR: a computer program for mixed-effects ordinal regression analysis. Computer Methods and Programs in Biomedicine, 49, Issue 2, Hedeker D., Mermelstein R. (996). Application of random-effects regression models in relapse research. Addiction, 9 (Supplement), Hedeker D., Mermelstein R. (998). A Multilevel Thresholds of Change Model for Analysis of Stages of Change Data. Multivariate Behavioral Research, 33 (4), Hedeker D., Mermelstein R. (2). Analysis of longitudinal substance use outcomes using ordinal random-effects regression models. Addiction, 95 (Supplement 3), Hedeker D., Gibbons R. D. Mixor < Infomedica AB. Multipel skleros MS < Johnson. V. E., Albert J. H. (999). Ordinal data modelling (kap 4). New York: Springer 29

38 Lesaffre E., Spiessens B. (2). On the effect of the number of quadrature points in a logistic random-effects model: an example. Journal of the Royal Statistical Society: Series C (Applied Statistics), Vol 5, No 3, Peterson B., Harrell F. (99). Partial Proportional Odds Models for Ordinal Response Variables. Applied Statistics, Vol 39, No 2, Tamhane A. C., Dunlop D. D. (2). Statistics and Data Analysis from elementary to Intermediate. London: Prentice-Hall International (UK) Limited. Xie H., McHugo G., Sengupta A., Hedeker D., Drake R. (2). An application of the Thresholds of Change Model to the analysis of Mental Health Data. Mental Health Services Research, Vol 3, No 2,

39 A Mixor Mixor är ett program som har utvecklats av Donald Hedeker samt Robert D Gibbons. Programmet är utvecklat för att kunna hantera ordinal regressionsanalys med både slumpmässiga och fixa effekter. För att använda programmet behöver man två olika filer, en datafil (.dat) samt en definitionsfil (.def). Datafilen innehåller datamaterialet som man vill analysera och definitionsfilen beskriver vilken typ av analys som ska utföras. Datafilen är uppbyggd kolumnvis. Den har alltså en kolumn för respons, en för individidentifikation och så vidare. Hur definitionsfilen är uppbyggd beskrivs närmare i tabellerna nedan. Tabell A. En beskrivning av de första nio raderna i definitionsfilen. Rad Beskrivning Titel, maximalt 6 tecken 2 Undertitel, maximalt 6 tecken 3 Namnet på datafilen (.dat), maximalt 8 tecken 4 Namnet på output-filen (.out), maximalt 8 tecken 5 Namnet på definitionsfilen (.def) 6 Beskriver hur datamaterialet ska analyseras (se tabell A2) 7 Läser in två parametrar, kolumnen med varje individs identifikation samt kolumnen med responsvariabeln. 8 Läser in R parametrar, nämligen de R kolumnerna med slumpmässiga effekter 9 Läser in P parametrar, nämligen de P kolumnerna med fixa effekter. Ordningen är av betydelse om kolumn 4 på rad 6 är större än noll. Tabell A2. En utförligare beskrivning av rad 6. Kolumn Beskrivning Namn Antalet individer vars data ska listas på skärmen NPR (vanligtvis satt till ) 2 Antal kolumner i datafilen NF 3 Antal slumpmässiga effekter R 4 Antal fixa effekter P 5 Konvergenskriteriet (vanligtvis satt till. eller CONV.) 6 Antalet kategorier för responsvariabeln MAXJ 7 om det inte finns saknade värden, om det finns det MISS 8 om automatiskt startvärde, om man själv vill sätta START startvärden 9 om varje individ har samma vikt, om de har olika WT om man inte vill göra korstabulering på en variabel CATYX mot responsvariablen Antal kvadraturpunkter som ska användas vid den NQUAD numeriska integreringen 2,, 2 respektive 3 för probit, logistisk, complementary FUNC 3

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:... Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

F22, Icke-parametriska metoder.

F22, Icke-parametriska metoder. Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2 Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2 Laborationen avser att illustrera användandet av normalfördelningsdiagram, konfidensintervall vid jämförelser samt teckentest. En viktig

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Weibullanalys. Maximum-likelihoodskattning

Weibullanalys. Maximum-likelihoodskattning 1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.

Läs mer

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 7 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Fortsättning envägs-anova Scheffes test (kap 11.4) o Tvåvägs-ANOVA Korsade faktorer (kap 12.1, 12.3) Randomiserade blockförsök

Läs mer

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski FACIT för Förberedelseuppgifter: SF9 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 206 KL 4.00 9.00. Examinator: Timo Koski - - - - - - - - - - - - - - - - - - - - - - - - 0. FACIT Problem

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Biostatistik kursmål Dra slutsatser utifrån basala statistiska begrepp och analyser och själva kunna använda sådana metoder.

Läs mer

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson (examinator) VT2017 TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2017-04-20 LÖSNINGSFÖRSLAG Första version, med reservation för tryck-

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Multinominella modeller Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Möjligt att, genom olika modellformuleringar, beakta att vissa regressorer varierar mellan

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF25: MATEMATISK STATISTIK KOMPLETTERANDE PROJEKT DATORLABORATION 1, 14 NOVEMBER 2017 Syfte Syftet med dagens laboration är att du ska träna

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5 LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2002

Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2002 Innehållsförteckning Biostatistikutbildning vid Universiteten i Uppsala och Stockholm 2002 Vad är biostatistik? Arbetsmarknad Forskarutbildning i biostatistik Biostatistikprogrammet Planerat kursschema

Läs mer

Regressionsmodellering inom sjukförsäkring

Regressionsmodellering inom sjukförsäkring Matematisk Statistik, KTH / SHB Capital Markets Aktuarieföreningen 4 februari 2014 Problembeskrivning Vi utgår från Försäkringsförbundets sjuklighetsundersökning och betraktar en portfölj av sjukförsäkringskontrakt.

Läs mer

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p) Avd. Matematisk statistik TENTAMEN I SF1920 och SF1921 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 8:E JUNI 2018 KL 14.00 19.00. Examinator: Björn-Olof Skytt, 08 790 86 49. Tillåtna hjälpmedel: Formel-

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

f(x) = 2 x2, 1 < x < 2.

f(x) = 2 x2, 1 < x < 2. Avd. Matematisk statistik TENTAMEN I SF90,SF907,SF908,SF9 SANNOLIKHETSTEORI OCH STATISTIK TORSDAGEN DEN 7:E JUNI 0 KL 4.00 9.00. Examinator: Gunnar Englund, tel. 07 7 45 Tillåtna hjälpmedel: Formel- och

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Industriell matematik och statistik, LMA136 2013/14

Industriell matematik och statistik, LMA136 2013/14 Industriell matematik och statistik, LMA136 2013/14 7 Mars 2014 Disposition r Kondensintervall och hypotestest Kondensintervall Statistika Z (eller T) har fördelning F (Z en funktion av ˆθ och θ) q 1 α/2

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012

Läs mer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 Matematisk Statistik SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 1 Introduktion Denna laboration är inte poänggivande utan är till för den som vill bekanta sig med MATLAB. Fokusera

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12 LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.

Läs mer

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier: Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Statistiska Institutionen Gebrenegus Ghilagaber (docent) Lösningsförslag till skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, VT09. Onsdagen 3 juni 2009-1 Sannolkhetslära Mobiltelefoner tillverkas

Läs mer

Statistisk försöksplanering

Statistisk försöksplanering Statistisk försöksplanering Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Skriftlig tentamen 3 hp 51SF01 Textilingenjörsutbildningen Tentamensdatum: 2 November Tid: 09:00-13 Hjälpmedel: Miniräknare

Läs mer

TMS136. Föreläsning 13

TMS136. Föreläsning 13 TMS136 Föreläsning 13 Jämförelser mellan två populationer Hittills har vi gjort konfidensintervall och tester kring parametrar i EN population I praktiska sammanhang är man ofta intresserad av att jämföra

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data

Läs mer

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till

Läs mer

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion Avd. Matematisk statistik TENTAMEN I 5B57 MATEMATISK STATISTIK FÖR T och M ONSDAGEN DEN 9 OKTOBER 25 KL 8. 3.. Examinator: Jan Enger, tel. 79 734. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk

Läs mer

Laboration 4: Lineär regression

Laboration 4: Lineär regression LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 4: Lineär regression 1 Syfte Denna laboration handlar om regressionsanalys och

Läs mer

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar Lunds tekniska högskola Matematikcentrum Matematisk statistik Laboration 3 Matematisk statistik AK för CDIFysiker, FMS012/MASB03, HT15 Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla

Läs mer

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, VT2014 2014-05-26 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer