Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Relevanta dokument
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Föreläsning G60 Statistiska metoder

Lektionsanteckningar 11-12: Normalfördelningen

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Laboration med Minitab

DATORÖVNING 2: STATISTISK INFERENS.

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

bli bekant med summor av stokastiska variabler.

Samplingfördelningar 1

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

LABORATION 1. Syfte: Syftet med laborationen är att

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Introduktion och laboration : Minitab

F9 SAMPLINGFÖRDELNINGAR (NCT

Datorövning 1: Fördelningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Grundläggande matematisk statistik

Mata in data i Excel och bearbeta i SPSS

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Introduktion till statistik för statsvetare

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Demonstration av laboration 2, SF1901

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 4. Kapitel 5, sid Stickprovsteori

TMS136. Föreläsning 7

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

TMS136. Föreläsning 4

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Richard Öhrvall, 1

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Forskningsmetodik 2006 lektion 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Datorövning 1 Fördelningar

Föreläsning 7. Statistikens grunder.

Marknadsinformationsmetodik Inlämningsuppgift

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 3: Parameterskattning och Fördelningsanpassning

Uppgift a b c d e Vet inte Poäng

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

DATORÖVNING 3: MER OM STATISTISK INFERENS.

En introduktion till och första övning for Excel

Laboration 1: Introduktion till R och Deskriptiv statistik

Intro till SPSS Kimmo Sorjonen (0811)

Obligatorisk uppgift, del 1

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Lunds univrsitet Matematikcentrum Matematisk statistik

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 3. Variansanalys

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Parade och oparade test

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Kap 2. Sannolikhetsteorins grunder

Laboration 3: Urval och skattningar

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Repetitionsföreläsning

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Laboration 3: Urval och skattningar

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 12: Regression

Studietyper, inferens och konfidensintervall

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

FÖRELÄSNING 8:

Kap 3: Diskreta fördelningar

Transkript:

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT007 Laboration Simulering Grupp A: 007-11-1, 8.15-.00 Grupp B: 007-11-1, 13.15-15.00

Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner som finns i SPSS vad det gäller simulering och dels att öka förståelsen för vissa grundläggande områden inom sannolikhetsteorin t.ex. slumpmässiga urval, slumpvariabel, sannolikhetsfördelning och summor av slumpvariabler (Centrala gränsvärdessatsen). Simulering i SPSS Simulering i SPSS görs genom att man använder speciella färdiga funktioner under menyalternativet Transform>Compute. Om man t ex vill ha ett antal slumptal från en normalfördelning med medelvärdet 0 och standardavvikelsen 15 ser det ut så här: Här bildas alltså en ny variabel som får namnet NORMAL och den innehåller lika många slumptal från normalfördelningen som det finns observationer (rader) i datamaterialet. Exempel på fördelningar som finns i SPSS är (RV=Random Variable) : Fördelning Funktion Exempel Binomial RV.BINOM(n,p) RV.BINOM(,0.5) Poisson RV.POISSON(mean) RV.BINOM() Normal RV.NORMAL(mean,stddev) RV.NORMAL(0,15) Likformig (Uniform) RV.UNIFORM(min,max) RV.UNIFORM(,0) Exponential RV.EXP(scale) RV.EXP(1) mean = medelvärdet i fördelningen stddev = standardavvikelsen i fördelningen scale = 1 / medelvärdet (i exponentialfördelningen) Börja nu med att lägga in värdet (eller vilket värde som helst) på den tionde raden i den första kolumnen i ditt datamaterial. Detta gör man för att SPSS alltid skapar ett slumptal för varje rad i datamaterialet. Vi kommer alltså nu automatiskt att få slumptal.

3 1. Bilda en ny kolumn med hjälp av Transform>Compute. Den skall heta NORMAL och innehålla slumptal från en normalfördelning med medelvärdet och standardavvikelsen. Bilda sedan en andra kolumn som heter UNI och innehåller slumptal från en likformig fördelning mellan och 0. Ledning: RV.NORMAL(,) och RV.UNIFORM(,0) Observera att slumptalen kan ses som stickprov om observationer från två kända populationer. Kontrollera nu med hjälp av Graph>Histogram hur väl stickproven överensstämmer med populationerna. Teoretiskt ser populationerna ut så här: 5 15 15 0 Normal (,) Uniform (,0) Hur väl stämmer stickproven överens med populationerna? Upprepa nu för stickprovsstorlek n=50 observationer. Bör överensstämmelsen bli bättre eller sämre?. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb11/, under rubriken Kursmaterial Datafiler, hittar du hjälpfilen OBS.SAV. Hämta hem denna fil till din dator. Den innehåller 00 rader och en variabel som heter OBS. Skapa nu tre stickprov om n=00 observationer från följande fördelningar: Normal(,) Uniform(,0) Exponential med medelvärdet 1 (RV.EXP(1)) Kontrollera med histogram hur fördelningarna ser ut. Kryssa för Display normal curve. Om man vill kontrollera hur pass nära ett stickprov är en viss teoretisk fördelning kan man använda olika grafiska metoder. En sådan metod är en s k Q-Q plot (Q=Quantile). I en Q-Q plot jämför man de verkliga värdena i stickprovet med det man kunde förvänta sig från en viss teoretisk fördelning. Om de observerade värdena överensstämmer med de förväntade så kommer punkterna i en Q-Q plot att ligga längs en rät linje. Jämför nu de tre stickproven ovan med vad vi kunde förvänta oss från en normalfördelning. Menyalternativet du skall ge är Graphs>Q-Q plot och det skall då se ut så här:

4 Tryck på OK, I resultatet finns två figurer för varje variabel. Den intressanta är den som kallas Normal Q-Q plot. Dina figurer bör se ut ungefär så här: 18 Normal Q-Q Plot of NORMAL 30 Normal Q-Q Plot of UNI 16 14 1 0 Expected Normal Value 8 6 4 Expected Normal Value 0 4 6 8 1 14 16 18 0 0 30 Observed Value Observed Value,5 Normal Q-Q Plot of EXP,0 1,5 1,0 Expected Normal Value,5 0,0 -,5-1,0-1,5 - -1 0 1 3 4 5 Observed Value Vi ser alltså att olika avvikelser från normalfördelning resulterar i olika kurvutseende.

3. I de tidigare uppgifterna har vi simulerat vad som händer om vi tar stickprov av olika storlekar från olika kända fördelningar. Vi skall nu gå vidare och undersöka vad som händer om vi bildar olika storheter i stickprovet. Vilka egenskaper får då dessa storheter? Vi börjar med att undersöka vilken fördelningen summan av två observationer från en normalfördelning (,) har. Börja med att gå in under Transform>Compute och definiera en ny variabel NORM1 som RV.NORMAL(,). Tryck sedan på knappen Paste innan du ger OK. Då öppnas följande s k syntaxfönster. Detta är ett exempel på den programkod som SPSS alltid genererar när vi utför en operation. Om man vill utföra samma operation många gånger kan det vara praktiskt att utnyttja SPSS programkod (syntax). Kopiera de två raderna i syntaxfönstret så att vi upprepar raderna ännu en gång. Byt namnet norm1 till norm i den andra omgången så att det ser ut så här: När vi kör dessa kommandon kommer det att bildas två nya variabler som heter NORM1 och NORM och som innehåller 00 slumptal var. Programkoden körs genom att man ger menysekvensen Run>All. De två kolumnerna med slumptal finns nu i datamaterialet. Om man vill kan man också spara syntaxfönstret för dokumentation eller senare användning (File>Save As / File>Open>Syntax). Bilda nu summan av de två kolumnerna NORM1 och NORM. Undersök vilken fördelning summan har genom att göra ett histogram och en Q-Q plot. Vilken fördelning har summan? Svar: Vad bör medelvärdet bli? Svar: Standardavvikelsen? Svar: (Svar finns längst bak)

6 Centrala gränsvärdessatsen Centrala gränsvärdessatsen (CGS) är ett av de viktigaste resultaten i den statistiska teorin. Den säger att fördelningen för en summa (medelvärde) av oberoende slumpvariabler med samma fördelning går mot en normalfördelning om antalet termer är tillräckligt stort. I den första uppgiften skall du undersöka hur många termer (observationer) som behövs för att få en bra normalfördelningsapproximation. Vi skall i uppgiften jämföra observationer från en likformig fördelning mellan och 0 och en exponentialfördelning med medelvärdet 1. Simulera nu 00 slumptal från en likformig fördelning mellan och 0. Om du vill kan du använda den variabel du fick fram under punkten ovan. Kalla variabeln UNI1. Skapa ytterligare en variabel UNI med 00 slumptal från samma fördelning. Bilda summan av UNI1 och UNI och undersök hur fördelningen för summa ser ut genom att göra ett histogram och/eller en Q-Q plot. Skapa nu ytterligare en variabel UNI3 och bilda summan UNI1+UNI+UNI3. Hur ser fördelningen för summan ut? Fortsätt nu på samma sätt och lägg till variabler tills fördelningen för summan kan approximeras bra av en normalfördelning. Hur många termer behöver du använda? Kontrollera att medelvärdet och standardavvikelsen för summan stämmer överens med vad de teoretiskt bör vara. Ledning: Man kan visa att om X är uniform (a,b): => E X = a+b Var X = b a 1 Upprepa nu denna procedur för slumptal från en exponentialfördelning med medelvärdet 1. Bilda alltså variabler med 00 slumptal och summera ihop dessa. Verkar fördelningen gå snabbare eller långsammare mot en normalfördelning än det gjorde för den likformiga fördelningen. Vad beror detta på? Centrala gränsvärdessatsen i praktiken: På 35 patienter med Hodgkins sjukdom mätte man antalet T4 celler i blodet (antal/mm³). Samtidigt mätte man motsvarande antal hos 35 patienter som hade andra sjukdomar (Non-Hodgkins). Data ligger i filen HODGKIN.SAV som du hittar på kursens hemsida http://www.maths.lth.se/matstat/kurser/masb11/, under rubriken Kursmaterial Datafiler. Undersök om antalet celler i blodet är normalfördelat för de båda grupperna. Du hade tänkt att jämföra grupperna genom att bilda differensen mellan de två gruppmedelvärdena. Kan du använda dig av centrala gränsvärdessatsen i detta fall? Kan du säga något om vilken fördelning differensen i medelvärden har? Är det ett stort problem att variabeln inte är normalfördelad i de båda grupperna?

7 Sammanfattning SPSS Paste File>Open>Data File>Open>Syntax File>Save As Transform>Compute Analyze> Descriptive Statistics >Descriptives Graphs> Histogram Graphs>Q-Q plot Data>Split File Öppnar syntaxfönster Öppna SPSS-data Öppnar sparat syntaxfönster Sparar aktuellt fönster Bilda nya variabler Beskrivande mått Histogram Q-Q plot Dela upp materialet i grupper Svar på frågorna: Summan blir normalfördelad (alla linjära kombinationer av normalfördelningar blir i sig normalfördelade). Medelvärdet bör bli summan av de två medelvärdena (+=0) och för att få standardavvikelsen så lägger vi ihop de två varianserna och tar roten ur summan. = 8=,83 S=X 1 +X E S =E X 1 +E X Var S =Var X 1 +Var X σ S = Var S