Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Relevanta dokument
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning G60 Statistiska metoder

Lektionsanteckningar 11-12: Normalfördelningen

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Laboration med Minitab

DATORÖVNING 2: STATISTISK INFERENS.

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

LABORATION 1. Syfte: Syftet med laborationen är att

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

bli bekant med summor av stokastiska variabler.

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Samplingfördelningar 1

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Introduktion och laboration : Minitab

F9 SAMPLINGFÖRDELNINGAR (NCT

Datorövning 1: Fördelningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Grundläggande matematisk statistik

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

Introduktion till statistik för statsvetare

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Demonstration av laboration 2, SF1901

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Föreläsning 4. Kapitel 5, sid Stickprovsteori

TMS136. Föreläsning 7

TMS136. Föreläsning 4

Marknadsinformationsmetodik Inlämningsuppgift

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Mata in data i Excel och bearbeta i SPSS

Forskningsmetodik 2006 lektion 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Datorövning 1 Fördelningar

En introduktion till och första övning for Excel

Föreläsning 7. Statistikens grunder.

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Laboration 3: Parameterskattning och Fördelningsanpassning

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Uppgift a b c d e Vet inte Poäng

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 3. Variansanalys

Laboration 1: Introduktion till R och Deskriptiv statistik

Richard Öhrvall, 1

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Obligatorisk uppgift, del 1

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Intro till SPSS Kimmo Sorjonen (0811)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 3: Urval och skattningar

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Kap 2. Sannolikhetsteorins grunder

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

LABORATIONER. Det finns en introduktionsfilm till Minitab på

Laboration 3: Urval och skattningar

Statistik för Brandingenjörer. Laboration 1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet Per-Erik Isberg. SPSS for Windows 12 - a guided tour

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 12: Regression

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Välkommen till Matematik 3 för lärare!

FÖRELÄSNING 8:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

2.1 Minitab-introduktion

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Transkript:

Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006

Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner som finns i SPSS vad det gäller simulering och dels att öka förståelsen för vissa grundläggande områden inom sannolikhetsteorin t ex slumpmässiga urval, slumpvariabel, sannolikhetsfördelning och summor av slumpvariabler (Centrala gränsvärdessatsen). Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast fredagen den december 006. Simulering i SPSS Simulering i SPSS görs genom att man använder speciella färdiga funktioner under menyalternativet Transform>Compute. Om man t ex vill ha ett antal slumptal från en normalfördelning med medelvärdet 0 och standardavvikelsen 5 ser det ut så här: Här bildas alltså en ny variabel som får namnet NORMAL och den innehåller lika många slumptal från normalfördelningen som det finns observationer (rader) i datamaterialet. Exempel på fördelningar som finns i SPSS är (RV=Random Variable) : Fördelning Funktion Exempel Binomial RV.BINOM(n,p) RV.BINOM(,0.5) Poisson RV.POISSON(mean) RV.BINOM() Normal RV.NORMAL(mean,stddev) RV.NORMAL(0,5) Likformig (Uniform) RV.UNIFORM(min,max) RV.UNIFORM(,0) Exponential RV.EXP(scale) RV.EXP() mean = medelvärdet i fördelningen stddev = standardavvikelsen i fördelningen scale = / medelvärdet (i exponentialfördelningen)

3 Börja nu med att lägga in värdet (eller vilket värde som helst) på den tionde raden i den första kolumnen i ditt datamaterial. Detta gör man för att SPSS alltid skapar ett slumptal för varje rad i datamaterialet. Vi kommer alltså nu automatiskt att få slumptal.. Bilda en ny kolumn med hjälp av Transform>Compute. Den skall heta NORMAL och innehålla slumptal från en normalfördelning med medelvärdet och standardavvikelsen. Bilda sedan en andra kolumn som heter UNI och innehåller slumptal från en likformig fördelning mellan och 0. Ledning: RV.NORMAL(,) och RV.UNIFORM(,0) Observera att slumptalen kan ses som stickprov om observationer från två kända populationer. Kontrollera nu med hjälp av Graph>Histogram hur väl stickproven överensstämmer med populationerna. Teoretiskt ser populationerna ut så här: 5 5 5 0 Normal (,) Uniform (,0) Hur väl stämmer stickproven överens med populationerna? Upprepa nu för stickprovsstorlek n=50 observationer. Bör överensstämmelsen bli bättre eller sämre?. På kursens hemsida http://www.maths.lth.se/matstat/kurser/mas5/, under rubriken Kursmaterial Datafiler, hittar du hjälpfilen OBS.SAV. Hämta hem denna fil till din dator. Den innehåller 00 rader och en variabel som heter OBS. Skapa nu tre stickprov om n=00 observationer från följande fördelningar: Normal(,) Uniform(,0) Exponential med medelvärdet (RV.EXP()) Kontrollera med histogram hur fördelningarna ser ut. Kryssa för Display normal curve.

4 Om man vill kontrollera hur pass nära ett stickprov är en viss teoretisk fördelning kan man använda olika grafiska metoder. En sådan metod är en s k Q-Q plot (Q=Quantile). I en Q-Q plot jämför man de verkliga värdena i stickprovet med det man kunde förvänta sig från en viss teoretisk fördelning. Om de observerade värdena överensstämmer med de förväntade så kommer punkterna i en Q-Q plot att ligga längs en rät linje. Jämför nu de tre stickproven ovan med vad vi kunde förvänta oss från en normalfördelning. Menyalternativet du skall ge är Graphs>Q-Q plot och det skall då se ut så här: Tryck på OK, I resultatet finns två figurer för varje variabel. Den intressanta är den som kallas Normal Q-Q plot. Dina figurer bör se ut ungefär så här: 8 Normal Q-Q Plot of NORMAL 30 Normal Q-Q Plot of UNI 6 4 0 Expected Normal Value 8 6 4 Expected Normal Value 0 4 6 8 4 6 8 0 0 30 Observed Value Observed Value Normal Q-Q Plot of EXP,5,0,5,0 Expected Normal Value,5 0,0 -,5 -,0 -,5 - - 0 3 4 5 Observed Value Vi ser alltså att olika avvikelser från normalfördelning resulterar i olika kurvutseende.

5 3. I de tidigare uppgifterna har vi simulerat vad som händer om vi tar stickprov av olika storlekar från olika kända fördelningar. Vi skall nu gå vidare och undersöka vad som händer om vi bildar olika storheter i stickprovet. Vilka egenskaper får då dessa storheter? Vi börjar med att undersöka vilken fördelningen summan av två observationer från en normalfördelning (,) har. Börja med att gå in under Transform>Compute och definiera en ny variabel NORM som RV.NORMAL(,). Tryck sedan på knappen Paste innan du ger OK. Då öppnas följande s k syntaxfönster. Detta är ett exempel på den programkod som SPSS alltid genererar när vi utför en operation. Om man vill utföra samma operation många gånger kan det vara praktiskt att utnyttja SPSS programkod (syntax). Kopiera de två raderna i syntaxfönstret så att vi upprepar raderna ännu en gång. Byt namnet norm till norm i den andra omgången så att det ser ut så här: När vi kör dessa kommandon kommer det att bildas två nya variabler som heter NORM och NORM och som innehåller 00 slumptal var. Programkoden körs genom att man ger menysekvensen Run>All. De två kolumnerna med slumptal finns nu i datamaterialet. Om man vill kan man också spara syntaxfönstret för dokumentation eller senare användning (File>Save As / File>Open>Syntax). Bilda nu summan av de två kolumnerna NORM och NORM. Undersök vilken fördelning summan har genom att göra ett histogram och en Q-Q plot. Vilken fördelning har summan? Svar: Vad bör medelvärdet bli? Svar: Standardavvikelsen? Svar: (Svar finns längst bak)

6 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast fredagen den december 006. Centrala gränsvärdessatsen (CGS) Ett av de viktigaste resultaten i den statistiska teorin är centrala gränsvärdessatsen. Den säger att fördelningen för en summa (medelvärde) av oberoende slumpvariabler med samma fördelning går mot en normalfördelning om antalet termer är tillräckligt stort. I den första uppgiften skall du undersöka hur många termer (observationer) som behövs för att få en bra normalfördelningsapproximation. Vi skall i uppgiften jämföra observationer från en likformig fördelning mellan och 0 och en exponentialfördelning med medelvärdet. Simulera nu 00 slumptal från en likformig fördelning mellan och 0. Om du vill kan du använda den variabel du fick fram under punkten ovan. Kalla variabeln UNI. Skapa ytterligare en variabel UNI med 00 slumptal från samma fördelning. Bilda summan av UNI och UNI och undersök hur fördelningen för summa ser ut genom att göra ett histogram och/eller en Q-Q plot. Skapa nu ytterligare en variabel UNI3 och bilda summan UNI+UNI+UNI3. Hur ser fördelningen för summan ut? Fortsätt nu på samma sätt och lägg till variabler tills fördelningen för summan kan approximeras bra av en normalfördelning. Hur många termer behöver du använda? Kontrollera att medelvärdet och standardavvikelsen för summan stämmer överens med vad de teoretiskt bör vara. Ledning: Man kan visa att om X a + b ( b a) är uniform (a,b): => E( X ) = V ( X ) = Upprepa nu denna procedur för slumptal från en exponentialfördelning med medelvärdet. Bilda alltså variabler med 00 slumptal och summera ihop dessa. Verkar fördelningen gå snabbare eller långsammare mot en normalfördelning än det gjorde för den likformiga fördelningen. Vad beror detta på? Centrala gränsvärdessatsen i praktiken. Datamaterial: Efter en svår storm fångades 36 gråsparvar. Fåglarna var i dålig kondition och 7 hämtade sig medan 64 dog. Du vill jämföra dessa båda grupper på en viss variabel. Men variabeln är inte normalfördelad i någon av grupperna. Du hade tänkt att jämföra grupperna genom att bilda differensen mellan de två gruppmedelvärdena. Kan du använda dig av centrala gränsvärdessatsen i detta fall? Kan du säga något om vilken fördelning differensen i medelvärden har? Är det ett stort problem att variabeln inte är normalfördelad i de båda grupperna?

7 På kursens hemsida http://www.maths.lth.se/matstat/kurser/mas5/, under rubriken Kursmaterial Datafiler, hittar du filen GRÅSPARVAR.SAV. Undersök om fåglarnas totala längd och vikt är normalfördelad. Dela sedan upp materialet i de som klarade sig och de som dog. Verkar de båda variablerna vara normalfördelade i respektive grupp. Ledning: Data>Split File. Sammanfattning SPSS Paste File>Open>Data File>Open>Syntax File>Save As Transform>Compute Analyze> Descriptive Statistics >Descriptives Graphs> Histogram Graphs>Q-Q plot Data>Split File Öppnar syntaxfönster Öppna SPSS-data Öppnar sparat syntaxfönster Sparar aktuellt fönster Bilda nya variabler Beskrivande mått Histogram Q-Q plot Dela upp materialet i grupper Svar på frågorna: Summan blir normalfördelad (alla linjära kombinationer av normalfördelningar blir i sig normalfördelade) Medelvärdet bör bli summan av de två medelvärdena (+=0) och för att få standardavvikelsen så lägger vi ihop de två varianserna och tar roten ur summan. + = 8 =,83 S = X + X E( S) = E( X V ( S) = V ( X ) + E( X ) + V ( X ) ) σ S = V ( S)