Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs



Relevanta dokument
1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Lektion 1: Fördelningar och deskriptiv analys

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

5 Kontinuerliga stokastiska variabler

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

TAIU07 Matematiska beräkningar med Matlab

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Resultatet läggs in i ladok senast 13 juni 2014.

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Datorlaboration 2 Konfidensintervall & hypotesprövning

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

9. Beräkna volymen av det område som begränsas av planet z = 1 och paraboloiden z = 5 x 2 y 2.

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Demonstration av laboration 2, SF1901

DATORÖVNING 4: DISKRETA

Textsträngar från/till skärm eller fil

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

4. Kunna orientera sig mellan de olika fönstren

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Tentamen i Matematisk statistik Kurskod S0001M

KPP053, HT2015 MATLAB, Föreläsning 1. Introduktion till MATLAB Skript Inläsning och utskrift av variabler Ekvationssystem Anonyma funktioner

Kort introduktion till Casio fx-9750 GII. Knappsats

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Ickelinjära ekvationer

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 23 februari 2004, klockan

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Statistisk undersökningsmetodik (Pol. kand.)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Statistik Lars Valter

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Obligatorisk uppgift, del 1

ÖVNINGSUPPGIFTER KAPITEL 9

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

(a) Hur stor är sannolikheten att en slumpvist vald person tror att den är laktosintolerant?

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Introduktion och laboration : Minitab

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Tentamen i Matematisk statistik Kurskod S0001M

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Tentamen MVE300 Sannolikhet, statistik och risk

Avd. Matematisk statistik

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

MATLAB handbok Introduktion

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

1. Frekvensfunktionen nedan är given. (3p)

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Statistik och epidemiologi T5

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Tentamen OOP

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Datorövning 1 Fördelningar

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Räkna med variation - Digitala uppgifter Studiematerial i sannolikhetslära och statistisk inferens. Lena Zetterqvist och Johan Lindström

Programmering, grundkurs, 8.0 hp, Elektro, KTH, hösten Nu till dagens ämne: Vi rekapitulerar det första problemet ur ProblemI:

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 9 november 2015 Sida 1 / 28

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Dagens föreläsning. Repetition. Repetition - Programmering i C. Repetition - Vad C består av. Repetition Ett första C-program

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska undersökningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Prov kapitel FACIT Version 1

Datorövning 1: Fördelningar

FACIT (korrekta svar i röd fetstil)

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Chapter 3: Using Classes and Objects

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Introduktion till Gnuplot

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Lösningsförslag, tentamen FYTA11 Javaprogrammering

MMA132: Laboration 1 Introduktion till MATLAB

Metod och teori. Statistik för naturvetare Umeå universitet

Transkript:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs TE/RC Datorövning 4 Syfte: 1. Lära sig beräkna konfidensintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen För att beräkna konfidensintervall och täckningsgrad börjar vi med att skapa 100 stickprov med 100 observationer i varje stickprov. Dessa observationer är slumptal som kommer från en likformig fördelning mellan 0 och 1. Vi gör det med koden: data work.random; do sample = 1 to 100; do obs = 1 to 100; x=ranuni (571224); if 0 <= x <= 0.1 then nummer = 1; else nummer = 0; output; Talet inom parantesen anger fröet (seed). Fröet är startpunkten för algoritmen som genererar slumptalen. Samma frö ger samma slumptal. Därefter har vi en variabel som heter nummer och som får värdet noll om slumptalet ligger mellan 0 och 0.1 och värdet 1 för övriga slumptal. Detta gör att variabeln nummer kan ses som en observation från en population där π = 0.1. Sedan beräknar vi medelvärdet av variabeln nummer och dessutom ett konfidensintervall i varje stickprov. Koden är: proc means data=work.random CLM mean alpha=0.05; output out=work.intervals LCLM=lower UCLM=upper; var nummer; by sample; utskriften blir (visar bara 2 av de 100 erhållna intervallen här): ---------------------------------------------- sample=1 -------------------------------------- The MEANS Procedure Analysis Variable : nummer Lower 95% Upper 95% CL for Mean CL for Mean Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0.0258984 0.1341016 0.0800000 1

---------------------------------------------- sample=2 -------------------------------------- Analysis Variable : nummer Lower 95% Upper 95% CL for Mean CL for Mean Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0.0065371 0.0934629 0.0500000 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Vi anger CLM, mean och alpha=0.05 för att SAS skall räkna ut ett 95 % -igt konfidensintervall och ett medelvärde för variabeln nummer. Vi vill att SAS skall göra detta för varje stickprov så vi skriver by=sample. Vi specifierar att vi vill spara nedre klassgräns som lower och övre klassgräns som upper i data-setet work.intervals. Vi kommer att få 100 konfidensintervall. Vi vet att populationsproportionen är 0.1 och vill därför att konfidensintervallen täcker 0.1. Vi undersöker hur många av intervallen som täcker 0.1 med koden: data work.intervals; set work.intervals; if lower <=0.1 and upper =>0.1 then coverage=1; else coverage=0; Genom att använda data set kan man modifiera variabler som man har i sitt data-set. Här bildar vi en ny variabel som coverage genom att använda oss av de befintliga variablerna lower och upper. Vi vill att variabeln coverage skall anta värdet 1 om intervallet täcker 0.1 och anta värdet 0 om intervallet inte täcker 0.1. Om vi skriver en proc print får vi 100 observationer/konfidensintervall (visar 5 st.): Obs sample _TYPE FREQ_ lower upper coverage 1 1 0 100 0.025898 0.13410 1 2 2 0 100 0.006537 0.09346 0 3 3 0 100 0.019118 0.12088 1 4 4 0 100 0.040174 0.15983 1 5 5 0 100 0.047603 0.17240 1 Vi ser att observation nr 1, 3, 4 och 5 täcker 0.1 och får coverage = 1. I observation nr 2 innehåller konfidensintervallet inte 0.1 och coverage blir då = 0. För att räkna hur många av intervallen som täcker 0.1 skriver vi koden: proc freq data=work.intervals; tables coverage; The FREQ Procedure Cumulative Cumulative coverage Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 6 6.00 6 6.00 1 94 94.00 100 100.00 2

Vi vill nu rita täthetsfunktionen för en exponentialfördelning med parametern λ=1. Vi gör på samma sätt som när vi gjorde binomial- och normalfördelningen grafiskt (se datorövn. 2). Koden blir: data work.exp; do x = 0 to 15 by 0.05; pdf = pdf ('expo', x, 1); output work.exp; proc print; Utskriften blir 301 observationer varav de 5 första är: Obs x pdf 1 0.00 1.00000 2 0.05 0.95123 3 0.10 0.90484 4 0.15 0.86071 5 0.20 0.81873 För att plotta fördelningen använder vi koden: proc gplot data=work.exp; plot pdf*x; symbol i=join; Grafen blir: pdf 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x 3

Nu skall vi illustrera centrala gränsvärdessatsen. Vi börjar med att skapa slumptal från en exponentialfördelning med parameter λ=1. Med koden nedan skapar vi 1000 stickprov med 10 observationer i varje stickprov: data work.randomexp; do sample = 1 to 1000; do obs = 1 to 10; x = ranexp (120301)/1; output; Variabeln x skall innehålla alla våra slumptal. Vi skriver ranexp för att tala om att vi vill ha slumptal från exponentialfördelningen. Talet inom parantesen anger återigen fröet (startvärdet för algoritmen som beräknar slumptalen). Kommandot /1 talar om att parameterns värde är 1. Vi skriver output för att vi vill spara datat. Eftersom vi har två do -kommandon måste vi ha två end. Vi skall nu beräkna medelvärdet för varje stickprov. Vi kommer att få 1000 medelvärden. Koden blir: proc means data=work.randomexp mean; output out=work.exponential_means mean=xbar; var x; by sample; utskriften blir (de 2 första medelvärdena visas nedan): The SAS System 15:39 Saturday, March 3, ---------------------------------------------- sample=1 -------------------------------------- -------- The MEANS Procedure Analysis Variable : x Mean ƒƒƒƒƒƒƒƒƒƒƒƒ 1.5507506 ƒƒƒƒƒƒƒƒƒƒƒƒ ---------------------------------------------- sample=2 -------------------------------------- -------- Analysis Variable : x Mean ƒƒƒƒƒƒƒƒƒƒƒƒ 1.0124575 Vi använder data-setet work.randomexp. Vi beräknar endast medelvärden mos proc means. VI sparar dessa medelvärden i work.exponential_means och variabeln till xbar. Eftersom slumptalen ligger i variabeln x skrivs var x i koden. by sample skrivs för att beräkna ett medelvärde för varje stickprov. 4

Vi standardiserar medelvärdena genom att tillämpa ~ N(0, 1) täthetsfunktionen för exponentialfördelningen ser ut så här f(x) = för alla x 0 f(x) = 0 för all x<0 där μ = λ (=1) och σ 2 = σ = 1. Koden blir: data work.exponential_means; set work.exponential_means; z=(xbar - 1) / (1/sqrt(10)); Vi har återigen använt data set för att modifiera variabeln i data-setet. Vi definierar en variabel z som skall vara en standardiserad normalfördelad variabel. Vi tittar på data-setet med proc print. proc print data=work.exponential_means; De 5 första (av 1000) observationerna ser ut: Obs sample _TYPE FREQ_ xbar z 1 1 0 10 1.55075 1.74163 2 2 0 10 1.01246 0.03939 3 3 0 10 0.74718-0.79947 4 4 0 10 0.78577-0.67745 5 5 0 10 1.00408 0.01291 5

Percent Nu ritar vi ett histogram över variabeln z. Koden är: proc univariate data=exponential_means; histogram z; grafen blir: 17.5 15.0 12.5 10.0 7.5 5.0 2.5 0-2.4-2.0-1.6-1.2-0.8-0.4 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 z Ser detta ut som en standardiserad normalfördelning? Uppgifter 1. Gör om exemplet Beräkna konfidensintervall och täckningsgrad och använd ett annat startvärde (frö) för slumptalen samt ändra antalet stickprov till 1000. Hur många konfidensintervall innehåller (täcker) 0.1? 2. Rita en exponentialfördelning med ett annat λ (dvs. λ 1). 3. Använd koden i exemplet illustrera centrala gränsvärdessatsen. Öka stickprovsstorleken yyy(vilken variabel skall ökas obs eller sample?) och rita grafen jmf med den tidigare grafen. 4. Hur lyder centrala gränsvärdessatsen? 6