(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

Relevanta dokument
Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

4. Kunna orientera sig mellan de olika fönstren

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Laboration med Minitab

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Obligatorisk uppgift, del 1

TMS136. Föreläsning 4

Stokastiska signaler. Mediesignaler

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Lektionsanteckningar 11-12: Normalfördelningen

Introduktion och laboration : Minitab

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 1: Fördelningar

DATORÖVNING 4: DISKRETA

Richard Öhrvall, 1

Statistik 1 för biologer, logopeder och psykologer

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Datorövning 1 Fördelningar

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

LABORATION 1. Syfte: Syftet med laborationen är att

Föreläsning G60 Statistiska metoder

Datorövning 1 Statistik med Excel (Office 2010, svenska)

DATORÖVNING 2: STATISTISK INFERENS.

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Lektion 1: Fördelningar och deskriptiv analys

bli bekant med summor av stokastiska variabler.

Statistiska metoder för säkerhetsanalys

TAMS28 DATORÖVNING VT1

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

MVE051/MSG Föreläsning 7

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Statistik 1 för biologer, logopeder och psykologer

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

DATORÖVNING 2: SIMULERING

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning 12: Regression

Föreläsning G60 Statistiska metoder

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

OBS! Vi har nya rutiner.

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

17.1 Kontinuerliga fördelningar

Kom igång med Stata. Introduktion

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

Intro till SPSS Kimmo Sorjonen (0811)

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Demonstration av laboration 2, SF1901

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistiska undersökningar

Föreläsning 6, Repetition Sannolikhetslära

(a) Vilket av följande alternativ är sannolikheten för JACKPOT: P (A \ B), P A C \ B, P (A \ B), P A C \ B C?

7.3.3 Nonparametric Mann-Whitney test

Matematisk statistik för B, K, N, BME och Kemister

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Datorövning 1: Fördelningar

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Föreläsning G70 Statistik A

732G01/732G40 Grundläggande statistik (7.5hp)

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

1.1 Diskret (Sannolikhets-)fördelning

SF1901: Sannolikhetslära och statistik

Metod och teori. Statistik för naturvetare Umeå universitet

Transkript:

Datorövning 2 Statistikens Grunder 1 Syfte 1. Lära sig presentera data i tabeller 2. Lära sig beskriva data numeriskt 3. Lära sig presentera data i grafer Exempel (a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt Presentera data i tabeller För att demonstrera hur man kan skapa tabeller i SAS använder vi oss av exemplet från Datorövning 1, Statistikens Grunder 1. Studenter röker Studenter röker ej Båda föräldrarna röker 400 1380 En förälder röker 416 1823 Ingen förälder röker 188 1168 När vi vill presentera datat i en tabell för varje variabel använder vi koden proc freq data=work.smoke; weight frequency; tables students parents; Efter komandot "weight" ska vi ange vilken variabel vi har frekvenserna i. Eftersom vi döpt den till "frequency" skriver vi det. (Ett annat tänkbart variabel namn är antal. Har ni döpt variabeln till det, skriver ni in det efter "weight".) Efter weight kommer kommandot "tables". Här ska vi ange vilka variabler vi vill göra tabellen för. I koden ovan anges variablerna "students" och "parents". Notera att det är ett mellanslag mellan de båda variabelnamnen. Koden vi skriver genererar en utskrift som ser ut så här 1

The FREQ Procedure Cumulative Cumulative students Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ not_smoke 4371 81.32 4371 81.32 smoke 1004 18.68 5375 100.00 Cumulative Cumulative parents Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ both 1780 33.12 1780 33.12 none 1356 25.23 3136 58.34 one 2239 41.66 5375 100.00 Vill man istället göra en korstabell använder man koden proc freq data=work.smoke; weight frequency; tables students*parents; Skillnaden är att när man skapar en korstabell sätter man en asterix mellan de variabler man vill skapa korstabellen för. Denna kod genererar en utskrift som ser ut så här Frequency Percent Row Pct Col Pct both none one Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ not_smok 3203 1168 0 4371 59.59 21.73 0.00 81.32 73.28 26.72 0.00 88.90 86.14 0.00 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ smoke 400 188 416 1004 7.44 3.50 7.74 18.68 39.84 18.73 41.43 11.10 13.86 100.00 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 3603 1356 416 5375 67.03 25.23 7.74 100.00 Förklaring till bilden ovan: Det är 3203 studenter som inte röker och har föräldrar som båda röker. Dessa 3203 utgör 59:59% av hela urvalet. 73:28% av de studenter som inte röker har två föräldrar som båda röker. 88:90% av alla studenter som har två föräldrar som båda röker, röker inte själva. 2

Beskriva data numeriskt Det nns olika procedurer som beskriver datat numeriskt i SAS. Vi börjar med att lära oss använda "proc means". I exemplet nedan använder vi oss av datat "work.nummer" som går att hitta i Datorövning 1, Statistikens Grunder 1. I data-setet hade vi tre variabler; X; X 2 och ln X. För att beskriva dessa variabler numeriskt använder vi koden proc means data=work.nummer; och vi får utskriften The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ x 3 4.0000000 3.0000000 1.0000000 7.0000000 xsquare 3 22.0000000 24.5560583 1.0000000 49.0000000 lnx 3 1.1107348 1.0017941 0 1.9459101 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ De mått som "proc means" ger är alltså antal observationer medelvärde standardavvikelse minimum maximum (Det går att välja vilka mått som ska anges, men här lär vi oss bara defaultvärdena.) Om man har ett data-set med många variabler vill man kanske bara beskriva en eller några stycken av dem. Då använder man koden proc means data=work.nummer; var x; Anger vi "var x" kommer "proc means" bara beräkna mått på variabeln x. 3

Presentera data i grafer Detta exempel handlar om att göra cirkel- och stapeldiagram. För att illustrera använder vi oss av data-setet "work.smoke". Vi ritar graferna med koden proc gchart data=work.smoke; pie students / freq = frequency; vbar students / freq = frequency; Proceduren som gör denna typ av grafer är alltså "proc gchart". Kommandot "pie" anges om vi vill rita ett cirkeldiagram och kommandot "vbar" om vi vill rita ett vertikalt stapeldiagram. Eftersom vi har angett antalet i variabeln "frequency" måste vi lägga till kommandot "freq". Koden genererar grafer som ser ut som följer FREQUENCY of students not_smok 4371 smoke 1004 4

FREQUENCY 5000 4000 3000 2000 1000 0 not_smok students smoke Om vi använder ett data-set som inte är skrivet med variabeln "frequency", utan har datat uppräknat observation för observation utesluter man helt enkelt koden "/ freq=frequency". Det kan se ut så här proc gchart data=work.rokdata; pie gender / discrete; vbar gender / discrete; Vi har dock lagt till ett annat kommando till denna kod. Eftersom den kvantitativa variabeln "gender" är kodad 0 och 1 speci cerar vi att variabeln ska behandlas som en diskret variabel, och inte som en kontinuerlig. Beräkna sannolikheter för en binomialfördelad variabel samt beskriva fördelningen gra skt För att presentera frekvensfunktionen för en viss fördelning gra skt måste vi först skapa ett data-set som innehåller värden på variabeln som har den fördelningen samt beräkna sannolikheter för just dessa värden. Vi gör detta för binomialfördelningen genom koden data work.binomial; do x = 0 to 20 by 1; probability = pdf('binomial', x, 0.1, 20); output work.binomial; end; För att generera tal använder vi en "do-sats". En "do-sats" ska alltid avslutas med "end". 5

Här låter vi x vara variabelvärdena som går från 0 till 20 i steg om 1 (fördelningen är diskret). Sedan skapar vi en variabel som heter "probability" vilken anger sannolikheten för just det värdet som x antar. Vi skriver "pdf " för att det är en frekvensfunktion vi vill göra (jämför "cdf "). Därefter anger vi vilken fördelning X har. Här gäller X bin(n = 20; p = 0:1): Efter det skriver vi "output" för att speci cera i vilket data-set vi vill spara dessa variabler. Här anger vi samma lnamn som ovan. När "do-satsen" är slut skriver vi "end" och när hela koden är klar skriver vi "run". Om vi granskar datat med "proc print" får vi följande Obs x probability 1 0 0.12158 2 1 0.27017 3 2 0.28518 4 3 0.19012 5 4 0.08978 6 5 0.03192 7 6 0.00887 8 7 0.00197 9 8 0.00036 10 9 0.00005 11 10 0.00001 12 11 0.00000 13 12 0.00000 14 13 0.00000 15 14 0.00000 16 15 0.00000 17 16 0.00000 18 17 0.00000 19 18 0.00000 20 19 0.00000 21 20 0.00000 För att plotta upp frekvensfunktionen använder vi koden proc gplot data=work.binomial; plot probability*x; symbol i=needle; Efter kommandot "plot" skriver vi in variablerna vi vill plotta. Den variabel som ska vara på y-axeln skriver man först. Kommandot "symbol" är ett kommando som man använder när man vill ändra utseendet på plotten. Skriver vi inget kommer observationerna representeras av plus-tecken. När vi skriver "i = needle" betyder det att vi vill representera observationerna med stolpar. Plotten ser ut så här 6

probability 0.29 0.28 0.27 0.26 0.25 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 x Nu vill vi rita upp fördelningsfunktionen för binomialfördelningen. Vi börjar med att skapa variabelvärden samt att beräkna sannolikheter för dessa data work.binomial; do x = 0 to 20 by 1; probabilitycdf = cdf('binomial', x, 0.1, 20); output work.binomial; end; Variabeln som innehåller sannolikheter kallar vi här "probabilitycdf ". Detta för att kunna skilja de olika sannolikheterna åt. Vi ser ovan att koden för att generera sannolikheter som är kumulativa är densamma som för de enskilda sannolikheterna, förutom att man skriver "cdf " istället för "pdf " efter likamed tecknet. För att rita upp fördelningsfunktionen använder vi återigen samma kod som ovan, men byter ut variabeln "probability" mot "probabilitycdf ". proc gplot data=work.binomial; plot probabilitycdf*x / haxis = 0 to 20 by 1; symbol i=stepj ; Vi lägger till två valbara kommandon. Det första är "haxis = 0 to 20 by 1 ", vilket gör att vi ser alla värdena på x axeln. Det andra är "symbol=stepj " för att vi vill rita ett trappstegsdiagram. Vi lägger till "J" för att vi vill binda ihop "trappstegen". Prova gärna att köra koden utan J och haxis kommandot. Detta trappstegsdiagram ser ut så här 7

probabilitycdf 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x Beräkna sannolikheter hos en normalfördelad variabel samt beskriva fördelningen gra skt Nu ska vi rita täthetsfunktionen hos en normalfördelning. Vi börjar med att skapa en variabel med värden och sannolikheter. data work.normal; do x = 12 to 18 by 0.05; density = pdf('normal', x, 3, 5); output work.normal; end; Här är fördelningen för variabeln X Normal( = 3; = 5) Eftersom vi vet att sannolikhetsytan är nästan 0 när vi be nner oss 3 steg från åt båda hållen väljer vi att X ska gå från 12 till 18. 8

Nu ritar vi plotten med koden proc gplot data=work.normal; plot density*x; symbol i=join; Här ser vi att vi väljer ännu ett nytt utseende hos plotten. Genom att skriva "i=join" efter "symbol" binder vi ihop punkterna. Plotten får utseendet density 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 20 10 0 10 20 x Vi kan sammanfatta de olika valmöjligheterna vi har när vi speci cerar "symbol" kommandot. "i = needle" ritar stolpar "i = stepj" ritar ett trappstegsdiagram "i = join" binder ihop punkterna skriver vi inget får vi plus-tecken 9

Uppgifter Basuppgifter 1. Använd datat från Datorövning 1, Statistikens Grunder 1 Clas Ohlson H&M Teknikmagasinet MQ Kvinnor 11 57 6 26 Män 46 4 32 18 och skapa en korstabell för variablerna kön och butik. Hur många procent av alla kvinnor handlar på Clas Ohlson? 2. Använd rokdata.xls från Datorövning 1, Statistikens Grunder 1 för att rita ett stapeldiagram och ett cirkeldiagram för de båda variablerna. 3. Tentaresultatet hos 10 klasskamrater har registrerats 45 57 59 97 83 72 74 29 49 56 Läs in datat och beräkna medelvärde och standardavvikelse för tentaresultatet. 4. Rita fördelningsfunktionen för normalfördelningen i exemplet ovan där X Normal( = 3; = 5): 5. Rita täthetsfunktionen hos en normalfördelning där X Normal( = 7; = 3): Skapa värden på X så att så gott som hela fördelningen representeras. 6. Rita en frekvensfunktion för en binomialfördelning som uppfyller kraven för en normalapproximation. Prova att använda både "symbol i=join" och "symbol i=needle". Extra uppgifter 1. Använd datat i basuppgift 1. Gör en separat tabell för variabeln kön och en separat tabell för variabeln butik. 2. Beskriv datat från extrauppgift 1, Datorövning 1, Statistikens Grunder 1 numeriskt. 10