Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Relevanta dokument
(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

4. Kunna orientera sig mellan de olika fönstren

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Laboration med Minitab

Introduktion och laboration : Minitab

DATORÖVNING 4: DISKRETA

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 1 Statistik med Excel (Office 2010, svenska)

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Obligatorisk uppgift, del 1

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning G60 Statistiska metoder

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Stokastiska signaler. Mediesignaler

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Datorövning 1: Fördelningar

Grundläggande statistik kurs 1

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

DATORÖVNING 2: STATISTISK INFERENS.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

TAMS28 DATORÖVNING VT1

Lektionsanteckningar 11-12: Normalfördelningen

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

OBS! Vi har nya rutiner.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

TMS136. Föreläsning 4

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 27 mars 2004, kl

7.3.3 Nonparametric Mann-Whitney test

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 12 november 2005, kl

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Föreläsning G60 Statistiska metoder

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Lektion 1: Fördelningar och deskriptiv analys

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

732G01/732G40 Grundläggande statistik (7.5hp)

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

OBS! Vi har nya rutiner.

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Richard Öhrvall, 1

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Statistik 1 för biologer, logopeder och psykologer

MVE051/MSG Föreläsning 7

Intro till SPSS Kimmo Sorjonen (0811)

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Datorövning 1 Introduktion till Minitab och Excel

Mata in data i Excel och bearbeta i SPSS

LABORATION 1. Syfte: Syftet med laborationen är att

Laboration 2: Sannolikhetsteori och simulering

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Repetitionsföreläsning

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Datorövning 1 Fördelningar

Hur måttsätta osäkerheter?

Laboration 1: Introduktion till R och Deskriptiv statistik

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Jörgen Säve-Söderbergh

DATORÖVNING 2: SIMULERING

Statistik för teknologer, 5 poäng Skrivtid:

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

bli bekant med summor av stokastiska variabler.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Transkript:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs TE/RC Datorövning 2 Syfte: 1. Lära sig presentera data i tabeller 2. Lära sig beskriva data numeriskt 3. Lära sig presentera data i grafer 4. Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler 5. Lära sig presentera binomial- och normalfördelningen grafiskt När vi vill presentera datat i en tabell för varje variabel, Vi använder exemplet från datorövn 1 (filen smoke)) Studenter som röker Studenter som inte röker Båda föräldrarna röker 400 1380 En av föräldrarna röker 416 1823 Ingen av föräldrarna röker 188 1168, använder vi koden: proc freq data=work.smoke; weight frequency; tables student parents; Efter kommandot weight skall vi ange vilken variabel vi har frekvenserna i. I exemplet, datorövn 1, hade vi döpt variabeln till frequency så vi använder det namnet. Under weight kommer kommandot tables, här anges vilka variabler tabellen skall innehålla. I koden ovan, variablerna student och parents. Utskriften blir: The SAS System 16:57 Thursday, February 16, 2012 13 Cumulative Cumulative student Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ not_smok 4371 81.32 4371 81.32 smoke 1004 18.68 5375 100.00 Cumulative Cumulative parents Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ both 1780 33.12 1780 33.12 none 1356 25.23 3136 58.34 one 2239 41.66 5375 100.00 1

Vill man göra en korstabell använder man koden: proc freq data=work.smoke; weight frequency; tables student*parents; Skillnaden är att när man skapar en korstabell sätter man en asterix mellan de variabler man vill skapa korstabellen för. Utskriften blir: The FREQ Procedure Table of student by parents student parents Frequency Percent Row Pct Col Pct both none one Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ not_smok 1380 1168 1823 4371 25.67 21.73 33.92 81.32 31.57 26.72 41.71 77.53 86.14 81.42 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ smoke 400 188 416 1004 7.44 3.50 7.74 18.68 39.84 18.73 41.43 22.47 13.86 18.58 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 1780 1356 2239 5375 33.12 25.23 41.66 100.00 Förklaring till utskriften ovan: Det är 1380 studenter som inte röker och har föräldrar som båda röker. Dessa 1380 studenter utgör 25.67% (1380 av 5375)av alla studenter. 31.57% (1380 av 4371)) av de studenter som inte röker har två föräldrar som röker. 77.53% (1380 av 1780) av alla studenter som har två föräldrar röker inte själva. Det finns olika procedurer som beskriver data numeriskt i SAS. Vi börjar med proc means, vi använder datat från filen work.number, datorövn 1. I data-setet hade vi tre variabler: X, X 2 och logx. För att beskriva dessa variabler numeriskt använder vi koden: proc means data=work.number; vilken ger utskriften: The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ x 10 5.5000000 3.0276504 1.0000000 10.0000000 xsquare 10 38.5000000 34.1735765 1.0000000 100.0000000 lnx 10 1.5104413 0.7330239 0 2.3025851 2

Vill man ha en numerisk beskrivning av en variabel exempelvis x så lägger man till en rad där man talar om vilken variabel det är man vill analysera. Koden blir: proc means data=work.number; var x; och utskriften blir: The MEANS Procedure Analysis Variable : x N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 10 5.5000000 3.0276504 1.0000000 10.0000000 De mått som proc means ger är alltså Variabelnamn (när man har flera variabler) Antal observationer Medelvärdet Standardavvikelsen Minimum Maximum Det går att välja vilka mått som skall beräknas men vi nöjer oss med detta vi visat ovan. Nu skall vi presentera data i grafer. Vi skall göra cirkel- och stapeldiagram. Vi använder data-setet (filen) work.smoke, från datorövn.1. Vi skapar graferna med koden: ods rtf; proc gchart data=work.smoke; pie student / freq = frequency; vbar student / freq = frequency; ods rtf close; Proceduren so m gör denna typ av grafer är proc gchart. Kommandot pie anges när man vill göra ett cirkeldiagram. Vill vi göra ett vertikalt stapeldiagram använder vi kommandot vbar. Eftersom vi har angett antalet i variabeln frequency måste vi lägga till kommandot freq. 3

Koden generarar graferna: FREQUENCY of student not_smok 4371 smoke 1004 FREQUENCY 5000 4000 3000 2000 1000 0 not_smok student smoke 4

Om vi använder ett data-set som inte är skrivet med variabeln frequency utan har datat uppräknat observation för observation så utesluter man koden / freq = frequency. Koden blir: proc gchart data=work.rokdata; pie gender / discrete; vbar gender / discrete; quit; proc print data=work.rokdata; I koden är ett kommando tillagt, discrete. Den kvantitativa variabeln gender är kodad 0 och 1 så specificerar vi att variabeln ska behandlas som en diskret variabel, inte som en kontinuerlig. Skriv in quit efter run i koden för att få processen att sluta arbeta. För att stoppa en process som inte har slutat jobba, tex. PROC GCHART running, tryck på knappen/ikonen Break näst längst till höger i verktygsfältet, markera halt DATAstep/PROC:GCHART tryck OK, markera Y to halt DATAstep/proc tryck OK. För att presentera sannolikhetsfunktionen för en viss fördelning grafiskt måste vi först skapa ett data-set som innehåller värden på variabeln som fördelningen antar. Sedan beräknar vi sannolikheten för dessa värden. Vi gör detta för binomialfördelningen, Bin (20;0.1) Koden blir: data work.binomial; do x=0 to 20 by 1; probability=pdf('binomial', x, 0.1, 20); output work.binomial; end; proc print data=work.binomial; Utskriften för data-setet blir: Obs x probability 1 0 0.12158 2 1 0.27017 3 2 0.28518 4 3 0.19012 5 4 0.08978 6 5 0.03192 7 6 0.00887 8 7 0.00197 9 8 0.00036 10 9 0.00005 11 10 0.00001 12 11 0.00000 13 12 0.00000 14 13 0.00000 15 14 0.00000 16 15 0.00000 17 16 0.00000 18 17 0.00000 19 18 0.00000 20 19 0.00000 21 20 0.00000 5

F ör att plotta sannolikhetsfördelningen använder vi koden: proc gplot data=work.binomial; plot probability*x; symbol i=needle; Efter kommandot plot skriver vi in variablerna vi vill plotta. Den variabel som skall vara på y-axeln (lodräta) skriver man först. Kommandot symbol används för att ändra utseendet på plotten. Skriver man inget så kommer observationerna att representeras av + tecken. Här har vi valt i=needle vilket ger ett stolpdiagram. Plotten bli probability 0.29 0.28 0.27 0.26 0.25 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 x 6

När vill vi rita den kumulativa sannolikhetsfördelningen använder vi koden: data work.binomial2; do x=0 to 20 by 1; probabilitycdf=cdf('binomial', x, 0.1, 20); output work.binomial2; end; proc gplot data=work.binomial2; plot probabilitycdf*x / haxis = 0 to 20 by 1; symbol i=stepj; Här har vi använt två valbara kommandon. Det första är haxis = 0 to 20 by 1, vilket gör att vi ser alla värden på x-axeln. Det andra är symbol=stepj för att skapa ett trappstegs diagram. Vi lägger till J för att binda ihop trappstegen. Trappstegsdiagrammet ser ut så här: probabilitycdf 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x När vi skall rita täthetsfunktionen hos en normalfördelning så börjar vi med att skapa en variabel med värden och sannolikheter. Vi skapar fördelningen för variabeln X ~ Normal (μ = 3, σ = 5) data work.normal; do x = -12 to 18 by 0.05; density = pdf ('normal', x, 3, 5); output work.normal; end; /*proc print data=work.normal; */ 7

Eftersom sannolikhetsytan är nästan 100 % 1) innanför ± 3 σ från μ så ritar vi fördelningen för följande värden -12 X 18. 1) ± 1 σ 68% ± 2 σ 95% ± 3 σ 99,7% Plotten ges av koden: proc gplot data=work.normal; plot density*x; symbol i=join; Plotten blir: density 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00-20 -10 0 10 20 x Sammanfattning av de olika valmöjligheterna vi har när vi specificerar symbol kommandot i = needle ritar stolpar i = stepj ritar ett trappstegsdiagram i = join binder ihop punkterna Skriver vi inget får vi plus-tecken 8

Uppgifter 1. Använd data från Datorövning 1 Clas Ohlson H&M Teknikmagasinet MQ Kvinnor 11 57 6 26 Män 46 4 32 18 och skapa en korstabell för variablerna kön och butik. Hur många procent av alla kvinnor handlar på Clas Ohlson? 2. Använd rokdata.xls från Datorövning 1 för att rita ett stapeldiagram och ett cirkeldiagram för variabeln smoke. 3. Tentaresultaten hos 10 klasskamrater har registrerats. Följande resultat erhölls: 45 57 59 97 83 72 74 29 49 56 Läs in datat och beräkna medelvärdet och standardavvikelsen för tentaresultatet 4. Rita täthetsfunktionen för en normalfördelning X ~ Normal (μ = 7, σ = 3) 5 Använd data från basuppgift 1. Gör en separat tabell för variabeln kön och en separat tabell för iiiiiiiiiiiivariabeln butik. 6. Beskriv datat i upg. 5 numeriskt. 9