Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs TE/RC Datorövning 2 Syfte: 1. Lära sig presentera data i tabeller 2. Lära sig beskriva data numeriskt 3. Lära sig presentera data i grafer 4. Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler 5. Lära sig presentera binomial- och normalfördelningen grafiskt När vi vill presentera datat i en tabell för varje variabel, Vi använder exemplet från datorövn 1 (filen smoke)) Studenter som röker Studenter som inte röker Båda föräldrarna röker 400 1380 En av föräldrarna röker 416 1823 Ingen av föräldrarna röker 188 1168, använder vi koden: proc freq data=work.smoke; weight frequency; tables student parents; Efter kommandot weight skall vi ange vilken variabel vi har frekvenserna i. I exemplet, datorövn 1, hade vi döpt variabeln till frequency så vi använder det namnet. Under weight kommer kommandot tables, här anges vilka variabler tabellen skall innehålla. I koden ovan, variablerna student och parents. Utskriften blir: The SAS System 16:57 Thursday, February 16, 2012 13 Cumulative Cumulative student Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ not_smok 4371 81.32 4371 81.32 smoke 1004 18.68 5375 100.00 Cumulative Cumulative parents Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ both 1780 33.12 1780 33.12 none 1356 25.23 3136 58.34 one 2239 41.66 5375 100.00 1

Vill man göra en korstabell använder man koden: proc freq data=work.smoke; weight frequency; tables student*parents; Skillnaden är att när man skapar en korstabell sätter man en asterix mellan de variabler man vill skapa korstabellen för. Utskriften blir: The FREQ Procedure Table of student by parents student parents Frequency Percent Row Pct Col Pct both none one Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ not_smok 1380 1168 1823 4371 25.67 21.73 33.92 81.32 31.57 26.72 41.71 77.53 86.14 81.42 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ smoke 400 188 416 1004 7.44 3.50 7.74 18.68 39.84 18.73 41.43 22.47 13.86 18.58 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 1780 1356 2239 5375 33.12 25.23 41.66 100.00 Förklaring till utskriften ovan: Det är 1380 studenter som inte röker och har föräldrar som båda röker. Dessa 1380 studenter utgör 25.67% (1380 av 5375)av alla studenter. 31.57% (1380 av 4371)) av de studenter som inte röker har två föräldrar som röker. 77.53% (1380 av 1780) av alla studenter som har två föräldrar röker inte själva. Det finns olika procedurer som beskriver data numeriskt i SAS. Vi börjar med proc means, vi använder datat från filen work.number, datorövn 1. I data-setet hade vi tre variabler: X, X 2 och logx. För att beskriva dessa variabler numeriskt använder vi koden: proc means data=work.number; vilken ger utskriften: The MEANS Procedure Variable N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ x 10 5.5000000 3.0276504 1.0000000 10.0000000 xsquare 10 38.5000000 34.1735765 1.0000000 100.0000000 lnx 10 1.5104413 0.7330239 0 2.3025851 2

Vill man ha en numerisk beskrivning av en variabel exempelvis x så lägger man till en rad där man talar om vilken variabel det är man vill analysera. Koden blir: proc means data=work.number; var x; och utskriften blir: The MEANS Procedure Analysis Variable : x N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 10 5.5000000 3.0276504 1.0000000 10.0000000 De mått som proc means ger är alltså Variabelnamn (när man har flera variabler) Antal observationer Medelvärdet Standardavvikelsen Minimum Maximum Det går att välja vilka mått som skall beräknas men vi nöjer oss med detta vi visat ovan. Nu skall vi presentera data i grafer. Vi skall göra cirkel- och stapeldiagram. Vi använder data-setet (filen) work.smoke, från datorövn.1. Vi skapar graferna med koden: ods rtf; proc gchart data=work.smoke; pie student / freq = frequency; vbar student / freq = frequency; ods rtf close; Proceduren so m gör denna typ av grafer är proc gchart. Kommandot pie anges när man vill göra ett cirkeldiagram. Vill vi göra ett vertikalt stapeldiagram använder vi kommandot vbar. Eftersom vi har angett antalet i variabeln frequency måste vi lägga till kommandot freq. 3

Koden generarar graferna: FREQUENCY of student not_smok 4371 smoke 1004 FREQUENCY 5000 4000 3000 2000 1000 0 not_smok student smoke 4

Om vi använder ett data-set som inte är skrivet med variabeln frequency utan har datat uppräknat observation för observation så utesluter man koden / freq = frequency. Koden blir: proc gchart data=work.rokdata; pie gender / discrete; vbar gender / discrete; quit; proc print data=work.rokdata; I koden är ett kommando tillagt, discrete. Den kvantitativa variabeln gender är kodad 0 och 1 så specificerar vi att variabeln ska behandlas som en diskret variabel, inte som en kontinuerlig. Skriv in quit efter run i koden för att få processen att sluta arbeta. För att stoppa en process som inte har slutat jobba, tex. PROC GCHART running, tryck på knappen/ikonen Break näst längst till höger i verktygsfältet, markera halt DATAstep/PROC:GCHART tryck OK, markera Y to halt DATAstep/proc tryck OK. För att presentera sannolikhetsfunktionen för en viss fördelning grafiskt måste vi först skapa ett data-set som innehåller värden på variabeln som fördelningen antar. Sedan beräknar vi sannolikheten för dessa värden. Vi gör detta för binomialfördelningen, Bin (20;0.1) Koden blir: data work.binomial; do x=0 to 20 by 1; probability=pdf('binomial', x, 0.1, 20); output work.binomial; end; proc print data=work.binomial; Utskriften för data-setet blir: Obs x probability 1 0 0.12158 2 1 0.27017 3 2 0.28518 4 3 0.19012 5 4 0.08978 6 5 0.03192 7 6 0.00887 8 7 0.00197 9 8 0.00036 10 9 0.00005 11 10 0.00001 12 11 0.00000 13 12 0.00000 14 13 0.00000 15 14 0.00000 16 15 0.00000 17 16 0.00000 18 17 0.00000 19 18 0.00000 20 19 0.00000 21 20 0.00000 5

F ör att plotta sannolikhetsfördelningen använder vi koden: proc gplot data=work.binomial; plot probability*x; symbol i=needle; Efter kommandot plot skriver vi in variablerna vi vill plotta. Den variabel som skall vara på y-axeln (lodräta) skriver man först. Kommandot symbol används för att ändra utseendet på plotten. Skriver man inget så kommer observationerna att representeras av + tecken. Här har vi valt i=needle vilket ger ett stolpdiagram. Plotten bli probability 0.29 0.28 0.27 0.26 0.25 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 0 10 20 x 6

När vill vi rita den kumulativa sannolikhetsfördelningen använder vi koden: data work.binomial2; do x=0 to 20 by 1; probabilitycdf=cdf('binomial', x, 0.1, 20); output work.binomial2; end; proc gplot data=work.binomial2; plot probabilitycdf*x / haxis = 0 to 20 by 1; symbol i=stepj; Här har vi använt två valbara kommandon. Det första är haxis = 0 to 20 by 1, vilket gör att vi ser alla värden på x-axeln. Det andra är symbol=stepj för att skapa ett trappstegs diagram. Vi lägger till J för att binda ihop trappstegen. Trappstegsdiagrammet ser ut så här: probabilitycdf 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x När vi skall rita täthetsfunktionen hos en normalfördelning så börjar vi med att skapa en variabel med värden och sannolikheter. Vi skapar fördelningen för variabeln X ~ Normal (μ = 3, σ = 5) data work.normal; do x = -12 to 18 by 0.05; density = pdf ('normal', x, 3, 5); output work.normal; end; /*proc print data=work.normal; */ 7

Eftersom sannolikhetsytan är nästan 100 % 1) innanför ± 3 σ från μ så ritar vi fördelningen för följande värden -12 X 18. 1) ± 1 σ 68% ± 2 σ 95% ± 3 σ 99,7% Plotten ges av koden: proc gplot data=work.normal; plot density*x; symbol i=join; Plotten blir: density 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00-20 -10 0 10 20 x Sammanfattning av de olika valmöjligheterna vi har när vi specificerar symbol kommandot i = needle ritar stolpar i = stepj ritar ett trappstegsdiagram i = join binder ihop punkterna Skriver vi inget får vi plus-tecken 8

Uppgifter 1. Använd data från Datorövning 1 Clas Ohlson H&M Teknikmagasinet MQ Kvinnor 11 57 6 26 Män 46 4 32 18 och skapa en korstabell för variablerna kön och butik. Hur många procent av alla kvinnor handlar på Clas Ohlson? 2. Använd rokdata.xls från Datorövning 1 för att rita ett stapeldiagram och ett cirkeldiagram för variabeln smoke. 3. Tentaresultaten hos 10 klasskamrater har registrerats. Följande resultat erhölls: 45 57 59 97 83 72 74 29 49 56 Läs in datat och beräkna medelvärdet och standardavvikelsen för tentaresultatet 4. Rita täthetsfunktionen för en normalfördelning X ~ Normal (μ = 7, σ = 3) 5 Använd data från basuppgift 1. Gör en separat tabell för variabeln kön och en separat tabell för iiiiiiiiiiiivariabeln butik. 6. Beskriv datat i upg. 5 numeriskt. 9