Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:



Relevanta dokument
1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Uppgift 1. Produktmomentkorrelationskoefficienten

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Lösningar till SPSS-övning: Analytisk statistik

Statistik för teknologer, 5 poäng Skrivtid:

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Laboration 2 Inferens S0005M VT18

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Laboration 2 Inferens S0005M VT16

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Medicinsk statistik II

Metod och teori. Statistik för naturvetare Umeå universitet

TAMS28 DATORÖVNING VT1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Följande resultat erhålls (enhet: 1000psi):

Tentamen i matematisk statistik

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

7.3.3 Nonparametric Mann-Whitney test

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Statistik 1 för biologer, logopeder och psykologer

ANOVA Mellangruppsdesign

Introduktion och laboration : Minitab

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

7.5 Experiment with a single factor having more than two levels

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

4. Kunna orientera sig mellan de olika fönstren

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

F3 Introduktion Stickprov

Tentamen i matematisk statistik

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

Tentamen i matematisk statistik

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Samhällsvetenskaplig metod, 7,5 hp

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

7.5 Experiment with a single factor having more than two levels

, s a. , s b. personer från Alingsås och n b

Räkneövning 3 Variansanalys

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Uppgift 1. Deskripitiv statistik. Lön

FACIT (korrekta svar i röd fetstil)

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Examinationsuppgifter del 2

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lösningar med kommentarer till övningsuppgifterna i min bok Grundläggande statistiska metoder för analys av kvantitativa data

Obligatorisk uppgift, del 1

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

MINITAB i korthet. release 16. Jan-Eric Englund. SLU Alnarp Kompendium Swedish University of Agricultural Sciences Department of Agrosystems

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

2.1 Minitab-introduktion

Introduktion till. Minitab version 14

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

TENTAMEN I MATEMATISK STATISTIK

DATORÖVNING 2: STATISTISK INFERENS.

Stockholms Universitet Statistiska institutionen Termeh Shafie

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

OBS! Vi har nya rutiner.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

OBS! Vi har nya rutiner.

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Del A: Schema för ifyllande av svar nns på sista sidan

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

Hur skriver man statistikavsnittet i en ansökan?

SOPA62 - Kunskapsproduktion i socialt arbete

8.1 General factorial experiments

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

SOPA62 - Kunskapsproduktion i socialt arbete

Hypotestestning och repetition

Tentamen Tillämpad statistik A5 (15hp)

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Transkript:

Datorövning 5 Statistisk teori med tillämpningar Hypotestest i SAS Syfte Lära sig beräkna konfidensintervall och utföra hypotestest för: 1. Populationsmedelvärdet, µ. 2. Skillnaden mellan två populationsmedelvärden, µ 1 µ 2. 3. Populationsproportionen, p. 4. Skillnaden mellan två populationsproportioner, p 1 p 2. Exempel 1. Populationsmedelvärdet, µ Exemplet som vi ska använda för att visa hur man kan ta fram ett konfidensintervall och utföra hypotestest för µ kommer från MS boken (övning 8.86 sidan 432). Datafilen som vi läser in innehåller pris på olika typer av tonfisk. data ex886 ; input vatten olja ; datalines ; 0.99 2.56 1.92 1.92 1.23 1.30 0.85 1.79 0.65 1.23 0.69 0.62 0.60 0.66 0.53 0.62 1.41 0.65 1.12 0.60 0.63 0.67 0.67. 0.60. 0.66. ; proc print data = ex886 ; 1

Genom att använda proc means-kommandot och ange "mean", "std", "alpha=0.05" och "clm" låter vi SAS räkna ut medelvärdet, standardavvikelsen och ett 95% konfidensintervall för alla variabler i datafilen. Om vi bara är intresserade av en av variablerna lägger vi till, i en ny rad, "var" och namnet på variabeln. proc means data = ex886 mean std alpha =0. 05 clm ; var vatten ; Observera att proc means räknar ut ett konfidensintervall för litet urval (Small sample Confidence interval) enligt formeln ȳ ± t α/2 ( s n ), df = n 1 Vi kan sen använda proc ttest till att testa: H 0 : µ = 1 H a : µ < 1 proc ttest data = ex886 h0 =1 alpha =0. 05 sides = L; var vatten ; Vi anger "sides=l", där L står för lower, för att låta SAS utföra ensidigt test med H a :µ < 1. Dubbelsidigt test får man genom att välja "sides=2" och testet med mothypotes H a :µ > 1 genom att sätta "sides=u". Vi får utskriften The TTEST Procedure Variable : vatten N Mean Std Dev Std Err Minimum Maximum 14 0. 8964 0. 3995 0. 1068 0. 5300 1. 9200 Mean 95% CL Mean Std Dev 95% CL Std Dev 0. 8964 - Infty 1. 0855 0. 3995 0. 2896 0. 6437 DF t Value Pr < t 13-0.97 0. 1749 Utskriften ger oss olika mått. Intressant för hypotestestning för µ är det som står i raden längst ner. Teststatistikan är t = ȳ µ 0 s/ = 0.97 och jämförelse med t-fördelningen med n df=13 ger p-värdet 0.1749. Vad innebär p-värdet? Kan man förkasta H 0? 2

2. Skillnaden mellan två populationsmedelvärden, µ 1 µ 2 Vi fortsätter med samma exempel. Vi tar datafilen ex886 och sätter i samma kolumn värden för både tonfisk i vatten och tonfisk i olja. För att hålla reda på de olika kategorierna lägger vi till en ny variabel, grupper. data Tonfisk ; set ex886 ; if vatten ne. then do; pris = vatten ; grupp =1; output ; end ; if olja ne. then do; pris = olja ; grupp =2; output ; end ; keep pris grupp ; Nu kan vi använda proc ttest till att låta SAS beräkna ett konfidensintervall för µ 1 µ 2 och utföra hypotestestet H 0 : µ 1 = µ 2 H a : µ 1 µ 2 proc ttest data = tonfisk alpha =0. 1 sides =2; var pris ; class grupp ; Utskriften ger oss många olika mått. Det som är intressant för hypotestestning av µ 1 µ 2 har vi tagit fram i tabellen nedan The TTEST Procedure grupp Method Mean 90% CL Mean Std Dev Diff (1-2) Pooled 0. 2508-0.1213 0. 6230 0. 5389 Method Variances DF t Value Pr > t Pooled Equal 23 1. 16 0. 2598 Observera att proc ttest-kommandot beräknar konfidensintervallet för ett litet urval (small sample confidenveinterval) och använder formeln (ȳ 1 ȳ 2 ) ± t α/2 s p (1/n1 + 1/n 2 ), df = n 1 + n 2 2. Teststatistikan beräknas sen enligt formeln T = ȳ 1 ȳ 2 0 s p (1/n1 + 1/n 2 ) Jämförelse med t-fördelningen med df=23 ger p-värdet 0.2598. Ni kan jämföra värdet på utskriften med egna uträkningar. 3

3. Populationsproportionen, p Exemplet som vi ska använda för att visa hur man kan ta fram ett konfidensintervall och utföra hypotestest för p kommer från MS boken (övning 10.57 sidan 517). Andelen personer som förnyar sitt abonnemang för ett nyhetsmagasin har visat sig vara 60% de senaste åren. För att testa om andelen har förändrats dras ett urval om 200 observationer. 108 personer i urvalet vill förnya sitt abonnemang. För att skatta p och testa H 0 : p = 0.6 H a : p 0.6 kan man använda proc freq-kommandot. data ex1057 ; input renew $ count ; datalines ; 1 108 2 92 ; proc freq data = ex1057 ; tables renew / alpha =0. 05 binomial ( level =1 p =0. 6); weight count ; I output fönstret får vi utskriften. The FREQ Procedure Cumulative Cumulative renew Frequency Percent Frequency Percent ------------------------------------------------------------- 1 108 54. 00 108 54. 00 2 92 46. 00 200 100. 00 Binomial Proportion for renew = 1 -------------------------------- Proportion 0. 5400 ASE 0. 0352 95% Lower Conf Limit 0. 4709 95% Upper Conf Limit 0. 6091 Exact Conf Limits 95% Lower Conf Limit 0. 4683 95% Upper Conf Limit 0. 6105 Test of H0: Proportion = 0.6 ASE under H0 0. 0346 Z -1.7321 One - sided Pr < Z 0. 0416 Two - sided Pr > Z 0.0833 Sample Size = 200 4

Vi ser i utskriften att proportionen som vill förnya sitt abonnemang blev 0.54. De två första konfidensintervallgränserna är framräknade med formeln ˆp ± z α/2 ˆpˆq n De mått på teststatistikan vi är intresserade av är de tre sista; "Z", "one sided" och "two sided". "Z" anger det observerade z-värdet från testet. Det vill säga, SAS använder formeln Z = ˆp p 0 p0 q 0 /n. "One sided" och "two sided" anger p-värdet för ett enkelsidigt test H 0 : p = 0.6 respektive dubbelsidigt test H a : p < 0.6 H 0 : p = 0.6 H a : p 0.6 Vi skall i uppgiften testa om p 0.6 därför bör vårt beslut tas genom att titta på p-värdet 0.0833. Ska vi förkasta H 0? 4. Skillnaden mellan två populationsproportioner, p 1 p 2 Exemplet som vi ska använda för att visa hur man kan ta fram ett konfidensintervall och utföra hypotestest för p kommer från MS boken (exempel 8.8 sidan 413). Vi har ett urval om 50 kylskåp av typ A varav 12 är felaktiga och 60 kylskåp av typ B dras varav 12 är felaktiga. Vi vill beräkna et 98% konfidensintervall för p 1 p 2 och testa, (med signifikansnivå α = 0.02) H 0 : p 1 = p 2 H a : p 1 p 2 Man kan använda proc freq-kommandot även här till att utföra hypotestestet. data ex88 ; input status $ brand $ count ; datalines ; fail A 12 work A 38 fail B 12 work B 48 ; proc freq data = ex88 ; tables brand * status / alpha =0. 02 riskdiff ( equal ); weight count ; 5

Vi får utskriften The FREQ Procedure Statistics for Table of brand by status Column 2 Risk Estimates ( Asymptotic ) 98% ( Exact ) 98% Risk ASE Confidence Limits Confidence Limits -------------------------------------------------------------- Row 1 0. 7600 0. 0604 0. 6195 0. 9005 0. 5923 0. 8847 Row 2 0. 8000 0. 0516 0. 6799 0. 9201 0. 6536 0. 9049 Total 0. 7818 0. 0394 0. 6902 0. 8734 0. 6763 0. 8662 Difference -0.0400 0. 0795-0.2249 0. 1449 Proportion ( Risk ) Difference Test H0: P1 - P2 = 0 Proportion Difference -0.0400 ASE ( Sample ) 0. 0795 Z -0.5034 One - sided Pr < Z 0. 3074 Two - sided Pr > Z 0.6147 Sample Size = 110 Vi ser i utskriften att ˆp 1 ˆp 2 = 0.04. Konfidensintervallet för skillnaden, "Difference, "är framräknad med formeln ( ˆp 1 ˆp 2 ) ± z α/2 ˆp1 ˆq 1 n 1 + ˆp 2 ˆq 2 n 2 De mått på teststatistikan vi är intresserade av är de tre sista; "Z", "one sided" och "two sided". "Z" anger det observerade z-värdet från testet. Det vill säga, SAS använder formeln Z = ˆp 1 ˆp 2. ˆp 1 ˆq 1 n 1 + ˆp 2 ˆq 2 n 2 Vi skall i uppgiften testa om p 1 p 2 därför bör vårt beslut tas genom att titta på p-värdet 0.6147. Ska vi förkasta H 0? Övningar Lös följande uppgifter ur MS med hjälp av SAS 10.33 10.54 10.71 10.75 6