FACIT (korrekta svar i röd fetstil)

Relevanta dokument
Datorlaboration 2 Konfidensintervall & hypotesprövning

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

*****************************************************************************

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Datorlaboration 7. Simuleringsbaserade tekniker

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TMS136. Föreläsning 13

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Hur man tolkar statistiska resultat

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

, s a. , s b. personer från Alingsås och n b

Medicinsk statistik II

F3 Introduktion Stickprov

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Statistik och epidemiologi T5

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Hur skriver man statistikavsnittet i en ansökan?

Analytisk statistik. Tony Pansell, optiker Universitetslektor

TMS136. Föreläsning 11

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Statistik och epidemiologi T5

Höftledsdysplasi hos dansk-svensk gårdshund

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

Grundläggande statistik kurs 1

Föreläsning G60 Statistiska metoder

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Datorövning 1 Enkel linjär regressionsanalys

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Statistik för teknologer, 5 poäng Skrivtid:

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Statistik 1 för biologer, logopeder och psykologer

Metod och teori. Statistik för naturvetare Umeå universitet

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Grundläggande matematisk statistik

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Laboration 3 Inferens fo r andelar och korstabeller

Föreläsning G60 Statistiska metoder

Följande resultat erhålls (enhet: 1000psi):

Uppgift 1. Produktmomentkorrelationskoefficienten

Examinationsuppgift 2014

Obligatorisk uppgift, del 1

Till ampad statistik (A5) Förläsning 13: Logistisk regression

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Konfidensintervall, Hypotestest

Parade och oparade test

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Medicinsk statistik I

Föreläsning 5. Kapitel 6, sid Inferens om en population

EXTRA ÖVNINGSUPPGIFTER MED SVAR

Studietyper, inferens och konfidensintervall

Föreläsningsanteckningar till kapitel 9, del 2

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

F9 SAMPLINGFÖRDELNINGAR (NCT

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

7.5 Experiment with a single factor having more than two levels

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

kodnr: 2) OO (5p) Klassindelningar

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Transkript:

v. 2013-01-14 Statistik, 3hp PROTOKOLL FACIT (korrekta svar i röd fetstil) Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska bearbetningen av samma öringdata som under laboration 1. Denna gång kommer ni att prova på några vanligt förekommande statistiska tester och skattningsmetoder. Mer information om dessa finns under handouts på kursens hemsida samt i "Ordbok i statistik" (Vejde & Leander, 2000). Arbeta gärna två och två. Öppna er datafil som ni sparade under första datorlaborationen, eller hämta en ny kopia av filen från samma adress som förut: www.popgen.su.se/stat3hp Utför nedanstående uppgifter och svara på frågorna. Även denna gång ska protokollet lämnas in. Uppgifter/frågor 1. Konfidensintervall för en kontinuerlig variabel. Följande formel används: 1a. Beräkna ett 95 % konfidensintervall för variabeln WEIGHT (kroppsvikt). Använd totalmaterialet, d.v.s. alla fiskar (=n). Börja med att räkna ut medelvärde ("x-bar") och stickprovsvarians (s 2 ) för denna variabel (repetition från laboration 1): Stickprovsstorlek: 50 Medelvärde: 141 Varians: 2638 1b. Beräkna därefter standard error (S.E.), d.v.s. följande del av ovanstående uttryck: S.E. för WEIGHT (kroppsvikt) är: 7,26

2. Tips: För att dra kvadratroten ur ett tal används funktionen =SQRT(tal), där tal representerar det värde man vill dra roten ur. Prova t.ex. att skriva =SQRT(9) i någon valfri cell (följt av ENTER) och kontrollera att det stämmer... 1c. Ta nu reda på värdet av t df, d.v.s. "t-faktorn" för det aktuella antalet frihetsgrader (df = n 1) och den önskade konfidensnivån. Detta gör ni antingen genom att använda funktionen =T.INV.2T(probability; deg_freedom) (Excel 2003 TINV) i Excel, där probability (sannolikhet) representerar den sökta konfidensgränsen (i detta fall 5 %, skriv in 0,05), eller med hjälp av en t-tabell. Vad är df respektive t df i det aktuella fallet? Observera att stickprovsstorleken (n) är det totala antalet fiskar i stickprovet (d.v.s. honor+hanar). df : 49 t df : 2,01 1d. Ni har nu den information som behövs för att räkna ut ett 95 % konfidensintervall för kroppsvikt med hjälp av formeln på föregående sida. Vad blev resultatet? nedre 95% gräns: 126,3 övre 95% gräns: 155,5 1e. Beskriv innebörden av det konfidensintervall ni just räknat ut: Med 95% sannolikhet ligger populationens medelvärde ( μ ) inom detta intervall 2. Hypotesprövning - test för medelvärdesskillnad (två medelvärden, t-test) 2a. Beräkna medellängden bland öringarna (båda könen) fångade i Blanktjärnen respektive i Flyn (repetition från laboration 1). Medellängder (mm): Blanktjärnen: 258 Flyn: 221 2b. Återspeglar den observerade medellängdsskillnaden i stickprovet en verklig ("sann") skillnad mellan de båda tjärnarnas öringar? För att angripa denna fråga statistiskt ska vi utföra ett så kallat t-test. I Excel används modulen Dataanalysis (den som ni använde för att framställa histogram tidigare; återfinns under menyn Data). "Rulla" ner mot slutet av listan med alternativ och välj t-test: Two sampel assuming equal variances.

3. Tryck OK och följande dialogruta öppnas: I fälten Variable range 1 och Variable range 2 skriver ni in de cellområden som innehåller kroppslängderna för Blanktjärnen respektive för Flyn (era data måste alltså vara sorterade med avseende på lokal). I rutan märkt Alfa står inskrivet 0.05 (5 %). Detta är den signifikansnivå som t-testet kommer att utföras på, och detta värde kan ändras om man så önskar (men låt det stå denna gång). Innan ni trycker OK och utför testet, svara på följande. Vilken är nollhypotesen (H 0 ) som skall testas? Medellängden bland 5-åriga öringar är den samma i de två insamlingslokalerna Tjärnen och Flyn (μ 1 = μ 2 ) Vilken är alternativhypotesen (H 1 ) vid ett dubbelsidigt test? Medellängden bland 5-åriga öringar i insamlingslokalerna Tjärnen och Flyn är inte den samma (μ 1 μ 2 ) Tryck på OK. Vilket blev resultatet? Vi bryr oss endast om det som står på följande rader i tabellen: Antal frihetsgrader ("fg"): 48 t-värde ("t-kvot"): 6,37 p-värde, dubbelsidigt test ("P(T<=t) tvåsidig"): 6,7 x 10-8

4. Föreligger det en statistiskt signifikant skillnad i medellängd mellan insamlingslokalerna? Ja! Det föreligger en statistiskt signifikant medellängdsskillnad mellan lokalerna (P<<0.05, H 0 förkastas) Tolkning: Om H 0 är sann är sannolikheten att få en så här stor skillnad (eller större) mellan två stickprov av denna storlek, väldigt låg! Alltså förkastar vi nollhypotesen. 3. Konfidensintervall för en relativ frekvens. Följande formel används: 3a. Beräkna konfidensintervall för andelen honor i totalmaterialet. Under laboration 1 (fråga 5) beräknade ni ett punktestimat för denna relativa frekvens i ert stickprov. Vilket var detta estimat? (Man beräknar konfidensintervall för andelar med formeln ovan.) Andelen honor i stickprovet (p honor ) är: 0,4 (40%) Beräkna ett 95% resp. 99% konfidensintervall. (Se fråga 1 för hur man med hjälp av Excel drar kvadratroten ur tal och bestämmer värdet för t df.) Åter är antalet frihetsgrader df = n 1. OBS! n=50 (ni har ju använt hela stickprovet för att skatta andelen honor/hanar!) 95% konfidensintervall för andelen honor: 0,26 < P honor < 0,54 99% konfidensintervall för andelen honor: 0,21 < P honor < 0,59 3b. Vilket av intervallen är "bredast" och varför? 99% konfidensintervallet är bredast; ju säkrare man vill vara på att intervallet inkluderar populationens sanna medelvärde, desto bredare intervall krävs 3c. Fundera över om det verkar troligt att den sanna frekvensen honor (P honor ) är 0.5, Ja, det förefaller möjligt att P honor är 0,5 (d.v.s. att könskvoten är jämn) eftersom denna frekvens täcks av konfidensintervallen.

5. 4. Hypotesprövning test av relativa frekvenser (χ 2 "a priori") Testa de observerade absoluta frekvenserna honor/hanar mot de som förväntas vid jämn könskvot med hjälp av ett s.k. χ 2 test. I Excel gör ni detta med hjälp av funktionen =CHISQ.TEST(obs;obs;exp;exp), där obs och exp representerar två cellområden där ni skrivit in de observerade resp. förväntade antalen honor/hanar. Funktionen CHISQ.TEST (Excel 2003 CHITEST) skriver då ut det aktuella p-värdet. Vilken är nollhypotesen (H 0 )? Könskvoten i populationen är jämn (P honor = P hanar = 0.5) Vilken är alternativhypotesen (H 1 )? Könskvoten i populationen är inte jämn (P honor P hanar ) Vad blev p-värdet (använd det exakta värdet ni får från Excel)? 0,16 Vilken slutsats drar ni? Det går inte att förkasta hypotesen att könskvoten i populationen är jämn (P>0.05) 5. Linjär regression Finns det ett samband mellan kroppslängd och -vikt (WEIGHT och LENGTH)? En naturlig startpunkt för att analysera denna typ av frågeställning är att först illustrera sina data grafiskt. Under datorlaboration 1 gjorde ni ett punktdiagram över dessa variabler, vilket bör ha sett ut så här (den räta linjen får man genom att högerklicka på någon av punkterna i diagrammet och därefter välja "infoga trendlinje"):

6. Föreligger ett verkligt (linjärt) samband mellan variablerna kroppslängd och vikt i populationen? Eller är det synbarliga sambandet i ovanstående figur endast orsakat av slumpen i ett stickprov av begränsad storlek? Åter bör frågan analyseras statistiskt, och vi gör det denna gång med hjälp av s.k. linjär regression. Använd modulen Dataanalysis och välj alternativet Regression. Följande dialogruta öppnas: I fälten Input Y Range och Input X Range skriver ni in de cellområden (-referenser) som innehåller längder respektive vikter. Innan ni trycker OK och utför testet, svara på följande: Vilken är nollhypotesen (H 0 )? Det råder inget (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s. β=0 Vilken är alternativhypotesen (H 1 )? Det råder ett (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s. β 0 Tryck OK. Vilket blev resultatet? (Bry er endast om det p-värde som står utskrivet på nedersta raden i nedersta deltabellen, d.v.s. raden märkt X-variabel 1). p-värde: 2,4x10-34 Föreligger det ett statistiskt signifikant (linjärt) samband mellan vikt och längd? Ja! (p<<0.05, H 0 förkastas)