Metod och teori. Statistik för naturvetare Umeå universitet

Relevanta dokument
En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Följande resultat erhålls (enhet: 1000psi):

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Skrivning i ekonometri torsdagen den 8 februari 2007

Statistik för teknologer, 5 poäng Skrivtid:

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Examinationsuppgifter del 2

TENTAMEN I MATEMATISK STATISTIK

10.1 Enkel linjär regression

Tentamen i matematisk statistik

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressions- och Tidsserieanalys - F4

8.1 General factorial experiments

Regressions- och Tidsserieanalys - F7

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen i matematisk statistik

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen i matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Exempel 1 på multipelregression

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Skrivning i ekonometri lördagen den 15 januari 2005

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Räkneövning 3 Variansanalys

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri lördagen den 25 augusti 2007

TENTAMEN I STATISTIK B,

Tentamen i Matematisk statistik Kurskod S0001M

tentaplugg.nu av studenter för studenter

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F3

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Regressions- och Tidsserieanalys - F5

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Linjär regression

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Experiment med två faktorer. Treatment Population. Balanced och ortogonal design. Graph of means. Table of means

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Multipel Regressionsmodellen

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen Tillämpad statistik A5 (15hp)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Grundläggande matematisk statistik

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

tentaplugg.nu av studenter för studenter

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Matematisk statistik, Föreläsning 5

Läs noggrant informationen nedan innan du börjar skriva tentamen

F7 Polynomregression och Dummyvariabler

Tentamen i Matematisk statistik Kurskod S0001M

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Lösningar till SPSS-övning: Analytisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk statistik Kurskod S0001M

2.1 Minitab-introduktion

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Medicinsk statistik II

3.1 Beskrivande statistik

Transkript:

Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån vara %. Låt x i vara observerad kroppstemperatur och låt y i vara observerad hjärtfrekvens för personen i=,,, 3. Vi har observerat 3 par (x i, y i ). Vi antar att y i är en observation av Y i där Y i = i i, i=,...,3 och i = x i, i=,...,3 Vi antar också att i, i=,...,3 är oberoende slumpvariabler som alla har fördelningen N(,σ ). För att analysera datan utför vi regressionsanalys i programmet Minitab. Interceptet α och lutningskoefficienten β kan skattas ned minsta kvadratmetoden, men det måste också kontrolleras att de är signifikant skilda från noll. Dvs vi testar { H :α= H : α och {H : = H : Eftersom vi utför enkel linjär regression behöver vi ej betrakta p-värdet i variansanalysen som Minitab ger vid regressionsanalys, då detta är ekvivalent med t-testet för β. Vi är även intresserad av förklaringsgraden, R, som beskriver hur bra modellen förklarar spridningen i datan. Slutligen måste vi kontrollera de antaganden som gjorts för att resultaten ska vara riktiga. Om modellen är korrekt är residualerna eller felen, dvs skillnaden mellan y i och skattningarna av y i enligt modellen, ett stickprov från ε. Genom att testa om residualerna är normalfördelade kan antagandet om normalfördelning verifieras. Detta görs med en så kallad probabilty plot. Det är däremot svårare att kontrollera att variansen för residualerna är konstant, men genom att studera en så kallad four in one graf i Minitab för residualerna kan man diskutera om detta verkar troligt. Uppgift I uppgift vill vi undersöka om det finns någon skillnad i sockerhalt för flingor beroende på hyllsektion i en stormarknad. Vi väljer signifikansnivån %. Den datan vi har är ett stickprov om 7 flingsorters hyllplacering och sockerhalt i stormarknaden. Det finns tre hyllsektioner: är vid golvet, i mitten och 3 högst upp. Vi börjar med att göra en grundläggande analys av vår data för att se om det verkar finnas någon skillnad. Om så är fallet utför vi ANOVA proceduren på datan för att se om denna skillnad är signifikant. Låt X i vara slumpvariabeln för sockerhalten hos en flingsort från hylla i, där i=,,3. Vi antar att X i N (μ i,σ ), i=,,3 Vilket också kan skrivas som X i =μ i +ε i Då är alla residualer, ε i, oberoende och likafördelade med fördelningen N (, σ ) för alla

Statistik för naturvetare -6-8 hyllsektioner. Vi antar också att observationerna från hylla är ett stickprov av X, och så vidare. Vi vill nu testa { H :μ =μ =μ 3 H : Minst två väntevärden är olika Om vi utför ANOVA på datan i Minitabfår vi p-värdet för nollhypotesen och på så sätt vet vi om skillnaden är signifikant. Precis som uppgift måste vi också testa att våra antaganden om residualerna och deras fördelningar är korrekta. Vi kontrollerar att residualerna är normalfördelade på samma sätt som i uppgift. Sen utför vi testet för lika varians på residualerna i Minitab. Då utförs två test på residualerna, Barletts test och Levenes test. Barletts test kräver att residualerna för respektive grupp (hyllsektionerna) är normalfördelade. Levenes test kräver ej normalfördelning. Båda testar { H :variablerna från respektive grupphar lika varians H : variablerna från respektive grupp har ej lika varians Om våran modell är korrekt och det finns en signifikant skillnad mellan hyllsektionerna kan vi ta reda på vilka hyllsektioner som har högre respektive lägre medelsockerhalt i flingorna med hjälp av Tukeys konfidensintervaller. Då jämförs skillnaden i medelvärde mellan alla hyllparkombinationer. Vi får reda på vilka hyllsektioner som har en signifikant skillnad i medelsockerhalt och vilken som har lägst respektive högst medelsockerhalt. Resultat och slutsatser Uppgift Från figur kan man få en första inblick i om det finns något samband mellan kroppstemperaturen och hjärtfrekvensen hos en person. Det verkar kunna vara så att högre temperatur ger något högre hjärtfrekvens men vi ser också från figur att det antagligen kommer att vara svårt att finna en bra modell för ett eventuellt samband, då det ej finns något tydligt linjärt mönster. 9 Scatterplot of Hjartfrekvens vs Kroppstemperatur 8 8 Hjartfrekvens 7 7 6 6 96 97 98 Kroppstemperatur Figur : Sambandsdiagram för hjärtfrekvens över kroppstemperatur med regressionslinje

Statistik för naturvetare -6- Nästa steg är att utföra linjär regression på datan. Minsta kvadratmetoden (se bilaga ) ger då α*=-66 och β*= av vilka följer att den skattade regressionslinjen blir Vi får alltså de anpassade (fitted) värdena y = 66+, x y i = 66, x i, i=,,..., 3 De första nollhypoteserna vi ville testa var att α och β är noll. Från figur i får vi att p-värdena för α(constant) och β(kroppstemperaturs koefficent) lika med noll är, resp,. Eftersom båda p-värdena är mindre, förkastas nollhypoteserna. Alltså, α och β är båda signifikant skillda från noll. Det finns ett signifikant samband mellan kroppstemperatur och hjärtfrekvens, då signifikansnivån är %. Predictor Coef SE Coef T P Constant -66,8 8,9 -,6, Kroppstemperatur,3,83,97, Table : Del av regressionsanalysen från Minitab, för hela se bilaga. Från regressionsanalysen får vi också att förklaringsgraden är 6,% (se bilaga ), vilket är en låg förklaringsgrad. Vår regressionsmodell förklara spridningen i datan endast till en liten grad. Nu vill vi slutligen kontrollera de modell antaganden som gjorts för att våra resultat ska vara korrekta. Först kontrolleras att residualerna är normalfördelade. Figur visar resultatet av en probabily plot för residualerna. Här är vår nollhypotes att residualerna är normalfördelade och då p- värdet=,697 kan vi ej förkasta detta. Då antagandet om normalfördelning har visats vara korrekt återstår endast kontroll av variansen. Genom att betrakta de högra graferna i figur 3 vill vi kontrollera om det verkar troligt att residualerna har konstant varians. Då det ej finns något tydligt mönster och spridningen verkar vara jämn runt noll, drar vi slutsatsen att variansen för residualerna är oberoende av de anpassade värdena. Vi kan därför ej förkasta antagandet att variansen för residualerna är konstant. Alltså, det finns ett samband mellan hjärtfrekvens och kroppstemperatur. Vår skattade regressionslinje y = 66, x är dock ej särskillt användbar för att uppskatta hjärtfrekvensen, y, hos en person givet dennes kroppstemperatur, x, eftersom modellen har så låg förklaringsgrad. Den skulle också ge ett brett konfidensintervall för hjärtfrekvensen. Man måste också beakta att intervallen för möjliga kroppstemperaturer och hjärtfrekvenser är relativt smala. Det är därför inte intressant att bredda vår modell utanför de möjliga intervallen. Till exempel blir den skattade hjärtfrekvensen -66 då kroppstemperaturen är grader Farenheit med vår modell. Detta ger oss ingen mer information då negativa hjärtfrekvenser ej är möjliga men framförallt så är en person med nollgradig kroppstemperatur ej vid liv.

Statistik för naturvetare -6-8 Probability Plot of RESI Normal - 9% CI Percent,9 9 9 8 7 6 3 M ean -,78E- StDev 6,83 N 3 A D,63 P-Value,697, -3 - - RESI 3 Figur : Normalfördelningskontroll av residualerna Plots for Hjartfrekvens Normal Probability Plot Versus Fits Percent,9 9 -, - - - 7, 7, 7, Fitted Value 77, 8, Histogram Versus Order Frequency - -6 6 Figur 3: Kontroll av residualerna 3 6 7 8 9 - - Observation Order 3

Statistik för naturvetare -6-8 Uppgift Från table samt figur och verkar det som att hyllsektion har den högsta medelsockerhalten och hyllsektion den lägsta. Enligt lådagrammet verkar dock hyllsektion och 3 ganska lika. Descriptive Statistics: Socker Total Variable Hyllsektion Count Mean SE Mean StDev Socker,8,,7 9,69,9,9 3 36 6,8,639 3,836 Table : Beskrivande statisktik för sockerhalten beroende på hyllsektion 6 Boxplot of Socker 6 Individual Value Plot of Socker Socker 8 6 Socker 8 6 Hyllsektion Figur : Lådagram över sockerhalt för respektive hyllsektion 3 Hyllsektion Figur : Graf över individuella värden i varje hyllsektion 3 Table 3 ger att det finns en signifikant skillnad i medelsockerhalt mellan åtminstone två av hyllorna då p-värdet är, vilket är mindre än,. Vi testar nu om antagandena om modellen är korrekta. Vi ser inga stora variationer i varians mellan hyllsektionerna i figur 6 och residualerna verkar vara normalfördelade. För att testa detta gjordes även ett normalitetstest på residualerna vilket gav p- värdet,33 och antagandet om normalitet för residualerna är därmed korrekt.

Statistik för naturvetare -6-8 One-way ANOVA: Socker versus Hyllsektion Source DF SS MS F P Hyllsektion 8,, 7,33, Error 7 3, 6,9 Total 76, S =, R-Sq = 6,% R-Sq(adj) =,9% Individual 9% CIs For Mean Based on Pooled StDev Level N Mean StDev --------+---------+---------+---------+-,8,7 (------*-------) 9,69,9 (------*-------) 3 36 6,8 3,836 (----*-----) --------+---------+---------+---------+-, 7,,, Pooled StDev =, Table 3: En-vägs ANOVA för socker mot hyllsektion Plots for Socker Normal Probability Plot Versus Fits,9 Percent 9 -, - - - 6 7 8 Fitted Value 9 6 Histogram Versus Order Frequency 8 - -8 - Figur 6: Kontroll av residualerna för sockerhalt 8-3 3 6 6 7 7 Observation Order Innan vi utför testet för lika varians måste vi kontrollera om residualerna för respektive hyllsektion är normalfördelade. Enligt figur 7 är residualerna för hyllsektion ej normalfördelade och vi måste därför använda Levenes test oavsett om residualerna för resterande hyllsektioner är normalfördelade. Levenes test ger p-värdet,87 och vi kan därför ej förkasta nollhypotesen att variansen för residualerna från respektive hylllsektion är lika. Vi kan nu dra slutsatsen att vår modell är korrekt och att det finns en signifikant skillnad i medelsockerhalt mellan åtminstone två av hyllsektionerna.

Statistik för naturvetare -6-8 Probability Plot of RESI Normal - 9% CI Hyllsektion = Percent 9 9 8 7 6 3 Mean -8,8878E-7 StDev,7 N A D,8 P-Value,3 - - - RESI Figur 7: Normalfördelningskontroll av residualerna för hyllsektion Test for Equal Variances for RESI Bartlett's Test Test Statistic,77 P-Value,68 Lev ene's Test Test Statistic,3 P-Value,87 Hyllsektion 3 3 6 7 9% Bonferroni Confidence Intervals for StDevs Figur 8: Test av lika varians för residualerna Till sist använder vi Tukeys metod för att bestämma mellan vilka hyllsektioner medelsockerhalten skiljer sig signifikant. Utskriften från Minitab finns i bilaga. Vi ser då att medelsockerhalten är signifikant högre för hyllsektion än för hyllsektionerna och 3. Det finns däremot ingen signifikant skillnad i medelsockerhalt mellan hyllsektion och hyllsektion 3. Vi kan alltså dra slutsatsen att sockerhalten i flingorna är högre i den hyllsektion som ligger i skolbarnens ögonhöjd i stormarknaden. Även om det inte är barnen som handlar mat i normalfallet placeras de sockriga flingorna där för att barnen ska se dem och få sina föräldrar att köpa dem. Huruvida detta är moraliskt korrekt av stormarknaden kan disskuteras.

Statistik för naturvetare -6-8 Bilaga Regression Analysis: Hjartfrekvens versus Kroppstemperatur The regression equation is Hjartfrekvens = - 66 +, Kroppstemperatur Predictor Coef SE Coef T P Constant -66,8 8,9 -,6, Kroppstemperatur,3,83,97, S = 6,877 R-Sq = 6,% R-Sq(adj) =,7% Analysis of Variance Source DF SS MS F P Regression 3,9 3,9 8,8, Error 8 69,66 7,3 Total 9 633,6 Unusual Observations Obs Kroppstemperatur Hjartfrekvens Fit SE Fit St Resid 96 7, 68,9,7,, X 98 8, 7,66,76 -,66 -,R 66 96 69, 69,3,637 -,3 -, X 7 97 7, 7,687,9 -,687 -,6R 8 98 87, 73,3,636 3,87,3R 8 98 89, 73,3,636,87,3R 9 98 7, 73,6,63-6,6 -,R 8 9, 7,863,77 -,863 -,33R 89, 7,7,73 3,893,R 8 79, 77,79,87,,8 X 9 78, 78,39,6 -,39 -, X 3 77, 79,,8 -, -,6 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage.

Statistik för naturvetare -6-8 Bilaga Grouping Information Using Tukey Method Hyllsektion N Mean Grouping 9,69 A 3 36 6,8 B,8 B Means that do not share a letter are significantly different. Tukey 9% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Hyllsektion Individual confidence level = 98,6% Hyllsektion = subtracted from: Hyllsektion Lower Center Upper -------+---------+---------+---------+--,76,89 7,89 (--------*--------) 3 -,,78,7 (-------*-------) -------+---------+---------+---------+-- -3,, 3, 7, Hyllsektion = subtracted from: Hyllsektion Lower Center Upper -------+---------+---------+---------+-- 3 -,79-3,9 -,39 (-------*-------) -------+---------+---------+---------+-- -3,, 3, 7,