Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi kommer att studera följande frågeställningar: 1. Vilken påverkan har kroppstemperaturen på hjärtfrekvensen? Kan vi se ett samband mellan dessa två variabler. Använd enkel linjär regression för att besvara frågan. Glöm inte att sätta upp modell och kontrollera alla antaganden. 2. Avgör, med hjälp av variansanalys, om det finns någon signifikant skillnad i sockerhalt mellan de tre hyllsektionerna. Välj en signifikansnivå. Ange modellantaganden och gör en fullständig residualanalys. Diskutera även kring stormarknadens produktplaceringsstrategi utifrån era resultat. I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt Vi kom även fram till att det finns en signifikant skillnad mellan de tre hyllsektionernas flingors sockerhalt. 2
Metod Vi använde oss av regressionsanalys för att lösa den första uppgiften. Det var möjligt tack vare programvaran Minitab, som sammanställde vår mätdata från A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich". Vi var givna värdena i tabellform i Minitab. För att kunna utföra en fitted line plot samt en enklare regressionsanalys gick vi: Stat -> Regression -> Fitted Line Plot Dessa resultat använde vi för att skapa en första överblick över vår antagna modell, samt en plottad graf. För att kunna utföra en mer ingående regressionsanalys gick vi: Stat -> Regression -> Regression Detta resultat använde vi för att bestämma hur väl modellen överensstämde med verkligheten. Vi utförde direktmetoden för att kontrollera interceptet samt lutningskoefficienten på den teoretiska regressionslinjen. För att våra tester ska kunna vara tillförlitliga måste vi verifiera att residualen är normalfördelad, vi utförde en analys av residualen genom att vi gick: Stat -> Regression -> Regression och därifrån in på: Graphs, markera Four in one. Från graferna drog vi sedan slutsatser om residualen var normalfördelad eller ej med hjälp av visuell inspektion. Vi använde variansanalys för att lösa den andra uppgiften. Även här använde vi Minitab och var givna värdena (som dock inte kom från samma källa som mätdatan i uppgift 1) i tabellform. För att göra en One-Way ANOVA analys gick vi: Stat -> ANOVA -> One-way och därifrån in på: Graphs, markera Four in one. Detta resultat använde vi för att, med hjälp av direktmetoden, undersöka om det fanns någon skillnad mellan hyllsektionernas flingors medelsockerhalt, och från graferna analyserade vi residualen. För att våra tester ska kunna vara tillförlitliga måste vi verifiera att residualerna har lika varians. För att testa detta gick vi: Stat -> ANOVA -> Test for Equal Variance Med hjälp av direktmetoden använde vi detta resultat. 3
Teori I uppgift 1 kommer vi att kontrollera om hjärtfrekvensen kan beskrivas som en linjär funktion av kroppstemperaturen, samt kontrollera om förhållandet mellan dem är signifikant. Hjärtfrekvensen beskrivs som en funktion av kroppstemperaturen enligt: där Y är hjärtfrekvensen, x kroppstemperaturen, interceptet och lutningskoefficienten på den teoretiska regressionslinjen, representerad av y. är en slumpvariabel som vi kallar residualen. Vi antar att alla residualer är normalfördelade och har lika varians. För att kunna kontrollera om förhållandet mellan hjärtfrekvensen och kroppstemperaturen är statistiskt signifikant definerar vi följande hypoteser för uppgift 1: { { För att kontrollera vårt antagande om normalitet definierar vi hypoteserna: { { I uppgift 2 kommer vi att med hjälp av en variansanalys avgöra om det finns en signifikant skillnad i sockerhalt mellan flingsorter på olika hyllsektioner. Sockerhalten i flingor beskrivs som en funktion av hyllsektionen enligt där X är sockerhalten i flingorna, är väntevärdet för hyllsektionen och är en slumpvariabel som vi kallar residualen. Vi antar att ala residualer är normalfördelade med lika varians. För att kunna testa om förhållandet mellan sockerhalten och hyllsektion är signifikant definierar vi följande hypoteser för uppgift 2: { där är väntevärdet för flingornas sockerhalt på hylla 1, osv. För att kontrollera våra antaganden om normalitet och varians definierar vi följande hypoteser: 4
{ { Vi har använt oss av direktmetoden för att kontrollera om alla ovanstående nollhypoteser i båda uppgifter stämmer. Om p-värdet är lägre än vår signifikansnivå förkastar vi nollhypotesen, i vilket fall förhållandet är statistiskt signifikant. Vi definierar signifikansnivån i alla tester. 5
Hjartfrekvens Umeå Universitet Resultat Fråga 1 När vi utförde fitted line plot fick vi resultatet som syns i beräkning 1 och figur 1. Regression Analysis: Hjartfrekvens versus Kroppstemperatur The regression equation is Hjartfrekvens = - 166,3 + 2,443 Kroppstemperatur S = 6,85774 R-Sq = 6,4% R-Sq(adj) = 5,7% Analysis of Variance Source DF SS MS F P Regression 1 413,95 413,948 8,8,4 Error 128 619,66 47,29 Total 129 6433,61 Beräkning 1: Regressionsanalys av hjärtfrekvens som funktion av kroppstemperatur. 9 85 Fitted Line Plot Hjartfrekvens = - 166,3 + 2,443 Kroppstemperatur S 6,85774 R-Sq 6,4% R-Sq(adj) 5,7% 8 75 7 65 6 96 97 98 99 Kroppstemperatur 1 Figur 1: Fitted line plot av hjärtfrekvens som funktion av kroppstemperaturen. Detta gav oss en någorlunda uppfattning om hur våra undersökningar skulle se ut. 6
För att få en bättre insikt utförde vi en mer omfattande regressionsanalys, vars resultat syns i beräkning 2 och figur 2. Regression Analysis: Hjartfrekvens versus Kroppstemperatur The regression equation is Hjartfrekvens = - 166 + 2,44 Kroppstemperatur Predictor Coef SE Coef T P Constant -166,28 8,91-2,6,42 Kroppstemperatur 2,4432,8235 2,97,4 S = 6,85774 R-Sq = 6,4% R-Sq(adj) = 5,7% Analysis of Variance Source DF SS MS F P Regression 1 413,95 413,95 8,8,4 Error 128 619,66 47,3 Total 129 6433,61 Unusual Observations Obs Kroppstemperatur Hjartfrekvens Fit SE Fit St Resid 1 96 7, 68,999 1,714 1,1,15 X 2 98 58, 72,664,76-14,664-2,15R 66 96 69, 69,243 1,637 -,243 -,4 X 71 97 57, 71,687,922-14,687-2,16R 82 98 87, 73,153,636 13,847 2,3R 85 98 89, 73,153,636 15,847 2,32R 92 98 57, 73,641,63-16,641-2,44R 8 99 59, 74,863,77-15,863-2,33R 115 99 89, 75,7,753 13,893 2,4R 128 79, 77,795 1,487 1,25,18 X 129 78, 78,39 1,562 -,39 -,1 X 13 1 77, 79,994 2,185-2,994 -,46 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. Beräkning 2: Regressionsanalys av hjärtfrekvens som funktion av kroppstemperatur. 7
Frequency Percent Umeå Universitet Plots for Hjartfrekvens 99,9 99 9 Normal Probability Plot 2 Versus Fits 5 1,1-2 - 2 - -2 7, 72,5 75, Fitted Value 77,5 8, 2 Histogram 2 Versus Order 15 5-12 -6 6 12 - -2 5 4 3 2 1 9 8 7 6 Observation Order 1 12 13 Figur 2: Four in one - plot över residualen för linjäranpassningen av kroppstemeraturen för att beskriva hjärtfrekvensen. Från beräkning 2 ser vi att genom skattning är och, samt att P-värdena för dem är,42 respektive,4. I och med att dessa är mindre än vår signifikansnivå,5 kan vi konstatera att förhållandet mellan kroppstemperatur och hjärtfrekvens är statistiskt signifikant, se hyp(1). Vi förkastar alltså och till fördel för respektive. Alltså kan vi säga att på signifikansnivå 5% påverkar kroppstemperaturen hjärtfrekvensen med ett linjärt förhållande. Den teoretiska regressionslinjen är då: Detta gäller enbart om residualen,, är normalfördelad. De två graferna till vänster i figur 2, Histogram samt Normal Probability Plot, visar på en normalfördelning. Det styrker vårt antagande om normalitet. Vi förkastar då ej från hyp(2). R-Sq värdet är dock lågt, vilket är en indikation på att funktionen inte förklarar variationen till fullo. Eftersom de två graferna till höger i figur 2 inte ger ett enkelt utrönbart mönster eller intercept kan vi anta att residualerna har konstant varians. 8
Test for Equal Variances: Hjartfrekvens versus Kroppstemperatur 95% Bonferroni confidence intervals for standard deviations Kroppstemperatur N Lower StDev Upper 96,3 1 * * * 96,4 1 * * * 96,7 2 1,9481 6,364 4874,6 96,8 1 * * * 96,9 1 * * * 97 1 * * * 97,1 3 1,8341 4,7258 146,39 97,2 3,76322 2, 61,95 97,3 1 * * * 97,4 5 3,58366 7,6811 5,45 97,5 2 1,7823 3,5355 278,11 97,6 4 2,54443 5,99 64,77 97,7 3 4,499 11,7898 365,2 97,8 7 3,6243 6,9966 27,57 97,9 5 2,17335 4,6583 3,6 98 11 4,37754 7,516 19,45 98,1 3 2,6833 7,238 217,57 98,2 2,92994 5,1467 14,31 98,3 5 2,33276 5, 32,84 98,4 9 3,3816 6,987 18,53 98,5 3 3,2893 7,9373 245,86 98,6 3,68154 6,467 17,99 98,7 8 4,38626 8,1591 27,73 98,8 4,42959 7,78 21,64 98,9 2,86258 2,8284 2166,49 99 5 1,14282 2,4495 16,9 99,1 3 1,74875 4,5826 141,95 99,2 3 3,2911 8,6217 267,6 99,3 2 1,7823 3,5355 278,11 99,4 2 1,5952 4,9497 3791,35 99,5 1 * * * 99,9 1 * * * 1 * * *,8 1 * * * Bartlett's Test (Normal Distribution) Test statistic = 14,89; p-value =,899 Levene's Test (Any Continuous Distribution) Test statistic =,66; p-value =,87 Beräkning 3: Test for Equal Variances av samband mellan hjärtfrekvens och kroppstemperatur. 9
Kroppstemperatur Umeå Universitet 96,3 96,4 96,7 96,8 96,9 97, 97,1 97,2 97,3 97,4 97,5 97,6 97,7 97,8 97,9 98, 98,1 98,2 98,3 98,4 98,5 98,6 98,7 98,8 98,9 99, 99,1 99,2 99,3 99,4 99,5 99,9,,8 Test for Equal Variances for Hjartfrekvens 2 3 4 5 95% Bonferroni Confidence Intervals for StDevs Bartlett's Test Test Statistic 14,89 P-Value,899 Levene's Test Test Statistic,66 P-Value,87 Figur 3: Test for Equal Variances för hjärtfrekvens. Från beräkning 3 ser vi att P-värdet är,899 (enligt Bartlett's Test för normalfördelningar, vilket är det intressanta testet eftersom vi antagit normalitet) och det är ett insignifikant resultat, vilket betyder att vi inte kan förkasta vår hypotes från hyp(3) att residualerna har lika varians, med signifikansnivå,5. Det kan också ses i figur 3 att varianserna inte är särskilt olika, även fast några har stora konfidensintervall. Sammanfattningsvis kan vi alltså förlita oss på våra tester, då vi visat att våra antaganden om att residualerna är normalfördelade och har lika varians stämmer. Svar: Kroppstemperaturen påverkar hjärtfrekvensen enligt följande ekvation: Det finns ett samband.
Frequency Percent Umeå Universitet Fråga 2 När vi utförde One-Way ANOVA analys fick vi resultatet som syns i beräkning 4 och figur 4. One-way ANOVA: Socker versus Hyllsektion Source DF SS MS F P Hyllsektion 2 248,4 124,2 7,33,1 Error 74 1253,1 16,9 Total 76 151,5 S = 4,115 R-Sq = 16,54% R-Sq(adj) = 14,29% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev --------+---------+---------+---------+- 1 2 4,8 4,572 (------*-------) 2 21 9,619 4,129 (------*-------) 3 36 6,528 3,836 (----*-----) --------+---------+---------+---------+- 5, 7,5, 12,5 Pooled StDev = 4,115 Beräkning 4: One-Way ANOVA analys av sambandet mellan sockerhalt i flingor och hyllsektion. Plots for Socker Normal Probability Plot Versus Fits 99,9 99 9 5 5-5 1,1 - -5 5-5 6 7 8 Fitted Value 9 16 Histogram Versus Order 12 5 8 4-5 - -8-4 4 8 1 5 15 2 25 3 35 4 45 5 55 6 65 7 75 Observation Order Figur 4: Four in one plot över residualen av hyllsektionen för att beskriva sockerhalten. 11
Från beräkning 4 ser vi att P-värdet är,1, vilket är lägre än vår signifikansnivå,,5. Detta leder till att vi förkastar vår grundhypotes,, till fördel för vår alternativa hypotes i hyp(4). Det finns alltså en signifikant skillnad i sockerhalt mellan de tre hyllsektionerna. Högst sockerhalt finns på hylla 2 och lägst sockerhalt på hylla 1. För att se vilka hyllsektioner som hade en signifikant skillnad gjorde vi ett Tukey s Test. Resultatet syns i beräkning 5. One-way ANOVA: Socker versus Hyllsektion Grouping Information Using Tukey Method Hyllsektion N Mean Grouping 2 21 9,619 A 3 36 6,528 B 1 2 4,8 B Means that do not share a letter are significantly different. Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Hyllsektion Individual confidence level = 98,6% Hyllsektion = 1 subtracted from: Hyllsektion Lower Center Upper -------+---------+---------+---------+-- 2 1,746 4,819 7,892 (--------*--------) 3-1,15 1,728 4,471 (-------*-------) -------+---------+---------+---------+-- -3,5, 3,5 7, Hyllsektion = 2 subtracted from: Hyllsektion Lower Center Upper -------+---------+---------+---------+-- 3-5,792-3,91 -,391 (-------*-------) -------+---------+---------+---------+-- -3,5, 3,5 7, Beräkning 5: One-Way ANOVA analys av sambandet mellan sockerhalt i flingor och hyllsektion, med Tukey s test. (Enbart Tukey s Test medtagit) Från beräkning 5 ser vi att det inte finns en signifikant skillnad mellan hyllsektion 1 och 3, däremot mellan dem och hyllsektion 2. Detta gäller dock enbart om varje residual,, är normalfördelad och alla har lika varians. Normaliteten kontrollerar vi med hjälp av figur 4. De två graferna till vänster i figur 4, Histogram samt Normal Probability Plot, visar på en normalfördelning. Det styrker vårt antagande om normalitet, vilket gör att vi ej förkastar vår grundhypotes i hyp(5). R-Sq värdet är dock lågt, vilket är en indikation på att funktionen inte förklarar variationen till fullo. Eftersom de två graferna till höger i figur 4 inte ger ett enkelt utrönbart mönster eller intercept så kan vi anta att residualerna har konstant varians. Resultatet av vårt test om lika varians syns i beräkning 6 och figur 5. 12
Hyllsektion Umeå Universitet Test for Equal Variances: Socker versus Hyllsektion 95% Bonferroni confidence intervals for standard deviations Hyllsektion N Lower StDev Upper 1 2 3,2842 4,57223 7,326 2 21 2,98694 4,12888 6,5167 3 36 2,97646 3,83582 5,32736 Bartlett's Test (Normal Distribution) Test statistic =,77; p-value =,681 Levene's Test (Any Continuous Distribution) Test statistic =,13; p-value =,875 Beräkning 6: Test for Equal Variances av sambandet mellan sockerhalt i flingor och hyllsektion. Test for Equal Variances for Socker 1 Bartlett's Test Test Statistic,77 P-Value,681 Levene's Test Test Statistic,13 P-Value,875 2 3 3 4 5 6 7 95% Bonferroni Confidence Intervals for StDevs Figur 5: Test for Equal Variances för socker. Från beräkning 6 ser vi att P-värdet är,681 (enligt Bartlett's Test för normalfördelningar, vilket är det intressanta testet eftersom vi antagit normalitet) och det är ett insignifikant resultat, vilket betyder att vi inte kan förkasta vår hypotes från hyp(6) att residualerna har lika varians, med signifikansnivå,5. Det kan också ses i figur 5 att varianserna inte är särskilt olika. Sammanfattningsvis kan vi alltså förlita oss på våra tester, då vi visat att våra antaganden om att residualerna är normalfördelade och har lika varians stämmer. Svar: Ja, det finns en signifikant skillad i sockerhalt mellan flingor i hyllsektion 2 och i hyllsektioner 1 och 3. 13
Diskussion och slutsats I uppgift 1 kom vi fram till att det finns ett samband mellan hjärtfrekvens och kroppstemperatur enligt formeln Detta var inte ett uppenbart samband, vilket vi påpekat i laboration 2. Vår kontroll av normalitet och lika varians sade oss att residualerna var normalfördelade med lika varians, men vi kunde även se att testet inte gav oss särskilt mycket information om variansen, tack vare det låga R-Sq värdet. Vi kan alltså dra slutsatsen att det finns ett linjärt samband, men att vi inte kan säga mycket om variansen. Som i laboration 2 vill vi uppmärksamma om att det finns flera mätosäkerheter i våra grunddata. Bland annat vet vi inget om de använda mätmetoderna, till exempel om hur, var och när temperaturen och hjärtfrekvensen mättes. Olika mätmetoder kan ge olika resultat, vilket skulle märkas av väldigt tydligt i vårt fall. Medelkroppstemperaturen och hjärtfrekvensen kan också bero på andra viktiga faktorer som inte tagits i beaktning, så som vikt och hälsa. När det gäller uppgift 2 kom vi fram till att det fanns en signifikant skillnad mellan sockerhalterna hos flingor på hyllsektion 2 och hyllsektionerna 1 och 3. Högst sockerhalt hade flingorna på hylla 2, näst högst på hylla 3 och lägst på hylla 1. Från detta är det lätt att dra slutsatsen att placeringen av flingorna är medveten, gjord för att öka exponeringen av flingor med sockerhalt till barn. Detta eftersom att den första och minst sockerika hyllan är så pass nära golvnivå att flingorna där till stor del är skymda från syn, och att den tredje är för högt upp för att nås av barn. Att flingorna med högst sockerhalt finns på hylla två anser vi kunna bero på två faktorer: att de är lättast att nå vid den höjden och/eller att de är lättast att se, särskilt av barn. Vår kontroll av normalitet och lika varians sade oss att residualerna är normalfördelade, med lika varians, vilket verifierar våra grundantaganden. 14
Referenser Vår mätdata i uppgift 1 har tagits från: Journal of the American Medical Association, A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich" Vår mätdata i uppgift 2 gavs till oss i samband med laborationen. Laboration 2, av André Berglund och Julia Sandström. 15