Hedonisk kvalitetsvärdering av hemelektronik med webbskrapning
|
|
- Karolina Magnusson
- för 6 år sedan
- Visningar:
Transkript
1 1(21) PM till Nämnden för KPI PMU/MFS Sammanträde nr 5 Katarina Lashgari ES/PR Alexandra Garcia Nilsson John Johansson Sofie Öhman Hedonisk kvalitetsvärdering av hemelektronik med webbskrapning För diskussion och information Enheten för prisstatistik fortsätter utforska möjligheter att tillämpa hedoniska priskvalitetsvärderingar på olika produktgrupper, baserat på data insamlad med webbskrapning från en webbutik. Rapporten presenterar en ny och fördjupad analys av statistiska modeller för hedonisk kvalitetsvärdering av kaffebryggare samt en pilotstudie för hedoniska modeller gällande diskmaskiner. Diskussion om vilken modell som bör väljas för kvalitetsvärdering av kaffebryggare välkomnas så väl som inlägg kring hantering av data. INNEHÅLL 1 BAKGRUND SYFTE RESULTAT KAFFEBRYGGARE Statistisk analys för modellerna DISKMASKIN Syfte med analysen Beskrivningen av datamaterialet DISKUSSION OCH SLUTSATSER APPENDIX... 14
2 2(21) 1 Bakgrund Prisenheten har sedan en tid tillbaka drivit ett projekt som syftar till att utveckla hedoniska modeller baserade på webbskrapad data. Tidigare pm till nämnden har presenterat modeller för kaffebryggare och TV-apparater. Vid tidigare studier har stort fokus lagts vid att utveckla kod för webbskrapning av priser och egenskaper och mindre utrymme har funnits för att gå på djupet avseende de hedoniska modellerna. När vi jobbat vidare med modellerna ser vi att det finns potential för ytterligare förbättring och utveckling av dem. Därmed ser vi att det finns anledning att arbeta vidare med kaffebryggare. Kaffebryggare är dessutom en relativt enkel produkt att arbeta med, då den jämfört med andra produkter inom hemelektronik har förhållandevis få egenskaper. Genom att utveckla och förbättra vår hedoniska modell för kaffebryggare kommer vi att få värdefulla kunskaper inför framtida utveckling av hedoniska modeller för mer komplexa produkter. När analysen av kaffebryggare presenterades vid nämndens möte nr. 4 uppkom synpunkter avseende statistiska aspekter såsom samspel mellan olika variabler, kollinjäritet, proxyvariabler samt olika anpassningsmått, till exempel RR 2. Det rådde även delade meningar kring valet att använda trunkerad data. Erfarenheterna från tidigare studier väcker även intresse för att utveckla modeller baserade på webbskrapad data för andra produkter inom hemelektronik, så som diskmaskiner. 2 Syfte Syftet med denna studie är att fortsätta utreda hedoniska modeller för kvalitetsvärdering av kaffebryggare, med fördjupad statistisk analys som tar hänsyn till kommentarer från tidigare nämndmöte. Dessutom avses att ta arbetet med hedoniska modeller baserade på webbskrapad data vidare, genom att undersöka möjligheterna att utveckla en modell för diskmaskiner. Slutligen ämnar studien bredda kunskapen kring de möjligheter och utmaningar som kan uppstå vid användningen av pris- och egenskapsdata insamlad genom webbskrapning för hedoniska modeller. 3 Resultat Nedan presenteras de resultat som erhållits från studierna av kaffebryggare respektive diskmaskin. Datamaterialet som ligger till grund för de konstruerade modellerna har samlats in från en prisjämförelsesajt under Hedoniska index har sedan beräknats på den data som använts för att beräkna KPI under Kaffebryggare Det analyserade datamaterialet innehåller tre kontinuerliga variabler: Pris, Volym och Effekt samt några kvalitativa variabler som beskriver olika egenskaper av en kaffebryggare, nämligen Märke (20 nivåer) och 10 stycken variabler med 2 nivåer var: Avkalkningsprogram, Display, Dubbelbryggare, Kaffekvarn, Termoskanna, Timer, Signallampa, Droppstopp, Autoavstängning och Värmehållning. I denna analys, har vi konstruerat och analyserat en ny kvalitativ variabel, som vi kallade Volym_faktor. Den innehåller två nivåer, kallade Liten och Stor, där Liten representerar alla kaffebryggare vars volym är lika med eller mindre än 1,5 liter, medan Stor representerar de övriga. Kaffebryggare vars volym är mindre än 0,5 liter har inte analyserats då de inte ingår i prismätningarna för KPI. Utan missing values (eng), innehåller data 1488 prisobservationer, som svarar mot 207 unika kaffebryggare. Varje unik kaffebryggare har minst två upprepade observationer på Pris, som
3 3(21) erbjuds av olika webbnetförsäljare (Butik) vid samma tidpunkt (nämligen, ). Från en statistisk synpunkt, är en möjlig nackdel med upprepade observationer att de inte nödvändigtvis är ömsesidigt oberoende. Om analysen visar att så är fallet är en möjlig lösning att analysera medelpriserna för varje unik kaffebryggare. Variabeln Butik kan betraktas som en proxyvariabel för nivån av försäljnings-och reparationsservicen. Men med tanke på att byte sker endast inom en och samma butik känns det irrelevant att formulera statistiska modeller med Butik som förklarande variabel. Vi har valt att avstå från att trunkera data då eliminering av några största och minsta värden inte nödvändigtvis löser problemet med avvikande observationer. Dessutom kan det leda till en viss förlust av information om prisvariation Statistisk analys Fördelningarna av de ovanstående variablerna samt deras relationer till varandra presenteras grafiskt i Figur 1A-5A i Appendix. Baserat på Figur 3A, är det motiverat att logaritmera de kontinuerliga variablerna för att kunna uppfylla antagandet om linjära relationer. På så sätt, får vi en log-log regressionsmodell. Modellen som presenteras nedan har den bästa anpassningen till data i termer av AIK (se Förklaring till Tabell 1): Statistisk modell 1 (data med 1488 observationer, Märke 1, Märke 3, Märke 9, Märke 13, Märke 17 ingår i basgruppen. Ursprungligen är det Märke 9 som ingick i basgruppen då den innehåller störst antal observationer) log(pppppppp) = αα + ββ 1 log(eeeeeeeeeeee) + ββ 2 log(vvvvvvvvvv) + cc ii MMärrrree ii + γγ 1 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA + + γ 2 AAAAAAAAAAAAAAAAännnnnnnnnnnn + γγ 3 DDDDDDDDDDDDDD + γ 4 DDDDDDDDDDDDDDDDDDDDDDDDDDe + γ 5 KKKKKKKKKKKKKKKKKKKK + +γ 6 TTTTTTTTTTTTTTTTTTTTTT + γ 7 TTTTTTTTTT + γ 8 SSSSSSSSSSSSSSSSSSSSSS + γγ 9 VVVVVVVVVVhaaaaaaaaaaaaaa + + γ 10 log(vvvvvvvvvv) : MMärrrrrr8 + εε, ddärr εε ~iiiiii NN(0, σσ 2 ). Det numeriska resultatet av anpassningen av Modell 1 presenteras i Tabell 1 nedan. Diagnostikplottarna presenteras i Figur 6A i Appendix. ii
4 4(21) Tabell 1. Resultat av anpassningen av Modell 1 Estimate Std. Error t value Pr(> t ) VIF Omräknade skatt.na (Intercept) << :=e^(-1.38) log(effekt) << :=1.1^1.087 log(volym) << :=1.1^(-0.241) Märke << :=e^0.334 Märke << på samma sätt Märke << på samma sätt Märke << på samma sätt Märke << på samma sätt Märke på samma sätt Märke << på samma sätt Märke << på samma sätt Märke << på samma sätt Märke << på samma sätt Märke << på samma sätt Märke på samma sätt Märke på samma sätt Märke på samma sätt Märke << på samma sätt Avkalkningsprogram << på samma sätt Auto_avstangning << på samma sätt Display << på samma sätt Dubbelbryggare << på samma sätt Kaffekvarn << på samma sätt Termoskanna << på samma sätt Timer << på samma sätt Signallampa << på samma sätt Varmehallning på samma sätt log(volym):märke :=1.1^(-0.417) R^2 = 0,80, R^2_ adjusted = 0,79, AIK = 674 P-värdena för tre test utförda i syfte att kontrollera modellantagandena Shapiro-Wilk normality test: p-value < 2e-15 (nullhypotesen om normalitet förkastas) Breusch-Pagan (BP) test for heteroscedasticity: p-value=0,013 (nullhypotesen om konstanta variansen förkastas) Box-Ljung test for independence: p-value < 2e-16 (nullhypotesen om oberoendet förkastas) Förklaring till Tabell 1: VIF, variance inflation factor (eng), representerar ökningen i varians av en parameter på grund av korrelationen mellan förklarande variabler, dvs. kollinjäritet. VIF-värdet som är större än 5 eller 10 är indikation på att motsvarande koefficient är dåligt skattad på grund av multikollinearitet. AIK (Akaikes informationskriterium) är ett anpassningsmått som används som ett medel för modellval. AIK är användbart eftersom det bestraffar uttryckligen eventuella överflödiga parametrar i modellen genom att lägga till 2*(p+1) till (-2*logLikelihood), där p är antalet parametrar i modellen samt 1 adderas för den beräknade variansen. Bland några modeller väljer man den med det minsta AIK-värdet. Baserat på RR 2 = 0,80 och RR 2 aaaaaaaaaaaaaaaa = 0,79 har modellen en bra anpassningsgrad till data. Emellertid noterar vi två aspekter. Den första är oväntade tecken för vissa skattade effekter, t.ex. en negativ effekt av Volym på Pris. Den andra aspekten är att de tre huvudantagandena inte är uppfyllda (se Tabell 1 och Figur 6A i Appendix.). Residualerna är varken normalfördelade eller oberoende sinsemellan samt antagandet om konstant varians är inte heller uppfyllt. Allt detta gör skattningarna otillförlitliga, vilket motiverar en fortsatt analys där responsvariabeln är det logaritmerade medelpriset, log(medelpris). Den resulterande modellen ges av:
5 5(21) Statistisk modell 2 (data med 207 observationer, Märke 9 som basmärke): log(mmmmmmmmmmmmmmmmmm) = αα + ββ 1 log(eeeeeeeeeeee) + cc ii MMärrrree ii + ii γγ 1 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA + + γγ 2 DDDDDDDDDDDDDD + γγ 3 DDDDDDDDDDDDDDDDDDDDDDDDDDDD + γγ 4 KKKKKKKKKKKKKKKKKKKK + γγ 5 TTTTTTTTTTTTTTTTTTTTTT + εε, ddärr εε ~iiiiii NN(0, σσ 2 ). Det numeriska resultatet av anpassningen av Modell 2 ges i Tabell 2 nedan. Diagnostikplottarna presenteras i Figur 7A i Appendix. Tabell 2. Resultat av anpassningen Modell 2 Estimate Std. Error t value Pr(> t ) VIF Omräknade skatt:na (Intercept) log(effekt) << Märke Märke Märke Märke << Märke Märke Märke Märke Märke << Märke Märke Märke Märke Märke Märke Märke Märke Märke << Märke << Avkalkningsprogram Display Dubbelbryggare Kaffekvarn << Termoskanna << R^2 = 0.82, R^2_adjusted = 0.80, AIK = 116 P-värdena för tre test utförda i syfte att kontrollera modellantagandena Shapiro-Wilk normality test: p-value < 4e-05 (nullhypotesen om normalitet förkastas) Breusch-Pagan (BP) test for heteroscedasticity: p-value=0,723 (nullhypotesen om konstant varians förkastas ej) Box-Ljung test for independence: p-value = 0.2 (nullhypotesen om oberoendet förkastas ej) Baserat på RR 2 = 0,82 och RR 2 adjusted = 0,80, kan vi dra slutsatsen att Modell 2 har en bra anpassningsgrad till data. Vidare, har varje skattad koefficient förväntade tecken samt de omräknade skattningarna verkar ha en meningsfull tolkning. Som exempel kan nämnas att den omräknade skattningen för Märke 4, 3,984, indikerar att priset för deras kaffebryggare förväntas vara nästan fyra gånger högre än för kaffebryggare av basmärket Märke 9 (när Effekt och Volym hålls konstant). Den här slutsatsen verkar stämma överens med boxplottarna i Figur 3. Som vi ser i Tabell 2, indikerar VIF- värdena att vi inte har problem med multikollinearitet för Modell 2. Det är värt att påpeka att det inte var möjligt att introducera samspel mellan variablerna, i synnerhet mellan log(effekt) och de andra variablerna. Detta eftersom införandet av samspelstermerna ledde till en extremt stark multikollinearitet, vilket i sin tur gör skattningarna väldigt opålitliga. Givet p-värde = 0,2 för Box-Ljung testet (se Tabell 2), kan vi dra slutsatsen att antagandet om oberoende observationer (eller ekvivalent, residualer) är uppfyllt. Däremot, är antagandet om normalfördelning fortfarande inte uppfyllt, men som känt förväntas fördelningen av de
6 6(21) skattade regressionskoefficienterna gå mot normalfördelning på grund av Centrala gränsvärdesatsen även om residualerna inte är normalfördelade. Därför kan vi dra slutsatsen att Modell 2 är rimlig och kan accepteras som en slutgiltig modell. Från KPI-synvinkeln kan Modell 2, som innehåller variabler med icke-signifikant effekt, motiveras med att det kan ha en viss effekt på det justerade priset när en kaffebryggare av MMärrrree ii bytts mot en annan kaffebryggare av MMärrrree jj även om de motsvarande regressionskoefficienterna cc ii och cc jj inte är signifikanta. För att få djupare insikter om detta, analyserar vi några enklare regressionsmodeller med färre parametrar. Från KPIs perspektiv, är ett möjligt sätt att evaluera modellernas prestanda att jämföra indexserier som baseras på dessa modeller. Statistiskt, kan modellerna jämföras i termer av anpassnings- och prediktionsmått. För att formulera enklare modeller, modifierar vi Modell 2 antingen genom att successivt eliminera variabler med icke-signifikant effekt eller genom att gruppera märkena på något sätt. Successiv eliminering av icke-signifikanta variabler från Modell 2 har lett till Modell 3 som följer: Statistisk modell 3 (data med 207 observationer. Märke9 och alla andra märken som inte är inkluderade i modellen utgör basgruppen) log(mmmmmmmmmmmmmmmmmm) = αα + ββ 1 log(eeeeeeeeeeee) + cc 1 MMärrrrrr4 + cc 3 MMärrrrrr10 + cc 4 MMärrrrrr18 + cc 5 MMärrrrrr19 + cc 6 MMärrrrrr20 + γγ 1 DDDDDDDDDDDDDD + γγ 2 DDDDDDDDDDDDDDDDDDDDDDDDDDDD + γγ 3 KKKKKKKKKKKKKKKKKKKK + γγ 4 TTTTTTTTTTTTTTTTTTTTTT + εε, ddärr εε~iiiiii NN(0, σσ 2 ) Det numeriska resultatet av anpassningen av Modell 3 ges i Tabell 3 nedan. Diagnostikplottarna presenteras i Figur 8A i Appendix. Tabell 3. Resultat av anpassningen av Modell 3 Estimate Std. Error t value Pr(> t ) VIF Omräknade skatt:na (Intercept) log(effekt) << Märke << Märke << Märke Märke Märke Display << Dubbelbryggare Kaffekvarn << Termoskanna << R^2 = 0.80, R^2_ adjusted = 0.79, AIK = 111 P-värdena för tre test utförda i syfte att kontrollera modellantagandena Shapiro-Wilk normality test: p-value < 3.0e-05 (nullhypotesen om normalitet förkastas) Breusch-Pagan (BP) test for heteroscedasticity: p-value=0,342 (nullhypotesen om konstant varians förkastas ej) Box-Ljung test for independence: p-value = 0.4 (nullhypotesen om oberoendet förkastas ej) Som man kan se i Tabell 3, beskriver Modell 3 prisvariationen nästan lika bra som Modell 2: RR 2 minskas obetydligt från 0,82, till 0,80; RR 2 aaaaaaaaaaaaaaaa blir 0,79 istället för 0,80, vilket också är en försumbar minskning. Notera också att AIK-värdet minskas från 116 till 111, vilket tyder på en bättre anpassningsgrad. Vidare, indikerat av VIF- värdena i Tabell 3, är graden av multikollinjäritet för Modell 3 acceptabel. De omräknade skattningarna pekar inte heller på några problem med tolkningen. Allt detta tillsammans föreslår att den enklare modellen, dvs. Modell 3, är att föredra (åtminstone från den statistiska synpunkten).
7 7(21) Ett annat sätt att modifiera Modell 2 är att gruppera märkena på ett tolkbart sätt, något som gjordes i tidigare analyser. Till exempel, kan man slå ihop Märke 4 med Märke 10. Detta kan motiveras med faktumet att dessa två märken antas att producera kaffebryggare av lyxkvalitet, vilket reflekteras i högre priser. Den resulterade regressionsmodellen, där den nya gruppen betecknas med Märkena_4_10, ges av Modell 4 nedan: Statistisk modell 4 (data med 207 observationer. Basgruppen innehåller Märke 9 och alla andra 14 märken som ej är inkluderade i modellen) log(pppppppp_mmmmmmmmmm) = αα + ββ 1 log(eeeeeeeeeeee) + cc 1 MMärrrrrr_4_10 + cc 3 MMärrrrrr18 + cc 3 MMärrrrrr19 + cc 4 MMärrrrrr20 + γγ 2 DDDDDDDDDDDDDD + γγ 3 DDDDDDDDDDDDDDDDDDDDDDDDDDDD + γγ 4 KKKKKKKKKKKKKKKKKKKK + γγ 5 TTTTTTTTTTTTTTTTTTTTTT + εε, ddärr εε~iiiiiiii(0, σσ 2 ) Det numeriska resultatet av anpassningen av Modell 4 ges i Tabell 4. Diagnostikplottarna presenteras i Figur 9A i Appendix. Tabell 4. Resultat av anpassningen av Modell 4 Estimate Std. Error t value Pr(> t ) VIF Omräknade skatt:na (Intercept) log(effekt) << Märke_4_ << Märke Märke Märke Display << Dubbelbryggare Kaffekvarn << Termoskanna << R^2 = 0.79, R^2_ adjusted = 0.78, AIK = 118 P-värdena för tre test utförda i syfte att kontrollera modellantagandena Shapiro-Wilk normality test: p-value < 5e-05 (nullhypotesen om normalitet förkastas) Breusch-Pagan (BP) test for heteroscedasticity: p-value=0,804 (nullhypotesen om konstant varians förkastas ej) Box-Ljung test for independence: p-value = 0.6 (nullhypotesen om oberoendet förkastas ej) Som vi ser, är Modell 4 enklare än Modell 3 i fråga om antalet parametrar. Efter de två ovannämnda märkena slagits ihop i en grupp, blev effekten av vissa variabler icke-signifikant, vilket motiverade deras eliminering från modellen. Detta ledde till en ytterligare reducering av antalet parametrar. Trots detta minskas RR 2 och RR 2 aaaajjuuuuuuuuuu obetydligt, jämfört med Modell 3. Följaktligen, baserat på RR 2 och RR 2 aaaaaaaaaaaaaaaa, kan vi dra slutsatsen att Modell 4 passar data nästan lika bra som Modell 3. I Tabell 4 noterar vi också att samtliga VIF- värdena tyder på en acceptabel grad av multikollinearitet för Modell 4 eftersom alla VIF-värdena är mindre än 5. Även de omräknade skattningarna tycks att ha rimliga tolkningar. Men AIK-värdet i Tabell 4 säger oss att Modell 4 passar sämre till data än Modell 3 eftersom AIK-värdet för Modell 4 är större än för Modell 3 (jämför 111 till 118). Statistiskt, kan denna försämring i anpassningsgraden förklaras av faktumet att den skattade koefficienten för Märke 4 i Modell 3 skiljer sig signifikant från den skattade koefficienten för Märke 10 (nullhypotesen att cc 1 = cc 3 förkastades på alla vedertagna signifikansnivåer).
8 8(21) Validering Ett ytterligare sätt att utvärdera de formulerade modellerna är att jämföra deras förmåga att prediktera. För detta ändamål, användes ett nytt datamaterial, insamlat , som valideringsdata. Det nya datamaterialet innehåller samma variabler som det analyserade datamaterialet, men antalet observationer är N=205 istället för N=207. Som prediktionsmått användes Mean Squared Error of Prediction (MSEP), som ges av MMMMMMMM = 1 NN NN (yy ii y ii ) ii=1 Om det finns några dataset, insamlade vid olika tidpunkter, kan man beräkna MSEP för en given statistisk modell för varje dataset. Genom att studera variationen i MSEPs värden kan man skaffa en viss uppfattning om huruvida nya observationer skiljer sig markant från de ursprungliga observationerna (för minst en variabel). Om det är fallet, är det sannolikt att den statistiska modellen av intresse inte passar till data bra, vilket resulterar i ett större MSEPvärde. Som sagt, i denna analys finns det ett nytt dataset tillgängligt. Beräkningarna resulterade i MSEP=0,08 för Modell 2 och MSEP=0,09 för Modell 3. Med tanke på att Modell 3 innehåller 15 parametrar mindre än Modell 2 är skillnaden i MSEPs värden inte avsevärd. För Modell 4, visade sig MSEP vara högre än för Modell 3, nämligen 0.12, fastän båda modellerna är nästan ekvivalenta i fråga om antalet parametrar (Modell 4 har bara 1 parameter mindre än Modell 3). Det här resultatet indikerar att prediktionsförmåga av Modell 4 är lägre än för Modell 2 och Modell 3. Innan vi diskuterar vilken statistisk modell av de presenterade som kan väljas som en slutgiltig modell, undersöker vi utvecklingen av prisindexet beräknat enligt varje statistisk modell. Notera att vi utesluter Modell 1 som en rimlig modell från den här undersökningen eftersom modellen har otolkbara och missvisande skattningar. De återstående tre modellerna har demonstrerat en acceptabel anpassningsgrad till data och har en adekvat tolkning. Därför beräknas prisindex baserat på Modell 2, Modell 3 och Modell för modellerna Figur 1 nedan visar index för kaffebryggare baserat på de hedoniska modellerna 2, 3 och 4 samt direkt jämförelse och subjektiv bedömning. Vi väljer att inte jämföra med den hedoniska modell som presenterats i tidigare pm, då den bygger på trunkerad data och inte är jämförbar med de modeller som nu utvecklats. Samtliga index med hedonisk kvalitetsjustering och index med subjektiv kvalitetsjustering följer varandra relativt väl fram till augusti månad, under år Från augusti till september syns en marginell uppgång av index vid subjektiv bedömning, medan uppgången för samtliga index som bygger på hedonisk kvalitetsvärdering har en betydligt brantare ökning. Speciellt syns en uppgång för Modell 2, som fortsätter till december då index istället sjunker mer än övriga hedoniska index. Modell 2 slutar på en betydligt högre nivå än övriga. för modellen baserad på subjektiv bedömning avviker främst från de övriga mellan september och oktober. Då sker en minskning för detta index medan vi för de övriga kan utläsa en ökning.
9 9(21) Figur 1. enligt de tre godtagbara hedoniska modellerna samt för nuvarande metod och utan kvalitetsjustering. I Figur 2 nedan är bytena presenterade i mer detalj. När vi studerar Modell 3 och Modell 4, som följer varandra extremt väl för hela året, ser vi att inga byten skett för egenskaper där modellerna skiljer sig åt i hög grad. Exempelvis finns Märke 4 inte med i det material som index bygger på och det har inte skett några byten mellan Märke 10 och annat märke. Att dessa slagits ihop till en gemensam variabel ser vi därav ingen effekt av på index. Vi studerar Modell 2 och Modell 3 i mer detalj vid period 1, 9, 10 och 12, då de främst skiljer sig åt. Modell 4 är nästan identisk med Modell 3 i fråga om antalet parametrar och de involverade variablerna. Närmare bestämt, modellerna innehåller sju gemensamma parametrar vars skattningarna är approximativt samma oavsett modell. Således, om byten involverar dessa gemensamma parametrar (eller några av dem), förväntas index för dessa två modeller vara ungefär lika. Som vi ser i Figur 2 är det fallet, vilket innebär att slutsatserna om indexkänsligheten för Modell 3 gäller även för Modell 4. I period 1 har vi tre byten. Vid det första sker ett byte från Märke 12 till Märke 6, display tillkommer och effekt ökar med 80 watt. Vid andra bytet minskar effekten med 60 watt och avkalkningsprogram försvinner. Vid det tredje bytet ökar effekten med 90 watt. Medan samtliga av dessa förändringarna i egenskaper påverkar index för Modell 2 ger bytet av märke och avkalkningsprogram ingen påverkan på index för Modell 3, då dessa variabler där inte är inkluderade. I period 9 sker ett byte från en kaffemaskin av Märke 1 till Märke 9, effekten minskar från 1160 till 1050 och varken display eller avkalkningsprogram finns hos maskinen efter bytet. Samtliga av dessa egenskapsförändringar har inflytande på index för Modell 2 men bara effektförändringen påverkar index för Modell 3. I period 10 sker ett byte från en kaffemaskin av Märke 2 med en effekt på 1100 watt till en kaffebryggare av Märke 9 och en effekt på 1000 watt, där endast effektförändringen påverkar index för Modell 3. Dessutom sker ett byte som inte påverkar kvalitetsvärderingen för någon av modellerna då ingen av egenskaperna ändras, vilket inte påverkar index utöver den rena
10 10(21) prisförändringen. I period 12 sker ett byte från Märke x 1 med display till Märke 11 utan display, vilket inte påverkar index för Modell 3 alls. Nedgången hos index utan kvalitetsvärdering i period 10 kan förklaras av ett flertal prissänkningar. För de hedoniska modellerna ser vi inte denna sänkning av index, då dessa prissänkningar motverkas av de kvalitetsjusteringar som sker vid bytena under perioden. Hos index utan kvalitetsvärdering däremot har det ena bytet negativ effekt medan det andra inte har någon effekt alls. Sammanfattningsvis kan de större fluktuationerna av index baserat på Modell 2 jämfört med de som utläses för Modell 3 alltså troligtvis förklaras av den högre komplexiteten för Modell 2. Denna modell har ju fler parametrar vilket medför att den tar hänsyn till fler egenskapsförändringar, i synnerhet gällande byten av märke. en tycks vara känsliga mot komplexiteten av statistiska modeller som de är baserade på. Figur 2: Röd markering vid förändrat egenskapsvärde. Grön markering för de egenskaper som endast påverkar index för Modell 2 och blå markering för de som påverkar båda index. *Märke påverkar båda index för modellerna men det finns inget byte av märke som inkluderas av modell 3. 1 Märket fanns med i datamaterialet som användes för att bygga modellerna men inte i det som användes för att beräkna KPI under 2017.
11 11(21) 3.2 Diskmaskin Syfte med analysen Låt oss upprepa att vårt syfte att analysera data för diskmaskiner är att få en preliminär uppfattning om relationer mellan priset och några egenskaper på diskmaskiner. Vi strävar alltså inte att få en slutgiltig modell som kan användas för beräkningar av indexserier Beskrivningen av datamaterialet Det insamlade datamaterialet för diskmaskin har 2423 observationer på 35 variabler, varav 31 beskriver diskmaskinernas olika egenskaper. Det bör också påpekas att data innehåller många missing values, närmare bestämt 1998 observationer. Så vill man analysera de alla 31 egenskaperna, reduceras antalet observationer till 425, vilket motsvarar 80 unika diskmaskiner. Ytterligare ett problem med datamaterialet är att det verkar innehålla motsägelsefull information. Till exempel att den maximala temperaturen för en viss diskmaskin anges att vara 60 oo CC, medan det högsta temperaturläget är 75 oo CC. Den preliminära kontrollen visade dock att det här problemet inte berodde på felinmatning, utan på missvisande information på prisjämförelsesajtens sida. För att undvika att göra antalet observationer oacceptabelt lågt, fokuserade vi oss på några få variabler som vi tyckte kan ha kapacitet att förklara variationen i priset. Dessa är: 1. log(kapacitet); 2. Den maximala ljudnivå (maxljud), modellerat som en kvalitativ variabel med två nivåer: den lägsta nivån innehåller diskmaskiner vars ljudnivå varierar mellan 39 och 46 db, medan de övriga diskmaskiner hör till den högsta nivån); 3. Den maximala temperaturen (maxtemp), modellerat som en kvalitativ variabel med två nivåer (den lägsta nivån innehåller diskmaskiner vars maximala temperatur är antingen 50 oo CC, 60 oo CC, 65 oo CC eller 70 oo CC, medan den högsta innehåller diskmaskiner vars maximala temperatur är 75 oo CC; 4. Antal program (AP), modellerat i denna analys som en kontinuerlig variabel; 5. Energiförbrukning per disk (EPD), modellerat i denna analys som en kontinuerlig, och 6. Märke (17 stycken), modellerat med hjälp av 16 stycken dummyvariabler. Genom att fokusera på dessa sex variabler reducerades antalet observationer till 832, vilket motsvarar 170 unika diskmaskiner. Precis som i fallet för kaffebryggare analyserade vi det genomsnittliga priset för varje unik diskmaskin för att undvika problem med beroendet mellan residualer. Modellen som vi valde att presentera ges av: Statistisk modell I: log(mmmmmmmmmmmmmmmmmm) = αα + ββ 1 log(kkkkkkkkkkkkkkkkkk) + ββ 2 AAAA + ββ 3 EEEEEE + ββ 4 mmmmmmmmmmmmmmmmögg + ββ 5 mmmmmmmmmmmmmmmmögg + ββ 4 (mmmmmmmmmmmmmmmmögg: mmmmmmmmmmmmmmmmögg) + cc ii MMärrrree ii + εε, ddärr εε ~iiiiii NN(0,1). Den numeriska resultatet av anpassningen presenteras i Tabell 5 nedan. Diagnostikplottarna presenteras i Figur 10A i Appendix.
12 12(21) Tabell 5. Resultat av anpassningen av Modell I Estimate Std. Error t value Pr(> t ) VIF Omräkn. skatt:na Intercept log(kapacitet) << LjudnivaHög << MaxTempHög AP << EPD << Märke Märke Märke Märke << Märke Märke << Märke maxljudhög:maxtemphög RR 2 = 0.73, RR 2 aaaaaaaaaaaaaaaa = 0.71, AAAAAA = 19 P-värdena för tre test utförda i syfte att kontrollera modellantagandena Shapiro-Wilk normality test: p-value = 0.74 (nullhypotesen av normalitet förkastas ej) Breusch-Pagan (BP) test for heteroscedasticity: p-value=0,032 (nullhypotesen av konstant varians förkastas) Box-Ljung test for independence: p-value= (nullhypotesen av oberoendet förkastas) Baserat på p-värdena för Shapiro-Wilk normality test, Breusch-Pagan test for heteroscedasticity och Box-Ljung test for independence ser vi att modellen inte uppfyller antagandet om oberoende observationer. Tillsammans med de relativt låga värdena på RR 2 och RR 2 aaaaaaaaaaaaaaaa kan detta resultat indikera att andra variabler med systematisk inverkan på Pris inte är i modellen. Vi ska inte heller glömma att datamaterialet inte är helt pålitligt, vilket gör skattningarna opålitliga. Datamaterialet måste kontrolleras innan en fullständig statistisk analys kan genomföras. Trots detta osäkra resultat, tycker vi att de valda förklarande variablerna har en god förmåga att förklara variationen i priset och bör definitivt undersökas i framtida analys. Detta motiverar att man först kontrollerar inmatade värden för dessa variabler istället för att kontrollera de alla 35 variablerna. På så sätt kan man spara mycket tid. 4 Diskussion och slutsatser Gällandande val av den slutgiltiga statistiska modellen för kaffebryggare har analysen visat att Modell 3 är bäst ur statistisk synpunkt. Modellens påverkan på prisindex visade sig dock vara densamma som påverkan av Modell 4, fast Modell 4 hade sämre anpassning till data. likartade utveckling för de båda modellerna kan förklaras av likheten i antalet parametrar och att skattningar för gemensamma parametrar är näst intill lika stora. Utvecklingen av index för Modell 2 skiljer ut sig ganska mycket vilket kan förklaras av att modellen tar hänsyn till fler egenskaper. En naturlig fråga är vilken av de tre modellerna som är bäst ur KPIs synvinkel. Det förefaller att vara en svår fråga, vilken vi önskar lyfta till diskussion. Den andra viktiga aspekten att beakta är de problem som uppstår i samband med datainsamlingen. Beträffande data för kaffebryggare visade det sig att informationen på hemsidan kan uppdateras löpande vilket medförde att vissa observationer i det analyserade datamaterialet var felaktiga. Som tur var hade det inte någon betydande effekt på denna
13 13(21) analys men vi kan inte utesluta att det kan ha större effekt vid andra tillfällen, beroende på information kring vilken variabel som uppdateras. Gällande datamaterialet för diskmaskiner fanns betydligt större problem, bland annat då vi fann att det innehöll en stor andel missing values och motsägande observationer. Detta väcker frågor kring om vår källa är god nog för att samla in egenskapsvärden, eller om vi ska söka information från andra källor. Lärdomar som har dragits av arbetet är bland annat att variablerna på förhand bör diskuteras igenom innan den statistiska analysen påbörjas. I första hand underlättar det kontroll av datamaterialet; genom att fokusera på några få variabler kan både tid och resurser sparas. Analysen har även väckt frågor kring rampopulationen, där vi framöver exempelvis funderar kring att ha tydliga beskrivningar av egenskaper för de undersökta varorna. I fallet för kaffebryggare tänker vi bland annat på att exkludera dubbelbryggare och kaffekvarn som egenskaper ur analysen, för att sådana kaffebryggare inte antas vara representativa. Vi har även funderat kring om det vore av intresse att dela in produkterna i fler segment beroende på målgrupp. Synpunkter gällande vad som bör tas i beaktande vid val av modell, datakällor och datahantering såväl som framtida överväganden välkomnas.
14 14(21) Appendix (a) (b) (c) Pris (SEK) Volym (liter) Effekt (W) Figur 1A. Boxplottar för tre kontinuerliga variabler: Pris, Volym, och Effekt. Alla observerade värdena är rimliga. Pris (a) Pris (b) Volym Effekt (c) Volym Effekt Figur 2A. Scatterplottar för tre kontinuerliga variabler (ursprunglig skala).
15 15(21) (a) (b) Log(Volym) Log(Effekt) (c) Log(Volym) Log(Effekt) Figur 3A. Scatterplottar för tre kontinuerliga variabler (log-skala). Log(pris) M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16 M17 M18 M19 M20 Märke Figur 4A. Fördelningen av log(pris) över variabeln Märke. De röda siffrorna i figuren anger antalet observationer (d.v.s.kaffebryggare) för varje märke.
16 16(21) (a) (b) (c) Avkalkningsprogram Display Dubbelbryggare (d) (e) (f) Liten Stor Kaffekvarn Termoskanna Volym_faktor (j) (k) (l) Timer Signallampa Droppstopp (m) (n) Varmehallning Auto_avstangning Figur 5A. Fördelningen av log(pris) över 11 kvalitativa variabler. De röda siffrorna i figuren anger antalet observationer för varje nivå av variabeln i fråga.
17 17(21) Residualer Residual plot Sample Quantiles Normal Q-Q Plot Predikterade värden Theoretical Quantiles Successive residuals plot of Leverages ^i Leverages ^i Internally Studentized Internally Studentized Re Cooks distances Cooks distances Figur 6A. Diagnostikplottar för Modell 1.
18 18(21) Residualer Residual plot Sample Quantiles Normal Q-Q Plot Predikterade värden Theoretical Quantiles Successive residuals plot of Leverages ^i Leverages ^i Internally Studentized Internally Studentized Re Cooks distances Cooks distances Figur 7A. Diagnostikplottar för Modell 2.
19 19(21) Residualer Residual plot Sample Quantiles Normal Q-Q Plot Predikterade värden Theoretical Quantiles Successive residuals plot of Leverages ^i Leverages ^i Internally Studentized Internally Studentized Re Cooks distances Cooks distances Figur 8A. Diagnostikplottar för Modell 3.
20 20(21) Residualer Residual plot Sample Quantiles Normal Q-Q Plot Predikterade värden Theoretical Quantiles Successive residuals plot of Leverages ^i Leverages ^i Internally Studentized Internally Studentized Re Cooks distances Cooks distances Figur 9A. Diagnostikplottar för Modell 4.
21 21(21) Residual plot Normal Q-Q Plot Residualer Sample Quantiles Predikterade värden Theoretical Quantiles Successive residuals plot of Leverages ^i Leverages ^i Internally Studentized Res Internally Studentized Resid Cooks distances Cooks distances Figur 10A. Diagnostikplottar för Modell I (diskmaskinsdata)
Hedonisk kvalitetsvärdering för kaffebryggare baserad på webbskrapad data
PM till Nämnden för KPI ES-PR/S Sammanträde nr 4 Olga Varlakova, John Johansson och Alexandra Garcia Nilsson 2018-05-22 Hedonisk kvalitetsvärdering för kaffebryggare baserad på webbskrapad data För diskussion
Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
Regressions- och Tidsserieanalys - F4
Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer
Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna
NÄMNDEN FÖR KONSUMENTPRISINDEX SNABBPROTOKOLL nr 5 1
NÄMNDEN FÖR KONSUMENTPRISINDEX SNABBPROTOKOLL nr 5 1 Snabbprotokoll Plats Statistiska centralbyrån, Karlavägen 100, Stockholm Närvarande Cecilia Hertzman ordförande ledamöter Jörgen Dalén David Edgerton
Föreläsning 4. Kap 5,1-5,3
Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Sänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson (examinator) VT2017 TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2017-04-20 LÖSNINGSFÖRSLAG Första version, med reservation för tryck-
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Multipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
Skrivning i ekonometri torsdagen den 8 februari 2007
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Statistiska metoder för säkerhetsanalys
F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi
1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer
OBS! Vi har nya rutiner.
KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information
Statistik B Regressions- och tidsserieanalys Föreläsning 1
Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs
732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta
7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.
Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:
Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Effekten av urvalsuppdateringar på KPI
PM till nämnden för KPI Sammanträde nr 4 2018-05-22 Rodica Bubuioc, Kristoffer Olsson, Olivia Ståhl Effekten av urvalsuppdateringar på KPI För diskussion (tillägg till IQI-rapporten) I denna PM skattas
a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)
5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk
STATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys
F19, (Multipel linjär regression forts) och F20, Chi-två test.
Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med
InStat Exempel 4 Korrelation och Regression
InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består
PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två
Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en
1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B
Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så
STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.
MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på
Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.
Repetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
Linjär regressionsanalys. Wieland Wermke
+ Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån
Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.
Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för
Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.
Tentamen Linköpings universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2017-12-08, 8-12 Bertil Wegmann
Matematisk statistik, Föreläsning 5
Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk
Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal
I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt
Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi
Regressionsanalys av lägenhetspriser i Spånga
Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016
Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.
En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar
TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng
Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:
Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
TENTAMEN I STATISTIK B,
732G7 Tentamen. hp TENTAMEN I STATISTIK B, 24-2- Skrivtid: kl: -2 Tillåtna hjälpmedel: Ett A4-blad med egna handskrivna anteckningar samt räknedosa Jourhavande lärare: Lotta Hallberg Betygsgränser: Tentamen
Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012
Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller
Läs noggrant informationen nedan innan du börjar skriva tentamen
Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2014-03-26
Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp
Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.
Laboration 2 multipel linjär regression
Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera
7.5 Experiment with a single factor having more than two levels
7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan
Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 20 mars 2015 9 14 Examinator: Anders Björkström, bjorks@math.su.se Återlämning: Fredag 27/3 kl 12.00, Hus 5,
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad
Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
F13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1
Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β
Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14
STOCKHOLMS UNIVERSITET MT 5001 MATEMATISKA INSTITUTIONEN TENTAMEN Avd. Matematisk statistik 13 januari 2014 Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14 Examinator: Martin Sköld, tel.
Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler
UPPSALA UNIVESITET Matematiska institutionen Jesper ydén Matematisk statistik 1MS026 vt 2014 DATOÖVNING MED : EGESSION I den här datorövningen studeras följande moment: Enkel linjär regression: skattning,
Läs noggrant informationen nedan innan du börjar skriva tentamen
Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: Mykola Shykula 5 25 Tentamensdatum 2014-05-15 Skrivtid 09.00-14.00 Jourhavande lärare:
Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.
Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14,
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl
Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population
, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp
Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab
Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts
Föreläsning 4: Konfidensintervall (forts.)
Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,
Hantering av extrema priser i kassaregisterdata
ES/PR Rodica Bubuioc, Åsa Bilius, Can Tongur PM till Nämnden för KPI 2018-05-22 Hantering av extrema priser i kassaregisterdata För information I kassaregisterdata för dagligvaror fångas all försäljning
Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).
Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta
Föreläsning 10, del 1: Icke-linjära samband och outliers
Föreläsning 10, del 1: och outliers Pär Nyman par.nyman@statsvet.uu.se 19 september 2014-1 - Sammanfattning av tidigare kursvärderingar: - 2 - Sammanfattning av tidigare kursvärderingar: Kursen är för
TENTAMEN I STATISTIKENS GRUNDER 2
STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson HT2012 TENTAMEN I STATISTIKENS GRUNDER 2 2012-11-01 Skrivtid: kl 9.00-14.00 Godkända hjälpmedel: Miniräknare, språklexikon Bifogade hjälpmedel:
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett
F11. Kvantitativa prognostekniker
F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer
7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00
Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 5Hp 41I12B KINAF13, KINAR13, KINLO13,KMASK13 7,5 högskolepoäng Tentamensdatum: 30 oktober
1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.
Laboration 2 Inferens S0005M VT16
Laboration 2 Inferens S0005M VT16 Allmänt Arbeta i grupper om 2-3 personer. Flertalet av uppgifterna är tänkta att lösas med hjälp av Minitab. Ett lärarlett pass i datorsal finns schemalagt. Var gärna
Regressions- och Tidsserieanalys - F5
Regressions- och Tidsserieanalys - F5 Linda Wänström Linköpings universitet November 20 Wänström (Linköpings universitet) F5 November 20 1 / 24 Modellbygge - vilka oberoende variabler ska vara med i modellen?
F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17
1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,
Tentamen Tillämpad statistik A5 (15hp)
Uppsala universitet Statistiska institutionen A5 2014-08-26 Tentamen Tillämpad statistik A5 (15hp) 2014-08-26 UPPLYSNINGAR A. Tillåtna hjälpmedel: Miniräknare Formelsamlingar: A4/A8 Tabell- och formelsamling
Lösningar till SPSS-övning: Analytisk statistik
UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt
Skrivning i ekonometri lördagen den 15 januari 2005
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,
Skrivning i ekonometri lördagen den 29 mars 2008
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan
Föreläsning 13: Multipel Regression
Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på
Övningshäfte till kursen Regressionsanalys och tidsserieanalys
Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:
Statistik 2 Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen SST021 ACEKO16h, ACIVE16h 7,5 högskolepoäng Tentamensdatum: 2018-05-31 Tid: 14.00-19.00 Hjälpmedel: Valfri miniräknare Linjal
F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data
Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler
Föreläsning 7. Statistikens grunder.
Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Föreläsningens innehåll Översikt, dagens föreläsning: Inledande