F21 Regressionsanalys, diagnostik och modellval
|
|
- Carl-Johan Gunnarsson
- för 5 år sedan
- Visningar:
Transkript
1 F Regressionsanalys, diagnostik och modellval Kap Modelldiagnostik, forts Residualanalys Vanliga residaler: e i =y i ŷ i =y i ˆβ +ˆβ i Residualanalys: Residualerna skattar ju slumptermerna varpå modellantagandena vilar. Hur kan vi verifiera att antagandena är uppfyllda? Outlieranalys: Etrema observationer som antingen uppvisar etremt stora residualer eller har ett starkt inflytande på skattningarna, eller både och. Kollinearitet: Hur samvarierar prediktorvariablerna? Är detta ett problem? Standardiserade residualer: Studentiserade residualer: r i = Jackknife residualer: z i = e i S e e i z = i S e hi hi r ( i) = e i S ( i) hi Sakkunskap: Vad är det jag analyserar? Hur har data samlats in? Vad är troliga värden? Observera! Olika namn på samma saker: Kleinbaum et al residuals standardized studentized jackknife Minitab residuals (finns ej, får man skapa själv) standardized studentized eller deleted t residuals Plottas ofta mot de anpassade värdena ŷ i men även mot varje prediktorvariabel för sig. e e Indikationer på om modellantagandena håller eller inte får vi framförallt genom att studera plottar över residualerna. Uppfyller villkoren? e X Mönster ska inte finnas! Kvadratiskt term verkar här! e X X tid Ej lika varians för alla X! Tidsberoende! (Minitab: Residuals v. Order)
2 Histogram över residualerna: Den empiriska fördelningsfunktionen med en normalfördelning. Är avvikelsen stor? Empirical CDF of Residuals Normal Mean,8 StDev,8 N 8 Normalfördelat? Normalfördelat? Percent 6 Plottar och histogram kan vara svåra att bedöma, medför ett subjektivt element e Alternativ är kvantitativa mått och test. Probability plot. Är avvikelsen stor? Korvar den sig runt linjen? Probability Plot of Residuals Normal Percent Mean,8 StDev,8 N AD,76 P-Value, e Normalfördelningstest Tre tillgängliga i Mintab. - Anderson-Darling - baserat på den empiriska fördelningsfunktionen. -Smirnov-Kolmogorov-baseratpåχ -test. - Ryan-Joiner(Shapiro-Wilks)- baserat på korellationer. TestenharsomnollhypotesH attobservationernaär normalfördelade. FörkastaH vidlågap-värden. Notera dock att de kan vara väldigt känsliga för outliers, särskilt vid små stickprov. Test för tidsberoende Runs-test, ett icke-parametriskt test, inga modelantaganden görs(se Hogg&Tanis sid 8-87) Låte i betecknaresidualernaidenordningdeärarrangerade efter(e tid). BetecknamedAome i >ochuome i <ochskriv ned sekvensen av alla A och u. Räkna sedan antalet runs dvsgrupperavarespu: uuuu A uu AAAAA runs här. Ser inte slumpmässigt ut! Fler negativa residualer(u) i början av serien. AuAuAuAuAuAu runshär. Serdetmerslumpmässigtut? För att det ska fungera i Minitab (som använder en normalapproimering) rekommenderas ett minimum av avvarderaaochb.mintab-kommando: RUNSC.
3 Autokorrelation, studera sambandet mellan närliggande residualer i termer av korrelation. Kan testas med Durbin-Watson test(finns i Minitab, Regression > Options) Test för lika varians(homoskedasticitet) Finns några (se sid 7). Förutsätter (ibland) flera observationer per observerat -värde. y C C e e e e. e. e n e n e n e n iminitab: LAGCC CORRCC Enkelt alternativ: studera rangkorrelationen mellan e i och i dvs Spearmans rangkorrelationstest från grundkursen. Omdennaärstörreänettkritisktvärde(frånentabell) förkastas nollhypotesen att rangkorrelationen är, vilket motsvarar idén att storleken på en residual inte beror på. Detta kommer att användas i större omfattning på momentet Tidsserieanalys. Eempel) Vi får följande: Residuals vs X Residuals vs X 6 Residual - Residual och plottar vi sedan rangerna för residualerna mot rangerna förx fårvi Rank e Rank e vs Rank X Outlieranalys Outlier = etrem observation som ligger långt utanför det område där de flesta övriga observationerna befinner sig. Rank X Residualer, e - Rangkorrelationen blir i detta fall.6; detta är större än det kritiska värdet.77 (α = %,n=8); alltså finns det samband mellan storleken på e i och storlekenpå i,dvsdetärintehomoskedastiskt. - - Anpassade värden, y-hat Stor residual? Stort inflytande? Outlier; antingen i prediktorrummet eller som stor residualellerbådeoch. Närärdettillräckligtlångtbortresp för stort, när ska man reagera? Man vill mäta leverage och inflytande(influence) Tremått(iKleinbaumetal.) -Leveragemått h i -Cooksavståndsmått d i -Jackkniferesidualer r ( i)
4 Leveragemåtteth i är ett avståndsmått i prediktorrummet, mäter hur långt bort den i:te prediktorpunkten befinner sig från centrum, dvs avståndet mellan ( i, i,..., ik ) och (,,..., k ) jämförmedfigurovan. Typisktberäknash i mhadator, kräver matrisalgebra. Vid enkel linjär regression(med en prediktor) kan det visas att h i = n + ( i ) (n )s Egenskaper allmänt med k prediktorer: n h i (ommanharettinterceptimodellen) k+ hi =k+ h= n Omh i liggernäraettinnebärdettaattdeni:teobservationen har tvingat in modellen nästan genom punkten ( i,y i ). Approimativt ska ett histogram över h i na påminnaomenχ -fördelning. Tumregel: se upp för observationer där Cook savståndd i h i > (k+) n är ett inflytandemått. Hur mycket påverkas skattningen av regressionskoefficienterna om den i:te observationen tas med/tas bort? Om prediktorerna har medelvärde =, samma varians ochärokorreleradegällerattd i ärproportionellmot k j= (ˆβj ˆβ j( i) ) därˆβ j ärskattningenmedallaobservationerochˆβ j( i) är skattningen med den i:te borttagen. Allmänt gäller att e d i = i h i (k+)s e ( h i) = r i h i (k+)( h i ) > dvsd i ärpositivtmenejbegränsatuppåt. d i kanalltså vara stor pga att observationen är etrem i prediktorrummet eller för att den får en stor studentiserad redsidual. Approimativt är d i F(k,n k ) Tumregel (möjligen otillförlitlig): se upp för observationerdärd i >.(sesid). Tabell A- i Kleinbaum et al ger kritiska värden för den största av samtliga observerade d i, dvs mad i, förnobservationerochkprediktorer(egentligend i antalet frihetsgrader). Om man observerar mad i som är större än tabellvärdet = reagera! Jackkniferesidualer e i : resdual,avståndmellanobserveratochpredicerat s ( i) : jackknife-skattningavσ ε h i : leverage,måttpåavståndetmellandeni:teprediktorpunkten och centrum Jackknife-residualen sammanför dessa tre mått: r ( i) = e i s ( i) hi Testaomr ( i) ärsignifikantskiltfrånnoll,t-fördelat medn p frihetsgrader. Obs!Vikantestanstyckenh i,d i ochr ( i),mendetta kräver justering av signifikansnivån, se sidorna 9- och s.k. Bonferroni-korrektion.
5 Residualanalys och olika inflytande mått är indikatorer på besvärliga/konstiga observationer. I Minitab: Som en övning kan ni, via Storage-knappen väljaattsparadeolikamåttengenomattklickairesp bo. Vi kommer alltid att observera en största residual, leverage och Cook s mått osv. Attblintförlitasigpåkvantitativamåttärinteatt rekommendera. Vi kan alltid indentifiera outliers och eventuellt ta bort dessa från analysen, men med största försiktighet! Vadmanskafrågasigärvarförengivenobservation är etrem. Föreligger det mätfel? Datainsamlingsproblem? Är de observerade värdena omöjliga, otroliga eller bara lagom etrema? Sedankanniundersökadessagenomteattskapahistogram, DESC-kommandot, osv. Ienkellinjärregressionkannisenågotintressantomni plotttarh i motprediktorvariabelnx.vadberormönstret på? Manmåstevetanågotombakgrundenochförutsättningarna för analysen! Multikollinearitet SambandmellanprediktorernaX,X,...,X k Ett eempel med två prediktorer, Y i =β +β X i +β X i +ε i Det kan visas att skattningarna kan skrivas som ( ) ˆβ j =c j r, j=, därc j ärenkonstantsomberorpådataochr är korrelationenmellanx ochx. Antag att i = i. Då är r = och om vi skattar regressionsmodellen får vi ( ) ˆβ j =c j =? Koefficienternaˆβ,ˆβ ochˆβ kanejbestämmasentydigt! Dessutomärvariansskattningarnaför ˆβ j proportionella mot inflationsfaktorn / ( r ) och osäkerheten i skattningarna ökar! Det uppstår problem om en prediktor kan skrivas som en linjärkombination av de övriga, te X =γ +γ X +...+γ k X k Att kvantifiera och bedöma kollinearitet rör endast prediktorerna, ej responsvariabeln Y. Antag att man har k stycken prediktorer i modellen. Skatta alla k modeller som kan formuleras med den j:te prediktorn som responsvariabel och de övriga k som prediktorer: : X =α +α X +...+α k X k : X =α +α X +α X...+α k X k. k : X k =α k +α k X +...+α k(k ) X k För varje sådan modell får vi ett R -värde,betecknat Rj avseendeprediktorj. VadmäterR j? Variation Inflation Factor (VIF) VIF j = R, j=,,...,k j
6 Om R j så gäller att VIF j. Alternativt definieras toleransen VIF j = R j Tumregel: seuppomvif j >. I Minitab: via Options-knappen, klicka för boen Variance inflation factors och studera sedan utskriften. (LäsävendiskussionenomVIF,dvsförinterceptet, sid -, men skippa fortsättningen sid -.) Problem med multikollinearitet kan ofta uppstå i samband med Polynomregression(kap) och modeller med Samspelstermer(kap ). Eempel med polynomregression på sidorna 9-. Modellen µ Y X =β +β X+β X kangeproblemomx ochx ärstarktlinjärtkorrelerade i data. Centrera istället enligt ovan och skatta modellen µ Y X = β +β W +β W ( X X = β +β ) +β ( ) X X Eempel med samspelstermer, se datorövning -. Skippa sidorna 6- dock ej avsnitt -9. En metod som kan reducera multikollinearitet är att centrera observationerna runt respektive medelvärde, dvsförvarjeprediktor(j =,...,k)ochobservation (i=,...,n)beräknas W ij =X ij X j som får ersätta de ursprungliga observerade värdena. Kap6AttVäljaBästaModell. Definiera en maimal modell allatänkbaraprediktorer: X,X,... potenseravprediktorer: X,X,... ev. transformationer: lnx, /X,... samspelstermer: X X,X X,... kontrollvariabler och deras ev potenser, transformationer, samspelstermer... Problem med överanpassning (overfitting), dvs att ta medsådantominteingåriden sanna modellenmedför inte bias. Däremot ev. problem med multikollinearitet. Även möjliga problem med antalet frihetsgrader(df = n q ). Omdf =såblirr =ävenomdeti populationenärsåattr =. Tumregel i boken: minst observationer per prediktor (även potenser, samspelstermer etc). Även tolkningsproblem med alltför stora modeller(kom ihåg Occam s razor).. Definiera kriterium för val av modell Modellvalskriterium som kan beräknas för varje modell vianalyserar/skattardvsettindeattjämföramodeller med varandra. Fyrabehandlasiboken: R p,f p,mse p ochc p Utgå ifrån en jämförelse mellan två modeller, en full (maimal) och en mindre(reducerad): β +β X +..+β p X p +β }{{} p+ X p+ +..+β k X k reducerad modell, p pred }{{} maimal modell, k st prediktorer
7 R k jämförtmedr p,andelförklaradvariation tenderarattöverskattasantr flerprediktorer högrer R k alltidstörreänr p alternativ: R adj F p dvs F-kvoten från multipelt partiellt F-test (ekv. (6.)) F p = [SSE(reducerad) SSE(full)]/(k p) SSE(full)/(n k ) MSE p dvsskattningen ˆσ Y X =ˆσ ε =SSE(reducerad) n p Vi vill ha en modell med liten slumptermsvarians. Hur ska man jämföra modeller? Mallow sc p definieras(ekv. (6.6)) C p = SSE(reducerad) MSE(full) (n (p+)) OmMSE(reducerad) MSE(full)såblir C p p+ OmC p >p+såfinnsdetförmodligenutrymme förflerprediktorer,omc p <p+harniförmodligen överanpassat modellen. Kriterier baserade på informationsteori, te Akaike Information Criterium AIC=nlogMSE+p Schwartz Bayesian Criterium SBC=BIC=nlogMSE+plogn straffar för stora modeller och belönar stora minskningar i osäkerhet(residualvarianser) närmanjämförvärdenärdetbättremeddet mindre. Definiera en strategi för val av variabler Jämför alla möjliga modeller Många prediktorer ännu fler modeller E) p prediktorer ger(med bara huvudeffekter) ( p) ( p) ( p) ( p) = p p olika modeller att skatta och analysera! Byggauppfråntommodell. Skatta tom modell. Givet modellen, vilken enskild prediktor bör läggas till? Kriterium: F-test.. Läggtilldenna. Skattautökadmodell,gåtill. Reducera en full modell. Skatta full modell. Vilkenprediktorkantasbortutanattdetförsvinner en stor andel förklarad variation? Kriterium: F-test.. Tabortdenna. Skatta reducerad modell, gå till. Stegvis regression(minitab: Stepwise) variant av de två oföregående, välj själva om ni vill börja uppifrån eller nerifrån i varje steg analyseras om en prediktor man tidigare slängde bort borde tas med igen alternativtensomtidigaretogsmednubörslängas bort iminitabangeskriterierförattlägga tillresp ta bort
8 Minitab dialogfönster för kriterier (Methods-knappen) med stegvis regression:. Validering, bedömning av modellens tillförlitlighet Om modellen lyckas predicera nya observationer bra så är det en tillförlitlig(reliable) modell. Hur ska man bedöma detta innan man får nya observationer? Split-sample metoden: Delauppmaterialetitvå(ellerflera)grupper. Genomför analysen Identifiera modellen och skatta den genom att använda en grupp Närmanvälharbestämtsigförenmodellskaenmer fullständig analys genomföras (residualanalys, outlieranalys enligt tidigare) Predicera nya Y-värden, dvs Y, med prediktorvärdena från den andra gruppen. BeräknaprediktionsfeletdvsY Ŷ ochdessvarians Kom ihåg, arbetsgången är ofta en iterativ process:. Postulera en modell inkl antaganden Parameterskattning, använd data Verifiering av modellen test, diagnostik Modellen accepterad använd modellen Ny eller modifierad modell Modellen håller inte, förkastas
9 y y F Regressionsanalys forts och Logistisk regression Antag att man börjar med enkel linjär regression. Kap Polynomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polynom av k:te ordningen Y =β +β X+β X +...+β k X k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Typisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttryckt i termer av betingat väntevärde -, µ Y X =β +β X+β X +...+β k X k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( yi β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = y - ^ ^ ^ ^ y = y - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analysis of Variance Y =, -,7 X +,9 X Predictor Coef StDev T P Constant,,69 6,9, X -,78,6 -,78, X,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericochx ic. Analysis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analysis of Variance Source DF Seq SS X 9,8 X 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.
10 Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR(X) / MSE(X) F(,n ), test för enbart X (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolynomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerperxvärde eller Data subsetting om ni inte har det... SSR(X X) MSE(X,X F(,n ), partielltf-testför ) X givetx SSR(X,X Z)/ MSE(Z,X,X F(,n ), multipeltpartielltf-testförx ochx ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 X S,79 R-Sq 6,9% R-Sq(adj),% X. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable X(P-Value=,) Possible lack of fit at outer X-values(P-Value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, X -, X** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)AntagattfemvärdenpåXobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger X..... X Corr ( X,X ) =.989 VIF =.989 =.7 X IMinitab: Noevidenceoflackoffit(P>=,). X Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? X Boken ger en lång beskrivning av sk ortogonala polynom som kan användas för att skapa nya prediktorer med en mängd trevliga egenskaper men det är alldeles förmycketfördenhärkursen!
11 Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande nya prediktorer, X =( X X ) och X =( X X ) Effekten av denna enkla transformering kan illustreras med eempelt ovan: X..... X =( X X )..... X =( X X )..... Corr(X,X )= VIF = = Ny plott X*,,8,6 AnvändX ochx iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( X X ) +ˆβ ( X X ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ X+ˆβ X ) + }{{} =ˆβ + ˆβ }{{} X =ˆβ (ˆβ ˆβ X ) X }{{} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polynomregression av högre ordning, särskilt med udda potenser (X,X ), se sid 99.,,, -, -,, X*,, Kap Dummyvariabler E)X=kön Hittills har vi haft kontinuerliga prediktorer X. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Alt. : Modellen skrivs X= { man kvinna E) X=manellerkvinna X=sockerpillerelMedicinAelMedicinB X = kallt, ljummet, varmt X=Saab,Audi,Volvo,Toyota,... För att hantera detta används dummyvariabler! Annat namn: indikatorvariabler. Y =β +β X+ε vilket är ekvivalent med { β +ε man Y = β +β +ε kvinna Tolkningen är β ärväntevärdetiy förmän β ärförväntadeskillnadenmellankvinnor och män En dummyvariabel antar typiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom.
12 Alt. : Modellen skrivs X= { man kvinna Y =β +β X+ε vilket är ekvivalent med { β β Y = +ε man β +β +ε kvinna Tolkningen är β ärhalvaförväntadeskillnadeniy mellan kvinnor och män β ärväntevärdetiy förbådatillsammansförutsattattmänochkvinnoräreaktlikamånga Om man har en kategorisk prediktor X med k olika kategorier behövs(k ) st dummyvariabler. Det fungerar inte att utöka med ytterligare en nivå för dummyvariablen, te socker X= medicina medicinb En ökning i X från till blir meningslös! Vi vet välinteomskillnadenmellansockerochmed.bärtvå gånger skillnaden mellan socker och med.a? Ej ekvidistans! Kanske inte ens en ökning! Inför ytterligare en dummyvariabel: X = { ejmedicina medicina X = { ejmedicinb medicinb Tre möjligheter (, ) socker (X,X )= (,) medicina (,) medicinb Vi kan identifiera vilken behandling det är frågan om. Modellen Y =β +β X +β X +ε ger β +ε socker Y = β +β +ε medicina β +β +ε medicinb Tolkning av koefficienter: β :väntevärdetiy efterbehandlingmedsocker β :förväntadskillnadiy mellanmedicinaochsocker β :förväntadskillnadiy mellanmedicinbochsocker Bakgrunden ovan är ett kontrollerat eperiment där manfårettavtremöjligapreparat. Om man kan kombinera preparat, dvs om både medicin A och B kan ges samtidigt, kan det finnas anledning till att ta med samspelseffekter: Y =β +β X +β X +β (X X )+ε ger β +ε socker β Y = +β +ε medicina β +β +ε medicinb β +β +β +β +ε medicina&b
13 AntagattviharenprediktorXmedtvånivåer,X=A ellerb.viskattarmodellen,dvsparametrarnaβ och β. Inferens: H :β = mot H :β Testvariabeln är som tidigare T = ˆβ Sˆβ t(n p ) Detta test är ekvivalent med testet att tjämföra väntevärden i två populationer H :µ A =µ A mot H :µ A µ B med antagande om lika varians. Två pop.modell Regr.modell Y A N ( µ A,σ ) Y A =β +ε Y B N ( µ B,σ ) Y B =β +β +ε där ε N (,σ ).Ekvivalensenäruppenbargenom attinseatt Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer. Vadsomärintressantärfrågoravtypen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? y y Kom ihåg att använda en multiplikativ samspelsterm! y y µ A =β resp µ B =β +β MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A X+ε Y B = β B +β B X+ε dvs gör två regressionsanalyser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del ytterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tycka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β X+β Z+β XZ+ε där Z är en dummyvariabel som anger grupptillhörighet. Detta ger A : Y =β +β X+ε B : Y =(β +β )+(β +β )X+ε För att avgöra vilken av de fyra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett analys. Mensomsagt...
14 Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Kap + KD s häfte, Logistisk regression Eempel på icke-linjär regressionsmodell. ()BörjamedenkellinjärregressiondärY ärenkontinuerlig variabel. Obetingat Y Distr ( µ Y, σ Y ) : E(Y)=µ Y, Var(Y)=σ Y Detserutsommycketattlärain... Testen är precis som förut, inget principiellt nytt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt utan att uppehålla er för länge, skippa avsnitt där Distr står för någon fördelning med ändligt väntevärde och ändlig positiv varians. Betingat(modell): Y X N ( β +β X, σ ε : E(Y X)=β +β X : Var(Y X)=σ ε<σ Y Det betingade väntevärdet bestäms av X och dessutom kan vi förklara/predicera Y mycket bättre. ) () Tänk om Y ej är kontinuerlig utan en dikotom variabel,dvskanantavärdenael. Allmänt är det betingade väntevärden för Y givet X som modelleras. Obetingat Y Bernoulli(p Y ) : E(Y)=p Y : Var(Y)=p Y ( p Y ) därp Y ärsannolikhetenförattobserveray =. Kanmanförklaraattmanivissalägentycksobservera etta oftare än nolla? Dvs att sannolikheten för lyckat utfall kanske kan förklaras med någon prediktor? Hur ska modellen i så fall formuleras? Medenkellinjärregressioni()ovanharman f() = β +β = µ Y X= ochdetinsesatt < µ Y X <. Problemi()tyväntevärdetärjuensannolikhet såvibehöverenfunktionf()=µ Y X =p Y X sådan att < p Y X < En linjär funktion uppfyller inte detta krav! Däremotkanjuiprincipvårprediktortillåtasanta vilka värden som helst. Önskemål: hitta enfunktion f() med obegränsad definitionsmängd < < men begränsad värdemängd < f() <
15 Ett av de vanligaste valen är den logistiska funktionen som definieras f() = ep(α+β) +ep(α+β) = p Y X IKleinbaumetalskrivsdettasom(sid67) f() = men uttrycken är identiska. Omβ>sågälleratt +ep( α β) f() f() ochomβ<sågällerdetomvända. Enintressantpunktsommankanseirapporteringär detvärdepåx närsannolikhetenföry =ärprecis.. Denna punkt kallas LD vilket står för lethal dosage % och inträffar alltid när Forts() Betingat Y X Bernoulli ( p Y X ) : E(Y) = p Y X : Var(Y) = p Y X ( py X ) dvsdetbetingadeväntevärdetföry givetx tolkas/ definieras som en sannolikhet p Y X = P(Y = X=) Denandramöjligahändelsen,Y =,harenbetingad sannolikhet P(Y = X =) = P(Y = X=) = ep(α+β) +ep(α+β) = +ep(α+β) = α/β Odds, Logodds och Oddskvoter Linjär anpassning till binär repsonsvariabel Y,,9,8,7,6,,,,,, X Oddset för en händelse definieras som kvoten mellan sannolikheten för händelsen och sannolikheten för komplementet: Odds(A)= P(A) P(A ) = P(A) P(A) Med logistisk regression får man det betingade oddset förhändelseny =givetx Y-Data,,9,8,7,6,, Logistisk regressionsmodell ep(α+β) P(Y = X) Odds(Y = X) = P(Y = X) = +ep(α+β) +ep(α+β) = ep(α+β),,,, X-Data Oddset för händelsen Y = givet X blir på samma sätt P(Y = X) Odds(Y = X) = P(Y = X) = ep(α+β) = (ep(α+β)) = ep( α β)
16 Logoddset för en händelse är helt enkelt den naturliga logaritm av oddset: LogOdds(Y = X) = ln(odds(y = X)) = ln(ep(α+β)) = α+β Nu kan vi tolka regressionskoefficienter: αärlogoddset föry =dåx = omändrasmedenhetsåförändraslogoddset föry =medβ KomihågattresponsvariabelnY nuärnågotannatän vad vi har haft tidigare. I () betraktas Y som en observerbar företeelse som kan mätas och sedan jämföras med den skattade Ŷ direkt. I princip skulle vi kunna observera y i =Ŷ e i = Debetingadeväntevärdenaˆµ Y X= liggeriutfallsrummetföry. I () och den logistiska modellen är Y förvisso också observerbar menkan bara anta värdena eller. De skattadeŷ skanukanskehellrebetecknasmedˆp Y X= och tolkas som betingade sannolikheter (för Y = ). Vi kommer aldrig att observera något fall där Y = ˆp Y= X= tybetingadesannolikheternaˆp Y X= antartypisktvärdensomliggermellanoch. En residual måste sålunda tolkas annorlunda: y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvssannolikhetenföry =givetx=. y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvsminussannolikhetenföry =givetx=. Ytterligare en tolkning av regressionskoefficienten β Oddskvoter beskrivs kanske enklast med ett eempel från boken(sid 69 66). Anta en logistisk modell med tre prediktorer Man får X = röker/rökerej X = ålder X = vit/svart LogOdds=α+β +β +β och vill sedan jämföra rökare/icke-rökare bland -åriga svarta. Oddsvkot = OR Odds(Y = år,svart,rökare) = Odds(Y = år,svart,icke-rökare) = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β )
17 AlltsåomviökarX medenhet(alltannatkonstant) så är den relativa förändringen i oddset, för händelsen Y =,likamedep(β ). Oddskvoter används typiskt för jämförelser mellan olika grupper med avseende på risker för te sjukdomar. E)Hurmycketstörreärriskenfören-årigvitrökare jämfört med en -årig svart icke-rökare? OR = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β +β β ) Odds kanvarasvåraatttolka ibörjan. Menvetman sannolikheten för en händelse så vet man också oddset: Odds(A)= P(A) P(A) Och vet man oddset så vet man också sannolikheten P(A)= Odds(A) +Odds(A) Odds här är inte samma sak som odds i spel som definieras av hur mycket pengar man kommer att få om man satsar rätt. Eller ( A ) SpelOdds(A) = Odds(A) +=P P(A) + därp(a)ärandelenipengarsomharsatsatspåatt A vinner, vilket kan tolkas som en sorts sannolikhet. Inget sagt ännu om skattning av en logistisk regressionsmodell. Typiskt maimeras en likelihoodfunktion, se te eq. (.)sid67ocheq. (.7)sid676. Detta kräver numeriska metoder dvs inget vi frivilligt gör för hand! Använd ett färdigt datorprogram!..
F7 Polynomregression och Dummyvariabler
F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen
Läs merSkrivning i ekonometri torsdagen den 8 februari 2007
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)
Läs merF23 forts Logistisk regression + Envägs-ANOVA
F23 forts Logistisk regression + Envägs-ANOVA Repetition Detta går inteattbeskriva på någotrimligtsättmed en linjär funktion PY Xx) β 0 +β x Den skattade linjen går utanför intervallet0, ): Y ärenbinärvariabel0-,dikotom)manvillmodellera,
Läs merRegressions- och Tidsserieanalys - F4
Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1
Läs merRegressions- och Tidsserieanalys - F7
Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys
Läs mer732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
Läs mer732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta
Läs merEnkel linjär regression. Enkel linjär regression. Enkel linjär regression
Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare
Läs merMetod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Läs mera) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal
Läs merResidualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Läs mer10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
Läs merRegressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,
Läs merSkrivning i ekonometri lördagen den 29 mars 2008
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan
Läs merRegressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp
Läs merRegressions- och Tidsserieanalys - F3
Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när
Läs merFör betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.
STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment 1, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Måndagen den
Läs merF18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Läs merF16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data
Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler
Läs mer732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29
732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann
Läs merFöreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
Läs merLUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA
Läs merInstruktioner till Inlämningsuppgift 1 och Datorövning 1
STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-14 MC Instruktioner till Inlämningsuppgift 1 och Datorövning 1 Kurs i Ekonometri, 5 poäng. Uppgiften ingår i examinationen för kursen och
Läs merSkrivning i ekonometri lördagen den 15 januari 2005
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad
Läs merFör betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.
STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Torsdagen den 7
Läs merInstruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.
STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-12 MC Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4 Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10
Läs merTentamen i matematisk statistik
Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:
Läs merStatistik B Regressions- och tidsserieanalys Föreläsning 1
Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs
Läs mer7.5 Experiment with a single factor having more than two levels
7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan
Läs merEn scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:
1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt
Läs merLÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Läs merI vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt
Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi
Läs merFöljande resultat erhålls (enhet: 1000psi):
Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.
Läs merRegressions- och Tidsserieanalys - F3
Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet November 6, 2013 Wänström (Linköpings universitet) F3 November 6, 2013 1 / 22 Interaktion
Läs merExaminationsuppgifter del 2
UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk statistisk Statistik för ingenjörer, poäng, Anders Lundquist 7-- Examinationsuppgifter del Redovisas muntligt den / (Ö-vik) samt / (Lycksele).
Läs merMultipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
Läs merTENTAMEN I MATEMATISK STATISTIK
UMEÅ UNIVERSITET Institutionen för matematisk statistik Regressions- och variansanalys, 5 poäng MSTA35 Leif Nilsson TENTAMEN 2003-01-10 TENTAMEN I MATEMATISK STATISTIK Regressions- och variansanalys, 5
Läs merRegressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.
Läs merSkrivning i ekonometri lördagen den 25 augusti 2007
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA
Läs merTillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning
Läs merLö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp
Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.
Läs merTAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval
TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen
Läs merFöreläsning 4. Kap 5,1-5,3
Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet
Läs merLaboration 2 multipel linjär regression
Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera
Läs merTill ampad statistik (A5) Förläsning 13: Logistisk regression
Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.
Läs merRegressions- och Tidsserieanalys - F3
Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F3 1 / 21 Interaktion Ibland ser sambandet mellan en
Läs merFöreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Läs merFöreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Läs merEnvägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper
Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att
Läs merPerson Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.
y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader
Läs merValfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.
Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14,
Läs merFöreläsning 12: Linjär regression
Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera
Läs mer732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 3 Bertil Wegmann IDA, Linköpings universitet November 4, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 1 / 22 Kap. 4.8, interaktionsvariabler Ibland
Läs merF13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
Läs merKorrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Läs merInstuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
Läs mer2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer
Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna
Läs mer1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.
Läs mer7.5 Experiment with a single factor having more than two levels
Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att
Läs merF19, (Multipel linjär regression forts) och F20, Chi-två test.
Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med
Läs merFlerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:
Flerfaktorförsök Blockförsök, randomiserade block Modell: yij i bj eij i 1,,, a j 1,,, b y ij vara en observation för den i:te behandlingen och det j:e blocket gemensamma medelvärdet ( grand mean ) effekt
Läs merMatematisk statistik, Föreläsning 5
Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk
Läs merPrediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
Läs merTentamen i matematisk statistik
Sid (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 4.00-7.00 ger maximalt 24 poäng. Betygsgränser:
Läs merRegressionsanalys med SPSS Kimmo Sorjonen (2010)
1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;
Läs merStatistik för teknologer, 5 poäng Skrivtid:
UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för teknologer, MSTA33, p Statistik för kemister, MSTA19, p TENTAMEN 2004-06-03 TENTAMEN I MATEMATISK STATISTIK Statistik för teknologer,
Läs mer732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15
732G71 Statistik B Föreläsning 6 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15 Efterfrågeanalys Metoder för att studera sambandet mellan efterfrågan på
Läs merBild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Läs merGrundläggande matematisk statistik
Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x
Läs merLö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp
Sid 1 (10) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 Betrakta nedanstående täthetsfunktion för en normalfördelad slumpvariabel X med väntevärde
Läs merTentamen i matematisk statistik
Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:
Läs merSpridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
Läs merFöreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en
Läs merFöreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Läs merTENTAMEN I STATISTIK B,
732G7 Tentamen. hp TENTAMEN I STATISTIK B, 24-2- Skrivtid: kl: -2 Tillåtna hjälpmedel: Ett A4-blad med egna handskrivna anteckningar samt räknedosa Jourhavande lärare: Lotta Hallberg Betygsgränser: Tentamen
Läs merLö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp
Sid 1 (9) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 a) Nämn en kontinuerlig och en diskret fördelning. Exempelvis normalfördelningen respektive
Läs merRegressionsanalys av lägenhetspriser i Spånga
Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016
Läs mer1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
Läs merLABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet
Läs merTentamen Tillämpad statistik A5 (15hp)
Uppsala universitet Statistiska institutionen A5 2015-01-13 Tentamen Tillämpad statistik A5 (15hp) 2015-01-13 UPPLYSNINGAR A. Tillåtna hjälpmedel: Miniräknare Formelsamlingar: A4/A8 Tabell- och formelsamling
Läs merMatematisk statistik för D, I, Π och Fysiker
Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar
Läs merMVE051/MSG Föreläsning 14
MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska
Läs merEtt A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.
Tentamen Linköpings universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2017-12-08, 8-12 Bertil Wegmann
Läs merFormler och tabeller till kursen MSG830
Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)
Läs merTentamen för kursen. Linjära statistiska modeller. 22 augusti
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus
Läs merD. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.
1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga
Läs merTentamen i matematisk statistik
Sid 1 (9) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:
Läs mer7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.
Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:
Läs merLösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se
Läs merMatematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret
Läs merSTOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består
Läs merFör logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Läs merBayesiansk statistik, 732g43, 7.5 hp
Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär
Läs merExempel 1 på multipelregression
Exempel på multipelregression Hastighet = högsta hastighet som uppnåtts fram till givna år (årtal) Årtal Hastighet 83 3 (tåg) 9 3 (tåg) 93 (flyg) 97 7 (flyg) 9 (flyg) 99 (raket) Fitted Line Plot Hastighet
Läs merTENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS
STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan
Läs merEnkel och multipel linjär regression
TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0
Läs merStatistik 1 för biologer, logopeder och psykologer
Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två
Läs merTentamen i Matematisk statistik Kurskod S0001M
Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2015-01-16 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: A. Jonsson, M. Shykula,
Läs merRäkneövning 3 Variansanalys
Räkneövning 3 Variansanalys Uppgift 1 Fyra sorter av majshybrider har utvecklats för att bli resistenta mot en svampinfektion. Nu vill man också studera deras produktionsegenskaper. Varje hybrid planteras
Läs merRäkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.
Räkneövning 5 Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari 016 1 Om uppgifterna För Uppgift kan man med fördel ta hjälp av Minitab. I de fall en figur för tidsserien efterfrågas
Läs mer