GRUNDKURS I STATISTIK, DEL 2 (5 SP, KURSKOD ) FÖRELÄSNINGSUNDERLAG LÄSÅRET
|
|
- Klara Åberg
- för 6 år sedan
- Visningar:
Transkript
1 (6 november 017) GRUNDKURS I STATISTIK, DEL (5 SP, KURSKOD ) FÖRELÄSNINGSUNDERLAG LÄSÅRET Jan Saarela jan.saarela@abo.fi Del, Sida 1
2 Innehåll (kapitelindelningen fortsätter från Del 1) Kapitel 6: Regressionsanalys Kapitel 7: Statistisk osäkerhet Kapitel 8: Hypotesprövning Del, Sida
3 KAPITEL 6: REGRESSIONSANALYS Grundprinciper Korrelationskoefficienten ger ett mått på det linjära sambandet mellan två variabler, men den säger inte hur detta samband ser ut, eller orsakssambanden. Vid en regressionsanalys betraktar man däremot en variabel (vanligen y) som beroende av en annan (vanligen x) och uttrycker detta samband med hjälp av en regressionslinje. Variabeln y kallas då beroende eller förklarad variabel medan x är den oberoende eller förklarande variabeln. Ekvationen för regressionslinjen är då y = a + b x där a kallas linjens intercept och b dess vinkelkoefficient (eller lutningskoefficient). Interceptet anger således linjens skärningspunkt med y-axeln. För godtyckliga x-värden kan vi med hjälp av detta uttryck beräkna ett prediktionsvärde. Uppgiften består i att bestämma parametrarna a och b, så att anpassningen är den bästa möjliga. Man kan i princip välja olika kriterier för vilken den bästa anpassningen är, men den metod som nästan uteslutande används är minsta kvadratmetoden. Detta innebär att summan av de kvadrerade avvikelserna mellan de observerade och predicerade värdena skall vara så liten som möjlig. Detta kan också uttryckas så att standardavvikelsen för differensen skall minimeras. Vi betecknar det skattade y-värdet enligt regressionslinjen för ett x-värde xi med ŷ i. Vi har således yˆ a b x för i=1,...,n, och skall minimera i i n n ( y ˆ i yi ) [ yi ( a b xi i1 i1 )] Problemet kan lösas genom derivering och det resulterar i följande lösning b a n xi yi ( xi )( n xi ( xi ) ( y ) yi )( xi ) ( xi )( n xi ( xi ) i x y ) i i Exempel: En regressionslinje för att beskriva andelen som har en finskspråkig partner som en funktion av andelen svenskspråkiga i kommunen enligt exemplet ovan har följande parametrar b = -0, Del, Sida 3
4 a 78, I Excel kan parametrarna a och b även bestämmas genom funktionerna INTERCEPT (på svenska: SKÄRNINGSPUNKT) respektive SLOPE (på svenska: LUTNING) I figuren nedan har regressionslinjen ritats in tillsammans med observationspunkterna Regressionsekvationen innebär att den förväntade (beräknade) andelen med finskspråkig partner på en ort där andelen svenskspråkiga är 30 % är 78,71-0,70057*30 = 57, % medan motsvarande om andelen svenskspråkiga är 75 % är 78,71-0,70057*75 = 5,7 %. Prediktionsförmåga och residualspridning Differensen mellan ett värde på den beroende variabeln y och dess medelvärde kan spjälkas upp i två termer enligt följande: ( y y) ( y yˆ ) ( yˆ y) i i i i Om man kvadrerar bägge leden (för summorna) erhålles följande uttryck: n i1 ( y i y) n i1 ( y i yˆ ) i n i1 ( yˆ i y) Vi har således delat upp den totala kvadrerade spridningen för variabeln y i två delar, som kallas den oförklarade kvadratsumman respektive den förklarade kvadratsumman. Benämningen förklarad syftar på att värdet på y förklaras av att vi vet värdet på x. Den resterande delen kallas residual. Del, Sida 4
5 Det finns en direkt koppling mellan dessa storheter och korrelationskoefficienten, ty följande gäller r xy ( yˆ y) i ( yi y) Kvoten mellan den förklarade och den totala kvadratsumman, som kallas determinationskoefficienten, är således kvadraten på korrelationskoefficienten. Man kan därför säga att den kvadrerade korrelationskoefficienten anger hur stor andel av variationen i y som bestäms av x. Detta benämns även förklaringsgrad. Ofta anges denna dessutom i procent, dvs att man multiplicerar determinationskoefficienten med 100. I exemplet ovan var korrelationskoefficienten -0, Det innebär att determinationskoefficienten är -0,94763 =0,897996, eller att förklaringsgraden är 89,8 %. Utgående från den oförklarade kvadratsumman definieras ett spridningsmått för residualen kallat residualspridningen ( y ˆ i yi ) syx n Residualspridningen anger sålunda, grovt sett, linjens genomsnittliga avstånd från observationerna, mätt i y-enheter ( linjens genomsnittliga fel ). Regressionsanalys i SPSS Välj Analyze...Regression...Linear för att öppna dialogrutan Linear Regression där man anger beroende (Dependent) och oberoende (Independent) variabler. Observera att man här kan ha mera än en oberoende variabel. Del, Sida 5
6 En anpassning av samma regressionslinje som tidigare resulterar då i följande utskrifter: Model 1 (Constant) Andel svenska i kommunen Unstandardized Coeff icients a. Dependent Variable: svenska män Coefficients a Standardized Coeff icients B Std. Error Beta t Sig. 78,71,648 9,556,000 -,701,046 -,948-15,19,000 I kolumnen B finns interceptet (Constant) samt koefficienten för den oberoende variabeln Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,948 a,898,894 6,73893 a. Predictors: (Constant), Andel svenska i kommunen R Square är determinationskoefficienten och Std. Error of the Estimate är residualspridningen. Model 1 Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig , ,687 8,89,000 a 1180, , ,49 7 a. Predictors: (Constant), Andel svenska i kommunen b. Dependent Variable: svenska män Kolumnen Sum of Squares innehåller uppdelningen av kvadratsummorna. Nedan visas också en utskrift av en multipel regressionsanalys, där den beroende variabeln fortfarande är andelen med finskspråkig partner, men materialet omfattar nu både svenskspråkiga män och kvinnor, och variabeln kön (man=1, kvinna=0) har inkluderats som en oberoende variabel i tillägg till språkstrukturen. Model 1 (Constant) Andel svenska i kommunen KÖN a. Dependent Variable: MIXED Unstandardized Coeff icients Coefficients a Standardized Coeff icients B Std. Error Beta t Sig. 74,331,70 3,741,000 -,688,036 -,93-19,18,000 3,86 1,968,081 1,670,101 Koefficienten för variabeln KÖN är 3,86 vilket innebär att enligt regressionsmodellen är andelen med finskspråkig partner 3,86-procentenheter högre bland männen än bland kvinnorna. Regressionsanalysen förutsätter att de variabler man studerar är mätta på intervall- eller kvotskala. Ifall en kvalitativ variabel är dikotom, dvs har endast två klasser, kan den likväl behandlas som en kvantitativ variabel. Del, Sida 6
7 Regressionsanalys i Excel Excel lämpar sig utmärkt för enkel regressionsanalys (med enbart en förklarande variabel). Vi skall här se på en analys av sambandet mellan längd och vikt i ett studentenkätmaterial, eller egentligen, hur längd påverkar vikt. För att grafiskt illustrera sambandet mellan variablerna längd och vikt markeras variabelvärdena för dessa båda variabler (F1;G365) varefter man väljer Insert...Scatter och därefter det första alternativet Efter lite redigering av figuren, dvs byte av punktmarkörstyp, skala och rubriker på axlarna, samt linjetyp för stödlinjerna erhålls följande figur: Del, Sida 7
8 För att bestämma parametrarna a och b för regressionslinjen y= a + bx kan man använda Excels funktioner, dvs INTERCEPT och SLOPE för skärningspunkten a och lutningskoefficienten b. För interceptet erhålls då värdet -119,896 medan lutningskoefficienten är 1,09. Regressionslinjen är således y=-119, ,09x Determinationskoefficienten kan bestämmas genom att man beräknar korrelationskoefficienten (med CORREL) och kvadrerar denna. De exakta värdena är bra att ha om man vill beräkna predicerade värden utgående från regressionslinjen. För att få in den anpassade regressionslinjen behöver man ändå inte använda dessa värden utan det finns ett enklare sätt. Klicka på någon punkt i spridningsdiagrammet och högerklicka samt välj Add Trendline (... Infoga trendlinje). I rutan som öppnas väljer du Linear, samt kruxar i Display Equation on chart samt Display R-squared value on chart. Del, Sida 8
9 Det resulterar i följande figur: Del, Sida 9
10 Regressionslinjer kan även användas för att analysera tidsserier och därmed även för framskrivningar/projektioner. I exemplet nedan inkluderas uppgifter för två kommuner i samma figur. Av regressionslinjernas parametrar kan vi utläsa att i Närpes ökar antalet personer med utländsk härkomst med 80 (80,33) personer per år, medan motsvarande i Korsholm är 3 (3,3). Ifall utvecklingen fortsätter i enlighet med detta är det förväntade antalet personer med utländsk härkomst i Närpes år 00: ,33 00 = 1594, För Korsholm är motsvarande antal: , Del, Sida 10
11 KAPITEL 7: STATISTISK OSÄKERHET Osäkerheten i statistiska undersökningar Vid en totalundersökning har man information om alla individer och kan därigenom få reda på den mätbara sanningen. I många situationer är det dock praktiskt omöjligt att genomföra totalundersökningar, men man kan då istället använda stickprov och på basen av dessa göra generaliseringar till hela populationen (statistisk inferens: att dra slutsatser om populationsförhållanden med hjälp av stickprov). Det finns flera olika källor till osäkerhet vid statistiska undersökningar. Några gäller generellt, medan andra gäller främst stickprovsundersökningar. Allmänt gäller att mätmetoderna bör vara relevanta och tillförlitliga för det som undersökningen gäller. Man talar i detta sammanhang om validitet och reliabilitet. Med validitet avses frågan om hur relevanta variablerna är. Mäter de det som avses eller ej? Är t.ex. formellt civilstånd en relevant mätare på huruvida man bor med någon? Med reliabilitet avses mätningens tillförlitlighet eller precision. Är t.ex. utfallet av en intervjuundersökning detsamma oberoende av vem som utför intervjuerna? Ett något karikerat exempel som illustrerar begreppen är att man uppskattar en persons längd med hjälp av en personvåg. Mätningen kan göras med hög reliabilitet (stor noggrannhet), men validiteten är låg. En förutsättning för att man skall kunna generalisera resultaten från en stickprovsundersökning är att stickprovet är slumpmässigt, så att det är representativt för den egentliga undersökningspopulationen. Det mest kända urvalsförfarandet är Obundet slumpmässigt urval (OSU), vilket innebär att alla enheter har samma sannolikhet eller chans att komma med i stickprovet. För att kunna dra ett sådant stickprov behövs en urvalsram, dvs en förteckning över alla enheter i undersökningspopulationen. Vid OSU lottas sedan platserna i stickprovet ut utan restriktioner. Detta kan ske genom användning av slumptalstabeller eller slumptalsgeneratorer. En förenkling som fortfarande uppfyller samma statistiska krav som vid OSU är att man använder Obundet systematiskt urval, vilket innebär att man väljer var n:te (t.ex. var tionde) enhet från en förteckning, där man valt den första helt slumpmässigt bland de första n individerna. Detta förutsätter givetvis att urvalsramen är ordnad på ett sådant sätt att individer med vissa egenskaper inte återkommer regelbundet. Förutsatt att stickproven väljs så att de ger representativa urval, kan man med statistiska metoder bedöma osäkerheten hos resultaten. Denna osäkerhet skall likväl inte sammanblandas med den osäkerhet som kan uppkomma genom bortfall. Med bortfall avses att man inte får uppgifter om alla individer i ett stickprov, Del, Sida 11
12 eller att vissa individer vägrar att svara på vissa frågor (internt bortfall). Orsaker till bortfall kan vara t.ex. vägran att delta, eller föråldrade och/eller felaktiga kontaktuppgifter. Rent intuitivt inser man att om stickprovsstorleken ökas bör precisionen i skattningarna förbättras, men den beror också på spridningen hos den egenskap som studeras. Ifall vi studerar medelinkomsten i en befolkning och variationen är stor mellan de olika individerna blir den statistiska osäkerheten alltså med nödtvång stor. En vanligt förekommande användning av stickprov är politiska gallupundersökningar. I samband med presentationen av dessa nämns ofta något i stil med skattningarna har en felmarginal på % eller förändringarna ligger inom felmarginalen. Vi skall ta denna typ av undersökning som utgångspunkt för en inledande granskning av vad statistisk osäkerhet innebär. Antag att vi har en stor befolkning och att vi med hjälp av ett stickprov vill skatta understödet för olika partier. Vi skall här fokusera på ett stort parti A, som de facto har ett 35 %-igt understöd, och ett litet parti B med ett 5 %-igt understöd. Vi bortser från problem med vägrare och annat bortfall. Vad kan vi tänkas få för resultat ifall vi drar ett slumpmässigt stickprov omfattande 1000 personer? För att illustrera detta har här simulerats 100 stickprov (av vardera 1000 personer) och beräknats stödet för A och B. För att dessutom illustrera effekten av att öka stickprovsstorleken görs även samma sak med 000 individer i stickprovet. Resultatet redovisas i nedanstående figurer: Parti A, 1000 svarare: Parti A, 000 svarare: x =35,15 s=1,538 x =35,0 s=1,13 Del, Sida 1
13 Parti B, 1000 svarare: Parti B, 000 svarare: x =5,07 s=0,710 x =4,99 s=0,601 Med stickprov på 1000 individer ligger skattningen för Parti A:s understöd i 75 av de 100 stickproven i intervallet 33,5-36,75, men med stickprovsstorleken 000 stiger motsvarande antal till 88. Följande iakttagelser kan göras. Stickproven tenderar att ge korrekta skattningar i längden (med upprepningar). En fördubbling av stickprovet minskar osäkerheten, men standardavvikelsen halveras inte. Spridningen (osäkerheten) är beroende av storleken på den proportion som studeras. Fördelningarna för stickprovsproportionerna är symmetriska. Exemplet illustrerar samtidigt det intressanta fenomenet att, om man har tillräckligt stora stickprov, kommer fördelningen för skattade proportioner och medelvärden att närma sig den s.k. normalfördelningen (Gauss-kurvan) som har många goda statistiska egenskaper. Eftersom vi kommer att utnyttja detta, är det skäl att granska normalfördelningen närmare. Normalfördelningen Normalfördelningen dyker upp i många olika sammanhang. Den är symmetrisk och kontinuerlig och om man betecknar dess medelvärde (väntevärde) med μ (my) och standardavvikelsen med σ (sigma) kan täthetsfunktionen (sannolikhetsfunktionen) skrivas 1 f ( x) e 1 x Täthetsfunktionen för en variabel anger hur sannolikhetsmassan är fördelad över de olika värden som variabeln kan anta. Detta innebär att ytan under kurvan för en täthetsfunktion alltid är 1. För att beräkna sannolikheten för att erhålla ett värde i ett visst intervall bör man därför bestämma ytan under kurvan i motsvarande intervall. Del, Sida 13
14 Täthetsfunktionen för normalfördelningen är ett så besvärligt uttryck att ytan inte kan beräknas analytiskt med hjälp av integration, utan man är tvungen att använda approximativa metoder. En följd av detta är att det finns färdiga tabeller som kan utnyttjas. Sådana tabeller behöver inte uppgöras för alla tänkbara kombinationer av medelvärden och standardavvikelser, utan endast för den s.k. standardiserade normalfördelningen som har medelvärdet 0 och standardavvikelsen 1. Varje variabel kan nämligen transformeras till en variabel med dessa egenskaper genom att man subtraherar medelvärdet och dividerar med standardavvikelsen. För en standardiserad normalfördelning gäller att sannolikheten för att erhålla ett värde som är mindre än -1,96 är 0,05. Till följd av symmetrin gäller därför också att sannolikheten för ett värde större än 1,96 är 0,05. Omvänt gäller alltså att sannolikheten för att få ett värde i intervallet (-1,96, 1,96) är 0,95. Vid statistiska analyser använder man ofta vissa säkerhetsnivåer såsom 0,90, 0,95 och 0,99, vilket motsvaras av risknivåerna 0,10, 0,05 respektive 0,01. För en standardiserad normalfördelad variabel gäller att sannolikheten för ett värde i intervallet (-,58,,58) är 0,99 i intervallet (-1,96, 1,96) är 0,95 i intervallet (-1,64, 1,64) är 0,90 Detta innebär att för en normalfördelad variabel med medelvärdet x och standardavvikelsen s är sannolikheten 0,90 att vi har ett värde i intervallet ( x -1,64 s, x +1,64 s) och på motsvarande sätt för andra sannolikheter. Medelfel Avgörande för att kunna bedöma den statistiska osäkerheten är det s.k. medelfelet (Standard error) för den storhet vi studerar, oavsett om denna är en proportion som i exemplet ovan eller ett medelvärde. Medelfelet är beroende av såväl stickprovsstorleken som spridningen hos den egenskap vi studerar. För ett medelvärde gäller att medelfelet (SE, Standard Error of the Mean) är: s SE = n där s är standardavvikelsen i stickprovet och n är antalet observationer. Ju större stickprovsstorleken är, desto mindre blir alltså medelfelet. För proportionstal gäller på motsvarande sätt: p (1 p ) SE = n där p betecknar den beräknade proportionen i stickprovet. Här ser man att medelfelet även är beroende av proportionsstorleken. Uttrycket är större ju närmare 0,5 (hälften) den studerade proportionen p är. Del, Sida 14
15 Ovanstående gäller för situationer där stickprovet utgör endast en försvinnande liten del av den totala populationen. Egentligen bör medelfelet multipliceras med en korrektionsfaktor (1- f) där f är urvalsfraktionen, dvs hur stor andel stickprovet utgör av totalpopulationen. Detta kallas för korrektion för ändlig population. Om man t.ex. har ett 1 %-igt stickprov är f=0,01, och korrektionsfaktorn därmed 0,99. Som regel kan man bortse från denna faktor. Konfidensintervall När man på basen av ett stickprov beräknar ett medelvärde eller ett proportionstal gör man en punktskattning eller punktestimation. Om man vill ange den statistiska osäkerheten hos denna skattning anger man ett intervall inom vilket det sanna värdet med en viss sannolikhet bör finnas. Detta kallas ett konfidensintervall. De sannolikhetsnivåer som vanligen används i detta sammanhang är 90%, 95% eller 99%. Rent generellt kan man säga att ett konfidensintervall har formen: (x - z SE, x + z SE) där x betecknar ett skattat medelvärde och SE är skattningens medelfel. Beteckningen z bestäms av konfidensgraden och vilken fördelning det är fråga om. Ifall man studerar ett proportionstal ersätts det skattade medelvärdet med proportionsskattningen. Vi noterade tidigare att skattningarna för såväl proportionstal som medelvärden tenderar att bli normalfördelade om stickprovsstorleken är tillräckligt stor. För proportionstal brukar man som tumregel använda att det bör gälla att n p >5 och n (1-p)>5. I praktiken innebär det att om proportionen är exempelvis 0,05 eller 0,95 (5 % eller 95 %) bör stickprovsstorleken vara minst 100. Om proportionen däremot är 0,5 räcker det med 10 observationer för att normalfördelningen skall kunna användas. Exempel: Antag att vi gör en gallupundersökning omfattande 1000 personer och för två partier erhåller skattningarna p1=0,4 respektive p=0,07. Medelfelen för dessa skattningar blir då 0,4 (1 0,4) ,0156 0,07 (1 0,07) respektive 0, vilket innebär att vi med 95 % säkerhet kan säga att det verkliga understödet ligger i intervallen (0,4-1,96 0,0156; 0,4+1,96 0,0156) = (0,39; 0,45) respektive (0,07-1,96 0,008; 0,07+1,96 0,008) = (0,054; 0,086) Ifall man fördubblade stickprovsstorleken skulle medelfelen, vid samma punktskattningar, bli Del, Sida 15
16 0,4(1 0,4) 000 0,0110 0,07(1 0,07) respektive 0, dvs för det större partiet är felmarginalen 1,96 0,011 = 0,0, eller, %-enheter, medan för det mindre partiet är felmarginalen 1,96 0,0057 = 0,011, eller 1,1 %-enheter. För små stickprov följer skattningen för medelvärdet egentligen den s.k. t-fördelningen. Denna är liksom normalfördelningen symmetrisk kring medelvärdet, men den är lite toppigare och har därför tjockare svansar. Stickprovsstorleken n ingår som en parameter i t-fördelningen. Denna parameter anger fördelningens frihetsgrader. När n växer sammanfaller fördelningen i praktiken med normalfördelningen. Redan vid 30 observationer kan man gott använda normalfördelningen. Man är även för t-fördelningen tvungen att beräkna sannolikheter med hjälp av approximationer, och de finns därför tabellerade för olika antal frihetsgrader. Nedanstående figur ger t-fördelningens täthetsfunktion för, 5, och 0 frihetsgrader, samt motsvarande för den standardiserade normalfördelningen: df= I SPSS kan man erhålla konfidensintervall för medelvärden under menyn Analyze... Descriptive Statistics...Explore.. Del, Sida 16
17 Den standardiserade normalfördelningen Talen i tabellen anger sannolikheten för att den standardiserade normalvariabeln Z antar ett värde mindre än z, P(Z<z), exempelvis P(Z<1,13)=0,8708 z 0 0,01 0,0 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0 0,5000 0,5040 0,5080 0,510 0,5160 0,5199 0,539 0,579 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0, 0,5793 0,583 0,5871 0,5910 0,5948 0,5987 0,606 0,6064 0,6103 0,6141 0,3 0,6179 0,617 0,655 0,693 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,668 0,6664 0,6700 0,6736 0,677 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,713 0,7157 0,7190 0,74 0,6 0,757 0,791 0,734 0,7357 0,7389 0,74 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,764 0,7673 0,7704 0,7734 0,7764 0,7794 0,783 0,785 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,803 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,81 0,838 0,864 0,889 0,8315 0,8340 0,8365 0, ,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,861 1,1 0,8643 0,8665 0,8686 0,8708 0,879 0,8749 0,8770 0,8790 0,8810 0,8830 1, 0,8849 0,8869 0,8888 0,8907 0,895 0,8944 0,896 0,8980 0,8997 0,9015 1,3 0,903 0,9049 0,9066 0,908 0,9099 0,9115 0,9131 0,9147 0,916 0,9177 1,4 0,919 0,907 0,9 0,936 0,951 0,965 0,979 0,99 0,9306 0,9319 1,5 0,933 0,9345 0,9357 0,9370 0,938 0,9394 0,9406 0,9418 0,949 0,9441 1,6 0,945 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,955 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,958 0,9591 0,9599 0,9608 0,9616 0,965 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,976 0,973 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 0,977 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,981 0,9817,1 0,981 0,986 0,9830 0,9834 0,9838 0,984 0,9846 0,9850 0,9854 0,9857, 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916,4 0,9918 0,990 0,99 0,995 0,997 0,999 0,9931 0,993 0,9934 0,9936,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,995,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,996 0,9963 0,9964,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,997 0,9973 0,9974,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981,9 0,9981 0,998 0,998 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0, ,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,999 0,999 0,999 0,999 0,9993 0,9993 3, 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 Del, Sida 17
18 t-fördelningen Talen i tabellen anger det värde på t, så att sannolikheten att erhålla ett värde i intervallet (-t; t) är 1-p vid olika antal frihetsgrader p df 0,1 0,05 0,0 0,01 0,00 0, ,314 1,706 31,81 63, , ,619,90 4,303 6,965 9,95,37 31,599 3,353 3,18 4,541 5,841 10,15 1,94 4,13,776 3,747 4,604 7,173 8,610 5,015,571 3,365 4,03 5,893 6, ,943,447 3,143 3,707 5,08 5, ,895,365,998 3,499 4,785 5, ,860,306,896 3,355 4,501 5, ,833,6,81 3,50 4,97 4, ,81,8,764 3,169 4,144 4, ,796,01,718 3,106 4,05 4, ,78,179,681 3,055 3,930 4, ,771,160,650 3,01 3,85 4,1 14 1,761,145,64,977 3,787 4, ,753,131,60,947 3,733 4, ,746,10,583,91 3,686 4, ,740,110,567,898 3,646 3, ,734,101,55,878 3,610 3,9 19 1,79,093,539,861 3,579 3, ,75,086,58,845 3,55 3, ,71,080,518,831 3,57 3,819 1,717,074,508,819 3,505 3,79 3 1,714,069,500,807 3,485 3, ,711,064,49,797 3,467 3, ,708,060,485,787 3,450 3,75 6 1,706,056,479,779 3,435 3, ,703,05,473,771 3,41 3, ,701,048,467,763 3,408 3, ,699,045,46,756 3,396 3, ,697,04,457,750 3,385 3, ,684,01,43,704 3,307 3, ,671,000,390,660 3,3 3, ,660 1,984,364,66 3,174 3, ,645 1,960,36,576 3,090 3,91 (Värden beräknade med Excel) Del, Sida 18
19 KAPITEL 8: HYPOTESPRÖVNING Grundprinciper Med hjälp av konfidensintervall kan man ge en bild av den statistiska osäkerheten beträffande punktskattningar såsom medelvärden och proportionstal. Den statistiska inferensen kan även innefatta andra egenskaper hos fördelningar och samband mellan variabler. Den grundläggande frågan är alltid om de resultat vi erhållit med hjälp av ett stickprov eller experiment kan tänkas gälla generellt eller vara utslag av slumpmässiga variationer. För att utröna detta används hypotesprövning, Vi skall först se på ett exempel för att ge en bild av logiken. Antag att ett parti fick 17 % av rösterna i senaste val, och att vi med hjälp av en gallupundersökning vill utröna om understödet förändrats. Hur mycket måste utfallet i stickprovet avvika från 17 % för att vi med säkerhet skall våga påstå att understödet förändrats om vi har ett stickprov omfattande 1000 individer? Kan vi t.ex. dra slutsatsen att understödet har ökat om andelen i stickprovet är 18,5 %? För att utföra ett statistiskt test i en situation som denna formulerar vi en nollhypotes (H0) : understödet är oförändrat, dvs 17 %. Mot denna ställer vi en mothypotes (H1): understödet har ökat. I detta fall säger vi att mothypotesen är ensidig. Den kan dock även formuleras oberoende av riktning: understödet har förändrats (tvåsidig mothypotes). Logiken bakom testningen är att man håller fast vid nollhypotesen ända till dess att den kan förkastas. För att avgöra när man skall förkasta nollhypotesen bestämmer man (i princip) på förhand en risknivå (signifikansnivå), vilken anger sannolikheten för att vi skall förkasta nollhypotesen när den de facto är sann. All hypotesprövning bygger på att man använder en testvariabel och beräknar ett acceptansområde och ett förkastningsområde för denna. I exemplet ovan är testvariabeln givetvis proportionen som stöder partiet ifråga, och förkastningsområdet där vi förkastar nollhypotesen består av alla värden som är större än ett visst kritiskt värde. Utgående från signifikansnivån bör vi således bestämma det kritiska värdet. Ifall mothypotesen i exemplet hade varit tvåsidig, hade vi fått två kritiska värden. Acceptansområdet hade då i princip kunnat betraktas som ett konfidensintervall kring det värde som anges i nollhypotesen; beräkningarna är likartade även om den teoretiska bakgrunden är annorlunda. Benämningen acceptansområde är såtillvida missvisande att strängt taget är hypotesprövningens logik sådan att vi inte accepterar nollhypotesen, vi måste endast acceptera att vi inte kan förkasta den. Signifikansnivån anger således sannolikheten för att vi felaktigt skall förkasta nollhypotesen. Detta kallas även fel av typ I. Man löper givetvis också risk att begå ett annat fel, nämligen att hålla fast vid nollhypotesen fastän den egentligen är felaktig. Detta kallas fel av typ II. Sannolikheten för fel av typ II är som regel okänd, men den ökar ju mera man minskar signifikansnivån. För att illustrera logiken bakom testningen och riskerna för felslut kan man förlikna med beviskraven under en rättegång (exempel av Svante Körner och Lars Wahlgren). Den tilltalade bedöms oskyldig tills motsatsen har bevisats, och kraven på hållbara bevis är stränga. Risken att döma någon oskyldig skall vara så liten som möjligt (signifikansnivån, dvs Del, Sida 19
20 fel av typ I). Detta medför samtidigt att man riskerar att släppa verkliga brottslingar i brist på bevis (fel av typ II). Den beskrivning som getts ovan avser egentligen en klassiskt utförd hypotesprövning. Detta innebär att man på förhand fastställer signifikansnivån, och därefter ett förkastningsområde för att genomföra testet. En orsak till detta är bl.a. att testvariablerna som regel följer sådana fördelningar (t.ex normalfördelningen, t-fördelningen) vars sannolikhetsfördelningar inte kan bestämmas analytiskt, vilket innebär att man varit hänvisad till vissa tabellerade värden. I dagens läge när man oftast använder datorer för beräkningarna ger programmen som regel ett s.k. sannolikhetsvärde (prob-value, prob-värde) som anger sannolikheten för att erhålla ett värde som avviker från nollhypotesen minst lika mycket som den observerade teststatistikan. I exemplet ovan skulle prob-värdet då ange sannolikheten för att i ett stickprov erhålla ett understöd på minst 18,5 % ifall det faktiska understödet fortfarande var 17 %. Observera att varken signifikansvärdet eller probvärdet får tolkas som en sannolikhet för att nollhypotesen är sann. Probvärdet anger sannolikheten för att erhålla ett stickprov som det aktuella under förutsättning att nollhypotesen är sann. Observera också att statistiska test inte bör användas för att avgöra vilka resultat som är intressanta eller ej. Det bör vara sammanhanget som är avgörande för vad som är intressant och notabelt. Om man i en undersökning t.ex. inte kunde förkasta nollhypotesen att män och kvinnor använder lika mycket tid på klädvård i hemmet borde detta vara mera anmärkningsvärt än om man kunde förkasta den. Utgångspunkten ovan har varit att vi analyserat ett stickprov för att dra slutsatser om en totalpopulation. De test som beskrivs nedan kan även användas om data är insamlade via experiment. Rent principiellt kan genomförande av experiment jämställas med stickprovsdragning. Chi-kvadrattest av fördelningsform I detta avsnitt skall vi se på några testsituationer som baserar sig på chi-kvadratvärdet. Låt oss först se på ett exempel. Antag att vi insamlat ett material omfattande åriga finlandssvenskar och du vill kontrollera att deras utbildningsnivå överensstämmer med dem som gäller för alla åringar i Finland, och som antas vara känd. Utbildningsnivå Finland (%) Stickprov Förväntat Grundnivå Mellannivå Lägsta utbildning på högsta nivå Lägre högskolenivå Högre högskolenivå Totalt I tabellen har införts en kolumn med de antal observationer man borde få om fördelningen i stickprovet helt skulle motsvara totalpopulationen. Som synes verkar överensstämmelsen vara god, även om det finns vissa avvikelser. Är dessa avvikelser ett tecken på att fördelningen inte är densamma, eller ligger det inom ramen för slumpmässiga variationer? Del, Sida 0
21 Vi skall testa detta och formulerar därför hypoteser. H0: Fördelningen bland finlandssvenskarna är densamma som i totalpopulationen H1: Fördelningen är ej densamma För att genomföra ett test måste vi beräkna en lämplig teststatistika, och i detta fall är ett chikvadratvärde baserat på observerade och förväntade värden enligt samma modell och beräkningsformel som i den deskriptiva delen. Utbildningsnivå Observerade (O) Förväntade (E) (O-E) /E Grundnivå , Mellannivå , Lägsta utbildning på högsta nivå , Lägre högskolenivå ,09375 Högre högskolenivå ,57359 Totalt ,45465 Chi-kvadratvärdet (Χ ) blir således 5,45. Det är uppenbart att ju större värde teststatistikan antar desto mera tyder det på att nollhypotesen är falsk. För att kunna bestämma det kritiska värdet måste man beakta den statistiska fördelningen för teststatistikan. Om nollhypotesen är sann följer teststatistikan Χ den s.k. Chi-kvadratfördelningen. För en chi-kvadratstatistika beräknad för k klasser är antalet frihetsgrader df = k-1, i exemplet ovan är således df = 5-1 = 4. Från tabellen över Χ -fördelningen framgår att för signifikansnivån 5 % är det kritiska värdet med 4 frihetsgrader 9,49. Eftersom det observerade värdet 5,45 < 9,49 kan vi inte förkasta nollhypotesen. Slutsatsen är alltså att vi inte (på basen av detta stickprov) kan påstå att svenskspråkiga skulle ha en annan utbildningsnivå än befolkningen som helhet. Villkor för att använda chi-kvadrattest är att de förväntade värdena bör vara tillräckligt stora, vilket innebär att - högst 0 % av de förväntade frekvenserna är mindre än 5 - ingen av de förväntade frekvenserna är mindre än 1. Ifall villkoren inte är uppfyllda kan man om möjligt slå samman små klasser. Del, Sida 1
22 Chi-kvadratfördelningen Chi-kvadratfördelningen har liksom t-fördelningn en parameter som kallas antalet frihetsgrader (df: degrees of freedom). En chi-kvadratfördelad variabel kan anta enbart positiva värden och dess sannolikhetsfunktion är mycket sned när antalet frietsgrader är litet. Med ökande antal frihetsgrader förskjuts fördelningen mot större värden och blir mera symmetrisk. I figuren visas sannolikhetsfunktionen för några olika frihetsgradsantal. Figur över Chi-kvadratfördelningen med, 5, 10 resp 0 frihetsgrader: Liksom för normalfördelningen och t-fördelningen måste sannolikheterna beräknas approximativt och de finns därför tabellerade för olika frihetsgradsantal. Del, Sida
23 Chi-kvadratfördelningen (observera att förkastningsområdet är skuggat i figuren) Sannolikhet p df 0,1 0,05 0,01 0,001 1,71 3,84 6,63 10,83 4,61 5,99 9,1 13,8 3 6,5 7,81 11,34 16,7 4 7,78 9,49 13,8 18,47 5 9,4 11,07 15,09 0,5 6 10,64 1,59 16,81,46 7 1,0 14,07 18,48 4,3 8 13,36 15,51 0,09 6,1 9 14,68 16,9 1,67 7, ,99 18,31 3,1 9, ,8 19,68 4,7 31,6 1 18,55 1,03 6, 3, ,81,36 7,69 34, ,06 3,68 9,14 36,1 15,31 5,00 30,58 37, ,54 6,30 3,00 39,5 17 4,77 7,59 33,41 40, ,99 8,87 34,81 4, ,0 30,14 36,19 43,8 0 8,41 31,41 37,57 45,31 1 9,6 3,67 38,93 46,80 30,81 33,9 40,9 48,7 3 3,01 35,17 41,64 49, ,0 36,4 4,98 51, ,38 37,65 44,31 5,6 6 35,56 38,89 45,64 54, ,74 40,11 46,96 55, ,9 41,34 48,8 56, ,09 4,56 49,59 58, ,6 43,77 50,89 59, ,81 55,76 63,69 73, ,17 67,50 76,15 86, ,40 79,08 88,38 99, ,53 90,53 100,43 11, ,58 101,88 11,33 14, ,57 113,15 14,1 137, ,50 14,34 135,81 149,45 (Värdena uträknade med hjälp av Excel) Del, Sida 3
24 Om man har data i tabellform kan beräkningarna enkelt utföras t.ex. i Excel, men testningen kan även genomföras i SPSS. Man väljer då Analyze...Nonparametric Tests...Chi-Square för att få fram det fönster där man kan välja den variabel som undersöks. I rutan för förväntade värden skriver man därefter in dessa. Observera att man inte behöver räkna ut de faktiska förväntade värdena, utan det väsentliga är att talens relativa storlek är den rätta. Körningen resulterar i följande utskrift: UTBILD 1,00,00 3,00 4,00 5,00 Total Observ ed N Expected N Residual ,0 14, ,0 7, ,0 9, ,0-3, ,0-7,0 100 Test Statistics Chi-Square a df Asy mp. Sig. UTBILD 5,45 4,63 a. 0 cells (,0%) hav e expected frequencies less than 5. The minimum expected cell f requency is 96,0. I utskriften anges ett Asymp. Sig-värde, i detta fall 0,63, som är ett s.k. prob-värde, dvs sannolikheten för att erhålla ett värde som är minst lika stort som det observerade ifall nollhypotesen är sann. Del, Sida 4
25 Testning av medelvärdet i en fördelning Antag nu att den variabel vi är intresserad av är kontinuerlig så att vi kan beräkna dess medelvärde, och att vi är intresserade av att testa om detta medelvärde har en bestämd storlek. Vi skall igen se på ett exempel. På basen av uppgifter i studieregistret vet vi att för studerande som inskrevs vid ÅA åren , är det genomsnittliga antalet avlagda studieveckor efter två års studier 55,. Vi vill nu se om de studenter som skrevs in år 000 har presterat mer eller mindre än dessa. För ändamålet har vi tillgång till ett stickprov omfattande 71 slumpmässigt valda studenter. Våra hypoteser formuleras: H0: Det genomsnittliga antalet studieveckor är 55, (μ=55,) H1: Så är ej fallet (μ 55,) Den teststatistika vi skall använda är det standardiserade medelvärdet, dvs x t s n Om nollhypotesen är sann är denna variabel t-fördelad med n-1 frihetsgrader. Eftersom mothypotesen är tvåsidig bör vi söka de kritiska värdena symmetriskt kring 0. I vårt exempel visade det sig att det genomsnittliga antalet studieveckor var x = 54,5, med standardavvikelsen 6,4. Detta innebär att 54,5 55, t = -0,34 6,4 71 Eftersom antalet observationer är förhållandevis stort (df = 70) kan vi söka de kritiska värdena från normalfördelningen (och inte från t-fördelningen). Med signifikansnivån 1 %, är de kritiska värdena,58. Eftersom teststatistikans värde är -0,3 faller det inom intervallet (-,58,,58) vilket innebär att nollhypotesen inte kan förkastas. De genomsnittliga studieprestationerna verkar således vara oförändrade. I SPSS genomförs testet genom att man väljer Analyze... Compare Means...One Sample T test, varvid följande fönster öppnas: Man anger testvariabeln, och i rutan för Test Value anges nollhypotesens värde. Del, Sida 5
26 I exemplet ovan ger detta utskriften: One-Sample Statistics CUM4 Std. Error N Mean Std. Dev iation Mean 71 54,466 6,3970 3,1375 One-Sample Test CUM4 Test Value = % Confidence Interv al of the Mean Dif f erence t df Sig. (-tailed) Dif f erence Lower Upper -,34 70,815 -,7338-6,9819 5,5143 I utskriften betecknar t teststatistikan, och Sig. anger prob-värdet vid ett tvåsidigt test. Observera att konfidensintervallet avser skillnaden mellan det observerade genomsnittet och nollhypotesens värde, och inte för teststatistikan t. Test av proportionstal Vi skall nu återvända till det tidigare exemplet (i början av detta kapitel) som gällde ett partis understöd i en gallupundersökning. Om vi betecknar proportionen som vi vill analysera med p formuleras hypoteserna H0: p=p0, där p0 betecknar värdet enligt nollhypotesen, här således p0 =0,17 H1: p p0, alternativt p>p0, eller p<p0, beroende på situationen. I vårt fall snarast p>p0 Testning av proportionstal är egentligen ett specialfall av den situation som gällde fördelningstest med hjälp av chi-kvadrat, antalet klasser är ju minsta möjliga eller två. Härigenom kan man använda sig av ett chi-kvadrattest förutsatt att antalet observationer är tillräckligt stort. Att studera proportionstal är liktydigt med att vi har en dikotom variabel, en variabel som kan anta endast två olika värden (antingen stöder man partiet eller så stöder man det inte). Detta innebär att man vid små stickprov exakt kan beräkna sannolikheterna för möjliga utfall. Denna fördelning kallas binomialfördelningen (jämför med att vi beräknar sannolikheten för att få ett visst antal krona om vi singlar slant 10 gånger, eller ett visst antal sexor om vi kastar en tärning 10 gånger). Vi skall inte här behandla den manuella beräkningen av binomialsannolikheterna utan ser enbart på de situationer där antalet observationer är så stort att normalapproximation kan användas. Det innebär att vi på samma sätt som för t-testet beräknar en teststatistika som innebär en standardisering av det observerade proportionstalet pˆ under antagandet att nollhypotesen är sann, dvs: Del, Sida 6
27 Z n (Jämför med motsvarande beräkningar av medelfel och konfidensintervall) p pˆ p 0 0 (1 p ) Variabel Z är således en standardiserad normalvariabel. I vårt exempel blir (0,185 0,17) Z 1,63 0,17 (1 0,17) 1000 Vid ett ensidigt test är det kritiska värdet vid signifikansnivån 5 % 1,64, vilket innebär att vi inte kan förkasta nollhypotesen. I SPSS genomförs ett binomialtest genom att man väljer Analyze...Nonparametric Tests...Binomial och därefter väljer variabel och anger proportionen enligt nollhypotesen på samma sätt som vid det föregående t-testet 0 I vårt exempel resulterar detta i följande utskrift: Binomial Test Category N Observ ed Prop. Test Prop. Asy mp. Sig. (1-tailed) PARTI Group 1 1,00 185,19,17,111 a Group,00 815,8 Total ,00 a. Based on Z Approximation. Eftersom antalet observationer är stort beräknas prob-värdet (Asymp.Sig.) med hjälp av normalfördelningsapproximation. Observera att prob.värdet är beräknat för en ensidig mothypotes. Del, Sida 7
28 Chi-kvadrattest i korstabeller Vi skall i detta avsnitt behandla testning i korstabeller med hjälp av Χ (chi-kvadrat), och inleder igen med att se på ett exempel. I tabellen nedan redovisas svenskösterbottniska skolelevers inställning till frågan om man kan tänka sig att sällskapa med en finskspråkig. Eleverna är uppdelade efter skoltyp. SKOLA * Sällskapa med finskspråkig Crosstabulation SKOLA Total grundskola gy mnasium yrkesskola Count % within SKOLA Count % within SKOLA Count % within SKOLA Count % within SKOLA Sällskapa med finskspråkig Gärna Möjligen nej Total ,6% 44,7% 6,8% 100,0% ,0% 31,0% 3,0% 100,0% ,7% 50,4% 10,9% 100,0% ,9% 4,6% 6,5% 100,0% Av den procentuella fördelningen framgår att andelen positivt inställda verkar vara klart högre bland gymnasieelever än bland yrkesskolelever, medan grundskoleleverna ligger mittemellan. Frågan är nu om dessa observerade skillnader kan bero på slumpen eller om de är verkliga. För att testa detta formulerar vi följande hypoteser: H0: Inställningen till att sällskapa med finskspråkig är oberoende av skoltyp H1: Inställningen beror av skoltyp Mera allmänt kan hypoteserna formuleras: H0: Variablerna är oberoende H1: Så är ej fallet Χ -test i korstabeller kan även gälla fördelningar, så att H0 allmänt formuleras H0: Fördelningarna (med avseende på en variabel x) är de samma H1: fördelningarna är olika Det test som skall användas bygger på Χ -värdet, beräknat enligt samma förfaringssätt som tidigare. De förväntade värdena beräknas då under antagandet att nollhypotesen är sann. Χ -värdet kan beräknas förhållandevis lätt för hand eller t.ex. i Excel. Om variablerna är oberoende är det förväntade värdet i t.ex. cellen i rad och kolumn 1 (gymnasieelever som gärna sällskapar med finskspråkiga) /3113 =318,33. Cell Observerade (O) Förväntade (E) (O-E) (O-E) /E grund-gärna ,89-47,89,14596 grund-möjl ,03 4,97,0607 grund-nej ,07 4,93 0,17715 gymn-gärna ,33 94,67 8,15518 Del, Sida 8
29 gymn-möjl ,85-7,85 19,88773 gymn-nej 19 40,8-1,8 11,66505 yrkes-gärna ,78-46,78 11,17659 yrkes-möjl ,1 9,88 5,44135 yrkes-nej 4 5,11 16,89 11,36808 Total ,07736 I detta fall blev således Χ -värdet 9,077. Denna teststatistika följer (approximativt) en Χ -fördelning där antalet frihetsgrader är lika med df = (r-1) (k-1), där r betecknar antalet rader och k antalet kolumner i tabellen. I detta fall df = (3-1) (3-1)=4. Med df=4 är det kritiska värdet för Χ -fördelningen vid 5 % signifikansnivå 9,49. Eftersom vårt observerade Χ -värde vida överstiger detta kan vi förkasta nollhypotesen, vilket innebär att inställningen till att sällskapa med en finskspråkiga uppenbart beror av skoltypen. I SPSS kan testningen ske enkelt i samband med korstabelleringen av variablerna. I fönstret Crosstabs finns under knappen Statistics ett fönster där man kan kryssa för Chi-square: Utskriften blir då: Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asy mp. Sig. Value df (-sided) 9,077 a 4,000 93,440 4,000,03 1, a. 0 cells (,0%) hav e expected count less than 5. The minimum expected count is 5,11. Del, Sida 9
30 Den väsentliga informationen återfinns här på den första raden: Pearson Chi-Square samt prob.värdet Asymp. Sig. Eftersom probvärdet är 0,000, innebär detta att signifikansnivån är lägre än 0,1 %. Test av skillnaden mellan två medelvärden Vi behandlade tidigare ett t-test för testning av ett specifikt medelvärde för en variabel. Vi specificerade då i nollhypotesen ett bestämt medelvärde. Vi skall nu jämföra medelvärdet för två fördelningar, och testa om dessa är lika stora. Låt oss nu betrakta ett stickprov av studenter vid ÅA, 158 manliga och 370 kvinnliga studerande. Vi vill analysera om det finns någon skillnad i studieprestationer mellan könen, mätt i det genomsnittliga antalet studieveckor efter två års studier. Hypoteserna formuleras enligt följande: H0: de genomsnittliga studieprestationerna är desamma bland män och kvinnor H1: så är ej fallet Enligt uppgifterna i studieregistret hade de manliga studenterna avlagt 45,63 studieveckor (s=6,56), medan motsvarande för de kvinnliga var 60,41 (s=3,65). Är denna skillnad statistiskt signifikant? För att beskriva den teststatistika som skall användas inför vi följande beteckningar: x 1 och x betecknar de observerade medelvärdena för män respektive kvinnor, medan och s är motsvarande varianser, samt n 1 och n antalet observationer x1 x Ett allmänt uttryck för teststatistikan är t, där nämnaren SE betecknar medelfelet för SE täljaren, dvs medelfelet för differensen mellan medeltalen. Man skiljer mellan två olika situationer beroende på om de båda fördelningarnas standardavvikelser kan antas vara lika stora eller ej Om standardavvikelserna kan antas vara lika stora beräknas medelfelet enligt: SE 1 1 n n ( n 1) s1 ( n 1) s n 1 1 n 1 Om standardavvikelserna är olika sker beräkningen enligt: SE s n 1 1 s n I det förra fallet bestäms det kritiska området utgående från en t-fördelning med df= n1+ n - frihetsgrader, och i det senare från normalfördelningen s 1 Del, Sida 30
31 I praktiken är detta huvudsakligen statistiskt finlir utan reell betydelse, eftersom man i de flesta fall har så många observationer att t-fördelningen och normalfördelningen sammanfaller. Och ifall man gör analysen med SPSS, behöver man inte heller fundera desto mera över dessa finesser. Om vi i vårt exempel antar att standardavvikelserna är olika blir medelfelet: SE 6, ,65 370,445 Det innebär att teststatistikan blir: t 45,63 60,41 6,046,445 Om vi jämför med normalfördelningen kan vi genast konstatera att detta medför att nollhypotesen klart kan förkastas (egentligen definieras förkastningsområdet som Z z 1-p). Studieprestationerna är inte desamma, och de kvinnliga studenterna är uppenbarligen flitigare. För att genomföra testet i SPSS väljs Analyze...Compare Means...Independent Samples T- Test, varefter man anger testvariabel samt den oberoende variabeln, och för den senare anger värdena för de båda grupperna (i detta fall kön: 1=män, =kvinnor) Det resulterar i följande utskrift: Independent Samples Test CUM4 Equal variances assumed Equal variances not assumed Levene's Test f or Equality of Variances F Sig. t df Sig. (-tailed) t-test for Equality of Means Mean Dif f erence 95% Confidence Interv al of the Std. Error Dif f erence Dif f erence Lower Upper 7,631,006-6,334 56,000-14,7838, , ,199-6,046 68,3,000-14,7838, ,5979-9,96967 Del, Sida 31
32 Utskriften innehåller båda fallen, dvs med lika respektive olika varianser, och ett test (Levene s Test) för varianserna. Vi skall inte behandla detta, men endast notera att dess probvärde antyder att varianserna de facto är olika. När vi ser på teststatistikan t, och konfidensintervallet för differensen ser vi likväl att betydelsen (av hur medelfelet beräknas) är marginell. t-test vid parvisa mätningar Parvisa mätningar innebär att man mäter samma undersökningsenhet vid två olika tillfällen. Det kan t.ex. vara fråga om olika test eller resultat före och efter en behandling eller frågor i en s.k. panel där man återkommer med frågor till samma personer som tidigare. I sådana fall är observationerna inte oberoende, vilket bör beaktas vid testningen. Detta görs genom att man skapar en ny variabel som betecknar skillnaden mellan de båda mätningarna och testar huruvida denna skillnad är 0. I SPSS kan man direkt utföra testningen genom att välja Analyze... Compare Means...Paired Samples T Test, varefter man anger de båda variablerna som skall testas i dialogfönstret I exemplet jämförs arbetslösheten bland män och kvinnor i 86 länder. Observationsenheten är således land, och det finns två mätningar: en för män och en för kvinnor. Nollhypotesen är att arbetslösheten är densamma för män och kvinnor. Utskriften är följande: Paired Samples Statistics Pair 1 arbl (män) arbl(kv) Std. Error Mean N Std. Dev iation Mean 7, ,381,5804 9, ,5067,7016 Del, Sida 3
33 Pair 1 arbl (män) - arbl(kv) Paired Samples Test Paired Diff erences 95% Confidence Interv al of the Std. Error Dif f erence Mean Std. Dev iation Mean Lower Upper t df Sig. (-tailed) -1,656 3,8305,4131 -,477 -,835-4,009 85,000 Teststatistikan t har värdet -4,009 vilket innebär att nollhypotesen förkastas, och av de observerade medelvärdena framgår att arbetslöshetsgraden är högre bland kvinnorna. Signifikansnivån är under 0,1 %. Som en illustration redovisas nedan resultatet av det test vi skulle ha erhållit ifall vi betraktat mätningarna som oberoende och jämfört den genomsnittliga arbetslöshetsgraden för män och kvinnor. Independent Samples Test arbl Equal variances assumed Equal variances not assumed Levene's Test f or Equality of Variances F Sig. t df Sig. (-tailed) t-test for Equality of Means Mean Diff erence 95% Confidence Interv al of the Std. Error Diff erence Diff erence Lower Upper 7,101,008-1, ,071-1,656,9106-3,4533,1416-1, ,6,071-1,656,9106-3,4537,141 Medelvärdesskillnaden blir givetvis densamma eller -1,656, prob-värdet blir nu 0,071. Detta gäller för en tvåsidig mothypotes. Detta innebär att svansarna i fördelningen vardera är 0,071/= 0,0355 eller att signifikansnivån för en ensidig hypotes skulle vara 3,55 %. Test av korrelationskoefficienten För att testa om sambandet mellan två kvantitativa variabler signifikant avviker från noll, kan man beräkna en teststatistika utgående från Pearsons korrelationskoefficient r. Teststatistikan t används för att testa nollhypotesen H0: samband saknas Mothypotesen är H1: samband finns (sambandet positivt/negativt) n Teststatistikan definieras som t = r, där r betecknar korrelationskoefficienten och n 1 r antalet observationer. Om nollhypotesen är sann följer teststatistikan en t-fördelning med n- frihetsgrader (eller normalfördelning vid tillräckligt stora n). Vid beräkning av korrelationer i SPSS kan man ange om signifikansnivån (Prob-värdet) skall skrivas ut för ett ensidigt eller ett tvåsidigt test, samt om man önskar att signifikanta värden skall markeras med en asterisk Del, Sida 33
34 Correlations spädbarns dödlighet arblöshet BNP/ cap Mob(00 )/100 spädbarnsdödlighet Pearson Correlation 1,098 -,5** -,646** Sig. (-tailed),,84,000,000 N arblöshet Pearson Correlation, ,36** -,98** Sig. (-tailed),84,,000,001 N BNP/ cap Pearson Correlation -,5** -,36** 1,84** Sig. (-tailed),000,000,,000 N Mob(00)/100 Pearson Correlation -,646** -,98**,84** 1 Sig. (-tailed),000,001,000, N **. Correlation is signif icant at the 0.01 lev el (-tailed). I exemplet ovan är alla korrelationer förutom den mellan spädbarnsdödlighet och arbetslöshet signifikant olika Del, Sida 34
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Läs merUppgift 1. Produktmomentkorrelationskoefficienten
Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill
Läs merLösningar till SPSS-övning: Analytisk statistik
UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt
Läs merStatistiska analyser C2 Inferensstatistik. Wieland Wermke
+ Statistiska analyser C2 Inferensstatistik Wieland Wermke + Signifikans och Normalfördelning + Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga
Läs merMatematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT-2009 Laboration P3-P4 Statistiska test MH:231 Grupp A: Tisdag 17/11-09, 8.15-10.00 och Måndag 23/11-09, 8.15-10.00 Grupp B: Tisdag
Läs merOBS! Vi har nya rutiner.
KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna
Läs merF14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva
Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H
Läs merBetrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.
Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten
Läs merMedicinsk statistik II
Medicinsk statistik II Läkarprogrammet T5 HT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1:
Läs merSamhällsvetenskaplig metod, 7,5 hp
Samhällsvetenskaplig metod, 7,5 hp Provmoment: Individuell skriftlig tentamen kvantitativ metod, 2,0 hp Ladokkod: 11OA63 Tentamen ges för: OPUS kull H13 termin 6 TentamensKod: Tentamensdatum: Fredag 24
Läs merMatematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11 Laboration Statistiska test 2011-11-15/16 2 Syftet med laborationen är att: Ni skall bekanta er med lite av de funktioner som finns
Läs merHypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att
Läs merAnalytisk statistik. Mattias Nilsson Benfatto, PhD.
Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik
Läs merF3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
Läs merForsknings- och undersökningsmetodik Skrivtid: 4h
Forsknings- och undersökningsmetodik Skrivtid: h Tentamen 8..00 Hjälpmedel: Kalkylator Formel- & tabellsamling Provtexten får bortföras. DEL, DEL eller HELA KURSEN: Besvara frågor! Varje fråga är värd
Läs merFÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik
Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende
Läs merLektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Läs merStatistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018
Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial
Läs merFöreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Läs merF18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Läs merLösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14
Läs merFöreläsning 5. Kapitel 6, sid Inferens om en population
Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning
Läs mer, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Läs mer1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
Läs merLaboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer
Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,
Läs merStandardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1
Standardfel (Standard error, SE) Anta vi har ett stickprov X 1,,X n där varje X i has medel = µ och std.dev = σ. Då är Det sista kalls standardfel (eng:standard error of mean (SEM) eller (SE) och skattas
Läs merStatistik 1 för biologer, logopeder och psykologer
Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad
Läs merMultipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
Läs merTentamentsskrivning: Matematisk Statistik med Metoder MVE490 1
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:
Läs merTentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.
KOD: Kurskod: PX1200 Kursnamn: Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Sara Landström Tentamensdatum: 2017-01-14 Tillåtna hjälpmedel: Miniräknare Tentamen består
Läs merAnalys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken
Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen
Läs merF9 SAMPLINGFÖRDELNINGAR (NCT
Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion
Läs merEn rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.
En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar
Läs merProvmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
Läs merMedicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
Läs merIntroduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab
Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts
Läs merRättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal
Läs merHypotestestning och repetition
Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att
Läs merUppgift 1. Deskripitiv statistik. Lön
Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot
Läs merMälardalens Högskola. Formelsamling. Statistik, grundkurs
Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken
Läs merSamplingfördelningar 1
Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi
Läs merAnalytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens
Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större
Läs merFöreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är
Läs merLÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Läs merKorrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Läs merTMS136. Föreläsning 11
TMS136 Föreläsning 11 Andra intervallskattningar Vi har sett att vi givet ett stickprov och under vissa antaganden kan göra intervallskattningar för väntevärden Man kan även gör intervallskattningar för
Läs merTentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.
Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för
Läs merGiltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.
KOD: Kurskod: PC1244 Kursnamn: Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Sandra Buratti Tentamensdatum: 2014-09-26 Tillåtna hjälpmedel: Miniräknare Tentan består av
Läs merAnalytisk statistik. Tony Pansell, optiker Universitetslektor
Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp
Läs merFÖRELÄSNING 8:
FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data
Läs merVi har en ursprungspopulation/-fördelning med medelvärde µ.
P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har
Läs mer34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD
6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller
Läs merFöreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar
Läs mer7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.
Betrakta motstånden märkta 3.9 kohm med tolerans 1%. Anta att vi innan mätningarna gjordes misstänkte att motståndens förväntade värde µ är mindre än det utlovade 3.9 kohm. Med observationernas hjälp vill
Läs merFöljande resultat erhålls (enhet: 1000psi):
Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.
Läs merFöreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Läs merStatistik för teknologer, 5 poäng Skrivtid:
UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för teknologer, MSTA33, p Statistik för kemister, MSTA19, p TENTAMEN 2004-06-03 TENTAMEN I MATEMATISK STATISTIK Statistik för teknologer,
Läs merMetod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Läs merHur skriver man statistikavsnittet i en ansökan?
Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det
Läs merT-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen
T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen 1. One-Sample T-Test 1.1 När? Denna analys kan utföras om man vill ta reda på om en populations medelvärde på en viss variabel kan antas
Läs merTMS136. Föreläsning 13
TMS136 Föreläsning 13 Jämförelser mellan två populationer Hittills har vi gjort konfidensintervall och tester kring parametrar i EN population I praktiska sammanhang är man ofta intresserad av att jämföra
Läs merKOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!
Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod OCH Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2011-09-19 kl. 09:00 13:00
Läs merKorrelation och autokorrelation
Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.
Läs merGrundläggande matematisk statistik
Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x
Läs merχ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:
Stat. teori gk, ht 006, JW F1 χ -TEST (NCT 16.1-16.) Ordlista till NCT Goodness-of-fit-test χ, chi-square Test av anpassning χ, chi-två Test av anpassning: sannolikheter specificerade i förväg Data: n
Läs merDATORÖVNING 3: MER OM STATISTISK INFERENS.
DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. STATISTISK INFERENS MED DATORNS HJÄLP Vi fortsätter att arbeta med datamaterialet från datorävning 2: HUS.xls. Som vi sett
Läs merEnvägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper
Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att
Läs merSF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski
SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning
Läs merOBS! Vi har nya rutiner.
KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare
Läs merSyfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen
Uwe Menzel, 2017 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Syfte: o statistiska test om parametrar för en fördelning o förkasta eller acceptera hypotesen hypotes: = 20 (väntevärdet är 20)
Läs merGamla tentor (forts) ( x. x ) ) 2 x1
016-10-10 Gamla tentor - 016 1 1 (forts) ( x ) x1 x ) ( 1 x 1 016-10-10. En liten klinisk ministudie genomförs för att undersöka huruvida kostomläggning och ett träningsprogram lyckas sänka blodsockernivån
Läs merimport totalt, mkr index 85,23 100,00 107,36 103,76
1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen
Läs merTentamen för kursen. Linjära statistiska modeller. 22 augusti
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus
Läs merFöreläsning G60 Statistiska metoder
Föreläsning 6 Statistiska metoder 1 Dagens föreläsning o Kort om projektet o Hypotesprövning Populationsandel Populationsmedelvärde p-värdet 2 Kort om projektet Syftet med projektet i denna kurs är att
Läs merFinansiell statistik
Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs
Läs merFöreläsning G60 Statistiska metoder
Föreläsning 7 Statistiska metoder 1 Dagens föreläsning o Hypotesprövning för två populationer Populationsandelar Populationsmedelvärden Parvisa observationer Relation mellan hypotesprövning och konfidensintervall
Läs merRättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig
Läs merResidualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Läs merFöreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
Läs merFöreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 5 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test
Läs mer8 Inferens om väntevärdet (och variansen) av en fördelning
8 Inferens om väntevärdet (och variansen) av en fördelning 8. Skattning av µ och Students T-fördelning Om σ är känd, kan man använda statistikan X µ σ/ n för att hitta konfidensintervall för µ. Om σ inte
Läs merKapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information
Läs merSTATISTISK POWER OCH STICKPROVSDIMENSIONERING
STATISTISK POWER OCH STICKPROVSDIMENSIONERING Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd
Läs merPreliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Läs merTentamen i matematisk statistik
Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:
Läs merTentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4
MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas
Läs merKOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!
Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod OCH Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2009-11-14 kl. 14:30 18:30
Läs merLaboration 3 Inferens fo r andelar och korstabeller
S0005M Statistik2 Lp 4 2016 Laboration 3 Inferens fo r andelar och korstabeller Laborationen behandlar Test av andelar med konfidensintervall och hypotestest Chi två test av oberoende mellan kvalitativa
Läs merF5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab
Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna
Läs merSänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
Läs merFöreläsning G60 Statistiska metoder
Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel
Läs merHur man tolkar statistiska resultat
Hur man tolkar statistiska resultat Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Varför använder vi oss av statistiska tester?
Läs merFöreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Läs merF19, (Multipel linjär regression forts) och F20, Chi-två test.
Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med
Läs mer7.3.3 Nonparametric Mann-Whitney test
7.3.3 Nonparametric Mann-Whitney test Vi har sett hur man kan testa om två populationer har samma väntevärde (H 0 : μ 1 = μ 2 ) med t-test (two-sample). Vad gör man om data inte är normalfördelat? Om vi
Läs merFACIT (korrekta svar i röd fetstil)
v. 2013-01-14 Statistik, 3hp PROTOKOLL FACIT (korrekta svar i röd fetstil) Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta
Läs merKOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!
Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod OCH Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2009-09-23 kl. 09:00 13:00
Läs mer2. Test av hypotes rörande medianen i en population.
Stat. teori gk, ht 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 15.1, 15.3-15.4) Ordlista till NCT Nonparametric Sign test Rank Icke-parametrisk Teckentest Rang Teckentest Teckentestet är formellt ingenting
Läs merStatistik 1 för biologer, logopeder och psykologer
Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data
Läs merRepetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Läs mer