Parametiskt vs. icke-parametriskt

Storlek: px
Starta visningen från sidan:

Download "Parametiskt vs. icke-parametriskt"

Transkript

1 TENTAFRÅGOR & SVARSFÖRSLAG PSYKOLOGISK FORSKNINGSMETOD II Frågorna är tagna ur tentorna den 17 oktober 20??, 21 december 2005, 7 juni 2006, 22 augusti 2006, 5 juni 2007, 5 juni 2008, 4 juni 2009, 21 augusti (2 av 5) anger att en fråga förekommer vid två av fem av tentorna. Kravet för G är 60% (16,2 resp 16,8 av 27 resp 28). Svarsförslag av Eleanor, Fredrik, Göran, Henrik, Håkan, Jessica, Johanna, Jyrki, Louise, Maja, Mimmi, Monica, Nahla, Per, Thomas m fl. Parametiskt vs. icke-parametriskt 1. Icke-parametriska analysmetoder kallas med ett annat ord för fördelningsfria analyser. Hur förklarar du relevansen hos detta begrepp? Och vad står parametrisk och dess motsats icke-parametrisk för? Parametrisk innebär att man uttalar sig om parametrar - medelvärde, standardavvikelse och samband - i en population utifrån estimat, uppskattningar, från ett stickprov. Icke-parametriska test baseras på rangordningar och median när man bearbetar data till skillnad från parametriska test som utgår ifrån jämna fördelningar av datavärden - där data fördelar sig jämt kring medelvärdet d v s är normalfördelat. Alltså för att kunna använda parametrisk statistik behöver data vara normalfördelat; de uppmätta värdena fördelar sig jämt (någorlunda i alla fall) kring sitt medelvärde. Data behöver dock inte vara normalfördelat om man ska använda icke-parametriska test. 2. Vad tar du hänsyn till när du ska välja mellan att använda parametrisk eller icke-parametrisk statistik? Ge exempel på tre icke-parametriska alternativ till vanliga parametriska analyser eller sambandsmått. (Obs! Tydliga benämningar behövs) (2 tentor av 8) Är data normalfördelade? Ja parametriskt test. Nej icke parametriskt test. Ev. överkurs: Om data är snedfördelat så är medelvärdet inte representativt för vad man i genomsnitt fått för värde i gruppen. Icke-parametriska test baserar sig på medianen som bättre motstår out-liers (avvikande värden) än medelvärdet. Vilken skalnivå ligger data på? Kvot, intervall (även ordinal med fler än 7 skalsteg) parametriskt test. Nominal och ordinal icke-parametriskt test. Är man intresserad av populationen? Om man utifrån stickprovet vill säga något om medelvärdet, standaravvikelsen eller sambandet i populationen parametriskt test. Om inte icke-parametriskt test. Oberoende t-test Mann Whitney s U test Beroende t-test Wilcoxon s signed rank test Pearson s r Spearman s rho 3. Du står inför några analysuppdrag och har konstaterat att dina data inte klarar av parametrisk statistik. Hur löser du följande uppgifter? Svaren kan vara korta (t ex namnet på ett sambandsmått) men de behöver vara exakta. Så tänk efter innan du svarar! a) Uttrycka sambandsstyrkan mellan fasadfärgen på hus (röd/vit/blå) och ort (Uppsala/Falun) Annan tenta: Uttrycka sambandsstyrkan mellan variablerna bostadsområde (Gottsunda/Luthagen) och invånarnas sjukskrivningsstatus (sjukskriven/icke-sjukskriven). Data är på nominalnivå. För att räkna ut sambandet mellan variablerna kan man räkna ut sambandsmåttet phi. b) Uttrycka den centrala tendensen för poäng från ett prov. Medianen. Eftersom det är poäng från ett prov så ligger data på kvotnivå men outliers på nedsidan gör att data inte är normalfördelat (extremt dåliga resultat påverkar medelvärdet mer än extremt bra resultat). c) Undersöka och uttrycka sambandet mellan för- och eftermätningsvärden i samband med depressionsbehandling. Här är det sambandsmått som ska räknas ut. Om data är på ordinalnivå använder man sig av Spearmans ρ (rho) eller Kendalls τ (tau).

2 d) Analysera skillnaden mellan för- och eftermätningsvärden i samband med depressionsbehandling. (så att du kan avgöra om en förändring var signifikant eller inte) (3 tentor av 8) Här behöver vi ett icke-parametriskt test för en inomgruppsdesign med en OBV med två lägen. Det som står till buds är Wilcoxon signed-rank test om data är på ordinalnivå. Alternativt McNemars test of change om data är på nominalnivå. 4. Som bekant så finns det icke-parametriska alternativ till vissa vanliga parametriska analyser och sambandsmått. Nedan ser du namnen på några analysmetoder och sambandsmått. Din uppgift är att fylla i den icke-parametriska eller parametriska motsvarigheten till analysmetoden/sambandsmåttet som redan finns i listan. (Namnen du använder ska vara entydiga så att ingen tveksamhet råder kring vilken analys/sambandsmått du avser) Icke-parametriskt Parametriskt? Pearsons r Mann-Whitneys U test?? Beroende (inomgrupps) t-test Ickeparametriskt Parametriskt (typ av mått) Spearmans ρ (rho) Pearsons r samband, korrelation Mann-Whitney U test Oberoende t-test test av skillnad mellan grupper Wilcoxon signed-rank test Beroende t-test test av skillnad inom grupp (Kruskall Wallis test Mellangrupps envägs-anova envägs oberoende grupper/mätningar) (Friedmans test Inomgrupps envägs- ANOVA envägs beroende/upprepade grupper/mätningar) 5. Nedan ser du två fyrfältstabell A och B med observerade värden ifyllda. Gör en jämförelse mellan de två tabellerna betr den relativa storleken av förmodat chi 2 -värde, p-värde och phi. Ange om dessa är lika eller olika stora för tabellerna A och B. Du svarar enklast genom att notera något av tecknen >, =, < mellan A och B här nedan. OBS! Du behöver absolut inte beräkna någonting för att kunna svara på frågan. OBS OBS!! Tänk efter ordentligt, slarva inte! chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja Ja Nej Nej (2 tentor av 8) Svar: χ 2 (Chi2): A < B (ökat sample ökar homogenitet) p-värde: A > B (minskat sample ökar sannolikhet för nollhypotes) φ (Phi): A = B (korrelationen är densamma oavsett samplestorlek) Bonusfråga jag ej hittade tidigare: Vad är det som gör icke-parametriska analysmetoder och sambandsmått mer tillförlitliga när data inte är normalfördelade eller når upp till föreskriven skalnivå? Svar: Icke-parametriska test kan motstå outliers (enstaka extrema värden) och sneda fördelningar bättre tack vare mediancentrering (istället för geomertiskt medelvärde) och behandling av data som rangordnade. Ytterligare fråga jag ej hittade tidigare: Förklara principen bakom en chi2-analys. Vilka värden jämförs i analysen? Vad är nollhypotesen? Vilken uppfattning om sambandets styrka får du genom själva chi2-värdet? Vilka faktorer påverkar chi2-värdet? (max en A4)

3 Chi2 används för att signifikanstesta en hypotes, alltså en form av hypotesprövning. Man vill t.ex dra slutsatser om två grupper skiljer sig från varandra/har samband utifrån data insamlat från (representativa) stickprov. Chi2-testet bygger på att de observerade frekvenserna (i tabellen) jämförs med de som skulle ha genererats, alltså de förväntade frekvenserna, om slumpen hade styrt, dvs. om nollhypotesen är sann (om statistiskt oberoende hade förelagat mellan variablerna). Två händelser A och B kan sägas vara statistiskt oberoende om kunskap om den ena inte bidrar till att förutsäga utfallet av den andra. Sannolikheten för att A inträffar är i så fall densamma oavsett om B inträffar eller inte. Man jämför alltså den observerade fördelningen (i fyrfälts/korstabellen) med en förväntad fördelning med hjälp av en formel: O = Observerat värde F = Förväntat värde χ ( O F) 2 n 2 i i =, i= 1 Fi 2 χ n m ( O ) 2 ij Fij = F i= 1 j= 1 ij Nollhypotesen = det finns inga skillnader mellan populationerna. Den uppkomna stickprovsskillnaden beror på slumpen. Chi2-värdet man får fram jämför man sedan med det kritiska chi2- värdet som man letar upp i en tabell efter att man bestämt vilken signifikansnivå man vill ha, (vanligen 5%). I tabellen går man in på det antal frihetsgrader som gäller dvs. (antal kolumner-1)multiplicerat med (antal rader-1) alltså (k-1)x(r-1) samt utgår i tabellen från signifikansnivån och finner då det kritiska chi2-värdet som anger gränsen för om mitt framräknade (från fyrfälts/korsfältstabellen uträknat) chi2-värde är signifikant eller inte. Alltså om skillnaderna/sambandet mellan grupperna uppkommit av slumpen eller ej. Om jag räknat ut ett chi2-värde på ex och får ett kritiskt chi2-värde (på 5% sign.nivå) på 3.84 så är chi2-värdet högre och därmed gäller inte nollhypotesen, H 0 förkastas. Om det framräknade chi2-värdet hade varit mellan 0 och det kritiska chi2-värdet hade H 1 gällt dvs. att det finns en signifikant skillnad mellan grupperna. Chi2-värdet säger inget om styrkan i sambandet (ej heller om orsak och verkan). Ett signifikant mått på chi2 behöver inte betyda att sambandets styrka är kraftigt. För att få fram styrkan i sambandet måste man använda sambandsmåttet Phi φ som har en egen formel. (Cramer's Nu ν för matris större än 2x2) φ = 2 χ N υ =, 2 χ Nk ( 1) Chi2-värdet påverkas av (är känsligt för) antal observationer. Om antalet fall/observationer hade varit 100 gånger större (i var och en av cellerna i fyrfälts/korstabellen) så skulle chi2-värdet likaså ha blivit 100 gånger större, utan att sambandet mellan variablerna hade förändrats. De faktorer som påverkar det framräknade chi2-värdet är: de observerade (aktuella) värdena, de förväntade värdena, sampelstorlek (se ovan) samt antal kategorier som ju bestämmer antalet frihetsgrader (dvs antal kolumner och rader i tabellen, se ovan). (Jag kommer inte på några fler faktorer som påverkar...) Och ytterligare en: 1b Vilket sambandsmått använder du som ett komplement till resultatet från din chi2-analys när ursprungsdata är uppställd som en 2x2-tabell? Chi2-testet används för att avgöra om variabler överhuvudtaget är relaterade till varandra men svarar inte på hur starkt sambandet är. Ett signifikant värde på chi2 behöver inte betyda att sambandets styrka är kraftigt. Detta görs istället med sambandsmåttet phi för nominalskalor. Och ytterligare en: Beskriv en situation där det finns anledning att överväga användningen av ett icke-parametriskt alternativ till en parametrisk analysmetod. Vilka egenskaper hos insamlad data påverkar ditt beslut?

4 Icke-parametriska test är att rekommendera då: Mätskalenivån är nominal eller ordinal med mindre än sju skalsteg Om data inte är normalfördelat Innehåller en del extrema värden Detta eftersom icke-parametriska test räknar efter datas rangordning (blir då inte känsligt för outliers) och använder sig av median stället för medelvärde. En situation kan vara att kunder i en affär får skatta hur stressig de tycker julen är och sedan ser om det finns någon könsskillnad. Vi vet inte om det är jämn fördelning av män och kvinnor i studien, vidare har vår skattning mindre än sjuskalsteg. (Hur intressant detta nu skulle vara att ta reda på, har inte fantasi att hitta på något bättre ) Korrelation 6. Pearson s korrelationskoefficient (r) har förmågan att uttrycka sambandets styrka och riktning. Redogör för logiken bakom detta sambandsmått. Vad bygger den på och vad är det man intresserar sig för vid beräkningen av korrelationskoefficienten? OBS! Ditt svar behöver inte innehålla någon formel. (2 tentor av 8) --- Korrelationskoefficienten r uttrycker hur två variabler samvarierar d v s när en variabel ökar så ökar den andra på motsvarande sätt och tvärtom positivt samband. Alternativt så ökar den ena och den andra minskar negativt samband. Variablernas samvariation kallas för kovarians; ett mått för hur variablerna gemensamt varierar kring sina medelvärden. Korrelationskoefficienten är den standardiserade kovariansen och kan anta värden mellan -1 och +1, perfekt negativt respektive positivt samband. Korrelationskoefficienten kan bara beskriva linjära samband, andra typer av samband, t ex kurvilinjära, missar den. Genom att kvadrera r får man fram effektstorleken, vilket är detsamma som andel förklarad varians d v s hur stor del av variansen i y som förklaras av x. Liten, medel, stor effekt = 1, 9, 25 procent. Man kan även se hur starkt sambandet är genom att bara titta på r; 0.1, 0.3, 0.5, liten medel och stor effekt. 7. Bivariat korrelation, partialkorrelation, multipel korrelation. Förklara vad dessa är för någonting, vad de uttrycker och i vilka sammanhang de kommer till användning. Illustrera begreppet förklarad varians i samband med alla tre. Bivariat korrelation Handlar om korrelationen mellan två variabler. Man mäter hur stor del av BV som överlappas av OBV 1. OBV 2 OBV 1 Partial korrelation Mått på OBV 1 :s effekt på BV justerad för OBV 2 :s effekt på BV och OBV 1. Används när man vill mäta den unika varians som förklaras av en av variablerna. I nedanstående exempel är det alltså det lila fältet man är intresserad av. BV Multipel korrelation Den sammanlagda varians som alla de oberoende variablerna förklarar i den beroende variabeln, dvs. summan av OBV 1 :s korrelation med BV + det unika bidrag i förklarad varians varje ny OBV medför. I det här fallet är man alltså intresserade av alla överlappningar av oberoende variabler på BV, dvs. både det lila och det bruna fältet. 8. Vilket sambandsmått skulle du välja att använda i följande fall? Motivera kort! a) Du har tillgång till placeringarna från 15 barn som tävlat i höjdhopp och längdhopp och vill studera sambandet.

5 Data ligger på ordinalskalenivå (de har en inbördes rangordning) och vi vill se sambandet mellan dessa rangordningar då är Spearman s rho (Spearman s rank-order correlation coefficient, som den också kallas) och Kendall s tau (Kendall s rank-order correlation coefficient) bäst att använda. b) Från en annan tävling med lika många deltagare har du tillgång till deltagarnas kroppslängd och höjden de klarade av i tävlingen. Pearson s Product Moment korrelationskoefficient (r). Kan användas då data ligger på kvotskalenivå. c) Du vill studera sambandet mellan kön och vilka som vunnit Melodifestivalen sedan tävlingarna startades. Här skulle jag använda chi-2 (Phi) då vi studerar två grupper (män/kvinnor) som vi delar in i två kategorier, observerad vinst och förväntad vinst. Nollhypotesen är att lika många män som kvinnor har vunnit. Jag undersöker om det finns det en signifikant könsskillnad på Melodifestivalens vinnare. Varje cell kommer att ha minst 10 personer och i ett fyrfält rekommenderas ytterligare 10. (genom åren har ju minst 10 män och minst 10 kvinnor vunnit). Därmed har jag också tillräckligt många personer med i beräkningen. Regression 9. På din PTP-arbetsplats kommer en AT-läkare (som saknar den gedigna metodutbildningen du har fått) fram till dig och undrar: Jag är lite förvirrad över det här med korrelation och regression, på något sätt verkar dom höra ihop men å andra sidan är dom ju inte samma sak heller. Kan du förklara för mig hur det ligger till med detta? Kan du reda ut begreppen? Vad har korrelation och regression gemensamt och vad är det som är utmärkande för dem för sig? Vad får vi ut av respektive metoder? Försök att beskriva väsentligheterna för dessa metoder utan att fördjupa dig i alla detaljer (= max en A4-sida). Båda är mått på samband som bygger på kovariansen mellan två variabler. Korrelationer beskriver om det finns ett samband, dess styrka och riktning d v s om det är ett positivt (om x ökar så ökar y också) eller negativt samband (om x ökar så minskar y). Korrelationen uttrycks med korrelationskoefficienten som kan anta värden mellan -1 och +1 där +/-1 står för ett perfekt positivt respektive negativt samband och 0 = inget samband. Regressionen går ett steg längre och är mer exakt än korrelationen. Den bygger också på korrelationsberäkningar men utnyttjar beräkningen lite bättre. Genom att räkna ut regressionsekvationen kan man göra prediktioner, alltså utifrån värdet på x kan vi förutsäga värdet på y. --- Korrelation: r = sambandet mellan två eller flera variabler Korrelationen varierar mellan -1 och 1, där 0 innebär att det inte finns något samband och -1 eller 1 att sambandet är totalt -mao ett uttryck för styrka och riktning hos ett linjärt samband. Korrelationen beror dessutom av antalet observationer varför man omvandlar det till en normalfördelad sannolikhet. Denna betecknas p och varierar mellan 0 och 1. För att ett samband ska anses vara säkert måste p vara mindre än Det finns ytterligare en vanlig korrelation, Spearmans rangkorrelations koefficient (åtminstone ordinalnivå på datan). Ex: Ålder och motorisk förmåga. Skolbetyg och yrkesframgång. Att två variabler är korrelerade bevisar inte att det föreligger orsaksförhållande mellan dem. Ex: Det finns en positiv korrelation mellan längd och vikt; längd och vikt är positivt korrelerade. Samvariationen innebär att ju större längden är desto större är i allmänhet vikten och ju mindre längden är desto mindre är i allmänhet vikten. Ex: Det finns ett negativt samband mellan ålder och ögats förmåga att anpassa sig till seende på nära håll. Ju högre ålder i år desto sämre är i allmänhet denna förmåga. Korrelationskoefficient - mått på korrelationen mellan variabler. Två viktiga koefficienter är produktmomentkorrelationskoefficienten och Spearmans rangkorrelationskoefficient. Regression är mer exakt än korrelation. Regression bygger på korrelationsberäkning men utnyttjar beräkningen lite bättre. Man kan därmed göra mer exakta prediktioner från x till y.

6 Y kan prediceras utifrån X mha regressionsekvationen Y = a + bx Y = kriterievariabel X = prediktorvariabel a = interceptet (värdet på Y då X = 0) b = regressionskoefficienten (hur mga enheter av Y får man per enheter av X; exempelvis nedan: försäljning i kg Y per grader X) Regression: Regression är starkt sammankopplat med korrelation och man får med regression ut hur en variabel beror av en eller flera (sambandet mellan en BV och flera OBV). Detta fås i form av en funktion som är en medellinje mellan de olika observationerna. Det finns flera typer av regressioner. Den vanligaste är linjär regression, man får en linjär funktion. Ofta använd är också polynomial regression. En tredje vanlig typ är multipel regression, vilken jämför fler variabler än två (mer än en OBV). Regressionsanalysens syfte kan variera. Ibland kan man vilja beskriva hur sambandet ser ut, ofta för att kunna förutsäga värden i den beroende variabeln med hjälp av värden på OBVn. Eller så vill man öka förståelsen för hur samband ser ut. Eller så letar man efter en så bra modell som möjligt för att beskriva ett samband. I analysen kan det då vara så att man prövar olika kombinationer av OBV. Enkel linjär regression: Ordet enkel syftar på att endast en oberoende variabel finns och ordet linjär på att undersökningsmaterialet, åskådliggjort i ett punktdiagram, ansluter väl till en tänkt linje. Regressionsekvationen kan alltså avbildas som en regressionslinje (ibland kallad regressionskurva) i koordinatsystemet. Prediktion kan sedan göras med hjälp av denna linje. Linjen ska läggas så att den går så nära varje punkt som möjligt. Den går alltid genom interceptet och punkten för X respektive Ys medelvärden. Least squares regression line = summan av de kvadrerade avstånden mellan alla Y predicerade från ekvationen och det verkligt observerade Y ska vara så liten som möjligt. Residualer = våra prediktionsfel (Y-Y ) Något som är av vikt är att uppmärksamma om regressionskoefficienten är standardiserad eller inte. Standardiserade regressionskoefficienten β (beta) uttrycker X effekt på Y i SD och varierar beroende på sambandet. Den ickestandardiserade är däremot skalberoende vilket innebär att om man använder en skala på 0-5 på X ( b=1, β =0,7) visar den större effekt än då skalan ligger på 0-10 (b=0,5, β =0,7), fastän sambandet är lika. Summering från C-C Korrelation En korrelationskoefficient beskriver relationen mellan två variabler. Kan även användas för att hitta statistisk signifikans av en given relation. Man gör ett scattergram av data och beaktar det testade samplets egenskaper för att Inte missa en relation för att den är icke-linjär. Eller för att undvika att föreslå ett samband som är en artefakt av samplet. Man kan genom korrelationstest försäkra sig om Reliabilitet grad av att samma test kommer att ge samma score från ett tillfälle till ett annat Interbedömar-reliabilitet graden av samstämmighet i användning av ett scoringsystem. Man kan även kontrollera vissa former av validitet av mått genom att använda korrelation.

7 Summering från C-C Regression alternativt, relaterat (till korrelation) sätt att undersöka relationer. Relationer mellan variabler kan undersökas genom regression. Enkel regression=en OBV. Multipel vid fler än en OBV. En sådan analys har två funktioner: Identifiera hur mycket av variansen i BV som kan förklaras genom variation i OBV Att bygga en modell av hur BV är relaterad till OBV och därigenom möjliggöra prediktion av BV för specifika värden på OBV. Ibland ser man multipel regression som ett exempel på multivariat statistik. 10. Hur anpassas regressionslinjen (dvs hur ska den "dras") i förhållande till observationerna i samband med en regressionsanalys? Förklara principen bakom det hela och belys relevanta begrepp som felvarians, förklarad varians, residual, kvadratsumman. Illustrera med en figur. Principen är att regressionsberäkningen ska ge oss en regressionslinje som går så nära varje uppmätt värde som möjligt d v s vi vill kunna förklara så mycket varians (variation kring medelvärdet) som möjligt. Det här beräknas genom att kvadrera avståndet mellan varje faktiskt Y (uppmätt värde) och dess från ekvationen predicerade Y och räkna ut summan för dessa, kvadratsumman, som då ska vara så liten som möjligt. Linjen går alltid genom interceptet (värdet på Y när X=0) och punkten för X:s och Y:s medelvärde. De faktiska Y varierar kring medelvärdet (total varians) och vi vill med regressionlinjen beskriva hur den här variationen ser ut. De avstånd som finns mellan Y och regressionslinjen är felvariansen d v s våra prediktionsfel som också kallas för residualer. Den variation i Y som vi kan förklara med X kallas för förklarad varians och erhålls om man tar den totala variansen felvariansen. Ekvationen för regressionen som ger oss regressionskurvan ser ut så här: Y= a+bx där Y är det predicerade värdet, a = interceptet och b = regressionskoefficienten som uttrycker hur mycket Y förändras då X ökar en enhet. Dubbelpil visar residualer, vanlig pil som utgår från medelvärdet (mittenlinjen) till regressionslinjen visar på förklarad varians och pil från medelvärdet till punkterna åskådliggör den totala variansen. Detta är källorna till de olika typerna av varians vid prediktion. Bilden här ovan är inte särskilt bra, vissa dubbelpilar och vanliga pilar ligger över varandra, men kunde inte göra en bättre bild på datorn, bristande datafärdigheter alltså ;) I Timos handout finns bra bilder som åskådliggör detta tydligare Regressionslinjen bestäms matematiskt med hjälp av en metod som kallas minsta-kvadrat-metoden som innebär att koefficienterna a och b i regressionsekvationen Y = a + bx bestämts på det sätt som gör att summan av avstånden till linjen, sedan de kvadrerats, blir så liten som möjligt. Kvadreringen av avstånden (residualerna) och minimeringen av summan är de två kärnorden i metoden. MKmetoden innebär alltså att man bestämmer regressionslinjen så att residualkvadratsumman blir så liten som möjligt. Denna kvadratsumma är ett mått på variationen kring linjen, dvs. hur väl regressionslinjen beskriver materialet. Men kvadratsummans storlek bestäms inte bara av variationen kring linjen utan också av antalet observationer i materialet. Regressionslinjen går alltid igenom medelvärdet av X och Y.

8 Regressionsekvationen: Y = a + bx Y = kriterievariabel, det man vill predicera X = prediktorvariabel, det man predicerar med a = interceptet, värdet på Y när X är noll b = regressionskoefficienten bestämmer lutningen på linjen. Den anger med hur många enheter Y ändras när X ökar med en enhet (åt höger). Alltså det lodräta avståndet från punkten till regressionslinjen finns så snart en punkt inte ligger på själva linjen, dessa avstånd kallas som sagt för residualer. De är desamma som prediktionsfelen (Y Y ) dvs. avståndet mellan prediktion (det predicerade Y ) och det verkligt observerade värdet (Y). För varje punkt mäter man avståndet parallellt med y-axeln till linjen. Man kvadrerar alla dessa avstånd och summerar kvadraterna. Slutligen bestämmer man linjens ekvation så att summan av de kvadrerade avstånden mellan alla Y predicerade från ekvationen och faktiska Y ska vara så liten som möjligt. (Svårt att förklara utan att kunna rita; lättare om ni ser axlarna m reg.linje. se Timos föreläsningshäfte om Korrelation och regression s.5) 11. En kursare till dig hävdar att hon/han under sitt uppsatsarbete har hittat ett starkt samband mellan två intressanta variabler. Som bevis visar hon/han ett tydligt lutande regressionslinje mellan variablerna. Köper du detta? Har linjens lutning någonting med sambandets styrka att göra? Hur bestäms lutningen egentligen? Motivera din ståndpunkt! 12. Vi har genomfört en regressionsanalys med OBVn antal goda gärningar under året gentemot BVn antal julklappar. Enligt resultatet är regressionskoefficienten b = 0,1. Den standardiserade regressionskoefficienten (ßvikten) är 0,3. Utnyttja denna information och ge mig dina mest exakta förklaringar till vad som händer med BVn när värdet på OBVn ändras! (svaret kan ändå vara kort) 13. Vi har genomfört en regressionsanalys med OBVn antal lästa timmar gentemot BVn tentaresultat (poäng). Enligt resultatet är regressionskoefficienten b = 1. Den standardiserade regressionskoefficienten (ß-vikten) är 0,5. Utnyttja denna information och ge mig dina mest exakta förklaringar till vad som händer med BVn när värdet på OBVn ändras! (svaret kan ändå vara kort) Svar: OBV: Antal lästa timmar (x) BV: Tentaresultat (y) A: (icke.standardiserad regressionskoefficient)regressionskoefficient b= 1 Denna är skalberoende, anges i faktiska poäng till skillnad från den standardiserade som angesr sd. B: (Standardiserad regressionskoefficient )β-vikten=0.5 uttrycker X:s effekt på Y i standardavvikelser (SD). DVS: om x ökar 1 standardavvikelse så ökar Y med 0.5 standardavvikelser. X Tentaresultat X Tentaresultat OBV: Antal lästa timmar Y OBV: Antal lästa timmar Y

9 Vad som händer med BVn när OBVn ändras är alltså att när BVn ökar med 1 sd så ökar OBVn med 0.5 sd. Ju mer du läser desto högre poäng får du. 14. Nedan ser du spridningsdiagrammen A, B och C som illustrerar olika typer av samvariation mellan variablerna X och Y. Mätskalorna skiljer sig inte åt mellan diagrammen. Svara på följande frågor. a) I vilket diagram finner du den högsta korrelationen? b) I vilket diagram finner du den lägsta korrelationen? c) Vilket diagram motsvarar den högsta icke-standardiserade regressionkoefficienten (b)? d) Vilket diagram motsvarar den högsta standardiserade regressionkoefficienten (Beta, ß)? a) A b) B c) B d) A Y A Y B X X Y C X Multipel regression 15. Följande frågor handlar om multipel regressionsanalys. De kan besvaras relativt kort. a) Vilka tre generella syften kan vi ha för att använda multipel regression? 1. Kontroll: Test av orsakssamband X och Y för att utesluta irrelevanta variabler, confounds C1, C2, C3 etc kontroll för att sambandet mellan X och Y påverkas av att bägge korrelerar med confounds. 2. Förklaringsmodell: Undersöka hur stort relativt inflytande X1, X2 och X3 har på Y. 3. Prediktion: Att ta fram en vägd kombination av X1, X2, X3 etc som ger optimal prediktion av Y.

10 b) Vilka huvudtyper av multipel regression finns det? Standard, sekventiell och statistisk. Standard: Samtliga OBV läggs in samtidigt där varje OBV värderas för sitt förklaringsvärde utöver andra OBV, dvs enligt den unika varians den bidrar med. Sekventiell: OBV läggs in en eller flera i taget enligt en någon förutbestämd rationell eller teoretisk ordning. Varje OBV värderas enligt det förklaringsvärde den bidrar med när den läggs in. Statistisk (stepwise och setwise): Forward selection: OBV läggs till en tom modell i ordningsföljd enligt förklaringsvärde där högst läggs till först. Backward deletion: OBV tas bort ifrån en fylld modell i ordningsföljd enligt förklaringsvärde där lägst tas bort först. Stepwise: OBV läggs till och tas bort ur en tom modell eller ifrån en fylld modell enligt förutbestämda regler och nivåer av förklaringsvärde för när en OBV skall läggas till respektive tas bort. c) Hur väljer du mellan olika huvudtyper beroende på vilket generellt syfte du har för din analys? Standard är förstahandsval då det inte finns speciella skäl att välja någon annan typ. Sekventiell ger bättre överblick för hur respektive OBV bidrar till förklaringsvärde och för att testa explicita hypoteser. Statistisk är bra för explorativa studier och för att ta fram en modell som har så högt förklaringsvärde som möjligt med få OBV som möjligt. d) Utöver bivariat korrelation behövs två andra typer av korrelation för att kunna genomföra en multipel regressionsanalys. Vilka är dessa två och vad är deras roll i samband med multipel regressionsanalys? (2 av 8) Svar: Rött indikerar de påståenden som jag tror kan negativt påverka en multiple regressionsanalys. BV är på nominalskalenivå: BV måste vara på intervall eller kvotskalenivå (obs- inte prediktorvariablerna). Hälften av OBV är på nominalskalenivå: som jag skrev ovan så går det bra med nominalskalenivå på obv:n, men den måste göras om till en dummyvariabel, dvs med två värden 0 och 1. Fler än två lägen går inte. Sampelstorlek= 20: kan orsaka problem då rekommendationer på minst personer per prediktor (OBV) eller att antalet personer bör överstiga antalet prediktorer med 40 eller 50 personer. 20 pax låter lite väl lite då tycker jag! Ju fler deltagare, desto bättre. Du finner icke-linjära samband mellan OBV och BV: Avsaknaden av outliers: det är väl bara bra? Höga korrelationer mellan OBV: visar resultatet på höga korreltaioner mellan obv:s betyder det att de olika variablerna förklarar ungefär samma sak (=onödigt) --- Beroendevariabeln är på nominalskalenivå. Problem: BV måste vara på intervall eller kvotskalenivå Hälften av OBV på nominalnivå. Bra: så länge man kan göra om variabeln till en dummyvariabel med två lägen, 0 och 1. Sampelstorlek = 20. Problem eventuellt: tumregeln är minst personer per OBV eller att man har fler personer än antalet OBV:er. Ju fler deltagare, desto bättre. Så 20 personer är på håret! Du hittar icke-linjära samband mellan OBV och BV. Problem: dessa kommer inte att synas eftersom korrelation, som regression bygger på, använder sig av räta linjens ekvation. Avsaknad av outliers. Bra: kan ge intryck av korrelation fast den inte finns. Höga korrelationer mellan OBV. Problem: leder till instabilitet i analysen, korrelationer över är alarmerande. Överkurs: OBV 1 sägs vara stabil då dess unika varians är oförändrad trots flera andra OBV i analysen. Dessa tar inte över OBV 1 samvarians hos Y. OBV 1 förklarade varians är konstant stabil. Det här visar på statistikens funktion som enbart ett verktyg. Man kan i princip lägga in vilken variabel som helst i regressionsanalysen som skulle kunna ta

11 över OBV 1 varians och göra denne ostabil. Därför måste de variabler man har med i analysen vara vettiga och logiska. Då kan man dra slutsatsen att OBV 1 är stabil den förklarar verkligen en del av variansen hos beroende variabeln. 19. En multipel regressionsanalys med standardmetoden har genomförts i syfte att avgöra hur olika faktorer bidrar till oro i klassrum i grundskolan. OBV 1: antalet elever i klassen OBV 2: lärarens tjänsteår BV: stökindex (en kontinuerlig skala från 0-10, högre värde >> mer stök) Resultatet av en multipel regressionsanalys med standardmetoden visade följande. b Beta (ß) Antalet elever i klassrummet 0,2 0.2 Lärarens tjänsteår - 0,4-0.1 a) Vad är den sannolika förklaringen till att standardmetoden har valts till denna analys? Vad heter de två andra huvudtyperna av multipel regression (namnen räcker)? Vi lägger in alla variablerna i analysen på en gång, vi bryr oss inte om att minimera antalet variabler eller har någon tanke på att ta ut den eller de variabler som förklarar mer än någon annan. Det vi är intresserade är hur mycket respektive oberoende variabler påverkar beroende variabeln stök, därför är förstahandsvalet av regressionsmetod det lämpligaste valet. Här bedöms varje variabel utifrån hur mycket förklaringsvärde den lägger till utöver alla andra OBV, dvs den får credit bara för den unika biten varians den förklarar. sekventiell multipel regression som ger mer kontroll över analysen och används då man vill testa specifika teorier statistisk multipel regression som kan ge den bästa kombinationen av OBV:er som förklarar mest varians hos beroende variabeln. Används explorativt för att bygga hypoteser. b) Har lärarens tjänsteår eller antalet elever i klassen mest betydelse för att förklara varians i stökighet i klassrummet? Ge en fullständigt övertygande motivering för din ståndpunkt. Beta värdet anger den standardiserade regressionskoefficienten (X:s effekt på Y) i termer av standardavvikelser och gör det då möjligt att jämföra regressionskoefficienter med varandra. Som vi ser i tabellen så har variabeln antal elever i klassrummet ett högre beta värde, vilket innebär i det här fallet att när antalet elever (x) ökar med en standardavvikelse så ökar stöket i klassrummet (y) med 0.2 standardavvikelser. Alltså förklarar den här OBV:n mer av variansen i BV än OBV:n lärarens tjänsteår. Regressionskoefficienten visar att för varje ytterligare elev så ökar stökindex med 0.2 enheter och för varje ytterligare år en lärare har arbetat som lärare så minskar stöket med 0.4 enheter. 20. Att handla julklappar kan vara stressigt. Resultatet från en studie som använde sig av regressionsanalys visade följande. (4 poäng) Oberoende variabel: antal timmar på stan Beroende variabel: antal poäng på stresskalan vid hemfärden (skala 0 20, hög poäng betyder hög stress) a = 2 b = 4 a) Hur tolkar du detta resultat i klartext? När man har varit 0 timmar på stan så har man 2 poäng på stresskalan. För varje timme på stan kommer stresspoängen att öka med 4. a = interceptet; där linjen korsar Y axeln d v s värdet på Y när X = 0. b = regressionskoefficienten; visar hur mycket Y ökar när X ökar en enhet Denna studie följdes upp med en ny studie där man lade till ytterligare en oberoende variabel, nämligen antalet personer som man behöver köpa julklappar till. Resultatet av en multipel regressionsanalys med standardmetoden visade bl a följande.

12 b Beta (ß) Antal timmar på stan Antal personer som behöver en julklapp b) Hur tolkar du resultatet? Trots att OBV 2:s b-värde är högre än OBV 1 behöver detta inte betyda att OBV 2 effekt på Y är större. Deras relativa effekt på Y kan man avläsa genom Beta-värdet som i det här fallet säger oss att båda OBV har lika stor effekt på Y. Beta vikten beskriver sambandets styrka i proportion till de andra OBV. Stressen påverkas lika mycket av hur länge man är på stan som hur många personer man ska köpa julklapp åt. c) Hur tolkar du det förhållandet att regressionskoefficienten för antal timmar på stan är lägre i den andra studien jämfört med den första? Hur länge man är på stan är inte hela anledningen till stressen, utan naturligtvis är också hur många vi ska handla för av betydelse. I första analysen såg vi bara sambandet mellan antal timmar och stress. När vi så lägger in en till variabel, antal personer att handla för, märker vi att den också förklarar stressen. Därmed tillräknar sig den en del av förklaringsvärdet från första variabeln. Tekniskt sett samvarierar prediktorerna med varandra och OBV 1 unika varians minskar. Eller lite annorlunda uttryckt: När vi lägger till ytterligare en variabel, OBV 2, i analysen förlorar OBV 1 en del av sitt förklaringsvärde hos Y till OBV 2. En del av Y:s varians förklarar de tillsammans; de korrelerar med varandra. Innan vi hade OBV 2 i analysen förklarade OBV 1 den varians som OBV 2 skulle komma att beskriva. Hittade en till fråga: Som bekant kan du predicera individens värde på kriterievariabeln (y) utifrån värdet på prediktorvariabeln (x) m h a en känd regressionsekvation. Vad finns det för komponenter i en regressionsekvation och vad står de för? y = a + bx är regressionslinjens matematiska/geometriska beskrivning. y är prediktorvariabeln och x är kriterievariabeln. b är korrelationslinjens lutning, alltså hur brant eller flackt är sambandet, alltså hur mycket/litet förändras y beroende på x. a är interceptet, alltså när x = noll, det värde y då har. Och en till: Förklara kort följande begrepp och deras relevans i samband med en regressionsanalys (alltså inte i största allmänhet). Multi-collinearity är när två OBV korrelerar högt med varandra och faktiskt därmed gör prediktorn mindre stabil. En av variablerna har då förklarat det mesta av variansen och lämnar inte mycket att förklara till den andra variabeln som den interkorrelerar med. Ett sätt att komma tillrätta med detta är att helt enkelt plocka bort den ena OBV n! Residual och residualvarians Residual är våra prediktonsfel, jag predicerar att när x = si blir y = så men y blir i verkligheten något annat. Skillnaden mellan det verkliga värdet och det predicerade värdet kallas residual. Residualvariansen är den varians av mellan predicerade y och de faktiska y utifrån regressionslinjen. Heterogen varians är när variansen skiljer sig mer än fyra gånger för två sampel, alltså det ena samplets varians är mer än fyra gånger större än det andra samplets varians, när samplen är lika stora. Om vi har olika stora sampel är variansen heterogen om den största variansen är mer än dubbelt så stor som den minsta variansen. Och fler: 4. Vad är ditt allmänna förstahandsval när det gäller vilken typ av multipel regressionsanalys som ska användas? (2p)

13 - Standard multipel regression. Om man inte har någon bra anledning att välja någon annan metod, väljer man denna, dsv den är förstahandsval. Den är som mest användbar när man vill förklara så mycket av variansen i OBV som möjligt, utan att ödsla tid på mätningar som bara ger lite extra information. I vilken ordning läggs de oberoende variablerna in i analysen då? (2p) - alla oberoende variabler läggs in samtidigt. 4. Vad har storleken på korrelationen mellan de olika oberoende variablerna för betydelse i samband med multipel regressionsanalys? (2p) - om några av OBV korrelerar för mycket,.80 eller mer, kan det göra de predicerade variablerna mer instabila. - för hög korrelation leder till instabilitet i betavärden vid jämförelse över flera sampel. Ett annat problem är att analysen kan ge intryck av att en given variabel inte är en bra prediktor av BV, helt enkelt för att det mesta av variansen den kan förklara redan har blivit accounted för av andra variabler i modellen. 3) Multipel regression 2 oberoende variabler X och V har ingått i en multipel regressionsanalys i syfte att förklara varians i beroendevariabeln Y. Enligt analysresultatet är felvariansen 50%. Den bivariata korrelationen mellan X och Y är: r xy = 0,60 och mellan X och V: r xy = 0,00 (Jag tror att man skrivit fel och i själva verket menar r xv = 0,00). Hur mycket varians i Y förklaras av V? (2 p, ord maj 02, ord maj 03) De förklarar 50 % tillsammans felvariansen är 50 % alltså måste resterande varians vara förklarad varians. Hur mycket varians i Y förklaras av enbart V? Om felvariansen är 0.50 (varians hos Y som beror på okända faktorer) d v s 50 % så är den förklarade variansen resten d v s 50 %. De båda OBV:erna X och V förklarar ingen gemensam varians i Y, vilket man ser på deras korrelation med varandra rxv = 0, vilket betyder att deras cirklar i Venn-diagrammet inte överlappar varandra utan överlappar på Y på olika ställen. Vi vet att X:s samvariation med Y är För att få ut den förklarade variansen kvadrerar vi detta tal och får ut 0.49 vilket är 49 %. Alltså, X förklarar 49 % av Y:s varians. Då den totala förklarade variansen hos Y är 50 % måste resterande varians tillhöra X d v s = 1. Alltså, V förklarar 1 % av Y:s varians. Vi vet att 50% av den totala variansen i Y är felvarians. 50% av variansen i Y beror alltså på inverkan från okända faktorer. Då vet vi också att resten av variansen i Y (också det 50%) är förklarad varians, dvs. varians som kan förklaras av de aktuella variablerna X och V. Det lila området är den del av Y som förklaras av V, enligt beräkningarna 14%. X r xy r vy V Det bruna området är den de l av Y som förklaras av X, enligt beräkningarna 36%. Y Det rosa området utgör felvariansen, dvs. den del av Y som inte förklaras av V eller X, enligt uppgift 50 %.

14 Den bivariata korrelationen mellan X och Y är r xy = 0,60. För att kunna ta reda på hur mycket av den totala variansen som motsvaras av X omvandlar vi korrelationskoefficienten r till determinationskoefficienten r 2. (Den förklarade variansen uttrycks alltid som r 2 och det är r 2 som kan omvandlas till procent). Beräkningen 0,60 0,60 = 0,36 ger att r 0,60 motsvaras av r 2 0,36. Utifrån detta kan vi säga att 36% av variansen i Y kan förklaras av X. Av den förklarade variansen r 2 0,50 utgörs r 2 0,36 av X. Eftersom det bara finns två variabler utgörs resten av den förklarade variansen av V. 0,50 0,36 = 0,14. Av detta kan vi således dra slutsatsen att 14 % av variansen i Y förklaras av V. Fråga: Om jag vill analysera hur mycket varians..: Har jag tänkt rätt här? Håller någon inte med så kontakta gärna mig!! Hur mkt varians i ålder vid diagnosticerad alkoholism förklaras av 1. Det vi här plockar in först och som därmed får en reserverad plats är variansen förklarad av ärftlig belastning avseende alkoholism. 2. Därefter plockar vi in ålder för första fylla som får förklara den varians som blir kvar. Eftersom vi är intresserade av den förklarade variansen på en OBV utöver den förklarade variansen på en annan OBV så väljer vi sekventiell (hierarkisk) multipel regression: BV: Ålder vid alkoholismdiagnos OBV 1: ärftlig belastning OBV 2: Ålder vid första fylla Som vi ser här så stjäl OBV 1 mer förklarad varians av BV och OBV 2 får nöja sig med den snutt som blir över!! BV OBV 1 OBV2 Varians / ANOVA 1. Vilka nollhypoteser testas i a) en envägs-anova och b) en tvåvägs-anova? (1p) ho= OBV har ingen effekt på BV, dvs medelvärdena för BV under samtliga betingelser är lika ho=obv1 har ingen effekt på BV, OBV2 har ingen effekt på BV, det finns ingen interaktionseffekt mellan OBV1 och OBV2. 2. I en oberoende envägs-anova kan den totala variansen delas upp i mellangruppsvarians (systematisk varians) och inomgruppsvarians (felvarians). Vad menas med mellangruppsvarians och vad menas med inomgruppsvarians och hur används dessa för att beräkna F-kvoten? Totalvarians: Summan av de kvadrerade skillnaderna mellan varje observation och det totala medelvärdet. (SStotal). Totalvarians = Mellangruppsvarians + Inomgruppsvarians Mellangruppsvarians: Summan av de kvadrerade skillnaderna mellan varje grupps medelvärde och det totala medelvärdet gånger antalet försökspersoner. (OBV:s effekt: SSbetween). Mellangruppsvariansen består av två komponenter: Systematisk varians: Beror på skillnader i grupperna orsakad av ev. experimentell manipulation. Felvarians: Beror på olika slumpkällor.

15 Inomgruppsvarians: Summan av de kvadrerade skillnaderna mellan varje observation och respektive gruppmedelvärde. (felvarians: SSwithin) Inomgruppsvariansen är att betrakta som felvarians. I en ANOVA beräknar vi kvoten av mellangruppsvarians och felvarians. F = Mellangruppsvarians / Inomgruppsvarians = (Systematisk varians + Felvarians) / Felvarians. Om en experimentell manipulation inte har någon effekt finns ingen systematisk varians och vi har att: F = (0 + Felvarians) / Felvarians = I en oberoende envägs-anova kan den totala variansen delas upp i två delar, inomgruppsvarians (felvarians) och mellangruppsvarians (systematisk varians). Vad menas med inomgruppsvarians och vad menas med mellangruppsvarians? (2 tentor av 8) Inomgruppsvarians = (varje observation gruppens medelvärde) kvadrera och summera dessa. Mellangruppsvarians = (gruppens medelvärde totalt medelvärde) kvadrera och summera. 4. Redogör för de fyra antaganden angående data som måste vara uppfyllda för att du skall kunna genomföra en oberoende envägs-anova. (2 tentor av 8) Data på intervall och kvotskalenivå (ordinal med minst 7 skalsteg) Normalfördelade data. Homogen varians. Variansen i en grupp får inte vara mer än 4 gånger större än variansen i en annan grupp. Datapunkterna ska vara oberoende. Poäng i en betingelse påverkas inte av poäng i en annan betingelse (gäller bara oberoende ANOVA). data skall vara relativt normalfördelat (någorlunda symmetrisk och kontinuerlig) oberoende data, dvs varje fp skall bara utsättas för en betingelse BV på minst 7 steg ordinal, helst kvot/intervall Relativt lika varaians i de olika betingelserna (högst faktor fyra) 5. Förklara begreppen (a) huvudeffekt (main effect) och (b) interaktionseffekt. Huvudeffekt= en obvs påverkan på bv (jmfr simple effect) interaktionseffekt= en obs påverkan på hur en annan obv påverkar bv (jmfr moderation) 6. När är det viktigt att studera enkla effekter (simple effects)? då man ser en interaktionseffekt. Detta för att ta reda på hur de olika obvs påverkan på bv ser ut oberoende av den andre obvs påverkan på denna obv (haha). Exempelvis när huvudeffekten är mycket låg och OBV tar ut varandra, att studera simple effekts kan avslöja mycket hög påverkan av respektive OBV. 7. Du genomför en tvåvägs-anova på data från studie X och en tvåvägs-anova på data från studie Z. I studie X hittar du en signifikant huvudeffekt, en icke signifikant huvudeffekt och en icke signifikant interaktionseffekt. I studie Z hittar du ingen signifikant huvudeffekt men en signifikant interaktionseffekt. I en av dessa studier är det viktigt att studera enkla effekter (simple effects). Vilken? Varför? studie z då du där inte hittat några huvudeffekter men däremot en interaktionseffekt. Du vill därför simple effekt där du konstanthåller en obv för att få den rena effekten (huvudeffekt) av en obv-bv relation. Det kan ju vara så att det finns huvudeffekter men att de tar ut varann pga interaktionseffekter. 8. Exemplifiera en mixed ANOVA med en av dig påhittad studie där du beskriver de ingående variablerna och anger (i) vilken eller vilka variabler som är oberoende variabler och (ii) vilken variabel som är den beroende variabeln. Ange även (iii) på vilken skalnivå din beroendevariabel ligger. I mixed ANOVA (Split plot) har vi minst en beroende OBV och minst en oberoende OBV. Vi undersöker hur två skilda träningsmetoder (OBV) påverkar en violinists skicklighet (BV) över tid (OBV). Vi låter Grupp 1 använda Suzukimetoden och Grupp 2 använda traditionell metod. Metoden är då oberoende OBV, olika metoder mellan grupperna. Vi testar personerna en gång i veckan i 10 veckors tid. Tidpunkt är då beroende OBV, lika mellan grupperna.

16 Man undersöker två matematikträningsmetoder och hur de påverkar över tid. Man låter en grupp träna med metod 1 och en annan med metod 2 (OBV 1, oberoende: typ av träningsmetod). Man testar sedan personerna en gång i veckan under en 10 veckors period (OBV 2, beroende: tid). Beroende variabeln är antal rätt på ett matematiktest som man då låter de göra en gång i veckan under 10 veckor. Data är här på kvotnivå. Data behöver vara på intervall eller kvotnivå (ordinalnivå minst 7 skalsteg) för att ANOVA ska kunna användas som analys. Män och kvinnor skall prova att hålla andan olika länge och sedan mäts hur länge de kan hålla uppmärksamheten på en prick. OBV1= kön (denna är oberoende, man är bara antingen man/kvinna) obv2= hållaandantid, 30 sek, 2 min, 1.5 min. (denna är beroende, man är med i alla tre betingelser). BV=tid man kan hålla uppmärksamheten på en prick. Denna är på kvotnivå. A) Vilken betydelse har ordet mixed i en two-way mixed ANOVA? Att minst en OBV är beroende och minst en OBV är oberoende. I mixed ANOVA (Split plot) har vi minst en beroende OBV och minst en oberoende OBV. Det betyder att ANOVA designen innehåller (minst) en jämförelse mellan grupper samt (minst en) mellan individer i samma grupp. Det innebär att övergripande varians kan splittras mellan grupper och inom samma grupp. (Mellan grupp varians är skillnaden mellan grupperna (systematisk varians) och inom grupp varians är skillnaden mellan individer inom varje grupp (fel varians).) Mixed innebär en blandning av inomgrupps och mellangrupps design d v s man har minst en beroende OBV (inomgruppsdesign) och minst en oberoende OBV (mellangruppsdesign). Ett exempel är en undersökning där man testar två oberoende grupper på en variabel (t ex OBV 1 = behandlingsgrupp vs kontrollgrupp) och mäter varje grupp flera gånger, upprepade mätningar (OBV 2 = tid). B) När och varför använder man sig av ett kontrast test? Vid två betingelser och en OBV kan man direkt se grafiskt var skillnaden ligger. När man vill se var skillnaden finns vid tre eller fler betingelser i en OBV så syns inte det. Man använder sig då av kontrasttest efter att man gjort en ANOVA för att identifiera mellan vilka grupper de eventuella signifikanta skillnaderna finns. ANOVA ger indikation om det finns signifikanta skillnader men inte var. Används för att studera mellan vilka medelvärden signifikant skillnad föreligger. Parvisa kontraster är oftast baserade på t-statistikan. Bonferronis t: signifikansnivå för en parvis kontrast = ursprunglig signifikansnivå (tex..05) delat på totala antalet parvisa kontraster. A priori test: används när man på förhand bestämt vilka medelvärden man skall jämföra. Post hoc test: används när man inte på förhand bestämt vilka grupper/betingelser man skall jämföra. Post hoc test är aldrig ensvansade test eftersom de görs efter det att man studerat hur data ser ut. Det finns en lång rad post hoc test som varierar från liberala till konservativa. Vilket som bör användas varierar från situation till situation. C) Vad är den huvudsakliga skillnaden mellan a priori test och post hoc test? A priori - då man innan man gör testet tro sig veta vilken riktning skillnaden är i, ex att en viss behandling är bättre än en annan. Post hoc = då man inte vet innan (vilket oftast används). Man gör kontrasttest efter ANOVA-analysen för att identifiera vart de signifikanta skillnaderna finns. Det finns två typer av kontrasttest: om man redan på förhand, innan ANOVA analysen, bestämt vilka medelvärden man ska jämföra så gör man ett a priori test. Om man inte planerat vilka grupper man vill jämföra så gör man ett post hoc test vilket är mer konservativt än a priori test d v s det är svårare att uppnå signifikans men minskar risken för typ 1 fel (falsk icke-signifikans, false negative). 9. När och varför använder man sig av a priori test och post hoc test, samt vilken är den huvudsakliga skillnaden mellan a priori och post hoc test? När kan man använda sig av en ensvansad signifikansprövning? Används för att studera mellan vilka medelvärden signifikant skillnad föreligger. Parvisa kontraster är oftast baserade på t-statistikan. Bonferronis t: signifikansnivå för en parvis kontrast = ursprunglig signifikansnivå (tex..05) delat på totala antalet parvisa kontraster. A priori test: används när man på förhand bestämt vilka medelvärden man skall

17 jämföra. Post hoc test: används när man inte på förhand bestämt vilka grupper/betingelser man skall jämföra. Post hoc test är aldrig ensvansade test eftersom de görs efter det att man studerat hur data ser ut. Det finns en lång rad post hoc test som varierar från liberala till konservativa. Vilket som bör användas varierar från situation till situation. då man vill göra kontrasttest för att se var skillnaden mellan grupperna är. Då man har fler än två betingelser av en obv. A priori = då man innan vet vilken riktning skillnaden går i. post hoc= då man inte vet innan. Ensvansad= då man har en riktning och vill testa om skillnaden i den riktningen är signifikant ex att en viss behandling gav bättre resultat (typ a priori) --- Ensvansad signifikansprövning använder man sig av när man har en riktad hypotes d v s man säger i vilken riktning skillnaden kommer att gå, t ex grupp A kommer få högre poäng än grupp B. Ev. överkurs: Alternativet är att ha en tvåsvansad signifikansprövning, vilket innebär att man säger att det blir en skillnad men inte till vilken grupps fördel. En tvåsvansad signifikansprövning är mer konservativ än sitt alternativ d v s det är svårare att få ett signifikant resultat när man har en oriktad hypotes jämfört med om man har en riktad hypotes. 10. När och varför använder man sig av a priori test och post hoc test? Vad är den huvudsakliga skillnaden mellan a priori test och post hoc test? (2 tentor av 8) När? post hoc test används när man inte på för hand bestämt vilka grupper, betingelser man skall jämföra. A priori test används när man på förhand bestämt vilka medelvärde skall jämföras. Varför? Används för att studera mellan vilka medelvärden signifikant skillnad föreligger. post hoc test: miniskar risken för typ 1 fel. 11. Du vill undersöka effekten av tre olika träningsmetoder (A, B, C) för terränglöpare. Du delar slumpmässigt in 60 löpare i tre grupper om vardera 20 löpare. Under 6 månader får Grupp A träna enligt metod A, Grupp B enligt metod B och Grupp C enligt metod C. Innan träningsperiodens början (Tid 1) och efter träningsperiodens slut (Tid 2) mäter du hur snabbt löparna springer 10km terränglöpning. För att analysera resultatet genomför du en ANOVA med träningsmetod och tidpunkt som oberoende variabler (OBV) och löptid som beroende variabel (BV). Resultaten presenteras i tabellen nedan. a. Vilken typ av ANOVA är genomförd (envägs/tvåvägs, oberoende/beroende/mixed etc.)? (1p) b. Hur tolkar du resultatet? (1p) c. Vilka ytterligare analyser av resultatet skulle du vilja göra? (1p) Effect Intercept Grupp Error TID TID*Grupp Error SS Degr. of Freedom MS F p , ,0 1752,874 0, ,2 2 16,6 0,089 0, , ,6 245, ,1 34,426 0, ,7 2 1,9 0,260 0, ,8 57 7,1 Vilken typ av ANOVA är genomförd (envägs/tvåvägs, oberoende/beroende/mixed etc.)? (1p) tvåvägsanova split-plot Hur tolkar du resultatet? (1p) det finns ingen huvudeffekt av OBV1 (grupp) men en huvudeffekt gällande tid (dvs grupperna sprang olika fort inna noch efter. det finns ingen sign interaktionseffekt Vilka ytterligare analyser av resultatet skulle du vilja göra? (1p) Sätta in resultatet i ett diagram för att grafiskt avgöra huvudeffekten av OBV2. Om diagrammet tydligt visar att det gick fortare efter träningen så kan vi anta att resultatet är signifikant vilket bekröftas av resultatet, skillnaden är signifikant (p = 0,00). Eftersom det bara är två betingelser (före och efter) behöver vi inte göra kontrasttest (vilket man gör om det finns fler betingelser än två).

18 i. Eftersom det inte är ngt interaktionseffekt behöver jag inte göra simple effekt. ii. Jag antar att jag skulle vilja göra ngt form av effektstorlektest, eller? Hur stor skillnad var det mellan före och efter. Jag tänker mig att Fvärdet är beroende av antalet fp?? 12. Du undersöker effekterna av tre olika träningsmetoder (A, B och C). Du tar 30 hundrameterslöpare (15 män och 15 kvinnor) och delar slumpmässigt in dem i tre grupper (5 män och 5 kvinnor i varje grupp). Under en månad får Grupp A träna med metod A, Grupp B får träna med metod B och Grupp C får träna med metod C. Vid två tillfällen, dels dagen före träningsmånadens början (Tid 1) och dagen efter träningsmånadens slut (Tid 2), mäter du hur snabbt löparna springer 100 meter. Du genomför en ANOVA med träningsmetod och kön som oberoende variabler och förändringen mellan mätning 1 och mätning 2 (dvs. Tid 1 Tid 2) som beroende variabel. Resultatet presenteras i tabellen nedan. Är ANOVA n oberoende (between groups) eller beroende (within groups)? Är det en envägs ANOVA (one-way), tvåvägs ANOVA (two-way) eller trevägs ANOVA (three-way)? Hur tolkar du resultatet? (3p) 2 st OBV ger tvåvägs ANOVA. OBV 1 är träningsmetod med 3 betingelser, OBV 2 är kön. Oberoende ANOVA eftersom man jämför 3 grupper som var och en har fått olika slags träning. Signifikant huvudeffekt av kön men inte av träning. Ingen interaktionseffekt. (Eftersom det är två mätningar per betingelse så är detta, enligt vissa källor, en inomgruppsdesign i grund och botten, de menar att vid en mellangruppsdesign så sker det högst en mätning per betingelse. Då man jämför 3 grupper med olika deltagare i varje så finns det även en mellangruppsvariabel med i designen, vilket egentligen gör designen till mixed. Men mixed finns inte med som alternativ. Rätt svar på tentan är som sagt oberoende ANOVA, när jag frågade läraren varför så var fallet så sa han: eftersom BV är skillnaden mellan mätningarna kan inte mättillfälle vara OBV. ) 13. Du undersöker effekterna av tre olika träningsmetoder (A, B och C). Du tar 30 hundrameterslöpare (15 män och 15 kvinnor) och delar slumpmässigt in dem i tre grupper (15 män och 15 kvinnor i varje grupp). Under en månad får Grupp A träna med metod A, Grupp B får träna med metod B och Grupp C får träna med metod C. Vid två tillfällen, dels dagen före träningsmånadens början (Tid 1) och dagen efter träningsmånadens slut (Tid 2), mäter du hur snabbt löparna springer 100 meter. Du genomför en oberoende tvåvägs ANOVA med träningsmetod och kön som oberoende variabler och förändringen mellan mätning 1 och mätning 2 (dvs. Tid 1 Tid 2) som beroende variabel. Resultatet presenteras i tabellen nedan. Hur tolkar du resultatet? Det finns en sign huvudeffekt av kön, det verkar alltså som att män/kvinnor fick olika bra resultatförändring. Då det bara är två betingelser räcker det med om vi visar det grafiskt och där ser vilken grupp som fick störst skillnad. Ingen sign huvudeffekt av träning. Dock, det finns nästan en sign interaktionseffekt så jag skulle ändå välja att testa simple effekts för att se den rena påvekan av en obv-bv. Kanske ser man då att det finns en huvudeffekt av träningstyp

19 också (det kanske är så att de olika träningsformerna fungerar olika bra om du är man resp kvinna och att skillanderna tar ut varann---ingen huvudeffekt av träning fast pga interaktionseffekten). Det finns en huvudeffekt för kön, män och kvinnor skiljer sig signifikant på hur snabbt de springer. Ett kontrast test behövs göras för att se till vilken grupps fördel skillnaden är. Effekten för träningsmetod är inte signifikant men ligger inte långt ifrån gränsvärdet. Jag skulle här beräkna effektstorleken för att se hur stor effekt respektive träningsmetod hade. Skulle det visa sig att det var en stor effekt skulle man kunna göra om studien med fler deltagare för att öka chansen att få signifikanta skillnader. En poweranalys kan göras för att uppskatta hur många deltagare som behövs för att få ett signifikant resultat vid en replikation (med 80 % sannolikhet). Interaktionseffekten är på gränsen till signifikant. Enligt vissa bör man då undersöka den eftersom en eller flera av interaktionerna kan vara signifikanta trots att den totala interaktionseffekten inte är signifikant. Jag går alltså vidare och undersöker simple effects. 14. En forskare hade hypotesen att onlinerollspel av typen World of Warcraft i större utsträckning än andra aktiviteter på Internet var associerade med överdrivet spelande och beroendeliknande symptom ( Internetberoende ). Hon administrerade därför Youngs (1998) test för att mäta internetberoende till (1) en grupp World of warcraft -spelare, (2) en annan grupp som primärt använde sig av och chat när de var online och (3) en tredje grupp som primärt använde Internet till att surfa och läsa nyheter. Testpoängen ligger på en kvotskala och går från 0 till 20. Hon var dessutom intresserad av att studera om det fanns några relevanta könsskillnader, då tidigare forskning visat att män i större utsträckning än kvinnor får höga poäng på test som mäter internetberoende. a.) Du överväger att använda t-test, envägs ANOVA eller faktoriell ANOVA. Resonera kring för- och nackdelar med dessa metoder i just detta sammanhang. Vilken metod väljer du? Två OBV (kön och internetberoende) BV på kvotnivå. Faktoriell ANOVA i o m att jag jämför fler än två grupper samt är intresserad av interaktionseffekter. T-test ökar typ 1 fel-risk (massignifikansproblem). ANOVA kontrollerar för massignifikansproblem. Envägs ANOVA för OBV 1 (3 grupper) och ett t-test för OBV 2 (kön) tillåter inte kontroll för interaktionseffekter. b.) Om F-värdet är högt (signifikant) i den ANOVA du räknar ut, hur förhåller sig då mellangruppsvarians, inomgruppsvarians, felvarians och systematisk varians till varandra i just detta exempel? F = mellangruppsvarians / inomgsvarians = (systematisk varians + felvarians) / felvarians. Högt F-värde indikerar hög systematisk variation i relation till felvarians (dvs inomgruppsvarians). Avvikelserna från medelvärdet inom varje grupp (inomgruppsvarians/felvarians) är mindre än skillnaden mellan gruppernas medelvärden (mellangruppsvarians/systematisk varians). Ev. överkurs: Den totala variansen som ANOVA utgår ifrån består av varians inom grupperna (felvarians) och varians mellan grupperna (systematisk varians). ANOVA:n jämför skillnaden mellan dessa. Inomgruppsvariansen även kallad felvarians är ett mått på hur deltagarna inom en betingelse skiljer sig ifrån medelvärdet och beror på individuella skillnader i förmåga hos deltagarna och på bristande reliabilitet hos mätinstrumentet. Mellangruppsvariansen, s k systematisk varians, utgörs av skillnaden mellan betingelsernas medelvärden. Sista steget i ANOVA:n är att räkna ut hur stor del av variansen som är systematisk och benämns F värde. F = systematisk varians / felvarians Om skillnaden mellan grupperna är signifikant får man en hög F kvot, vilket alltså innebär att större delen av variansen beror på manipulationen av OBV. 15. Du är intresserad av att studera olika typer av musiks påverkan på intelligensen. Du rekryterar 30 studenter från Uppsala universitet och fördelar dem slumpmässigt i tre grupper. Alla skall under tre timmar varje dag i en månad lyssna på musik. De i Grupp A får lyssna på de gamla synthikonerna Depeche Mode, de i Grupp B får lyssna

20 på smäktande ballader av Julio Iglesias och Grupp C får lyssna på diverse klassisk musik. Vid månadens slut utför du ett intelligenstest. Du utför därefter en ANOVA med musik som oberoende variabel och intelligenskvot som beroende variabel. Resultatet syns nedan (på nästa sida). A) Är din ANOVA one-way eller two-way? B) Vilken/vilka nollhypotes/er undersöker du? C) Som du ser så är resultatet signifikant, vad innebär det? D) Vilka ytterligare analyser bör du göra? IQ Sum of Squares df Mean Square F Sig. Between Groups Within Groups Total A) Är din ANOVA one-way eller two-way? One-way ANOVA B) Vilken/vilka nollhypotes/er undersöker du? Det finns ingen skillnad mellan gruppernas medelvärden C) Som du ser så är resultatet signifikant, vad innebär det? Det är mindre än 5 % chans att jag begått ett typ 1 fel, dvs att vi fått signifikans utan att det är så i verkligheten. D) Vilka ytterligare analyser bör du göra? Nu vet du att det finns en skillnad mellan grupperna. Nu vill du veta var denna skillnad finns. Då gör du kontrasttest och väljer post hoc då du inte har en aning om vilken musik som var bäst för intelligenskvoten. (ännu en gång undrar jag över effektstorleken..) 16. En forskare utför en studie med tre grupper (betingelser) och är intresserad av huruvida dessa grupper skiljer sig på en beroende variabel. Han väljer en signifikansnivå på.05 (dvs. =.05) och utför sedan tre t-test (Grupp A mot Grupp B, Grupp A mot Grupp C och Grupp B mot Grupp C). Det visar sig att det finns en signifikant skillnad mellan Grupp A och Grupp C. Han hävdar att sannolikheten för att den signifikanta skillnaden mellan Grupp A och Grupp C skulle ha skapats av slumpen är 5 %. Har han rätt? Förklara. No. Han måste ju göra flera ttest eftersom han testar flera nollhypoteser. Dessa ttest är inte oberoende av varandra utan risken för att göra ett typ1 fel ökar med antalet utfördta ttest. Gör en bonferronikorrigering (0.05 * 3 = 0.15) och använd istället denna signivå. (Mer exakt: 1 (1 - p) n = 1 (1 0,05) 3 = 0, där n = antal t-test i samma modell) Han har fel eftersom ju fler t test man gör desto större blir chansen att få ett signifikant resultat som beror på slumpen. Han måste korrigera alfa nivån för antal parvisa jämförelser. I det här fallet: 0.05/3. På så sätt blir det svårare att få en signifikant skillnad. * Du genomför en studie där du är intresserad av huruvida kaffe påverkar människors reaktionsförmåga. Du gör en ANOVA med n_koppar (0 koppar, 1 kopp, 2 koppar eller 3 koppar) oberoende variabel och reaktionstid som beroende variabel. Resultatet finns nedan. Vad kan du säga om resultatet? Det är en sign skillnad mellan grupperna. Gör kontrasttest för att se var skillnaden ligger. kaffe p=.002 kön p=.911

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja 25 50 75 Ja 50 100 150 Nej 75 50 125 Nej 150 100 250 100 100 200 200 200 400 (2 tentor av 8)

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja 25 50 75 Ja 50 100 150 Nej 75 50 125 Nej 150 100 250 100 100 200 200 200 400 (2 tentor av 8) Parametiskt vs. icke-parametriskt 1. Icke-parametriska analysmetoder kallas med ett annat ord för fördelningsfria analyser. Hur förklarar du relevansen hos detta begrepp? Och vad står parametrisk och dess

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik. Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Statistiska analyser C2 Bivariat analys. Wieland Wermke + Statistiska analyser C2 Bivariat analys Wieland Wermke + Bivariat analys n Mål: Vi vill veta något om ett samband mellan två fenomen n à inom kvantitativa strategier kan man undersöka detta genom att

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten Agenda Statistik Termin 11, Läkarprogrammet, VT14 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Martin Cernvall martin.cernvall@pubcare.uu.se Grundläggande

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 3 Statistiska metoder 1 Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation?

Läs mer

Gamla tentor (forts) ( x. x ) ) 2 x1

Gamla tentor (forts) ( x. x ) ) 2 x1 016-10-10 Gamla tentor - 016 1 1 (forts) ( x ) x1 x ) ( 1 x 1 016-10-10. En liten klinisk ministudie genomförs för att undersöka huruvida kostomläggning och ett träningsprogram lyckas sänka blodsockernivån

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Biostatistik kursmål Dra slutsatser utifrån basala statistiska begrepp och analyser och själva kunna använda sådana metoder.

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110319)

EXAMINATION KVANTITATIV METOD vt-11 (110319) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110319) Examinationen består av 10 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

ANOVA Faktoriell (tvåvägs)

ANOVA Faktoriell (tvåvägs) ANOVA Faktoriell (tvåvägs) Faktoriell ANOVA (tvåvägs) Två oberoende variabel ( tvåvägs ): Nominalskala eller ordinalskala. Delar in det man undersöker (personerna?) i grupper/kategorier, dvs. betingelser.

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Statistiska samband: regression och korrelation

Statistiska samband: regression och korrelation Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel

Läs mer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Produktmomentkorrelationskoefficienten Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet. PM315 HT016 Emma äck Formelsamling Centralmått Typvärde T Median Md ritmetiska medelvärdet Det mest frekventa värdet Det mittersta värdet i en rangordnad fördelning = n Spridningsmått Variationsvidd (Range)

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten Agenda Statistik Termin 10, Läkarprogrammet, VT15 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Martin Cernvall martin.cernvall@pubcare.uu.se Grundläggande

Läs mer

FACIT (korrekta svar i röd fetstil)

FACIT (korrekta svar i röd fetstil) v. 2013-01-14 Statistik, 3hp PROTOKOLL FACIT (korrekta svar i röd fetstil) Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

Statistik Termin 10, Läkarprogrammet, HT16

Statistik Termin 10, Läkarprogrammet, HT16 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Statistik Termin 10, Läkarprogrammet, HT16 Martin Cernvall martin.cernvall@pubcare.uu.se Måndag 29/8 -

Läs mer

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK TERM Analytisk statistik Bias Confounder (förväxlingsfaktor)) Deskriptiv statistik Epidemiologi Fall-kontrollstudie (case-control study)

Läs mer

Följande resultat erhålls (enhet: 1000psi):

Följande resultat erhålls (enhet: 1000psi): Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.

Läs mer

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Kvantitativ forskning C2. Viktiga begrepp och univariat analys + Kvantitativ forskning C2 Viktiga begrepp och univariat analys + Delkursen mål n Ni har grundläggande kunskaper över statistiska analyser (univariat, bivariat) n Ni kan använda olika programvaror för

Läs mer

ANOVA Mellangruppsdesign

ANOVA Mellangruppsdesign ANOVA Mellangruppsdesign Envägs variansanlays, mellangruppsdesign Variabler En oberoende variabel ( envägs ): Nominalskala eller ordinalskala. Delar in det man undersöker (personerna?) i grupper/kategorier,

Läs mer

MSG830 Statistisk analys och experimentplanering

MSG830 Statistisk analys och experimentplanering MSG830 Statistisk analys och experimentplanering Tentamen 16 April 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel: Valfri

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl Karlstads universitet Avdelningen för nationalekonomi och statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

FACIT!!! (bara facit,

FACIT!!! (bara facit, STOCKHOLMS UNIVERSITET Psykologiska institutionen Psykologi III, VT 2012. Fristående kurs FACIT!!! (bara facit, inga tolkningar) Skrivning i Psykologi III metod, fristående kurs: Metod och Statistik avsnitt

Läs mer

Datorlaboration 2 Konfidensintervall & hypotesprövning

Datorlaboration 2 Konfidensintervall & hypotesprövning Statistik, 2p PROTOKOLL Namn:...... Grupp:... Datum:... Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-09-28 Tillåtna

Läs mer

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 11 december, Ansvarig lärare: Bengt Jansson ( , mobil: )

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 11 december, Ansvarig lärare: Bengt Jansson ( , mobil: ) GÖTEBORGS UNIVERSITET Psykologiska institutionen TENTAMEN PC1307 PC1546 Statistik (5 hp) Lördag den 11 december, 2010 Hjälpmedel: räknedosa Ansvarig lärare: Bengt Jansson (031 786 1696, mobil: 076 71 345

Läs mer

Mata in data i Excel och bearbeta i SPSS

Mata in data i Excel och bearbeta i SPSS Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 7 maj, 2011

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 7 maj, 2011 GÖTEBORGS UNIVERSITET Psykologiska institutionen TENTAMEN PC1307 PC1546 Statistik (5 hp) Lördag den 7 maj, 2011 Hjälpmedel: räknedosa Ansvarig lärare: Bengt Jansson (076 7134527) Tentamen omfattar totalt

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: ) GÖTEBORGS UNIVERSITET Psykologiska institutionen TENTAMEN PC1307 PC1546 Statistik (5 hp) Onsdag den 20 oktober, 2010 Tid: 9 00 13 00 Lokal: Viktoriagatan 30 Hjälpmedel: räknedosa Ansvarig lärare: Bengt

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Kritisk granskning av forskning

Kritisk granskning av forskning Om kursen Kritisk granskning av forskning ebba.elwin@psyk.uu.se 018-471 21 35 rum 14:366 (vån 3) Två veckors arbete, 3 hp Fördjupning i tidigare studier i forskningsmetodik Mål: kunskaper för att läsa,

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Industriell matematik och statistik, LMA136 2013/14

Industriell matematik och statistik, LMA136 2013/14 Industriell matematik och statistik, LMA136 2013/14 7 Mars 2014 Disposition r Kondensintervall och hypotestest Kondensintervall Statistika Z (eller T) har fördelning F (Z en funktion av ˆθ och θ) q 1 α/2

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistiska analyser C2 Inferensstatistik. Wieland Wermke + Statistiska analyser C2 Inferensstatistik Wieland Wermke + Signifikans och Normalfördelning + Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Uppgift a b c d e Vet inte Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TENTAMEN: Dataanalys och statistik för I, TMS136 Onsdagen den 5 oktober kl. 8.30-13.30 på M. Jour: Jenny Andersson, ankn 5317 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14 STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik 3 maj 013 Lösningar Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 3 maj 013 kl. 9 14 Uppgift 1 a Eftersom

Läs mer

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195. Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Multipel regression och Partiella korrelationer

Multipel regression och Partiella korrelationer Multipel regression och Partiella korrelationer Joakim Westerlund Kom ihåg bakomliggande variabelproblemet: Temperatur Jackförsäljning Oljeförbrukning Bakomliggande variabelproblemet kan, som tidigare

Läs mer

kodnr: 2) OO (5p) Klassindelningar

kodnr: 2) OO (5p) Klassindelningar kodnr: 1) KH (10p) a) Förklara innebörden av kausalitetsbegreppet i ett kvantitativt-metodologiskt sammanhang (2p) b) Förklara innebörden av begreppet nonsenssamband (2p) c) Argumentera för och motivera

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

Laboration 4: Hypotesprövning och styrkefunktion

Laboration 4: Hypotesprövning och styrkefunktion LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, AK FÖR L, FMS 032, HT-07 Laboration 4: Hypotesprövning och styrkefunktion 1 Syfte I denna laboration

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Kent W. Nilsson. Falun

Kent W. Nilsson. Falun Kent W. Nilsson Falun 2016 10 05 Att tänka statistiskt Förr, kunskap baserades på auktoriteter; Kungen, krykan m.m. Industriell- och teknisk revolution De som inte har möjlighet och kunskap att ta till

Läs mer

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar Marina Axelson-Fisk 23 maj, 2016 Tillämpningsområden Regression (Kap 11-12) Variansanalys och försöksplanering (Kap 13-14) Enkätanalyser

Läs mer

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT-2009 Laboration P3-P4 Statistiska test MH:231 Grupp A: Tisdag 17/11-09, 8.15-10.00 och Måndag 23/11-09, 8.15-10.00 Grupp B: Tisdag

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt. KOD: Kurskod: PC1244 Kursnamn: Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Sandra Buratti Tentamensdatum: 2013-09-27 Tillåtna hjälpmedel: Miniräknare Tentamen består

Läs mer

Inferensstatistik. Hypostesprövning - Signifikanstest

Inferensstatistik. Hypostesprövning - Signifikanstest 011-11-04 Inferensstatistik En uppsättning metoder för att dra slutsatser om populationers egenskaper (parametrar) med hjälp av stickprovs egenskaper (statistik) Hypostesprövning - Signifikanstest Ett

Läs mer

8 Inferens om väntevärdet (och variansen) av en fördelning

8 Inferens om väntevärdet (och variansen) av en fördelning 8 Inferens om väntevärdet (och variansen) av en fördelning 8. Skattning av µ och Students T-fördelning Om σ är känd, kan man använda statistikan X µ σ/ n för att hitta konfidensintervall för µ. Om σ inte

Läs mer

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt. Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod OCH Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2010-09-23 kl. 09:00 13:00

Läs mer

Konfidensintervall, Hypotestest

Konfidensintervall, Hypotestest Föreläsning 8 (Kap. 8, 9): Konfidensintervall, Hypotestest Marina Axelson-Fisk 11 maj, 2016 Konfidensintervall För i (, ). Hypotestest Idag: Signifikansnivå och p-värde Test av i (, ) när är känd Test

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer