Repetitionsföreläsning

Relevanta dokument
Repetitionsföreläsning

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Att välja statistisk metod

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

import totalt, mkr index 85,23 100,00 107,36 103,76

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Fråga nr a b c d 2 D

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

En kort instruktion för arbete i R Commander

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Lärandemål. Lärandemål forts.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Lektionsanteckningar 11-12: Normalfördelningen

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

En kort instruktion för arbete i SPSS

Hypotestestning och repetition

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

F22, Icke-parametriska metoder.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Statistik 1 för biologer, logopeder och psykologer

7.3.3 Nonparametric Mann-Whitney test

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

OBS! Vi har nya rutiner.

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Medicinsk statistik II

Medicinsk statistik II

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

7.5 Experiment with a single factor having more than two levels

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Föreläsning 12: Regression

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Studiehandledning. Statistik och kvantitativa undersökningar 15 HP. Höstterminen 2016

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Obligatorisk uppgift, del 1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Gamla tentor (forts) ( x. x ) ) 2 x1

a) Facit till räkneseminarium 3

Parade och oparade test

OBS! Vi har nya rutiner.

Lösningar till SPSS-övning: Analytisk statistik

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Statistik och epidemiologi T5

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning 12: Repetition

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Statistik Termin 10, Läkarprogrammet, HT16

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

2. Test av hypotes rörande medianen i en population.

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Studiehandledning. Statistik och kvantitativa undersökningar 15 HP. Höstterminen 2014

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Lösningsförslag till övningar

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Introduktion och laboration : Minitab

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Uppgift 1. Produktmomentkorrelationskoefficienten

Transkript:

Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning och mäter den tid det tar innan byxorna går sönder. Populationen är alla byxor som företaget tillverkar och kommer att tillverka av denna modell. Urvalet är de 100 par man väljer att testa Inferens handlar om hur man med hjälp av information från ett urval kan dra slutsatser om populationen. En variabel kan mätas på 4 olika typer av skalor, som har en inbördes rangordning utifrån hur mycket information vi har tillgång till: 1. Nominalskala Innehåller minst information 2. Ordinalskala De olika utfallen kan rangordnas 3. Intervallskala De olika utfallen kan rangordnas och avståndet mellan utfallen har en innebörd. 4. Kvotskala De olika utfallen kan rangordnas, avståndet mellan utfallen har en innebörd och noll betyder avsaknad av egenskapen. Skaltypen avgör vilka beräkningar, diagram och statistiska test som vi kan använda. Vi kan alltid använda en metod som är avsedd för en lägre skaltyp men aldrig en metod som är avsedd för en högre skaltyp. Oftast är det dock ett sämre alternativ att välja en metod som är avsedd för en lägre skaltyp. Undersökning av en variabel. Skaltyp Test av Test metod Intervallskala eller kvotskala Ordinalskala eller nominalskala Ordinalskala eller nominalskala Medelvärde Andel som har ett visst utfall Fördelning över variabelns alla utfall Hypotestest på medelvärde från en population Hypotestest på andel från en population Chi 2 Men i de här fallen är det oftast bättre att göra konfidensintervall. Test av en hypotes om vilken av två variabler i en population som är störst, test av beroende urval. (Vi har en grupp och jämför två variabler i den gruppen, för varje individ har vi då två utfall och kan beräkna differensen mellan dem) Skaltyp Test av Test metod Intervallskala eller kvotskala Ordinalskala Ordinalskala Medelvärde av differenser Vilket tecken som har störst rangsumma Vilket tecken har flest observationer t test på beroende urval Wilcoxons teckenrangtest teckentest 1

Testerna på föregående 2 slide är i första hand deskriptiva test. Vi testar om en variabel i en population ser ut på ett visst sätt eller vilken av två variabler som är störst. (Testerna om vilken variabel som är störst kan dock användas för att undersöka samband, exempelvis om de båda variablerna är hälsotillstånd före respektive efter en behandling. Vi ska nu övergå till analytiska test, finns det ett samband mellan två variabler. Om den ena av dessa båda variabler är en variabel mätt på nominalskala, kan vi använda den för att dela in populationen i två eller flera grupper och se om dessa avviker från varandra med avseende på den andra variabeln. På nästa slide sammanfattas de olika tester vi har för att jämföra olika grupper. Vi kan dela in grupperna med hjälp av en variabel som är mätt på nominalskala, men även från variabler mätta på högre skaltyper. Nominalskala Ordinalskala Kvotskala Att jämföra oberoende urval/populationer 2 populationer Flera populationer Hypotestest på andelar från två populationer, Chi 2 i korstabell Wilcoxon rangsummetest Hypotesttest på medelvärde och/eller varians från två populationer Chi 2 i korstabell Kruska Wallis ANOVA testet Att undersöka samband mellan två variabler mätta på ordinalskala: Om vi vill testa om två variabler har ett samband där båda variablerna mäts på minst ordinalskala kan vi använda Spearmans korrelationskoefficient för att mäta styrkan i sambandet. Dock fångas enbart linjära samband av korrelationskoefficienter. I det här fallet kan vi också klassindela den ena variabeln, använda den för att dela in materialet i grupper och göra en Kruska Wallis. Det är en svagare test i den meningen att vi inte utnyttjar informationen om att utfallen kan rangordnas på den variabel vi använder till gruppindelning. Men vi kan fånga icke linjära samband och vi får resultaten redovisat per grupp. Vi kan också klassindela båda variablerna och använda chi2 i korstabell. Testen blir ännu svagare men vi får frekvenserna redovisade parvis för variablerna. Dessa tre tester kan komplettera varandra. Att undersöka samband mellan två variabler mätta på intervall eller kvotskala. Om vi vill testa om två variabler har ett samband där båda variablerna mäts på minst intervallskala kan vi använda pearssons korrelationskoefficient för att mäta styrkan i sambandet. Om vi kan utesluta en kausal påverkan i en av riktningarna, dvs om vi kan hävda att den ena variabeln är oberoende av den andra och därmed säga att det är den beroende variabeln som beror av oberoende kan vi beräkna hur stor den kausala effekten är genom att beräkna en regressionskoefficient. Men hjälp av en multipel regressionsmodell kan vi beräkna storleken på den kausala effekten från var och en av de oberoende variablerna givet att övriga oberoende variabler är oförändrade. Detta är vår kaxigaste metod. Vi säger inte enbart att det finns ett samband utan beräknar också storleken på kausala effekter. Därmed behöver vi starka antaganden som ska vara uppfyllda och intervall eller kvotskala på variablerna. (Eller dummyvariabler som oberoende variabler) Några exempel på metodval: Övning 19d, icke parametriska Erbjuder de hotell som tillhör en kedja mer eller mindre relevant kompetensutbildning till sin personal? nominalskala ordinalskala 2

Att jämföra oberoende urval/populationer Några exempel på metodval: Nominalskala Ordinalskala Kvotskala 2 populationer Flera populationer Hypotestest på andelar från två populationer, Chi 2 i korstabell Wilcoxon rangsummetest Hypotesttest på medelvärde eller varians från två populationer Chi 2 i korstabell Kruska Wallis ANOVA testet Övning 19c, icke parametriska Är yngre anställda mer eller mindre nöjda med relevansen i den kompetensutbildning som arbetsgivarna arbjuder kvotskala ordinalskala Spearmans rangkorrelationskoefficient är möjlig eftersom båda variablerna har minst ordinalskala. (Dock ej pearsons korrelationskoefficient) Om sambandet är icke linjärt kan Kruska Wallis avslöja att de i mellangruppen anser kompetensutbildningen mindre relevant. (I så fall delar i in åldersgrupper) Några exempel på metodval: Övning 19b, icke parametriska Har stora hotell yngre anställda än små hotell? kvotskala Vi kan använda regressionsanalys eftersom båda variablerna har kvotskala. Om sambandet är icke linjärt kan vi prova en kvadratisk modell eller en log linjär modell. (Vi kan dela in hotellen i grupper efter hur många anställda de har och göra ANOVA analys eller klassindela båda och göra korstabell, men eftersom regressionsanalys är vår kraftfullaste metod är det svårt att argumentera för något annat.) En forskare vill undersöka om det går att lindra huvudvärk med hjälp av en ny behandling. Han drar ett slumpmässigt urval av 11 patienter som har sökt för problem med återkommande huvudvärk. Patienterna får ange sina huvudvärksproblem på en skala mellan 1 och 10, där 10 är stora problem och 1 små problem, före respektive efter en tioveckors behandling med den nya metoden. Gör en hypotestest för att se om vi kan bevisa att behandlingen har effekt på huvudvärk. Använd 5 % signifikansnivå. : Behandlingen har ingen effekt på huvudvärk. : Huvudvärken antingen förbättras eller försämras av behandlingen. Här har vi två variabler mätta på ordinalskala, men vi ska inte se om de korrelerar utan om den ena är större än den andra. Därför är det inte spearmans korrelationskoefficient i det här fallet. Test av en hypotes om vilken av två variabler i en population som är störst, test av beroende urval. (Vi har en grupp och jämför två variabler i den gruppen, för varje individ har vi då två utfall och kan beräkna differensen mellan dem) Att använda Chi 2 på korstabeller i RCommander Välj Contingency tables / Two way table i Statistics menyn. Skaltyp Hypotes om Test metod Finns det något samband mellan kedjetillhörighet och lokalisering? Intervallskala eller kvotskala Medelvärde av differenser t test på beroende urval Skiljer sig kedjornas marknadsandelar åt mellan Pennsylvania och New Jersey? Ordinalskala Vilket tecken som har störst rangsumma Wilcoxons teckenrangtest Ordinalskala Vilket tecken har flest observationer teckentest 3

Att använda Chi 2 på korstabeller i RCommander Välj Contingency tables / Two way table i Statistics menyn. Att använda Chi 2 på korstabeller i RCommander Ange vilken variabel du vill ha i raderna Bocka för Chi square test of independence Bocka för Print expected frequencies Ange vilken variabel du vill ha i kolumnerna. Vi kan prova en korstabell med relativa frekvenser, Bocka för Row percentage H 0 : Lokalisering och kedjetillhörighet är oberoende variabler. H 1 : Lokalisering och kedjetillhörighet är beroende variabler. Förväntade frekvenser under H 0 New jersey Pennsylvania total Burger King 124,7 30,3 155 King Fried Chicken 61,9 15,1 77 Roy Roger 68,4 16,6 85 Wendys 45,0 11,0 56 total 300 73 373 56 300 373 f 0 f e f 0 f e BK NJ 125 124.7 0.3 0.001 BK PENN 30 30.3 0.3 0.003 KFC NJ 65 61.9 3.1 0.155 KFC PENN 12 15.1 3.1 0.636 RR NJ 69 68.4 0.6 0.005 RR PENN 16 16.6 0.6 0.022 WENDYS NJ 41 45.0 4 0.356 WENDYS PENN 15 11.0 4 1.455 totalt 373 373 2.632 I en uppsats klistrar vi inte in datautskriften utan gör en tabell ungefär så här, p värdet anges i undertexten till tabellen eller direkt i texten. 4

I en uppsats klistrar vi inte in datautskriften utan gör en tabell ungefär så här, p värdet anges i undertexten till tabellen eller direkt i texten. Spearmans rangkorrelationskoefficient i R Commander Om Chi 2 analysen hade varit signifikant hade det varit bra med en korstabell med relativa frekvenser, nu är det lite överflödigt eftersom vi inte bevisat några skillnader. Analys av ordinaldata Wilcoxon teckenrangtest för beroende urval (Signed-Rank Test for dependent samples) En forskare vill undersöka om det går att lindra huvudvärk med hjälp av en ny behandling. Han drar ett slumpmässigt urval av 11 patienter som har sökt för problem med återkommande huvudvärk. Patienterna får ange sina huvudvärksproblem på en skala mellan 1 och 10, där 10 är stora problem och 1 små problem, före respektive efter en tioveckors behandling med den nya metoden. Gör en hypotestest för att se om vi kan bevisa att behandlingen har effekt på huvudvärk. Använd 5 % signifikansnivå. : Behandlingen har ingen effekt på huvudvärk. : Huvudvärken antingen förbättras eller försämras av behandlingen. Vi kan se att 6 av 9 personer upplevde en förbättring före efter Diff Absolut diff Rank R+ R- 8 5 3 3 7,5 7,5 5 5 0 - - - - 3 2 1 1 3 3 6 4 2 2 6 6 4 5-1 1 3 3 2 3-1 1 3 3 5 2 3 3 7,5 7,5 4 3 1 1 3 3 3 3 0 - - - - 2 3-1 1 3 3 8 3 5 5 9 9 Summa 36 9 Wilcoxon teckenrangtest i R Commander Paired Wilcoxon test Välj de variabler vi ska jämföra, i detta fall before and after. 5

I en enkätundersökning om elbesparing ställdes bl a följande frågor Hur stor var den uppskattade elförbrukningen för hushållet under år 2009? Här fick man välja mellan ett antal olika förbrukningsmängder men kunde också kryssa i vet ej. Jag har vidtagit följande energibesparande åtgärder. Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Hypoteser: H 0 : De som känner till sin elförbrukning använder lågenergilampor i lika stor utsträckning som de som inte känner till sin elförbrukning. H 1 : De som känner till sin elförbrukning använder lågenergilampor i större eller mindre utsträckning än de som inte känner till sin elförbrukning. Är det så att de som vet hur mycket el de förbrukar använder lågenergilampor i större utsträckning? Om man är intresserad av energibesparing borde man veta hur mycket el man gör åt och man borde använda lågenergilampor 6

Wilcoxon rangsummetest i RCommander Välj Nonparametric tests / Two sample Wilcoxon test i Statistics menyn Wilcoxon rangsummetest i RCommander Välj Nonparametric tests / Two sample Wilcoxon test i Statistics menyn Användning av lågenergilampor Vet sin elförbrukning Jämförelser av flera oberoende urval vid ordinaldata: Kruskal Wallis test, Analysis av variances by ranks När vi testade medelvärden från flera olika populationer med hjälp av ANOVA test, var det ett krav att variabeln var mätt på kvotskala. Om variabeln är mätt på ordinalskala kan vi inte använda det testet, ett alternativ är då att använda Kruska Wallis test. Låt oss ta ett exempel från samma enkätundersökning om elbesparing men nu använder vi alla svaren från de som visste sin elförbrukning och delar in dem i tre grupper utifrån sysselsättning: arbetar, studerar och övriga. H 0 : De 3 grupperna använder lågenergilampor i lika stor utsträckning. H 1 : Minst 1 grupp avviker i användningen av lågenergilampor. Kruskal Wallis test i RCommander Välj Nonparametric tests / Kruska Wallis test i Statistics menyn Vi kan dela in grupperna efter sysselsättning istället. F_5A I vilken utsträckning använder du lågenergilampor? F_12tre Sysselsättning Kruskal Wallis test i RCommander Välj Nonparametric tests / Kruska Wallis test i Statistics menyn Vi kan testa frågan om att släcka lampor istället. F_5B I vilken utsträckning släcker du alla lampor i rum där ingen är? F_12tre Sysselsättning 7

Sammanfattning av regressionsanalys: Att tolka regressionskoefficienterna Om den beroende variabeln är en icke logaritmerad variabel och den oberoende variabeln är: En vanlig kvantitativ variabel: Ökningen av Y när X ökar med en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler. En kvadrerad variabel. Parametern före den okvadrerade variabeln ger oss effekten av X på Y när X är lågt. Parametern före den kvadrerade variabeln ger oss förändringen av effekten av X på Y när X ökar. Sammanfattning av regressionsanalys: Att tolka regressionskoefficienterna Om den beroende variabeln är en logaritmerad variabel och den oberoende variabeln är: Också en logaritmerad variabel Den procentuella ökningen av Y när X ökar en procent, vid oförändrade värden på övriga oberoende variabler. En vanlig kvantitativ variabel: Antilog av koefficienten minus ett och multiplicerat med hundra ger oss den procentuella ökningen av Y när X ökar en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Antilog av koefficienten minus ett och multiplicerat med hundra ger oss den procentuella skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler. Sammanfattning av regressionsanalys: 3,2 1,5 0,11 10, 1,29 Om x 1 ökar med en procent ökar y med 1,5 procent, vid oförändrade värden på övriga oberoende variabler. Om x 2 ökar med en enhet ökar y med 29 procent, vid oförändrade värden på övriga oberoende variabler. Om x 2 är en dummy: skillnaden mot referenskategorin är 29 procent, vid oförändrade värden på övriga oberoende variabler. Att tolka regressionskoefficienter när variablerna är andelar. Y = antal allergiker per 100 000 invånare. X = antal personer som bor i städer per 100 000 invånare Att tolka regressionskoefficienter när variablerna är andelar. Y = andel allergiker. X = andel som bor i städer. tolkas som ökningen av antal allergiker per 100 000 invånare, om andelen som bor i städer ökar med 1 person per 100 000 invånare. tolkas som ökningen av andelen allergiker om andelen som bor i städer ökar med 1. Dock en lite märklig tolkning eftersom en andel knappast kan öka med ett. Bättre att dela med 10 (eller hundra) och göra tolkningen om andelen som bor i städer ökar med en tiondel (eller en hundradel, dvs en procentenhet). 8

Att tolka regressionskoefficienter när variablerna är andelar. Y = andel allergiker, procent. X = andel som bor i städer, procent. tolkas som ökningen av andelen allergiker uttryckt i procentenheter om andelen som bor i städer ökar med en procentenhet. log log tolkas som procentuella ökningen av andelen allergiker om andelen som bor i städer ökar med en procent. Antag att vi får följande resultat: 0,4 Om andelen som bor i städer ökar med en procentenhet ökar andelen allergiker med 0,4 procentenheter. log 4 log Om andelen som bor i städer ökar med en procent ökar andelen allergiker med fyra procent. I ett land där 50 % av befolkningen bor i städer och 5 % är allergiker innebär första regressionsmodellen att: Om andelen som bor i städer ökar till 51 % ökar andelen allergiker till 5,4 % Andra regressionsmodellen att Om andelen som bor i städer ökar till 50,5 % ökar andelen allergiker till 5,2 % ( 51% => 5,4% ) Problem som kan uppstå vid regressionsanalys. Ej normalfördelade residualer Heteroskedasticitet Endogenitet Multikollinearitet Felspecificerad modell linjär icke linjär felaktigt utelämnade oberoende variabler Sannolikhetslära Sannolikhet är ett tal mellan noll och ett som beskriver hur stor chans det är att något händer. Olika sätt att bestämma sannolikheter Klassisk sannolikhetsteori Fungerar enbart om alla utfall har samma sannolikhet Olika sätt att bestämma sannolikheter Empirisk sannolikhetsteori Baseras på historiska realiserade utfall. Sannolikheten för ett specifikt utfall: 1 ö Sannolikheten för en händelse: å ä ö Sannolikheten för en händelse: å ä å ö The law of large numbers : Ju fler gånger ett försök utförs desto säkrare blir den empiriska sannolikheten 9

Räkneregler för sannolikheter Slumpvariabel - random variable. En kvantitet (eller kategori) som är resultatet av ett experiment och som kan anta olika värden. Diskret slumpvariabel - discrete random variable. En slumpvariabel som enbart kan anta vissa distinkta värden. Kontinuerlig slumpvariabel - continous random variable. En slumpvariabel som kan anta alla värden inom ett intervall. Egenskaper hos en sannolikhetsfördelning. En sannolikhetsfördelning är ett sätt att visa en slumpvariabels alla utfall och de olika utfallens sannolikheter. Sannolikheten för ett enskilt utfall är ett tal mellan 0 och 1. Utfallen är ömsesidigt uteslutande händelser. Summan av sannolikheten för alla möjliga utfall är 1 Några specialfall av diskreta sannolikhetsföredelningar: Uniform diskret sannolikhetsfördelning. Alla utfall har samma sannolikhet Binomial sannolikhetsfördelning Vi räknar något och sannolikheten att det vi räknar ska uppkomma är hela tiden densamma Hypergeometrisk sannolikhetsfördelning Vi tar ett urval av en population utan återläggning och räknar antalet som har en viss egenskap Poisson fördelningen ingår ej i kursen Kontinuerliga sannolikhetsfördelningar 1. Uniform sannolikhetsfördelning 2. Normalfördelning Sannolikhetsfunktion för en uniform fördelning. (Density function) Sannolikheten att x hamnar mellan c och d är lika med den andel av arean som ligger mellan c och d. 3. Exponentialfördelning 1 b - a P c x d d - c b - a Senare kommer vi att gå igenom fler kontinuerliga sannolikhetsfördelningar: fördelningen Chi2 fördelningen F fördelningen a c d b 10

The Empirical Rule Vad är sannolikheten att ur den standardiserade normalfördelningen dra ett tal som är mindre än 2? 2.00 0 2.00 0.00 0 2.00 0.5 0.4772 0.5 0.9772 Ett annat exempel: Vad är sannolikheten att ur den standardiserade normalfördelningen dra ett tal som är mindre än minus 1,5. 1.5 1.5 0.5 0 1.5 0.5 0 1.5 0.5 0.4332 0.0668 Alla normalfördelningar kan konverteras till den standardiserade normalfördelningen. Exempel på beräkning Antag att svenska kroppslängden hos svenska män är normalfördelad med medelvärdet 181 cm och standardavvikelsen 6 cm. Kroppslängden hos svenska män kan noteras som: 181,6 Hur stor andel av svenska män är längre än 187.4 cm? 187,4 181 6,4 z 1,07 6 6 P x 187.4 P z 1,07 0.5 P 0 z 1,07 11

Alla normalfördelningar kan konverteras till den standardiserade normalfördelningen. Exempel på beräkning Antag att svenska kroppslängden hos svenska män är normalfördelad med medelvärdet 181 cm och standardavvikelsen 6 cm. Hur stor andel av svenska män är längre än 187.4 cm? Kroppslängden hos svensk män kan noteras som: 181,6 187,4 181 6,4 z 1,07 6 6 P x 187.4 P z 1,07 0.5 P 0 z 1,07 0.5 0.3577 0. 1423 14 % av svenska män är längre än 187.4 cm Beräkning av index över sysselsättningen i Sverige år antal sysselsatta Index 2005 4 262 600 100,0 2006 4 340 600 101,8 2007 4 444 500 104,3 2008 4 484 100 105,2 2009 4 380 800 102,8 2010 4 429 400 103,9 4 262 600 4 262 600 100 4 484 100 4 262 600 100 4 429 400 4 262 600 100 Laspeyre Prisindex, Där: 100. p 0 = Pris vid tidpunkt 0. p t = Pris vid tidpunkt t. q 0 = Kvantitet vid tidpunkt 0. q t = Kvantitet vid tidpunkt t Paasches Prisindex, 100 Det år då indexet sätts till 100 kallas basår, i det här fallet 2005. Jordgubbar Pris per liter Jordgubbar Antal sålda liter Yougurt Pris per liter Yougurt Antal sålda liter Laspeyres 22 50 33 130 100 140 20 50 22 130 År 1 År 2 prisökning 20 22 10% 50 000 60 000 22 33 50% 130 000 95 000 Paasche 22 60 33 95 100 135 20 60 22 95 År A B 1 2% 1% 2 1.5% 0.5% 3 2.5% 1% 4 3% -0.5% 5 2% 1% 6 1% 1.5% Principen för kedjeindex Antag att A och B är två variabler för vilka vi inte känner nivån men vet den årliga förändringen. Årlig förändring Index serier, basår:1 År A B 1 100 100 2 101,5 100,5 3 104,0 101,5 4 107,2 101,0 5 109,3 102,0 6 110,4 103,5 107,2 1,02 101,5 0,995 12

Användning av prisindex ö ö 100 ä ä ä 100 13