1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap. a) Astronomer bestämmer avståndet till en fjäran galax genom att mäta avståndet till ett fåtal stjärnor inom galaxen och sedan räkna medelavståndet till dessa stjärnor. b) Medicin X används för att behandla allergisymptomer. I en undersökning behandlades374 barn mellan3 till 11 årmed 100 μgavmedicinx. 17% av dessa barn fick huvudvärk under experimentet. 1
1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap. a) Astronomer bestämmer avståndet till en fjäran galax genom att mäta avståndet till ett fåtal stjärnor inom galaxen och sedan räkna medelavståndet till dessa stjärnor. Populationen är alla stjärnor i galaxen som betraktas. Stickprovet är fåtalet stjärnor vars avstånd uppmätts. Stickprovsegenskapen är avståndet mellan oss och stjärnorna i stickprovet. Rådata är alla avstånd mellan oss och varje stjärna i stickprovet. Populationsegenskap är avståndet mellan oss och populationen, dvs alla stjärnor i galaxen. 2
1) I följandestudier a) ochb) identifierapopulationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap. b) Medicin X används för att behandla allergisymptomer. I en undersökning behandlades374 barn mellan3 till 11 årmed 100 μgavmedicinx. 17% avdessabarn fickhuvudvärkunder experimentet. Populationenärallabarn somharallergisymptomer. Stickprovet består av 374 barn som är med i undersökningen. Stickprovsegenskapen är andelen barn som får huvudvärk av medicinen. Rådataärlistanpåallabarn ochresultatetförvarjebarn omde fick huvudvärk eller inte. Populationsegenskap är andelen barn med allergisymptomer som får huvudvärk av medicinen. 3
2) Bestäm om följande påståenden har betydelse(eller sanna) eller har ingen betydelse(eller falska). a) Ny Produkt. Vår marknadsavdelning undersökte 1003 kunder om deras inställning gentemot en av våra nya produkter. Pga den stora entusiasmen för att köpa produktenbland demundersöktapersonerna, bestämdevi ossattlanseraden nyaproduktenihelalandet. b) En ny privat statistikbyrå vill etablera sig på marknaden och erbjuder undersökningar för samma pris med större felstaplar än andra byråer. c) En opinionsundersökning utförd två veckor förre valet visade att parti A skulle ledamed 52% avrösternamed en osäkerhetpå3%. I valet förloradedock partia med 46%. Dettabevisarinkompetenshos företagetsomutfördeundersökningen. d) En TV undersökning fick 100 000 personer med i undersökningen. Ett företag specialiseratpåundersökningarställdesammafrågatill endast997 personer. TV undersökningen har betydligt större statistiskt underlag och är därför mycket tillförlitligare än företagets undersökning. 4
2) Bestäm om följande påståenden har betydelse (eller sanna) eller har ingen betydelse (eller falska). a) Ny Produkt. Vår marknadsavdelning undersökte 1003 kunder om deras inställning gentemot en av våra nya produkter. Pga den stora entusiasmen för att köpa produkten bland dem undersökta personerna, bestämde vi oss att lansera den nya produkten i hela landet. Undersöknigen gick ut på att bestämma andelen av befolkning som är intresserad av att köpa den nya produkten. Man gjorde en undersökning på ett stickprov av 1003 personer. Om stickprovet är representativt av hela landets befolkning så kan man med viss statistisk säkerhet säga att andelen intresserade människor i hela landet kommer vara densamma. Det är då rimligt att anta det kommer även vara stort intresse i hela landet och lansera produkten i hela landet. 5
2) Bestäm om följande påståenden har betydelse(eller sanna) eller har ingen betydelse(eller falska). b) En ny privat statistikbyrå vill etablera sig på marknaden och erbjuder undersökningar för samma pris med större felstaplar än andra byråer. Sammaprisärbra men störrefelstaplarbetyderattdetärstörreosäkerhetpå undersökningarnas resultat. Det är då svårare att dra slutsatser och att använda resultatet. Det är ett meningslöst försäjlningsargument. 6
2) Bestäm om följande påståenden har betydelse (eller sanna) eller har ingen betydelse (eller falska). c) En opinionsundersökning utförd två veckor förre valet visade att parti A skulle leda med 52% av rösterna med en osäkerhet på 3%. I valet förlorade dock parti A med 46% av rösterna. Detta bevisar inkompetens hos företaget som utförde undersökningen. Frågan är det finns rimliga faktorer som kan förklara skillnaden mellan valresultatet 46% och 52%. Man kan börja med att titta på osäkerheten i undersökningen som var 3%. Skillnaden mellan opinionsundersökningen och valresultat är 6% vilket betyder 2 standardavvikelser. Sannolikheten för statistiskfluctutation av 2 standardavvikelser är 5% och är därför inte så osannolikt, sånt inträffar naturligt i ett val i 20. Man bör dessutom lägga märke till att opinionsundersöknigen utfördes 2 veckor före valet. Det ger en extra osäkerhet eftersom opionen kan ha ändrats från 52% till något annat under de två veckorna. Det är då inte tillräckliga grunder för att anklaga undersökningsföretaget om inkompetens eller felaktigheter i undersökningen. 7
2) Bestäm om följande påståenden har betydelse (eller sanna) eller har ingen betydelse (eller falska). d) En TV undersökning fick 100 000 personer med i undersökningen. Ett företag specialiserat på undersökningar ställde samma fråga till endast 997 personer. TV undersökningen har betydligt större statistiskt underlag och är därför mycket tillförlitligare än företagets undersökning. Ett företag som är specialiserat på undersökningar bör användas av moderna metoder för att välja representativa stickprov. Stickprovsmetodiken bör dessumtom vara offentlig så att den kan kontrolleras. TV undersökningen har betydligt större statistiskt underlag, men det finns ingen garanti på att den inte ger en snedvriden bild av egenskapen man vil bestämma hos populationen. Skulle undersökningen handla till exempel om vem har en TV apparat, eller villen andel av befolkningen befinner sig hemma just då detta TV program visas då blir resultatet helt missvisande. 8
3) I följande exempel bestäm vad är det bästa sättet att välja ett stickprov som passar i den frågan som undersöks. Förklara sedan varför de andra urvalskriterier skulle ge fel svar. 3a) Man vill bestämma de genomsnittliga skulderna för vuxna personer med kreditkort i landet. i) Stockholms bilförare med en registrerad miljöbil. ii) De första 1000 invånare med i Luleås telefonkatalog. iii) De första 1000 invånare i en fullständig lista av alla telefonnummer i Sverige. iv) Invånare som är folkbokförda i Blekinge och som svarade per post till undersökningen som publicerades i Blekinge Afton Nyheter. 9
3a) Man vill bestämma de genomsnittliga skulderna för vuxna personer med kreditkort i landet. i) Stockholms bilförare med en registrerad miljöbil. ii) De första 1000 invånare med i Luleås telefonkatalog. iii) De första 1000 invånare i en fullständig lista av alla telefonnummer i iv) Invånare som är folkbokförda i Blekinge och som svarade per post till undersökningen som publicerades i Blekinge Afton Nyheter. Sverige. i, ii, iv) är snäva sätt att bygga stickprove, eftersom dessa kriterier är inte okorrelerad med privatekonomin i stickprovet, som kan tex bero på kommun eller också är relaterad till om man har bil eller inte. iv) utöver den geografiska faktorn i i) och iv) finsn det andra faktorer som utesluter stora delar av befolkningen, tex människor som inte har en miljöbil eller som inte läser Blekinge Afton Nyheter. iii) är bättre eftersom det finns inget uppenbart samband mellan att man har ett telefonnummer och ens kreditkort skulder. Det är dock inte perfekt eftersom en del människor inte har någon telefon. Man kan också tänka sig att det finns ett samband mellan efternamn och privatekonomin, och då behöver inte de 1000 första namn i alfabetordning vara representativa för hela befolkingen. 10
3) I följande exempel bestäm vad är det bästa sättet att välja ett stickprov som passar i den frågan som undersöks. Förklara sedan varför de andra urvalskriterier skulle ge fel svar. 3b) Man vill utföra en undersökning för att uppskatta andelen röstberättigade svenskar som troligt kommer att rösta på ett parti P. i) Alla röstberättigade personer i Sverige. ii) Alla röstberättigade i Älvsbyns. iii) Alla röstberättigade personer som svarar på en webbundersökning tillgänglig från hemsidan för en rikstäckande dagstidning. iv) Var tusende person i en fullständig lista över alla röstberättigade personer i landet. 11
3b) Man vill utföra en undersökning för att uppskatta andelen röstberättigade svenskar som troligt kommer att rösta på ett parti P. i) Alla röstberättigade personer i Sverige. ii) Alla röstberättigade i Älvsbyns. iii) Alla röstberättigade personer som svarar på en webbundersökning tillgänglig från hemsidan för en rikstäckande dagstidning. iv) Var tusende person i en fullständig lista över alla röstberättigade personer i landet. Partistödet kan variera mellan olika kommuner därför kommer troligtvis en undersökning i Älvsbyns inte vara representativt för hela landet (ii). En webbundersökning (iii) når bara människor som har en dator och i detta fall dessutom bara människor som läser just denna webbtidning. Det finns ingen garanti på att detta är representativt för hela befolkningen. Det skulle vara mycket bra om man kunder undersöka alla röstberättigade personer i Sverige men det är alldeles för svårt att göra för varje undersökning. Det är dessutom onödigt, eftersom ett representativts stickprov räcker. Har man en fullständig lista över alla rösberättigade människor i landet då kan man antingen plocka stickprov på ett slumpmässigt sätt bland dessa eller också var tusende namn bör inte ge ett snävt stickprov. 12
4) Vi betraktar ett experiment där man försöker bestämma om skolnärvaro kan höjas mha av pengar incitament till tonåringar. Forskaren studerar två grupperav100 elever. I enagruppenerbjuderhon100 kronor förvarjevecka avperfektnärvaro. I den andragruppenfårelevernavetaattde ärmed i experimentet, men kommer inte få ut några pengar. a) Vilken grupp är kontrollgruppen och vilken är testgruppen? b) Bestäm om experimentet är singel-blind, dubbel-blind eller inte allas blind, och förklara varför. c) Vadkanman förväntasig omplacebo effektenidethärfallet? d) Hur skulle man kunna uppskatta placeboeffekten? 13
a) Vilken grupp är kontrollgruppen och vilken är testgruppen? Kontrolgruppen är den som inte får någon särskild behandling i detta fall de som inte får extra veckopeng. Testgruppen är den som får behandlingen i det här fallet de som får extra pengar i utbyte mot perfekt närvaro. b) Bestäm om experimentet är singel-blind, dubbel-blind eller inte allas blind, och förklara varför. Experimentet är inte blind eftersom eleverna vet om det får behandlingen eller ej i förhand. För att vara dubbelblind, skulle forskaren inte veta vilka elever som får eller inte får extra pengar. Så experimentet är inte alls blind. c) Vad kan man förvänta sig om placebo effekten i det här fallet? Placeboeffekten är när man observera en positiv effekt pga en grupp tror sig få behandlingen. I det här fallet eftersom experimentet inte är blind så kan inte kontrollgruppen få någon placeboeffekt. I testgruppen skulle det kunna finnas en viss placeboeffekt dvs elever vars närvaro påverkas av att vara med i experimentet. d) Hur skulle man kunna uppskatta placeboeffekten? Man skulle kunna ha en tredje grupp kontroll grupp B som får extra veckopengar oavsett om de får perfekt närvaro eller inte. Genom att jämföra kontrollgruppen och kontrollgrupp B kan man se om det finns en viss effekt av att dela ut pengar oavsett närvarokravet, det skulle isåfall utgöra en placeboeffekt. Därefter kan man jämföra testgruppen med kontrollgrupp B. 14
5) I ett experiment observerar man en placebo effekt i en behandling för att ta hand om vårtor. Vilken eller vilka av dessa påståenden stämmer: i) Experimentet var inte ordentligt utfört på med dubbel-blind metoden. ii) Test och kontrollgruppen var för små. iii) Vårtor blev läkta i kontrollgruppen. Det visar sig att experimentet var utfört med blind metoden men inte dubbelblindmetoden. a) Att experimentet var blint men inte dubbelblint, vad är skillnaden? b) Varför är det svårt att skilja mellan placeboeffekten och den riktiga effekten när man inte använder dubbelblind metoden? 15
5) I ettexperiment observerarman en placeboeffektien behandlingförattta hand om vårtor. Vilken eller vilka av dessa påståenden stämmer: i) Experimentet var inte ordentligt utfört på med dubbel-blind metoden. ii) Test och kontrollgruppen var för små. iii) Vårtor blev läkta i kontrollgruppen. i) Beskrivningen säger att man observerar en placeboeffekt. Det betyder att man kunnat fastställa att det finns en positiveffekt även i kontrollgruppen. För att detta ska kunna ske så måste det vara troligt för människor i kontrollgruppen att de får den riktiga medicinen. Därför är experimentet säkert dubbel-blind för att man ska överhuvudtaget kunna dra slutsatsen om att det finns en placeboeffekt. ii) Skulletest ochkontrollgruppenvaraförsmåsåskulledetpåverkaden statistiskasignificanseniexperimentet. Detharingentingmed påsåendet om placeboeffekt att göra. iii) Att man observerat en placeboeffekt betyder att människorna blev bättre även utan den riktiga behandlingen. Dvs människorna i kontrollgruppen blev läkta. 16
6) På 1960-talet utfördes experiment för att undersöka om det verkligen gick för människor att hitta vattenkällor med en slagruta eller att känna av mycket små magnetfält. Det sägs att vissa har förmågan att detektera mycket små magnetfält och på detta sätt skulle kunna detektera vattenkällor. Den första experimentserien utförs av professor Y på följande sätt: Professor Y närvarar hela tiden under experimentet, och för varje nytt försök kunde professor Y slå på eller av magnetfältet som han ville. En testperson sitter i samma rum och försöker känna av om magnetfältet är av eller på. Testpersonen sitter mittemot professor Y, men professor Ys hand är gömd så att testpersonen inte kan se om professorn gör något med magnetknappen. Denna experimentserie visade på ett statistiskt signifikant sätt att testpersonen fick betydlig fler rätt än fel. En annan experimentserie anordnas av en annan professor Z: Professor Z medverkar inte direkt i experimentet. Det är nu två personer med i experimentet: en testperson som försöker gissa om magnetfältet är av eller på och en assistant som slår på eller av magnetfältet. Assistenten vet inte om knappen han trycker på slår magnetfältet på eller av och måste följa en given tidtabell så att han slå om magneten en gång i minuten med också schemalagda pauser. I detta experiment fick alltid testpersonen ungefär lika många rätt som fel svar. a) Varför ger experimenten olika resultat? b) Hur kallar man den experimentella metoden som används i den första mätserien? Är det samma metod i den andra mätserien? c) Blir det andra experimentet bättre eller sämre om professor Z ersätts av professor Y? d) Blir det första experimentet bättre eller sämre om professor Y ersätts av professor Z istället? e) Vilket/vilka experiment kan man lita på och varför? 17
a) Varför ger experimenten olika resultat? I båda experiment är det en person som slår på eller av magnetfältet. I det första experimentet vet personen (Professor Y) vad han gör, medan i det andra experimentet assistenten vet inte om det han gör slår på eller av magnetfältet. Det kan jämföras med medicinska undersökningar där patienten inte vet om han är med i kontroll eller testgruppen, men läkaren vet det och då kan det påverka attityder hos läkaren som kan avläsas av patienten. b) Hur kallar man den experimentella metoden som används i den första mätserien? Är det samma metod i den andra mätserien? Den första experimentserien är blind men inte dubbelblind, dvs professor Y vet om han slår på magnetfältet eller inte. I det andra experimentet använder man dubbelblind metoden, eftersom även assistenten inte vet om han slår magneten på eller av. 18
c) Blir det andra experimentet bättre eller sämre om professor Z ersätts av professor Y? I det andra experimentet är professorn roll bara att anordna experimentet men det är inte professorn som slår på eller av magneten. Därför spelar det ingen roll om det är professor Z eller Y som anordnar experimentet. Experimentet är oberoende av det. d) Blir det första experimentet bättre eller sämre om professor Y ersätts av professor Z istället? I det första experimentet är professorn direkt involverad och beroende på hans attityd går att avläsa av testpersonen kan testpersonen möjligtvis gissa om magneten slås på eller inte. Men det kan beror på professor som sitter där, hans attityd och så vidare. Man kan säga att resultatet kommer att bero på vem som utför experimentet, och därför kan inte resultatet betraktas som allmänt giltigt. e) Vilket/vilka experiment kan man lita på och varför? I det första experimentet är resultatet inte allmänt gilltigt och kan bero på vem som utför det. Det andra experimentet är oberoende av vem som utför det. Därför kan man litat på det andra experimentet, men det är ingen garanti att resulatet från det första experimentet kan upprepas. 19
7) Vi försöker räkna sannolikheten för att en hockey spelare ska göra ett antal mål under matchen. Från tidigare matcher har man kartlagt att hans sannolikhet att göra mål per mål försök är 30%. a) Under en match gör spelaren 2 försök, vad är sannolkiheten att han gör ett eller två mål? b) Från tidigare matcher bestämmer man att sannolikheten att han gör noll försök är 10%, ett försök 70%, två försök 20%. Vad är nu sannolikheten att han gör 2 mål? 20
a) Under en match gör spelaren 2 försök, vad är sannolkiheten att han gör ett eller två mål? Från tidigare matcher har man kartlagt att hans sannolikhet att göra mål per mål försök är 30%, det betyder att sannolikehet för framgång per försök är p=0.3. Vi kan modellera antalet mål ett antal N=2 försök med en binomialfördelning. Sannolikheten att göra 0 mål bland 2 försök B(0,2)=(1-0.3) 2 =0.49 Sannolikheten att göra 1mål bland 2 försök B(1,2)=0.3x(1-0.3) + (1-0.3)x0.3=0.42 Sannolikheten att göra 2 mål bland 2 försök B(2,2)=0.3 2 =0.09 21
b) Från tidigare matcher bestämmer man att sannolikheten att han gör noll försök är 10%, ett försök 70%, två försök 20%. Vad är nu sannolikheten att han gör 2 mål? I föregående fråga räknade vi sannolikeheten för att göra 0,1,2 mål om spelare försöker 2 ggr att göra mål. Om han försöker en enda gång: 0 mål B(0,1)=0.7 1 mål B(1,1)=0.3 Om han försöker noll gånger, då kan han inte göra mål! Sannolikhet (A OCH B) = (Sannolikhet A) X (Sanolikhet B) (om A och B är oberoende) 0 försök (0.1) 1 försök (0.7) 2 försök(0.2) 0 mål 1x0.1 0.7x0.7 0.49x0.2 1 mål 0.3x0.7 0.42x0.2 2 mål 0.09x0.2 Sannolikheten att göra 2 mål är sannolikheten att göra 2 försök och att göra 2 mål= 0.2 x 0.09 = 0.0018 dvs 0.18%. 22
8) I en godisautomat kan man exempelvis betala med en femkrona. Automaten väger varje mynt för att bestämma om det är en riktig femkrona. Vikten för femkronor följer en normalfördelning med ett meddelvärde på 9,50g och en standardavvikelse på 0,07g. Godisautomaten är byggd så att den stöter bort femkronor som väger mer än 9,64g eller mindre än 9,36. Hur ofta kommer äkta femkronor stötas bort? 23
8) I en godisautomat kan man exempelvis betala med en femkrona. Automaten väger varje mynt för att bestämma om det är en riktig femkrona. Vikten för femkronor följer en normalfördelning med ett meddelvärde på 9,50g och en standardavvikelse på 0,07g. Godisautomaten är byggd så att den stöter bort femkronor som väger mer än 9,64g eller mindre än 9,36. Hur ofta kommer äkta femkronor stötas bort? Frågan är egentligen hur ofta får man från en normalfördelning med meedelvärde 9,50 och σ=0,07 ett värdet utanför [9,36, 9,64]? Man kan lägga märke till att dett interval kan skrivas om som: [9,36, 9,64] =[9,50-2σ, 9,50+2σ] För en normalfördelning kan man slå upp sannolikheten att få ett värde utanför 2σ. Det är 5%. Sannolikheten för att en äkta 5 krona blir borstött är då 5%. 24
9) Här visar vi en tabell på handelsnetto mellan Sverige och utlandet mellan 2001 och 2010. Vi använder period A: 1998-2007 som referens och antar att handelsnetto är konstant med tiden under denna period. a) Vad är då meddelvärdet och standardavvikelsen för en normalfördelning som skulle representera period A data? b) Om vi antar att åren 2008, 2009, 2010 (period B) följer samma normalfördelning vad är då sannolikheten för att få handelsnetto som observerats 2008? 2009? 2010? c) Om handelsnetto i ett år är oberoende av handelsnettot under föregående år, vad är sannolikheten för den kombinerade observationen av 2008 och 2009 och 2010 om man fortfarande antar att handelsnetto följer samma normalfördelning som mellan åren 1998 och 2007? d) Vad innebär det om vårt antagande om att handelsnetto i period B följer samma normalfördelning som i period A? 25
Vi använder period A: 1998-2007 som referens och antar att handelsnetto är konstant med tiden under denna period. a) Vad är då meddelvärdet och standardavvikelsen för en normalfördelning som skulle representera period A data? Meddelvärdet mellan 98 och 2007 är ges av x = x i N =143371 Standardavvikelsen =18423 b) Om vi antar att åren 2008, 2009, 2010 (period B) följer samma normalfördelning vad är då sannolikheten för att få handelsnetto som observerats 2008? 2009? 2010? Vi kan räkna chi-värdet för 2008, 2009, 2010, och för varje chi-värdet kan vi läsa av dess sannolikhet från en standardiserad normalfördelningstabell. 96500 143371 χ 2008 = = 2,5 P 18423 2008 =1.2% 83900 143371 χ 2009 = = 3,2 P 18423 2009 = 0.2% 71100 143371 χ 2010 = = 3,9 P 18423 2010 0.01% Om dessa 3 händelser är oberoende, så är deras sannolikhet att inträffa är produkten av sannolikheterna: 0.012 x 0.002 x 0.0001 vilket är 0.00000024 % 26
c) Om handelsnetto i ett år är oberoende av handelsnettot under föregående år, vad är sannolikheten för den kombinerade observationen av 2008 och 2009 och 2010 om man fortfarande antar att handelsnetto följer samma normalfördelning som mellan åren 1998 och 2007? Om dessa 3 händelser är oberoende, så är deras kombinerad sannolikhet att inträffa är produkten av sannolikheterna: P 2008 x P 2009 x P 2010 = 0.012 x 0.002 x 0.0001 vilket är 0.00000024 % d) Vad innebär det om vårt antagande om att handelsnetto i period B följer samma normalfördelning som i period A? Sannolikheten för den faktiska observationen av handelsnetto under 2008-2010 är extremet litet om man antar att det skulle bara bero på en statistisk avvikelsen kring en normalfördelning som skulle beskriva 1998-2007 data. Därför måste man kasta bort detta antagande, det betyder också att 2008-2010 data kan inte modelleras av samma normalfördelning som 1998-2007 data. 27