Introduktion till statistik

Storlek: px
Starta visningen från sidan:

Download "Introduktion till statistik"

Transkript

1 Introduktion till statistik Joakim Westerlund Nationalekonomiska institutionen Lunds universitet 1

2 2

3 Innehåll 1 Introduktion Vad är ekonometri? Ekonometrisk metodologi Data Slumpmässighet Slumpvariabel Vad är sannolikhet? Sannolikhetsfördelning Egenskaper hos slumpvariabler Normalfördelningen Uppgifter Inferens Punktskattning t-fördelningen Konfidensintervall Hypotestest Centrala gränsvärdessatsen Uppgifter

4 Innehåll A Tabeller 73 4

5 Kapitel 1 Introduktion Trots att detta är en kurs i statistik kommer vi att prata en hel del om begreppet ekonometri, vilket är den typ statistik som ekonomer använder allra mest. Därför börjar vi med att i detta kapitel ge en kort redogörelse för vad ekonometri är och vad man gör som ekonometriker. I de efterföljande två kapitlen ska vi ta oss en närmare titt på några av de allra viktigaste ekonometriska begreppen och verktygen. 1.1 Vad är ekonometri? Ekonometri innebär helt enkelt att tillämpa statistiska metoder på ekonomiska problem. Själva ordet ekonometri är egentligen bara en sammanslagning av två andra ord, ekonomi och metrik. Det förstnämda behöver nog inte någon vidare förklaring medan innebörden av det sista inte är helt klar. En metrik är helt enkelt ett mått av något slag. Ekonometri handlar med andra ord om att mäta eller kvantifiera olika ekonomiska fenomen. 1 1 Denna typ av ordlek är väldigt vanlig inom vetenskaperna. Om vi exemplevis slår samman ordet bio med metrik får vi biometrik, vilket handlar om mätandet av 5

6 1 Introduktion Men trots att mätandet av olika välkända ekonomiska koncept såsom Bruttonationalprodukt (BNP), inflation, arbetslöshet och ränta är väldigt viktigt är det ofta inte denna typ av mätning som ekonometriker pysslar med. I de allra flesta fallen handlar ekonometri snarare om hur sådana koncept kan användas för att i sin tur mäta mer sofistikerade ting. Låt oss ta BNP och arbetslöshet som ett exempel. En typisk ekonometrisk arbetsuppgift skulle då kunna vara att mäta hur mycket BNP ändras givet att arbetslösheten ökar med en procent. Som ekonometriker utgår vi alltså från att BNP och arbetslöshet kan mätas och problemet blir sedan hur dessa kan användas för att i sin tur mäta något annat. Ordet mäta kan betyda flera olika saker, vilka vi kommer att beskriva mer noggrannt i Kapitel 3. Mäta kan exempelvis innebära att testa olika ekonomiska hypoteser. Om detta ska vi prata mer i nästa avsnitt. 1.2 Ekonometrisk metodologi En hypotes är ett antagande om hur vår verklighet är beskaffad. Ekonometrisk metodologi handlar till stor del om hur vi kan pröva eller testa sådana antaganden. Vi skulle kunna sammanfatta den ekonometriska metodologin på följande sätt. Den ekonometriska metodologin: Hypotes > Test > Slutsats Startpunkten i den ekonometriska metodologin är nästan alltid en ekonomisk modell av något slag och en modell är ju inget annat än ett antal (förenklande) antaganden om hur verkligheten ser ut. olika biologiska fenomen. På samma sätt är mätandet av olika psykologiska fenomen psykometri en sammanslagning av orden pyko och metrik. 6

7 Ekonometrisk metodologi Idéen är sedan att testa om dessa teoretiska antaganden är konsistenta med verkligheten, vilken får representeras av ekonomiska data som är våra observationer av verkligheten. Men ofta vill vi inte testa modellens samtliga antaganden utan bara ett det mest kritiska (vilket ofta också är det mest intressanta). Exempel. Enligt ekonomisk teori är inkomst en viktig bestämningsfaktor för hur mycket vi som individer konsumerar. Högre inkomst borde ju rimligtvis leda till mer konsumtion. En intressant hypotes att testa är alltså om inkomsten verkligen påverkar konsumtionen. Hypotesen får vi alltså från någon existerande ekonomisk teori (även om det ibland också kan röra sig om ekonometrikerns egna tankar och funderingar). Detta gör testet intressant i den bemärkelse att ekonomisk teori representerar gängse uppfattning om hur ekonomin fungerar. Om hypotesen visar sig vara falsk går ju det emot denna uppfattning, vilket tyder på brister i teorin. Sådana rön är därför också ofta frön till ny teoriutveckling det är motstridiga resultat av detta slaget som driver vetenskapen framåt. Att testa en ekonomisk hypotes är av flera anledningar ganska komplicerat och vi ska därför be att få återkomma till detta i mer detalj senare i Kapitel 3. Trots detta kan det vara värt att redan nu säga i alla fall något om hur ett sådant hypotestest går till. Den övergripande idéen är att kolla om datat vi samlat in är konsistent med hypotesen vi ställt upp. Vi vill med andra ord testa om verklighet och hypotes är lika i någon bemärkelse. Frågan vi ska ställa oss är hur sannolikt det är att få just våra data givet att hypotesen är sann? Om sannolikheten är liten innebär detta att hypotesen troligtvis är falsk. Vi säger att hypotesen förkastas av datat eller bara att hypotesen förkastas, vilket är absolut vanligast. Om sannolikheten 7

8 1 Introduktion däremot är stor överensstämmer hypotesen med verkligheten och hypotesten är därmed troligtvis sann. Exempel. Låt oss fortsätta med det föregående exemplet där vi tittade på relationen mellan konsumtion och inkomst. Antag vidare att vi nu vill testa hypotesen att inkomsten inte påverkar konsumtionen, vilket är tvärtemot vad ekonomisk teori säger. För detta ändamål samlar vi in data bestående av 10 observationer på konsumtion och inkomst, vilka illustreras i Figur 1.1. Vi ser att om vi skulle dra en rät linje genom datat så skulle den ha en positiv lutning. Vi säger därför att konsumtion och inkomst har ett positivt samband. Men detta är ju inte konsistent med hypotesen att inkomsten inte påverkar konsumtionen. Här har vi alltså en situation där hypotesen inte stämmer överens med verkligheten och hypotesen är därför troligtvis falsk, vilket ger stöd åt ekonomisk teori. Exemplet ovan illustrerar principen bakom hypotestestningen. Det saknar dock en viktig ingridiens, nämligen en referens till sannolikhetsbegreppet. Precis som vi nämnde förut vill vi ju kunna säga något om hur stor sannolikhet det är att hypotesen är sann eller falsk. Detta blir ett problem för senare kapitel. Det viktiga i detta skedet är att vi förstår den bakomliggande principen. 1.3 Data Data utgör en viktig komponent när man pysslar med ekonometri de representerar den verklighet mot vilken hypoteser testas. Det är därför nödvändigt att veta vad data är, hur den samlas in och vad som kan karaktäriserar bra data. 8

9 Data Figur 1.1: Data på konsumtion och inkomst Konsumtion Inkomst Några grundläggnade begrepp Data är helt enkelt observerbara värden på en variabel något som varierar och alltså kan anta flera olika värden. Vi kan säga att en variabel beskriver något föränderligt. Priset på en viss aktie är ett exempel på en variabel. Det observerade aktiepriset vid 10 olika tidpunkter under en viss dag är ett expempel på data. Konsumtion och inkomst är också variabler. Vi kan alltså säga att hypotesen i exemplet ovan gör ett antagande angående relationen mellan variabler. Ett viktigt ekonometriskt begrepp är population. En population är alla de enheter vi som ekonometriker är intresserade av att dra slutsatser kring. Om vi exempelvis är intresserade av alla svenskars inkomst är alla svenskar vår population och varje svensk utgör då en enhet i populationen. Populationen kan mätas på många olika 9

10 1 Introduktion sätt. Varje svensk kan exempelvis mätas genom sin inkomst, vilket naturligtvis är en förutsättning om vi vill studera just svenskars inkomst. Ett problem här är att det inte är möjligt att mäta inkomsten för varenda svensk. Förutom det praktiska problemet att populationens storlek ständigt ändras (eftersom människor föds och dör hela tiden) så gör kostnaden att vi sällan kan undersöka hela populationen. Det bästa vi kan göra i sådana situationer är att ta ett stickprov, vilket helt enkelt är ett urval eller en delmängd av populationen. Stickprovet kan alltså bestå av hela populationen men ofta är det bara en del av den. Man kan exempelvis tänka sig att man undersöker alla svenskar i Lund kommun och använder deras inkomst som stickprov. Här måste man dock tänka sig för lite grann. Finns det extempelvis någon nackdel med att ta just alla svenskar i Lund kommun som sitt stickprov? En viktig brasklapp är att inkomsten kring Lund kanske skiljer sig väsentligen från inkomsten i övriga Sverige. Detta är problematiskt eftersom stickprovet då inte liknar populationen (samtliga svenskar) som vi egentligen är intresserade av. Ett sådant stickprov är inte representerbart, vilket gör att det inte kan användas för att dra slutsatser kring populationen som det är tänkt. Det är alltså viktigt att man väljer ett stickprov som återspeglar de aspekter av populationen som man är intresserad av (i detta fallet inkomsten). Annars finns det en stor risk att resultaten blir missvisande, vilket kan få ganska allvarliga konsekvenser. 10

11 Data Exempel. Ett stort postorderföretag baserar sin lagerhållning på samtliga svenskars köpkraft, vilken mäts som den genomsnittliga inkomsten. Om köpkraften är stor håller man ett stort lager medan om köpkraften är liten kan man minska lagret och därmed också lagerhållningskostnaderna, vilka utgör en väsentlig del av företagets totala kostnader. Men eftersom man inte har data på alla svenskars inkomst drar man ett stickprov baserat på alla svenskar i Danderyd kommun. Problemet är att Danderyd råkar vara en av Sveriges rikaste kommuner, vilket innebär att företaget överskattat köpkraften för hela Sverige och därmed även hur mycket man måste hålla i lager. De höga lagerkostnaderna gör tillsammans med de lägre försäljningsintäkterna att företaget tvingas i konkurs. Exemplet ovan ger en vink om vikten av att dra ett bra representerbart stickprov. Många gånger har man dock inte möjlighet att själv välja sitt stickprov utan man får nöja sig med det som finns att tillgå i existerande databaser, vilka vanligtvis finns tillgängliga via bibliotek eller Internet. I sådana situationer är det inte helt ovanligt att man får gå bakvägen och välja population efter vilka data som finns. Om man exempelvis vill studera BNP i Amerika men bara har data för ett sydamerikanskt land får man kanske nöja oss med att begränsa populationen av intresse till Nordamerika. Några vanliga typer av data Data kan indelas på många sätt. En vanlig indelning utgår ifrån om data är experimentella eller icke-experimentella. Experimentella data är sådana data som skapats genom ett kontrollerat experiment. I detta fall är vi som ekonometriker själva med och bestämmer på vilket sätt data genereras. Data är därför fiktiva i den bemärkelse 11

12 1 Introduktion att de inte har genererats av ett verkligt ekonomiskt fenomen de är inte längre observationer av den verklighet vi lever i. Ett klassiskt exempel på experimentella data är sådana data som skapats i ett laboratorium under kontroll av en försöksledare. Som ekonomer har vi sällan möjlighet att genomföra kontrollerade experiment. Därför är ekonomiska data sällan experimentella utan snarare icke-experimentella. Icke-experimentella data genereras av ett okontrollerat experiment. I detta fall kan vi som ekonometriker inte själva vara med och på verka hur data genereras utan endast observera data från ett visst ekonomiskt fenomen. Vi kan också säga att ett kontrollerat experiment har initierats eller iscensatts av försöksledaren medan ett okontrollerat experiment inte har det. Priset på en viss aktie vid 10 olika tillfällen är ett bra exempel på ett okontrollerat experiment. Själva experimentet består i detta fallet av att helt enkelt registrera och skriva ned aktiepriset vid 10 olika tillfällen. Experimentet är okontrollerat eftersom vi endast kan observera priset (vi kan inte vara med och bestämma hur aktien prissätts). Icke-experimentella data kan ordnas i tre kategorier efter hur de har samlats in; tvärsnittsdata, tidsseriedata och paneldata. Tvärsnittsdata samlas in för flera enheter vid en enda tidpunkt. Ett exempel på sådan data är BNP för vart och ett av världens alla länder under Tidsseriedata är strukturerad precis tvärtom och samlas in över flera tidsperioder för en enda enhet, exempelvis årlig svensk BNP mellan 1990 och Paneldata är data som både har ett tvärsnitt och en tidsseriedimension. Vi kan säga att paneldata är en kombination av tvärsnitts- och tidsseriedata. Sådana data samlas in för flera enheter över flera tidpunkter, exempelvis BNP för alla världens länder mellan åren 1990 och

13 Data Icke-experimentella data kan även delas in efter aggregeringsnivå. Vi har två övergripande aggregeringsnivåer; mikrodata och makrodata. Mikrodata består av observationer på enskilda beslutsfattande enheter såsom individer, hushåll eller företag medan makrodata består av observationer på aggregat av sådana mikroenheter. Ett exempel på makrodata är den totala inkomsten för alla hushåll i ett visst län eller i hela Sverige. Icke-experimentella data kan dessutom delas in efter om de är kvalitativa eller kvantitativa. Inom ekonometri är vi oftast intresserade av att undersöka kvantitativa data, vilka uttrycks som tal eller värden. Data kan sägas vara kvantitativa om vanliga räkneoperationer, såsom ett medelvärde, ger meningsfulla resultat. Kvalitativa data kan å andra sidan inte beskrivas med hjälp av tal på ett sådant sätt att räkneoperationer av detta slag kan ges en meningsfull innebörd. Kvalitativa data uttrycks istället med hjälp av ord och utsagor. Priset på en viss produkt är ett exempel på kvantitativa data eftersom det kan uttryckas med värden. I detta fall blir det meningsfullt att prata om genomsnittet av flera prisobservationer som ett genomsnittligt pris. Ett exempel på kvalitativa data kan vara om en viss individ köpte produkten eller ej. Denna typ av data registreras genom en utsaga; kunden köpte produkten eller kunden köpte inte produkten. Eftersom data inte är kvantitativ kan vi inte längre ge olika räkneoperationer en meningsfull innebörd. Om inget annat anges ska vi i fortsättningen använda ordet data för att syfta på data som är kvantitativa och icke-experimentella, vilket är den mest vanligt förekommande typen i ekonometriska sammanhang. Sådana data finns tillgängliga i överflöd och helt gratis via Internet. En bra källa till svenska data är Statistiska Centralbyrån (SCB). 13

14 1 Introduktion 14

15 Kapitel 2 Slumpmässighet Detta kapitel kretsar kring begreppet osäkerhet. Detta är ett mycket viktigt begrepp eftersom ekonomiska variabler i allmänhet är osäkra i den bemärkelse att de inte kan förutsägas med fullständig säkerhet. Vi kan exempelvis inte vara säkra på vad priset på en liter bensin blir imorgon och på ett års sikt är det nästan omöjligt att säga något vettigt om vad bensinpriset kan tänkas vara. Variabler av detta slaget kallar vi slumpmässiga. För att förstå hur ekonomiska variabler beter sig måste vi alltså veta lite om hur vi analyserar osäkerhet. 2.1 Slumpvariabel Ekonomiska variabler är slumpmässiga. Sådana variabler, vars värde beror helt eller delvis på slumpen, kallar vi slumpvariabler. Vi säger att en slumpvariabel X är en variabel vars värde x vi inte känner till förrän det har observeras. Värdet x kallas även utfall och detta kan alltså inte förutses med säkerhet. Priset på en liter bensin är ett bra exempel. Priset är alltså vårt X. Detta är en slumpvari- 15

16 2 Slumpmässighet abel eftersom vi aldrig kan veta helt säkert vad bensinpriset ska bli imorgon. Det realiserade priset (det verkliga priset på en liter bensin i bensinmacken nästkommande dag) representerar här utfallet x. Exempel. Antalet prickar som kommer upp när vi slår en tärning är en slumpvariabel eftersom utfallet antalet prickar inte kan förutses med säkerhet. Antalet prickar är alltså vårt X medan x är antalet prickar vi observerar när tärningen väl är slagen. Det finns två typer av slumpvariabler; diskreta och kontinuerliga. En diskret slumpvariabel kan bara anta ett uppräkneligt (eller ändligt) antal värden medan en kontinuerlig slumpvariabel kan anta ett ouppräkneligt (eller oändligt) antal värden inom ett visst intervall. En diskret slumpvariabel behöver inte vara ett heltal. Det som behövs är att utfallen kan separeras och att slumpvariabeln inte kan anta några värden däremellan. Priset på en viss produkt är ett exempel på en diskret slumpvariabel eftersom det kan anges i kronor och ören. Inom ekonometri är vi ofta intresserade av att studera just sådana monetära slumpvariabler som mäts i kronor och ören. Diskreta slumpvariabler är därför väldigt vanliga här. I vissa situationer är det dock inte tillräckligt att beakta slumpvariabler med bara ett ändligt antal utfall. I sådana situationer använder vi oss av kontinuerliga slumpvariabler. Inom ekonometri är kontinuerliga slumpvariabler speciellt viktiga eftersom de är lätta att använda för att beräkna sannolikheter. Eftersom kontinuerliga slumpvariabler är lätta att räkna med är det även vanligt att de används som approximationer för diskreta slumpvariabler. Utfallen för en kontinuerlig slumpvariabel kan inte separeras utan utgör alla möjliga värden i ett visst intervall. Temperatur är ett ex- 16

17 Vad är sannolikhet? empel på en kontinuerlig slumpvariabel eftersom den kan anges med godtycklig noggrannhet. Temperaturen kan exempelvis vara 22, C. Vikt, längd och tid är andra exempel på kontinuerliga slumpvariabler. Men trots att kontinuerliga slumpvariabler kan vara väldigt användbara, vilket vi ska se i senare kapitel, ska vi i detta kapitel fokusera på diskreta slumpvariabler. Om inget annat sägs kommer X fortsättningsvis alltså att beteckna en diskret slumpvariabel. 2.2 Vad är sannolikhet? Låt oss börja med att förklara vad vi menar med en händelse. En händelse A kan vara en eller flera värden x som slumpvariabeln X kan anta. Vi kan säga att sannolikheten för händelsen A är ett tal i intervallet [0, 1] som anger hur troligt vi anser att det är att händelsen ska inträffa. Sannolikhet är med andra ord inget annat än ett kvantitativt mått på osäkerhet. Det är vanligt att betrakta sannolikheten som en funktion p av A. 1 Funktionen p tilldelar alltså varje händelse A en speciell sannolikhet. Om p(a) är lika med ett kommer händelsen att inträffa med fullständig säkerhet. Om p(a) däremot är mindre än ett är det osäkert om händelsen ska inträffa eller ej. Men ju högre sannolikhet händelsen har, desto säkrare är vi på att den ska inträffa. En sannolikhet på 0,95 indikerar exempelvis att vi är väldigt säkra på att händelsen ska inträffa, medan en sannolikhet på 0,5 indikerar att vi är ganska osäkra. Negativa sannolikheter eller sannolikheter större än ett finns inte. Ett vanligt exempel på sannolikhet är singlandet av ett symmetriskt mynt där de två möjliga utfallen krona eller klave är lika sanno- 1 Det är numera konvention att låta p(a) beteckna sannolikhetsfunktionen efter den första bokstaven i det franska ordet probabilité. 17

18 2 Slumpmässighet lika. Enligt den klassiska sannolikhetsdefinitionen är sannolikheten för händelsen A att myntet landar med klave uppåt lika med antalet utfall i A delat med det totala antalet möjliga utfall. Den klassiska sannolikhetsdefinitionen: p(a) = antalet utfall i A totala antalet möjliga utfall Enligt denna definition är sannolikheten för klave lika med en halv, vilket följer av att antalet utfall i A är ett (klave) medan det totala antalet möjliga utfall är två (krona eller klave). Detta känns rimligt eftersom om myntet är symmetriskt bör det ju vara lika troligt att det ska visa krona som klave. 2 Exempel. Låt A vara händelsen att en slagen tärning visar en, två eller tre prickar. Eftersom tärningen är opreparerad har varje sida lika stor sannolikhet att komma upp. Antalet utfall i A är alltså tre medan antalet möjliga utfall är sex, vilket innebär att vi nu kan använda den klassiska sannolikhetsdefinitionen för att beräkna p(a) som p(a) = 3 6 = 0, 5 Sannolikheten att tärningen visar en, två eller tre prickar är alltså 0,5. Observera att sannolikheten 0,5 i myntexemplet tidigare avser osäkerheten kring utfallet innan det att myntet har singlats. När myntet väl är singlat och utfallet krona eller klave har registrerats finns det ingen osäkerhet kvar längre. När myntet är slaget vet vi med 2 Den klassiska sannolikhetsdefinitionen är lite begränsad i den bemärkelsen att alla utfallen måste vara lika sannolika. Med bara två utfall (krona eller klave) måste alltså båda utfallen ha sannolikhet 0,5. Det finns andra definitioner som inte kräver lika sannolika utfall men de kommer vi inte att gå in på här. 18

19 Vad är sannolikhet? fullständig säkerhet om det blev krona eller klave. Sannolikheten 0,5 är därför bara relevant om vi står i begrepp att singla myntet och inte vet om det ska bli krona eller klave. Följande citat från Tage Danielssons monolog Om sannolikhet får illustrera denna skillnad i tolkning av resultatet före och efter myntsinglingen. 3 Sannolikt va, det betyder väl nåt som är likt sanning. Men riktigt lika sant som sanning är det inte om det är sannolikt. Nu har vi tydligen inte råd med äkta sanningar längre, utan vi får nöja oss med sannolikhetskalkyler. Det är synd det, för dom håller lägre kvalitet än sanningar. Dom är inte lika pålitliga. Dom blir till exempel väldigt olika före och efter. Jag menar före Harrysburg så var det ju ytterst osannolikt att det som hände i Harrysburg skulle hända, men så fort det hade hänt rakade ju sannolikheten upp till inte mindre än 100 procent så det var nästan sant att det hade hänt. Men bara nästan sant. Det är det som är så konstigt. Det är som om man menar att det som hände i Harrysburg var så otroligt osannolikt så egentligen har det nog inte hänt. Sannolikheten för en händelse måste ligga i intervallet [0, 1] även om man ibland precis som Tage Danielsson pratar om sannolikhet som en procentsats. Detta är ett krav som p(a) måste uppfylla. Ett annat krav är att sannolikheten för alla möjliga utfall ska vara lika med ett. Händelser som säkert ska inträffa har med andra ord sannolikhet ett. Om vi exempelvis slår en tärning är vi säkra på att tärningen kommer att visa antingen en, två, tre, fyra, fem eller sex prickar. Således är sannolikheten för alla möjliga utfall lika med ett. 3 Om sannolikhet är en monolog av Tage Danielsson som ursprungligen framfördes 1979 i Under Dubbelgöken. Monologen handlar om sannolikhet och kärnkraftsolyckan i den amerikanska staden Harrisburg. 19

20 2 Slumpmässighet 2.3 Sannolikhetsfördelning Vi vet att värdet x som en slumpvariabel X antar ej kan förutsägas med säkerhet. För att beskriva en slumpvariabel måste vi alltså använda oss av sannolikheter. En sannolikhetsfördelning till en slumpvariabel X är en funktion f som associerar en sannolikhet till varje värde x som X kan anta. Vi skriver f(x) = p(x = x) för alla x Notera att p(x = x) är sannolikheten att slumpvariabeln X antar värdet x. Funktionen f(x) ger oss en sådan sannolikhet för vartenda x. Nu är vi alltså intresserade av sannolikheterna för alla utfall som en slumpvariabel kan anta och inte bara sannolikheten för en viss händelse, vilken kan bestå av flera utfall. Relationen mellan sannolikhetsfördelningen för en slumpvariabel och sannolikheten för en händelse ser vi enklast genom att helt enkelt låta A vara händelsen att slumpvariabeln X antar ett enda värde x. Då får vi att p(x = x) = p(a), vilket innebär att de båda begreppen är lika om A bara består av ett enda utfall. Därför kan vi säga att f(x) är sannolikheten att X antar värdet x och vi skriver f(x) = p(x = x). Detta innebär också att vi kan använda den klassiska sannolikhetsdefinitionen för att beräkna f(x) för olika x. Enda skillnaden är att talet i nämnaren alltid blir ett eftersom A bara består av ett enda utfall. En annan intressant observation är att eftersom sannolikhetsfördelningen kan beräknas utifrån sannolikheten av en händelse måste den uppfylla två villkor; sannolikheten för varje enskilt utfall x måste ligga i intervallet [0, 1] och sannolikheten för alla möjliga utfall måste vara lika med ett. Med andra ord gäller det att 0 f(x) 1 och f(x) = 1 20

21 Sannolikhetsfördelning Här har vi använt f(x) för att beteckna summan av alla sannolikheterna f(x). Tabell 2.1: Tabell över sannolikhetsfördelningen för en tärning. x f(x) Exempel. Låt oss titta vidare på fallet då X är antalet prickar som kommer upp när vi slår en tärning. Eftersom en tärning kan visa totalt sex olika värden och eftersom varje värde x kan komma upp precis en gång får vi att f(x) = 1 6 0,1667 för alla x Vi ser att f(x) ligger i intervallet [0, 1] och att f(x) = f(1) + f(2) f(6) = 6( 1 6 ) = 1 så f(x) uppfyller alltså kraven för en sannolikhetsfördelning. Om vi listar alla utfallen tillsammans med dess sannolikhet får vi sannolikhetsfördelningen för X. Sannolikhetsfördelningen kan vi illustrera genom en enkel tabell som i Tabell 2.1 eller genom en graf som i Figur 2.1. Notera att arean under staplarna i figuren summerar till ett, vilket också sannolikheterna i tabellen gör. Notera att för kontinuerliga slumpvariabler vilka kan anta ett oändligt antal värden gäller det att sannolikheten för varje enskilt värde måste vara lika med noll. Detta följer från definitionen av en sannolikhet eftersom f(x) > 0 implicerar att summan av alla dessa sannolikheter vilka är oändligt många blir större än ett. Men detta strider mot villkoret att alla möjliga utfall måste ha sannolikhet ett, vilket innebär att f(x) inte kan vara en sannolikhetsfördelning till X. Eftersom en sannolikhet inte heller kan vara negativ måste 21

22 2 Slumpmässighet Figur 2.1: Graf över sannolikhetsfördelningen för en tärning det vara så att f(x) är lika med noll för alla enskilda värden x (men bara för kontinuerliga slumpvariabler). Detta kan verka märkligt men vid närmare eftertanke är det faktiskt helt logiskt. Vi nämnde tidigare temperatur som ett exempel på en kontinuerlig slumpvariabel. Men eftersom temperaturen kan anges med godtycklig precision måste ju varje värde ha sannolikhet noll; sannolikheten att det är till exempel 22, C varmt under en given dag är ju extremt liten. Men även om sannolikheten för enskilda värden är lika med noll för en kontinuerlig slumpvariabel kan vi mäta sannolikheten att slumpvariabeln ligger inom ett visst intervall. Detta gör vi genom att beräkna arean under den kurva y = f(x) som beskriver den kontinuerliga slumpvariabelns sannolikhetsfördelning. Detta illus- 22

23 Sannolikhetsfördelning treras i Figur 2.2 vilken visar sannolikhetsfördelningen för en kontinuerlig slumpvariabel X. Arean under hela grafen är alltid lika med ett. Sannolikheten att X ska anta ett värde i intervallet [a, b] kan skrivas p(a < X < b) och beräknas alltså som arean under grafen mellan a och b. 4 Figur 2.2: Sannolikhet som arean under en kontinuerlig graf. f(x) y = f(x) a b x Problemet är att p(a < X < b) inte kan beräknas utan goda färdigheter i matematisk integralkalkyl och vi kommer därför fortsätta att koncentrera oss på diskreta slumpvariabler. 5 En viktig kontinuerlig slumpvariabel kommer dock att presenteras i avsnitt Notera att eftersom varje enskilt utfall har sannolikhet noll så är p(a < X < b) lika med p(a X b); det spelar ingen roll om ändpunkterna a och b är med i intervallet eftersom p(x = a) och p(x = b) ändå är lika med noll. Detta gäller dock bara om X är kontinuerlig. 5 Sannolikheten att X ligger i intervallet [a, b] är lika med integralen av f(x) mellan a och b eller p(a < X < b) = b a f(x) dx. 23

24 2 Slumpmässighet 2.4 Egenskaper hos slumpvariabler Istället för att beskriva en slumpvariabel genom hela dess sannolikhetsfördelning är det vanligt att fokusera på några enstaka sammanfattande mått. Vi kan exempelvis beskriva en slumpvariabel genom dess centrum eller läge och dess spridning. Om vi studerar flera slumpvariabler samtidigt kan vi även titta på beroendet mellan dem. Centrum Det absolut mest vanligt förkommande måttet på en slumpvariabels centrum (eller läge) är dess medelvärde, vilket vanligtvis betecknas med den grekiska bokstaven µ som uttalas my. Medelvärdet av en slumpvariabel X beräknas som det viktade genomsnittet av slumpvariabelns alla möjliga utfall där vikten för varje utfall är lika med dess sannolikhet. Medelvärdet av en slumpvariabel kallas även för slumpvariabelns förväntade värde eftersom det är det värde vi förväntar oss i genomsnitt. Medelvärde av en slumpvariabel: µ = xf(x) Det är viktigt att förstå att medelvärdet inte är värdet på X vi förväntar oss utan det genomsnittliga värdet vi förväntar oss. 24

25 Egenskaper hos slumpvariabler Exempel. Låt återigen X vara antalet prickar som kommer upp när vi slår en tärning. Då vet vi sedan tidigare att sannolikhetsfördelningen för X kan skrivas som i Tabell 2.1. För att beräkna medelvärdet av X behöver vi bara x och f(x). Men x och f(x) får vi från sannolikhetsfördelningen för X. Vi kan alltså beräkna medelvärdet som µ = xf(x) = = 7 2 = 3,5 Medelvärdet av X är med andra ord lika med 3,5. En tärnings medelvärde är alltså 3,5 men en tärning har ju inte 3,5 prickar på någon sida. Detta illustrerar det faktum att medelvärdet inte är värdet på X vi förväntar oss utan snarare det genomsnittliga förväntade värdet. Man kan tänka på medelvärdet som det värde på X som gör att fördelningen precis balanserar vilket illystreras i Figur 2.3. Om den horisontella axeln är en gungbräda och sannolikhetsmassan är vikten av de som gungar är medelvärdet den punkt där man ska placera stödet så att brädan precis balanserar. Figur 2.3: Medelvärdet. f(x) x µ 25

26 2 Slumpmässighet Om sannolikhetsfördelningen för X är symmetrisk (så att utseendet till höger om medelvärdet är en exakt spegalbild av utseendet till vänster om medelvärdet) är medelvärdet även det tal som delar sannolikhetsarean mitt itu. Om vi exempelvis går tillbaka till Figur 2.1 ser vi att talet 3,5 delar upp sannolikhetsfördelningen för X så att vi får tre staplar eller exakt 0,5 i sannolikhet på var sida. Det är därför helt logiskt att prata om medelvärdet som fördelningens centrum. Spridning Det absolut vanligaste spridningsmåttet för en slumpvariabel är dess varians. Variansen av en slumpvariabel X är det förväntade kvadrerade avståndet mellan varje värde x och medelvärdet µ. Variansen skrivs ofta σ 2 där σ är den grekiska bokstaven sigma. Varians av en slumpvariabel: σ 2 = f(x)(x µ) 2 Variansen av X är alltså det genomsnittliga kvadrerade avståndet mellan x och µ. Avtåndet är kvadrerat eftersom om vi endast hade beräknat avståndet från medelvårdet och sedan tagit genomsnittet av alla avstånden hade variansen blivit noll. Därför kvadrerar vi avstånden; det gör att negativa och positiva avstånd inte kan ta ut varandra. Notera också att f(x) och (x µ) 2 kan inte vara negativa, vilket innebär att deras produkt inte heller kan vara negativ. Variansen kan alltså inte vara negativ. Ytterligare en sak som är värd att notera är att formlerna för µ och σ 2 är ganska lika. Det enda som skiljer är faktiskt den faktor med vilken f(x) multipliceras; i µ multiplicerar vi f(x) med x medan i σ 2 26

27 Egenskaper hos slumpvariabler multiplicerar vi f(x) med (x µ) 2. Om x dessutom har medelvärde noll (så att µ = 0) reducras (x µ) 2 till x 2 och då är det bara kvadraten som skiljer de båda formlerna åt. Det faktum att kvadraten i x 2 är kvar innebär att om X är till exempel inkomst i kronor så är variansen ett mått uttryckt i kronor i kvadrat, vilket är ett problem vi ska återkomma till om ett ögonblick. Notera också att eftersom variansen av X är genomsnittet av de kvadrerade avstånden mellan varje x och µ så säger variansen hur utspridda värdena är kring deras medelvärde. Variansen ger oss ett mått på spridningen eller osäkerheten kring X; ju större varians, desto längre från medelvärdet ligger värdena på X. Exempel. Låt X vara antalet prickar som kommer upp när vi slår en tärning. Då vet vi sedan föregående exempel att medelvärdet av X är lika med 3,5. Vi kan alltså beräkna variansen som σ 2 = f(x)(x µ) 2 = 1 (1 3,5) (2 3,5) (6 3,5)2 = ,9167 Variansen av X är alltså ungefär lika med 2,9167. Som vi just noterade är variansen ett kvadrerat mått på slumpvariabelns spridning. För att få ett mått uttryckt i variabelns ursprungliga enheter kan vi ta kvadratroten ur variansen. Detta mått kallas vanligtvis för slumpvariabelns standardavvikelse och skrivs helt enkelt som σ. I tärningsexemplet ovan mäter variansen alltså osäkerheten i termer av antalet prickar i kvadrat medan standardavvikelsen mäter osäkerheten i termer av antalet prickar, vilket känns mer naturligt. 27

28 2 Slumpmässighet Exempel. Standardavvikelsen är ett vanligt mått på aktiers osäkerhet. Låt X och Y vara slumpvariabler som anger avkastningen på två aktier, vilka vi ska kalla aktie X och aktie Y. Den förväntade avkastningen på båda aktierna är lika med fyra men avkastningen för aktie X är mer utspridd kring dess medelvärde, vilket illustreras i Figur 2.4. Vi har åtta observationer på både X och Y. Varje observation representeras av en svart prick i figuren. Vi ser att sannolikheten för att slumpvariablerna ska anta medelvärdet fyra är 4 8 = 0,5 för Y och 2 8 = 0,25 för X. Osäkerheten kring X är således större än kring Y. Låt oss nu beräkna σ 2 X och σ2 Y variansen av X och Y på samma sätt som vi gjorde i det föregående exemplet med tärningen. Vi börjar med X. Eftersom µ är fyra får vi σx 2 = f(x)(x µ) 2 = (1 4) (2 4) (3 4) (4 4) (5 4) (6 4) (7 4) = 7 2 = 3,5 Standardavvikelsen för X är alltså lika med σ X = 3,5 1,8708. Vi kan göra motsvarande beräkning för Y vilket ger en varians lika med 0,5. Standardavvikelsen för Y kan därför beräknas till σ Y = 0,5 0,7071. Trots att de har samma medelvärde är alltså standardavvikelsen för X större än den för Y. Vi säger att aktie X är mer riskfylld än aktie Y. Beroende mellan flera slumpvariabler När vi studerar fler än en slumpvariabel åt gången är vi vanligtvis inte enbart intresserade av de enskilda medelvärdena och varianserna. Vi kanske även vill studera hur slumpvariablerna beror på varan- 28

29 Egenskaper hos slumpvariabler Figur 2.4: Avkastningen på två aktier X och Y x y dra. En frågeställning kan exempelvis vara hur två olika priser beror av varandra, vilket i sin tur beror på om varorna är substitut eller komplement. Ett vanligt mått på sådant beroende är kovariansen. Kovariansen mellan två slumpvariabler X och Y mäter graden av linjärt beroende mellan X och Y. Kovariansen mellan X och Y skrivs σ XY och är densamma som kovariansen mellan Y och X. Kovarians mellan två slumpvariabler: σ XY = f(x, y)(x µ X )(y µ Y ) Här har vi använt µ X för att beteckna medelvärdet för X medan µ Y betecknar medelvärdet för Y. Vi har även använt f(x, y) för att beteckna den gemensamma sannolikhetsfördelningen för både X och Y. 6 Notera att om vi ersätter Y med X överallt i formeln ovan får vi att f(x, x)(x µ X )(x µ X ) = f(x)(x µ X ) 2 vilket är lika 6 Den gemensamma sannolikhetsfördelningen för X och Y är en funktion f(x, y) som associerar en sannolikhet till varje par av värden x och y. Vi skriver f(x, y) = p(x = x, Y = y) för alla par (x, y). Funktionen f(x, y) fungerar alltså på samma sätt som f(x). Enda skillnaden är att vi nu tittar på talpar (x, y) istället för enskilda x (eller y). 29

30 2 Slumpmässighet med variansen för X. Kovarians och varians är alltså närbesläktade begrepp. Tecknet på kovariansen bestämmer om det linjära beroendet mellan X och Y är positivt eller negativt. Enligt ekvationen ovan är kovariansen lika med en viktad summa av produkterna (x µ X )(y µ Y ). Figur 2.5 visar par av värden (x, y) på X och Y tillsammans med deras medelvärden. I kvadrant B är x och y större än deras medelvärden, vilket innebär att produkten mellan (x µ X ) och (y µ Y ) är positiv. I kvadrant C är x och y mindre än deras medelvärden och produkten är återigen positiv. I kvadranterna A och D är produkten negativ. Eftersom större delen av paren (x, y) som finns markerade i figuren ligger i kvadranterna B och C är (x µ X )(y µ Y ) i genomsnitt positiv. Därför är kovariansen mellan X och Y positiv i detta fall. Figur 2.5: Kovarians mellan X och Y. y µ Y A B C D µ X x Med utgångspunkt i Figur 2.5 kan vi dra följande slutsatser angående kovariansen och dess tecken. Om kovariansen mellan X och Y är 30

31 Egenskaper hos slumpvariabler mindre än noll har X och Y ett negativt linjärt samband och högre värden på X förknippas då med lägre värden på Y. Om kovariansen däremot är större än noll har de ett positivt linjärt samband och högre värden på X förknippas då med högre värden på Y. Om kovariansen mellan X och Y är lika med noll finns inget linjärt samband alls. Det omvända förhållandet gäller inte eftersom X och Y kan ha ett icke-linjärt beroende trots att deras kovarians är lika med noll. Vi kan dock säga att om kovariansen mellan X och Y är lika med noll är X och Y linjärt oberoende. Vi sidan om detta säger kovariansen dock inte särskilt mycket. Storleken på kovariansen kan till exempel inte tolkas som ett mått på hur starkt det linjära beroendet är. Kovariansen kan alltså anta vilket tal som helst och är inte begränsat till något intervall. Ett annat problem är att kovariansen beror på hur vi mäter X och Y. Vi säger att kovariansen är skalberoende. Om X och Y till exempel är monetära variabler beror kovariansen på om X och Y är uttryckta i kronor eller ören. De två första problemen kan vi åtgärda genom att dividera kovariansen med produkten av standardavvikelserna för X och Y, vilka vi ska beteckna σ X och σ Y. Om vi gör detta får vi ett mått som är begränsat till intervallet [ 1, 1] och som ger oss information om styrkan av det linjära beroendet mellan X och Y. Detta mått kallas korrelation och betecknas vanligtvis ρ XY där ρ är den grekiska bokstaven rho. Korrelation mellan två slumpvariabler: ρ XY = σ XY σ X σ Y Korrelationen är ett skaloberoende mått på graden av linjärt sam- 31

32 2 Slumpmässighet band mellan X och Y. Om kovariansen och således även korrelationen är lika med noll säger vi att X och Y är linjärt oberoende. Om korrelationen är lika med ett säger vi att X och Y har ett perfekt positivt linjärt beroende. Observationerna på X och Y bildar då en rät linje med positiv lutning (även om vi inte kan bestämma storleken på lutningen exakt). Om korrelationen är lika med minus ett säger vi att X och Y har ett perfekt negativt linjärt beroende. Observationerna på X och Y bildar då en rät linje med negativ lutning. Om korrelationen ligger i det öppna intervallet ( 1, 1) anger den graden av linjärt beroende mellan X och Y. En korrelation på exempelvis 0,9 indikerar ett starkt positivt linjärt beroende medan en korrelation på 0,1 indikerar ett svagt negativt linjärt beroende. 2.5 Normalfördelningen I detta avsnitt ska vi introducera en mycket viktig kontinuerlig sannolikhetsfördelning, vilken vi ska återkomma till i de kommande kapitlen. Denna fördelning kallad normalfördelningen har visat sig vara mycket värdefull inom ekonometrin. Vi ska börja med att presentera normalfördelningens egenskaper. Därefter ska vi visa hur den kan användas för att beräkna sannolikheter för olika händelser. Egenskaper En normalfördelad slumpvariabel X med medelvärde µ och varians σ 2 skrivs vanligtvis som X N(µ, σ 2 ) Tecknet ska läsas fördelad som. Beteckningen ovan ska därför tolkas som att X är fördelad normal med medelvärde µ och var- 32

33 Normalfördelningen ians σ 2. Den normalfördelade slumpvariabelns sannolikhetsfördelning har ett specifikt utseende som bestäms av µ och σ 2. Eftersom µ kan anta vilket värde som helst och σ 2 kan anta alla icke-negativa tal finns det i princip ett oändligt antal normalfördelningar. Det generella utseendet för normalfördelningen är dock alltid detsamma; en symmetrisk klockformad kurva. Kännedom om µ och σ 2 fixerar en specifik normalfördelning av alla möjliga kandidater. Detta ger oss den exakta normalfördelningen med vilken vi kan beräkna sannolikheter för att X ska hamna inom ett visst intervall (kom ihåg att X nu är kontinuerlig). Figur 2.6: Normalfördelningar. f(x) µ = 30 σ 2 = 25 x f(x) µ = 10 σ 2 = 9 x Figur 2.6 visar normalfördelningar för några olika värden på µ och σ 2. Precis som tidigare är medelvärdet ett mått på fördelningens centrum, vilket också är den punkt där fördelningen är som toppigast. Det faktum att medelvärdet för symmetriska fördelningar 33

34 2 Slumpmässighet även är den punkt där arean under grafen y = f(x) delas mitt itu innebär att arean på varje sida är lika med 0,5 (eftersom den totala arean under grafen är lika med ett). Standardavvikelsen σ mäter avståndet mellan fördelningens mitt till inflektionspunkten där funktionen går från att vara konvex till konkav. En fördelning med relativt stor varians är bred och således också platt eftersom arean under grafen alltid måste vara lika med ett. Av samma anledning måste en fördelning med liten varians vara smal och toppig. Sannolikhetsberäkning Eftersom normalfördelningen är kontinuerlig kan vi beräkna sannolikheten att X faller inom ett visst intervall som ytan under grafen till funktionen. Detta kan vi göra med hjälp av integralkalkyl. Men sådana beräkningar kompliceras av det faktum att det finns ett oändligt antal olika normalfördelningar beroende på vilka värden vi väljer på µ och σ 2. Antag att vi med hjälp av integralkalkyl beräknat sannolikheter för alla möjliga intervall för fallet då µ och σ 2 är två respektive 10. Eftersom det finns ett oändligt antal möjliga intervall är detta naturligtvis ett väldigt mödosamt arbete. Men om vi sparar alla intervallen tillsammans med deras sannolikheter i en tabell kan vi använda dem igen även nästa gång vi söker en sannolikhet för en normalfördelad slumpvariabel med medelvärde två och varians 10. Har vi väl beräknat och sparat alla sannolikheter en gång behöver vi alltså inte göra det vid nästa tillfälle. Men antag nu att vi istället söker en viss sannolikhet för en normalfördelad variabel med varians 10 men med medelvärde tre. I detta fall kan vi inte använda oss av samma tabell eftersom fördelningen nu har ett annat medelvärde. Då måste vi återigen beräkna den sökta sannolikheten med 34

35 Normalfördelningen hjälp av integralkalkyl. Figur 2.7: Arean i Tabell A.1. f(z) p(0 < Z < a) 0 a z För att slippa beräkna ytan under normalfördelningen varje gång kan vi välja en speciell fördelning som standard. Om vi beräknar och sparar alla sannolikheter för denna standard i en tabell behöver vi nästa gång bara slå upp det sökta intervallet i tabellen som då ger oss sannolikheten vi behöver. Fördelen med att välja ut en normalfördelning som standard är att samma tabell kan användas för alla möjliga normalfördelningar genom en speciell transformation. För att särskilja denna standard, kallad standardnormalfördelningen, från X ska vi kalla den förra för Z. Vi skriver Z N(0, 1) Tabell A.1 i Appendix beskriver standardnormalfördelningen som en funktion av det värde z som Z kan anta. Tabellen ger areor under standardnormalfördelningen mellan värdena noll och a > 0. Det senare kallas ibland för kritiskt värde eftersom det kan användas för att skära av svansen på fördelninen. Tabellen ger oss alltså san- 35

36 2 Slumpmässighet nolikheten p(0 < Z < a). Detta illustreras i Figur 2.7. Den totala arean under fördelningen är ett och på grund av symmetri är arean till höger om noll lika med 0,5. På samma sätt gäller det att arean mellan noll och a är lika med arean mellan noll och a. Med andra ord gäller det att p( a < Z < 0) = p(0 < Z < a). För att kunna använda tabellen måste vi dock först veta hur vi får tag i den standardnormalfördelade variabeln Z. Antag därför att vi har en normalfördelad slumpvariabel X med medelvärde µ och varians σ 2 och att vi vill hitta Z med medelvärde noll och varians ett. Det visar sig att transformationen från X till Z kan skrivas på följande sätt. Standardnormaltransformationen: Z = X µ σ Genom att dra bort medelvärdet och sedan dela med standardavvikelsen får vi alltså Z vars fördelning vi finner i Tabell A Exempel. Antag att X N(50, 100) och att vi vill finna p(x > 60). Vi kan inte beräkna denna sannolikhet direkt men om vi kan transformera X till Z kan vi använda Tabell A.1. Transformationen från X till Z får vi från ekvationen ovan. Detta ger ( X µ p(x > 60) = p > 60 µ ) σ σ ( ) = p Z > = p(z > 1) 10 Detta innebär att sannolikheten p(x > 60) för X är exakt lika med sannolikheten p(z > 1) för Z. Denna sannolikhet kan dock inte beräknas direkt eftersom tabellen bara ger sannolikheter av typen p(0 < Z < a). För att beräkna p(z > 1) delar vi därför upp det intervallet i delar vars sannolikheter vi kan finna i tabellen.

37 Normalfördelningen I detta fall ser vi att den sökta sannolikheten kan skrivas som p(z > 0) p(0 < Z < 1) där p(z > 0) måste vara lika med 0,5 eftersom fördelningen är symmetrisk med medelvärde noll. Den andra termen kan vi finna i tabellen, vilket ger p(z > 1) = p(z > 0) p(0 < Z < 1) = 0,5 0,341 = 0,159 Sannolikheten att X är större än 60 är alltså lika med 0,159. Det bör kanske nämnas att i praktiken så används sällan tabellberäkningar av detta slag. Istället låter man sin dator beräkna den sökta sannolikheten och sådana beräkningar kan man göra enkelt i exempelvis Excel. Men innan man låter datorn göra jobbet är det väldigt viktigt att man förstått själva principen och vi ska därför ta ytterligare ett par exempel på hur man kan beräkna sannolikheter med hjälp av tabellen. Exempel. Låt X vara priset i kronor på en viss aktie vid en viss tidpunkt. Antag att X N(160, 400) och att vi söker p(x > 200), sannolikheten att priset på aktien är högre än 200 kronor vid en viss tidpunkt. Vi börjar med att transformera sannolikhetsuttrycket för X till en sannolikhet för Z. Om vi använder samma trick som i exemplet ovan får vi ( X µ p(x > 200) = p > σ ) = p(z > 2) Denna sannolikhet kan vi inte finna direkt i Tabell A.1 utan vi måste först dela upp det sökta intervallet i delar vars sannolikheter kan hittas i tabellen. Vi kan skriva p(z > 2) = p(z > 0) p(0 < Z < 2) där p(z > 0) är 0,5 och enligt tabellen är p(0 < Z < 2) lika med 0,477. Sannolikheten att priset på aktien är högre än 200 kronor blir därför p(z > 2) = 0,5 0,477 = 0,

38 2 Slumpmässighet I nästa exempel ska vi visa hur vi kan finna intervallgränser vi ska kalla dem a och a sådana att sannolikheten för att Z ska falla inom intervallet är lika med ett givet tal, exempelvis 0,05 (eller fem procent). Exempel. Antag att vi vill finna ändpunkter a och a i ett intervall för Z sådana att p( a < Z < a) är lika med 1 α. Om vi vidare låter α = 0,05 ska vi ha precis 0,025 i varje svans. Med andra ord söker vi ett intervall ( a, a) som med 95 procents säkerhet innehåller Z. Eftersom normalfördelningen är symmetrisk vet vi att p(0 < Z < a) = 0,95 2 = 0,475 För att finna konstanten a kan vi leta baklänges i tabellen efter det z som ger sannolikheten 0,475 (eller 0,025 i höger svans). Vi får då att a är lika med 1,96. Slutsatsen är därför att intervallet ( 1,96, 1,96) innehåller Z med 95 procents säkerhet. Detta illustreras i Figur 2.8. Figur 2.8: Intervall för Z. f(z) 1 α = 0,95 α 2 = 0,025 α 2 = 0,025 1,96 1,96 z 38

39 Uppgifter Varför just normalfördelningen? Nu när vi vet hur normalfördelningen ser ut och hur vi kan beräkna sannolikheter med hjälp av tabellen kan man ju fråga sig varför just normalfördelningen är så himla viktig? En orsak är att sannolikhetsfördelningen av många stickprovsbaserade estimatorer närmar sig normalfördelningen när stickprovsstorleken växer (se avsnitt 3.5). Begreppet estimator kommer att ges en mer detaljerad förklaring i nästa kapitel men vi kan tänka på en estimator som en regel som säger hur stickprovet kan användas för att exempelvis uppskatta värdet på populationsmedelvärdet µ. Ofta har vi bara ett stickprov och om vi är intresserade av att dra slutsatser kring medelvärdet i populationen så är det bästa vi kan göra att försöka uppskatta detta med hjälp av den information vi har, det vill säga informationen i stickprovet. Normalfördelningen kommer då att ge oss sannolikheten att medelvärdet i populationen är nära det vi har beräknat utifrån stickprovet. Det är allså inte en slump att begreppet estimator och således också normalfördelningen kommer att få en jättestor betydelse i resten av denna kurs. En annan orsak till varför normalfördelningen är så viktig är att den kan användas som en approximation för många andra vanliga fördelningar, både kontinuerliga och diskreta. I avsnitt 3.2 kommer vi att titta närmare på en fördelning av detta slag, nämligen t-fördelningen. 2.6 Uppgifter 1. Antag att vi är intresserade av populationen i Tabell 2.2 där X är antalet barn per hushåll. 39

40 2 Slumpmässighet (a) Är X en kontinuerlig eller diskret slumpvariabel? (b) Är f(x) en sannolikhetsfördelning till X? (c) Hur många barn har ett hushåll i genomsnitt? (d) Beräkna variansen av X. (e) Uttryck svaret i (d) i termer av antalet barn per hushåll. (f) Beräkna standardavvikelsen av X. (g) Uttryck svaret i (f) i termer av antalet barn per hushåll. Hur skiljer sig detta från ditt svar i (e)? Tabell 2.2: Antal barn. x f(x) 0,3 0,3 0,2 0,1 0,05 0,05 2. Betrakta sannolikhetsfördelningen i Tabell 2.3. Tabell 2.3: Sannolikhetsfördelning. x f(x) b 2b 3b 4b 5b (a) Vilket värde ska b ha för att f(x) ska utgöra en sannolikhetsfördelning till X. (b) Vad är medelvärdet av X? (c) Vad är variansen av X? (d) Beräkna P (X 2), P (X 3) och P (2 X 3). 3. Låt X vara utfallet av en slantsingling. 40

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 4 Statistiska metoder 1 Dagens föreläsning o Sannolikhet Vad är sannolikhet? o Slumpvariabel o Sannolikhetsfördelningar Binomialfördelning Normalfördelning o Stickprov och population o Centrala

Läs mer

Stokastiska signaler. Mediesignaler

Stokastiska signaler. Mediesignaler Stokastiska signaler Mediesignaler Stokastiska variabler En slumpvariabel är en funktion eller en regel som tilldelar ett nummer till varje resultatet av ett experiment Symbol som representerar resultatet

Läs mer

FÖRELÄSNING 7:

FÖRELÄSNING 7: FÖRELÄSNING 7: 2016-05-10 LÄRANDEMÅL Normalfördelningen Standardnormalfördelning Centrala gränsvärdessatsen Konfidensintervall Konfidensnivå Konfidensintervall för väntevärdet då variansen är känd Samla

Läs mer

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen Kap 6: Normalfördelningen Normalfördelningen Normalfördelningen som approximation till binomialfördelningen σ μ 1 Sats 6 A Om vi ändrar läge och/eller skala på en normalfördelning så har vi fortfarande

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor Kontinuerliga stokastiska variabler Exempel En stokastisk variabel är kontinuerlig om den kan anta vilka värden som helst i ett intervall, men sannolikheten för varje enskilt utfall är noll: P(X = x) =.

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar Föreläsning 3 Kapitel 4, sid 79-124 Sannolikhetsfördelningar 2 Agenda Slumpvariabel Sannolikhetsfördelning 3 Slumpvariabel (Stokastisk variabel) En variabel som beror av slumpen Ex: Tärningskast, längden

Läs mer

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4) Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative

Läs mer

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06 Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06 Bengt Ringnér September 20, 2006 Inledning Detta är preliminärt undervisningsmaterial. Synpunkter är välkomna. 2 Väntevärde standardavvikelse

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare "Det finns inget så praktiskt som en bra teori" November 2011 Repetition Vad vi gjort hitills Vi har börjat med att studera olika typer av mätningar och sedan successivt tagit fram olika beskrivande mått

Läs mer

TMS136. Föreläsning 4

TMS136. Föreläsning 4 TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer

Läs mer

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12 LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Kap 3: Diskreta fördelningar

Kap 3: Diskreta fördelningar Kap 3: Diskreta fördelningar Sannolikhetsfördelningar Slumpvariabler Fördelningsfunktion Diskreta fördelningar Likformiga fördelningen Binomialfördelningen Hypergeometriska fördelningen Poisson fördelningen

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

Samplingfördelningar 1

Samplingfördelningar 1 Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi

Läs mer

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler 5 45 4 5 5 5 5 Öppningskurs 5 9 7 5 9 7 4 45 49 5 57 6 65 abb Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 Kontinuerliga variabler Kontinuerliga s.v.

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

F9 Konfidensintervall

F9 Konfidensintervall 1/16 F9 Konfidensintervall Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 18/2 2013 2/16 Kursinformation och repetition Första inlämningsuppgiften rättas nu i veckan. För att

Läs mer

Vetenskaplig metod och statistik

Vetenskaplig metod och statistik Vetenskaplig metod och statistik Innehåll Vetenskaplighet Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet? Experimentlogg Att fundera på

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

Föreläsning G70 Statistik A

Föreläsning G70 Statistik A Föreläsning 2 732G70 Statistik A Introduktion till sannolikhetslära Sannolikhetslära: område inom statistiken där vi studerar experiment vars utfall beror av slumpen Sannolikhet: numeriskt värde (mellan

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Väntevärde, varians, standardavvikelse, kvantiler Uwe Menzel, 28 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Väntevärdet X : diskret eller kontinuerlig slumpvariable

Läs mer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

Mer om slumpvariabler

Mer om slumpvariabler 1/20 Mer om slumpvariabler Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/2 2013 2/20 Dagens föreläsning Diskreta slumpvariabler Vilket kretskort ska man välja? Väntevärde

Läs mer

Föreläsning 5: Hypotesprövningar

Föreläsning 5: Hypotesprövningar Föreläsning 5: Hypotesprövningar Johan Thim (johan.thim@liu.se) 24 november 2018 Vi har nu studerat metoder för hur man hittar lämpliga skattningar av okända parametrar och även stängt in dessa skattningar

Läs mer

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Kvantitativ strategi Univariat analys 2. Wieland Wermke + Kvantitativ strategi Univariat analys 2 Wieland Wermke + Sammanfattande mått: centralmått n Beroende på skalnivån finns det olika mått, som betecknar variablernas fördelning n Typvärde eller modalvärde

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-06-07 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson Jourhavande

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016 SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 4 KONTINUERLIGA STOKASTISKA VARIABLER Tatjana Pavlenko 7 september 2016 PLAN FÖR DAGENS FÖRELÄSNING Repetition av diskreta stokastiska variabler. Väntevärde

Läs mer

Finansiell statistik

Finansiell statistik Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl Karlstads universitet Avdelningen för nationalekonomi och statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Slumpförsök Repetitionsföreläsning Föreläsning 15 Sannolikhet och Statistik 5 hp Med händelser A B... avses delmängder av ett utfallsrum. Slumpförsök = utfallsrummet + ett sannolikhetsmått P. Fredrik Jonsson

Läs mer

4.1 Grundläggande sannolikhetslära

4.1 Grundläggande sannolikhetslära 4.1 Grundläggande sannolikhetslära När osäkerhet förekommer kan man aldrig uttala sig tvärsäkert. Istället använder vi sannolikheter, väntevärden, standardavvikelser osv. Sannolikhet är ett tal mellan

Läs mer

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Något om sannolikheter, slumpvariabler och slumpmässiga urval LINKÖPINGS UNIVERSITET Matematiska institutionen Statistik Stig Danielsson 004-0-3 Något om sannolikheter, slumpvariabler och slumpmässiga urval 1. Inledning Observerade data innehåller ofta någon form

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl Karlstads universitet Institutionen för informationsteknologi Avdelningen för statistik Tentamen i Statistik, STA A13 Deltentamen, 5p 1 januari 006, kl. 09.00-13.00 Tillåtna hjälpmedel: Bifogad formel-

Läs mer

Statistikens grunder HT, dagtid Statistiska institutionen

Statistikens grunder HT, dagtid Statistiska institutionen Statistikens grunder 1 2013 HT, dagtid Statistiska institutionen Orsak och verkan N Kap 2 forts. Annat ord: kausalitet Något av det viktigaste för varje vetenskap. Varför? Orsakssamband ger oss möjlighet

Läs mer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 4. Kapitel 5, sid Stickprovsteori Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

Vetenskaplig metod och statistik

Vetenskaplig metod och statistik Vetenskaplig metod och statistik Innehåll Vetenskaplighet Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet? Experimentlogg Att fundera på

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är

Läs mer

Kap 2. Sannolikhetsteorins grunder

Kap 2. Sannolikhetsteorins grunder Kap 2. Sannolikhetsteorins grunder Olika händelser och deras mängbetäckningar Sats 2.7 Dragning utan återläggning av k element ur n (utan hänsyn till ordning) kan ske på ( n ) olika sätt k För två händelser

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Sannolikheter och kombinatorik

Sannolikheter och kombinatorik Sannolikheter och kombinatorik En sannolikhet är ett tal mellan 0 och 1 som anger hur frekvent en händelse sker, där 0 betyder att det aldrig sker och 1 att det alltid sker. När vi talar om sannolikheter

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl Karlstads universitet Institutionen för informationsteknologi Avdelningen för Statistik Tentamen i Statistik, STA A0 och STA A3 (9 poäng) 6 januari 004, kl. 4.00-9.00 Tillåtna hjälpmedel: Bifogade formel-

Läs mer

Några extra övningsuppgifter i Statistisk teori

Några extra övningsuppgifter i Statistisk teori Statistiska institutionen Några extra övningsuppgifter i Statistisk teori 23 JANUARI 2009 2 Sannolikhetsteorins grunder 1. Tre vanliga symmetriska tärningar kastas. Om inte alla tre tärningarna visar sexa,

Läs mer

TMS136. Föreläsning 10

TMS136. Föreläsning 10 TMS136 Föreläsning 10 Intervallskattningar Vi har sett att vi givet ett stickprov kan göra punktskattningar för fördelnings-/populationsparametrar En punkskattning är som vi minns ett tal som är en (förhoppningsvis

Läs mer

Formel- och tabellsamling i matematisk statistik

Formel- och tabellsamling i matematisk statistik Formel- och tabellsamling i matematisk statistik 1. Sannolikhetsteori för lärarprogrammet Sannolikhetsformler P (A ) = 1 P (A) P (A B) = P (A) + P (B) P (A B) P (A B) = P (A B) P (B) P (A B) = P (A B)P

Läs mer

FÖRELÄSNING 3:

FÖRELÄSNING 3: FÖRELÄSNING 3: 26-4-3 LÄRANDEMÅL Fördelningsfunktion Empirisk fördelningsfunktion Likformig fördelning Bernoullifördelning Binomialfördelning Varför alla dessa fördelningar? Samla in data Sammanställ data

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

Diskussionsproblem för Statistik för ingenjörer

Diskussionsproblem för Statistik för ingenjörer Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka

Läs mer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 3 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Inferens om två populationer (kap 8.1 8.) o Parvisa observationer (kap 9.1 9.) o p-värde (kap 6.3) o Feltyper, styrka, stickprovsstorlek

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2017-08-22 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Jourhavande lärare: Mykola

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels

Läs mer

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4: Konfidensintervall (forts.) Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika

Läs mer

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2 Finansiell Statistik (GN, 7,5 hp, HT 008) Föreläsning Diskreta sannolikhetsfördelningar (LLL kap. 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4 LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, 216-4-6 OCH INFÖR ÖVNING 4 Övningens mål: Du ska förstå begreppet slumpvariabel och skilja

Läs mer

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018 SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 3 DISKRETA STOKASTISKA VARIABLER Tatjana Pavlenko 23 mars, 2018 PLAN FÖR DAGENSFÖRELÄSNING Repetition av betingade sannolikheter, användbara satser

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) Aktuella avsnitt i boken: Kap 61 65 Lektionens mål: Du ska

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer