The Title The Author The Date
ii
Innehåll Vad statistik handlar om. Modeller............................ 3. Tre typer av medelvärden.................. 4.. Median........................ 5.. Typvärde....................... 5..3 Aritmetiskt medelvärde............... 6.3 Tre typer av avvikelser.................... 0.3. Varians standardavvikelse..............3. Skevhet........................ 3.3.3 Toppighet....................... 4.4 Tre typer av gram...................... 6.4. Stolpdiagram och kumulerat stolpdiagram..... 6.4. Histogram och kumulerat histogram........ 9 Stokastiska variabler, väntevärden och sannolikheter 3. Diskret och kontinuerlig................... 3. Väntevärden.......................... 5.3 Sannolikhet.......................... 7.4 Mera om sannolikheter.................... 3.5 Betingade sannolikheter................... 35.6 Betingade väntevärden.................... 4.7 Betingade varianser...................... 43.8 Oberoende........................... 45 3 Diskreta modeller 49 3. Betygssättning........................ 49 3. Optionsmodell........................ 55 3.. Binomial optionsmodell ett tidssteg....... 56 3.. Binomial optionsmodell era tidssteg....... 59 3.3 Epostmodell.......................... 65 iii
iv INNEHÅLL 3.4 Spelmodeller......................... 7 3.5 Kvalitetskontroll....................... 75 3.6 Sammanfattning....................... 80 3.7 Lösningar till uppgifter.................... 8 4 Kontinuerliga modeller 87 4. Bussmodell.......................... 87 4. Försäkringsmodell...................... 90 4.. Fördelning för antal skador............. 95 4.. En försäkrings premie................ 96 4.3 Normalfördelningen...................... 97 4.3. Centrala gränsvärdessatsen............. 0 4.4 Lösningar till uppgifter.................... 08 5 Stickprov och skattningar 5. Stickprov........................... 5.. Vad ett stickprov kan ge............... 5. Skattningar.......................... 5 5.. Önskade egenskaper hos skattningar........ 6 5.3 Metoder för att nna skattningar.............. 4 5.3. Momentmetoden................... 4 5.3. Minsta kvadrat metoden............... 6 5.3.3 Maximum likelihood metoden............ 30 5.4 Tankeväckande exempel................... 35 5.5 Lösningar till uppgifter.................... 40 6 Passar vår fördelning 4 6. Funktionen ^F......................... 43 6. Fördelningsdiagram..................... 43 6.. P-P diagram..................... 44 6.. K-K diagram..................... 46 6..3 Exempel........................ 47 6.3 Rörvik Timber B....................... 57 6.4 Lösningar till uppgifter.................... 60 7 Trovärdiga intervall 63 7. Normalfördelningen...................... 64 7.. Fall : Kon densintervall för när är känt... 65 7.. Fall : Kon densintervall för med okänt väntevärde....................... 67 7..3 Fall 3: Kon densintervall för när är okänt... 68 7. Kon densintervall vid normalapproximation........ 70
INNEHÅLL v 7.. Kon densintervall vid Poissonfördelning...... 70 7.. Kon densintervall vid binomialfördelning..... 7 7.3 Lösningar till uppgifter.................... 74 8 Prövning av antaganden 77 8. Introduktion......................... 77 8. Test av vid normalfördelning............... 77 8.. Steg : Formulera lämplig hypotes......... 78 8.. Steg : Bestäm en testvariabel........... 79 8..3 Steg 3: Bestäm en beslutsregel........... 80 8..4 Steg 4: Besluta.................... 8 8..5 Jämförelse mellan kon densintervall och test... 84 8.3 Test av vid normalfördelning............ 84 8.4 Test av p........................... 90 8.5 Test av vid normalfördelning............... 95 8.6 Olika typer av fel....................... 98 8.6. Styrkefunktion.................... 98 8.7 p-värden............................ 99 8.8 Test av fördelningar..................... 0 8.8. -testet........................ 0 8.8. Ett enklare exempel................. 0 8.8.3 Fördelningar diskreta............... 06 8.8.4 Fördelningar kontinuerliga............. 08 8.8.5 Test av oberoende.................. 0 8.9 Övningar och Problem.................... 4 8.0 Lösningar till uppgifter.................... 5 9 Linjär regression enkel 7 0 Linjär regression multipel 9 Icke linjär regresion Logistisk regression 3. När är logistisk regression användbart........... 3. Hur ser p(x ; : : : ; x m ) ut................... 8.. Logistisk regressionsmodell via odds........ 8.. Logistisk regressionsmodell via tillväxtmodell... 3.3 Hur bestäms parametrarna 0 och............ 33.3. För att summera och generalisera.......... 35.4 Tillbaks till exemplen.................... 36.5 Hur man tolkar parametrar................. 40
vi INNEHÅLL.6 Övningar........................... 4.7 Lösningar till uppgifter.................... 49 3 Tidsserier 5 3. Introduktion......................... 5 3. Glidande medelvärden.................... 5 3.3 Komponentmodeller..................... 55 3.3. Modell......................... 55 3.3. Konstruktion av en tidsserie............. 57 3.3.3 Analys av tidsserien ovan.............. 59 3.3.4 Enkel exponentiell utjämning............ 64 3.3.5 Dubbel exponentiell utjämning à la Holt...... 67 3.4 ARMA-modeller....................... 69 3.4. Introduktion..................... 69 3.4. Hur ser en stationär tidsserie ut.......... 7 3.4.3 Autokorrelationsfunktionen............. 74 3.4.4 Partiella autokorrelationsfunktionen........ 75 3.4.5 Modellen AR()................... 77 3.4.6 Modellen MA()................... 78 3.5 Lösningar till uppgifter.................... 8 4 ARMA processer 87 5 Beslutsteori 89 5. Beslutsprocessen....................... 90 5. Enkla beslutsproblem.................... 9 5.. Minimax........................ 93 5.. Maximax....................... 93 5..3 Förlorade möjligheter................ 94 5.3 Enkla beslut baserade på väntevärden........... 96 5.4 Enkla beslutsträd....................... 99 5.5 Aposteriorisannolikheter................... 30 5.6 Allmäna beslutsträd..................... 303
. Vad statistik handlar om Människans ojämförligt största upp nning är språket och därefter kommer matematik och statistik. Utan det förra skulle vi inte kunna utväxla ideer och utan det senare skulle våra ideer vara fördunklade av allehanda övernaturligt tankebråte. Ett samhälle utan matematik kan förvisso existera men dömer sig självt till evigt stillastående. Matematiken och i dess förlängning statistiken är två speciella universiella språk som hjälper oss att reda ut vad som är sant och vad som är tro. Matematiken gör modeller som utgår från "odelbara sanningar" och härleder därur statiska beskrivningar av verkligheten. Det statistiska språket lägger till en osäkerhetsaspekt till det matematiska språket, slumpen, som gör det möjligt att även ge beskrivningar av en kaotisk, dynamisk, verklighet. Statistik har gett uphov till och/eller understött utvecklingen av många intressanta verksamheter som nationalekonomi, sociologi, marknadsföring, fysik, nans, medicin, farmakologi, psykologi, dataalgoritmer o s v. Statistik har även använts för att förklara hur slumpen kan skapa mönster där inga nnes. I bästsäljaren Bibelkoden presenterar författaren [7, Michael Drosnin] följande resultat: Tag bibelns text och skriv ned den med exakt lika många bokstäver i varje rad. I den så erhållna textmassan kan man nu, vertikalt eller diagonalt, hitta en mängd intressanta saker. Vid ett sådant försök lyckades man para ihop 34 rabbiners namn med deras födelsedata. Något så märkligt kan inte vara en slump utan måste vara ett hemligt meddelande från Gud. Alltså nns Gud (vilka dumheter man får höra). Nu kan man med statistiska metoder bevisa att slumpen faktiskt ger dylika e ekter (se [8, Qvartilen Vol 9-3, Olle Häggström]). Statistik kan därför även användas för att avslöja direkt felaktiga påståenden och blir därmed ett utmärkt verktyg för att hålla koll på medvetet/omedvetet ljug från både politiker, astrologer och andra. För att kunna fungera som ett verktyg för utveckling och renhållning behöver statistiken matematiken ty med matematikens hjälp kan en statistiker visa att t ex aritmetiska medelvärden uppträder på ett speciellt sätt när antalet mätningar ökar. Detta betyder att den som vill stud-
era statistik måste, för att få verklig behållning av och självständigt kunna använda de statistiska verktygen, börja med att studera matematik. Har man inte elementa inom matematik klart för sig så blir statistiken knastertorr (utantillärning) och, utanför den deskriptiva statistikens värld, totalt obegriplig. Av denna anledning nns till denna bok en nätbok, Introduktion till matematik för ekonomer, som innehåller det minimum av kunskaper i matematik som behövs för att med god behållning kunna tillägna sig denna bok. Jaha vad handlar nu statistik om? Tillspetsat kan man säga att statistik handlar om två saker ) Hur man beräknar medelvärden och ) begreppet oberoende händelser. Sannolikt får jag en massa belackare som hävdar annat så jag får likt biskop Brask skriva en liten lapp: Hur man sedan använder dessa kunskaper är fram till var och en. Olle Sjöström påminner om statistikens tre ben (se [9, Qvartilen Vol 0-, Olle Sjöström]) Svårigheterna att svara på frågan Vad är statistik? beror inte minst på att statistikens idéhistoriska framväxt är komplex och svårfångad. Ett sätt att söka beskriva denna utveckling är att skilja på tre olika linjer. ) Statistik som kritisk samhällslära med rötter i Upplysningen. ) Statistik som generell metod, i dagens statistiska språkbruk en metod för surveyundersökningar, i allmänt språkbruk statistisk undersökning. En teori formulerades i slutet av 800-talet. 3) Statistik som tillämpning av sannolikhetsmodeller, som har haft en stark utveckling under 900-talet. Det är fråga om en mer utbyggd statistiskt orienterad matematik, även kallad matematisk statistik. Dessa tre traditioner lever kvar i dag. Alla tre nns med i statistikens olika tillämpningar, den tredje dominerar undervisning och forskning inom universitet och högskolor nästan helt. Även i det samhällsvetenskapliga ämnet statistik
. Vad statistik handlar om 3 har denna uppfattning fått insteg och intresset har glidit mer mot andra tillämpningar än de samhällsvetenskapliga. I det följande vill jag söka visa, att alla dessa tre traditioner är relevanta.... Ovanstående beskrivning stämmer bra med de faktiska förhållandena och det är onekligen så att det första benet har haft en tendens till att bli bortglömt och det andra har den statliga myndigheten SCB tagit hand om. Men både det första och andra benet behöver det tredje för att få hjälp att undvika fällor och fel.. Modeller Innan vi börjar räkna på medelvärden måste vi göra mätningar och dessa mätningar måste ha någon form av relevans för oss. Detta betyder att innan vi börjar mäta måste vi bestämma varför vi skall mäta, vad vi skall mäta och hur vi skall mäta. För att bli lite mer konkret tänker vi oss ett företag som sysslar med guldprospektering. Den första frågan varför får då svaret: För att hitta lönsam guldmalm. Vi kommer sedan över på frågan vad vi skall mäta guld så klart! Ja men hur? Så hamnade vi på den sista frågan hur innan vi besvarat vad. Detta är egentligen inget att förundras över de två frågorna hänger intimt samman. Hur prospekterar man guld? Min naiva tanke är att man i lämpligt område utför borrningar som ger borrkärnor. På lämpliga ställen på dessa borrkärnor gör man analyser av guldförekomsten hos, säg, en kubikcentimeter. Nu börjar det bli komplicerat ty vad du just läst innebär dels en metod för att välja borrhål och dels en metod för att välja ut de delar av borrkärnan som skall analyseras. Men vi har i varje fall kommit fram till svaret på frågan vad och det blev: Guldhalten i en (sammanhängande) kubikcentimeter borrkärna. Detta leder mig till att skapa följande storhet X = guldhalten i en cm 3 borrkärna. Eftersom vi kommer att analysera er prov, säg n, så erhåller vi n stycken guldhalter X ; X ; : : : ; X n. När vi så har erhållit dessa n guldhalter så måste vi fatta beslut om brytning eller ej och det är självklart så att om alla prov innehåller 00% guld så tar vi fram spaden och börjar gräva och om inget prov innehåller guld packar vi ihop vår utrustning för att pröva vår lycka annorstädes. Någonstans däremellan nns gänsen för brytvärd respektive ej brytvärd malm.
4.. Tre typer av medelvärden Vad vi nu har gjort är att skapa början till en modell av det som vi är intresserade av, i detta fall guldhalten, och vi har infört beteckningen X för att beteckna guldhalten hos en cm 3 malm innan vi ens har mätt denna halt. En naturlig beteckning för den faktiska uppmätta halten blir x så vi nner alltså de faktiska procentvärdena x ; x ; : : : ; x n t ex 0:00; 0:00; : : : ; 0:000. Nästa fråga är hur vi på bästa sätt skall hantera denna information för att avgöra om det nns brytvärt guld eller ej när vi tagit säg n = 000 prov. Detta blir för många värden för hjärnan att överblicka och vi behöver någon form av samlingsmått. Här skall vi endast ange ett (man kan tänka sig hur många som helst) som har blivit mycket grundligt studerat under århundrandenas lopp nämligen det aritmetiska medelvärdet X = nx X i n och dess observerade motsvarighet x = n i= nx x i. Vårt beslut att bryta eller ej kommer således att basera sig på talet x men hur beslutet skall fattas blir en senare historia. Vi skall nu gå över till att studera det aritmetiska medelvärdet och dess egenskaper men innan vi börjar med denna studie noterar vi ytterligare en sak om vårt exempel, nämligen: De värden som är möjliga att observera ligger alla mellan 0 och 00. Mängden av dessa tal betecknar vi med X och det gäller i= X = fx j 0 x 00g. Detta utläses "mängden omega-x där X antar alla reella tal mellan 0 och 00". Mängden X kallas X:s utfallsrum och anger precis de värden som är möjliga att erhålla vid en mätning av X. Sammanfattning Vi har infört beteckningen stor bokstav för det som vi skall mäta och liten bokstav för det som är uppmätt. De möjliga mätvärdena, utfallsrummet, betecknas med X eller alternativt (X).. Tre typer av medelvärden Ovan nämnde vi att det nns en uppsjö av samlingsmått men namngav bara ett det aritmetiska medelvärdet. Här skall vi börja med att kort
. Vad statistik handlar om 5 ta upp ytterligare två samlingsmått median och typvärde för att därefter ta itu med analysen av det aritmetiska medelvärdet... Median Om vi ordnar alla värden i växande storleksordning och sedan tar det mittersta värdet (om antalet mätningar är jämnt tar vi summan av de två mittersta värdena och delar med ) så får vi ett medelvärde som kallas median. Denna storhet har egenskapen att precis hälften av guldhalterna understiger medianen och den resterande hälften är större än medianen. Medianen är därför, för oss, en bra kandidat till ett medelvärde. Ovan har vi betecknat våra mätvärden med x ; x ; : : : ; x n och om vi ordnar dessa i växande storleksordning och inför beteckningen (i) för att beteckna det storleksmässigt i:te mätvärdet har vi för den ordnade mätmängden följande beteckning där det gäller att x () ; x () ; : : : ; x (n) x () x () x (n). Med detta skrivsätt de nerar vi nu medianen enligt De nition (Median) Med medianen, M (x), till mängden av mätvärden fx ; x ; : : : ; x n g menas talet 8 < M (x) = : x (k) n = k + x (k) + x (k+) n = k Medianen är således ett bra förslag på medelvärde och det är ett uppriktigt värde ty det är just det mittersta värdet av de givna värdena... Typvärde Ett annat uppriktigt värde är det så kallade typvärdet, T (x), som helt enkelt är det vanligast förekommande värdet. Detta värde kan dock vara svårt att de niera för många typer av mätvärden. Tag t ex längder av män och antag att vi mäter längden, i cm, hos 0 män och att vi då får längderna 73; 65; 78; 5; 73; 73; 79; 69; 89; 73.
6.. Tre typer av medelvärden Vi ser direkt att fyra av dem är 73 cm långa. Typvärdet skulle i detta fall bli just 73 cm. Men om vi nu tar och mäter längden av dessa 4 i mm så skulle vi troligtvis få att alla fyra har olika längd och typvärdet blir då ode nierat. Typvärdet är således inget bra mått för genomsnittligt värde eftersom det blir beroende av sorten. Ibland kan det dock ge en viss information...3 Aritmetiskt medelvärde Det artitmetiska medelvärdet är grundbulten inom statistik och denna bok. För att se detta måste vi ha ett exibelt exempel (eller snarare era) där vi kan exempli era olika egenskaper på sätt som är lätta att förstå. Eftersom detta är en bok i statistik, för ekonomer, med en speciell inriktning mot grunderna inom nansiell statistik så skall vi som utfallsrum betrakta Den Nordiska Börsen under 00 dagar. Detta utfallsrum är ändligt om än mycket stort och ändligheten behövs för att enkelt införa vissa storheter och begrepp. Bilda nu följande storheter X = Broström B, slutkurs mätt i ören, X = Atlas Copco B, slutkurs mätt i ören, X 3 = Rörvik Timber B, slutkurs mätt i ören. Observera här min petighet med angivande av mått och tidpunkt (statistiker blir lätt lite petiga eftersom de lärt sig att skit in blir skit ut, ursäkta svenskan). Den i:te dagens slutkurser ger vi beteckningarna X i, X i och X 3i där i = ; ; : : : ; 00. Statistiker har ett speciellt sätt att kalla sådana storheter: stokastiska variabler. Stokastisk betyder slumpmässig, så vi har slumpmässiga variabler eller kort och gott slumpvariabler. Ett alternativt sätt att uttrycka sig blir då: X, X och X 3 är tre stokastiska variabler. Detta uttryckssätt kommer att spara en hel del trycksvärta framöver samt underlätta införandet av nya begrepp, men visst blir det mer abstrakt. Men med abstraktionen följer å andra sidan en betydligt ökad tillämplighet ty jag behöver inte nämna några aktier dessa ingår som specialfall. Vårt exempel med en aktieportfölj kan då innefattas i de tre stokastiska variablerna X, X och X 3 på det ändliga utfallsrummet (X) = fx j x f0; 0:0; 0:0; : : : ; 300:00gg = f0; 0:0; 0:0; : : : ; 300:00g. Den Nordiska Börsen nns på adressen http://www.omxgroup.com/omxcorp/ (00706). Atlas Copco B kostade i skrivande stund mest ca 45 kronor.
. Vad statistik handlar om 7 Med detta exempel i bakhuvudet betraktar vi nu det abstrakta men ändliga utfallsrummet (X) = fx ; x ; : : : ; x N g av storlek N. Det aritmetiska medelvärdet, A (X), de nieras av att man summerar alla mätvärden och dividerar med antalet summerade värden d v s man bildar A (X) = x + x + + x N N och vi skall närmast undersöka vilka egenskaper denna storhet har. Balanseringspunkt Antag att vi har två lika vikter om v kg utplacerade på en homogen planka. Den första vikten be nner sig på avståndet x från plankans vänstra ändpunkt och den andra på avståndet x från samma punkt. Hur kan vi nu bestämma den punkt (jämviktspunkt, balanseringspunkt) på plankan där de två vikternas inverkan tar ut varandra d v s där vi skall placera en bock för att erhålla balans. v x v x?? x x x x x 3 (a) (b) v 3 v x v x v? v? x x x x x 3 (c) (d) Figur.: Balanseringspunkter i fyra olika typfall
8.. Tre typer av medelvärden Beteckna denna balanspunkt med x. Vi vet enligt fysikens lagar (eller om man så vill enligt lekparkens) att följande jämviktsekvation ( gur.a) måste gälla (x x ) v = (x x) v. Ur denna ekvation är det lätt att lösa ut den sökta punkten, x = x + x. Men vi skall också skriva jämviktsekvationen på ett annat sätt nämligen (x x) v + (x x) v = 0 ty denna form låter sig lätt generaliseras både till ett godtyckligt antal vikter och godtyckliga vikter. Antag först att vikterna är v och v istället för v ( gur.c). För att jämvikt skall gälla måste fortfarande (x x ) v = (x x) v, (x x) v + (x x) v = 0 och ur denna ekvation erhålls x = v x + v x v + v. Antag nu att vi har tre lika vikter v på avstånden x, x och x 3 och söker jämviktspunkten för dessa tre vikter ( gur.b). Vi konstaterar då först att de två första vikterna kan ersättas med vikten v i x (där vi lagt till index i x för att markera två vikter). Därefter har vi ånyo två vikter men denna gång med vikterna v på avståndet x respektive v på avståndet x 3. Detta ger jämviktsekvationen varur vi erhåller (x x 3 ) v + (x 3 x 3 ) v = 0 x 3 = vx + vx 3 3v = v (x + x ) + vx 3 3v = x + x + x 3. 3 Man övertygar sig lätt (?) om att jämviktsekvationen i detta senare fall kan skrivas (x x) v + (x x) v + (x 3 x) v = 0.
. Vad statistik handlar om 9 Den allmäna jämviktsekvationen med tre olika vikter v, v och v 3 på avstånden x, x och x 3 blir analogt varur vi erhåller (x x 3 ) v + (x x 3 ) v + (x 3 x 3 ) v 3 = 0 x 3 = v x + v x + v 3 x 3 v + v + v 3 3X v i = x i P 3 j= v. j i= Medelst ett enkelt induktionsbevis (se Introduktion till den ekonomiska matematiken) kan man nu visa (för dem som inte tror på sanningshalten) att det allmänt gäller x n = nx i= x i v i P n j= v j = nx x i p i för n olika vikter på olika avstånd. Den införda storheten p i kommer vi behandla utförligt längre fram. Storheten x n kallas det aritmetiska medelvärdet och för specialfallet v i = v erhålls, som ett specialfall, den storhet som vanligtvis förknippas med A (x), det aritmetiska medelvärdet baserat på n mätvärden. Tre egenskaper Funktionen A (X) har tre viktiga egenskaper som alla synes vara självklara men som inte desto mindre är av stor betydelse. För den vidare framställningen behöver vi De nition Med X avses följden av tal fx ; x ; : : : ; x N g = fx i g N i=. Vi skriver nu X 0 när alla X i 0. X = när alla X i =. Den första egenskapen hos funktionen A (X) kan nu skrivas: ) om X 0 så gäller att A (X) 0. Trivialt sant ty summerar man positiva tal så blir summan positiv. Den andra egenskapen är ) om X och X är två stokastiska variabler och c och c är två rella tal så gäller att i= A (c X + c X ) = c A (X ) + c A (X ).
0.3. Tre typer av avvikelser Tänk bara på en portfölj som består av två aktier. Oavsett om vi betraktar protföljen som helhet eller varje aktie för sig så skall ju slutresultatet bli detsamma. Den tredje och sista egenskapen är 3) Om X = så gäller att A () =. Sätt X i = i uttrycket för A (X) varvid påståendet följer direkt. Funktionen A (X) kallas inom matematiken, en normaliserad linjär operator och till dessa har vi anledning att återkomma många gånger. Vidare noterar vi att alla resonemang går igenom även om utfallsrummet är oändligt. Ofta har vi inte tillgång till hela utfallsrummet utan endast en del av det, säg n värden, d v s vi har ett urval. Vi kan då inte beräkna A (X) men väl A (x) där Här gäller för subindex I i att x = fx Ii g n i=. om det i:e värdet i X är med i urvalet, I i = 0 annars. Detta senare värde A (x) används sedan som en approximation av det förra A (X). Det gäller naturligtvis att för olika urval x erhålls olika värden på A (x) och dessa är med säkerhet skilda från det sanna värdet A (X). Då uppstår två naturliga frågor: ) hur utspridda är de olika värdena på A (x) och ) hur nära kan A (x) tänkas vara det sanna värdet A (X)..3 Tre typer av avvikelser Under denna rubrik kommer vi uteslutande betrakta det aritmetiska medelvärdet och lämnar de två andra medelvärdena median och typvärde åt sitt öde. I och med detta kan vi också kalla det aritmetiska medelvärdet för medelvärdet kort och gott. Medelvärdet ger oss en balanseringspunkt för vikter på en planka. Denna bild förs nu enkelt över till ett två-dimensionellt koordinatsystem där vikterna symboliseras av pinnar, med olika höjd, utplacerade på x- axeln. Pinne nummer i be nner sig på avstånd x i från origo (Detta har vi egentligen redan gjort i gur.). För att vara helt generella från början räknar vi avstånd med tecken. Om vi nu normerar pinnarnas sammanlagda höjd, p i, till d v s så att P N till att jag införde beteckningen p i för v i PN j= vj i= p i = så ser vi ett skäl (p för normerad pinne )
. Vad statistik handlar om ovan ty för vikterna gäller att NX i= v i P N j= v j P N i= = v i P N j= v j =. De nition 3 (Aritmetiskt medelvärde) Med det aritmetiska medelvärdet förstås den storhet (operator) som beskrivs av uttrycket där p i = A (X) = P vi N och fx i g N j= vj i= = X. NX x i p i Det är nu klart att två olika uppsättningar pinnar kan ha samma balanseringspunkt men till sin struktur vara helt olika. Vi skall därför införa tre olika mått (varians, skevhet och toppighet), som beskriver tre ytterligare egenskaper, för en uppsättning pinnar. i=.3. Varians standardavvikelse I nedanstående gur ser vi dels två lika stora pinnar nära varandra och dels samma pinnar långt ifrån varandra (pinnen i mitten är inte en pinne utan en pil y-axeln). (a) x = x = + x = 00 x = +00 (b) Figur.: Variansen i två olika typfall Vi nner lätt de två gurernas medelvärden till x = X i= x i p i = x + x respektive x = 4X i=3 x i p i = x 3 + x 4
.3. Tre typer av avvikelser och dessa medelvärden hamnar båda mittemellan de två positionerna, x och x respektive x 3 och x 4, men ändock ger gurerna helt olika intryck. Ett mått som mäter detta intryck är variansen (standardavvikelse) som för dessa två fall de nieras av X 4X = (x i x ) p i respektive = (x i x ) p i. i= För att övertyga oss om att variansen är ett mått på den visuella skillnaden i gurerna.a och.b beräknar vi varianserna för de storheter som ingår i respektive gur (med de angivna valen blir x = 0 och x = 0) och erhåller = = X i= 4X i=3 (x i ) = ( ) + () = i=3 (x i ) = ( 00) + (00) = 0 000 En tydligare skillnad än den mellan och 0 000, kan vi inte önska oss. För att få samma sort som för medelvärdet brukar man dra roten ur variansen och får då standardavvikelsen. Man erhåller vårt exempels standardavvikelser till respektive 00. Allmänt gör vi följande de nition De nition 4 (Varians) Variansen för den stokastiska variabeln X med utfallsrummet X, med N element, de nieras av där X = A (X). = NX i= x i X pi Med den ovan införda linjära operatorn A (X) kan variansen även skrivas 3 = A X X = A X X och vi nner följande identitet A X X = A X X X + X = A X XA (X) + X A () = A X A (X) 3 Det är lite otympligt att skriva A (X c) så det nns en oskriven överenskommelse att man istället skriver A (X A (X) A (X). c) vidare skriver man A (X) för att beteckna
. Vad statistik handlar om 3 ty A (X) = X..3. Skevhet Nästa steg är att beskriva begreppet skevhet och i gur.3 sid 3 är a) skev åt vänster, b) symmetrisk och c) skev åt höger. p p 3 3 (a) 9 (b) 3 4 5 p 3 (c) 9 Figur.3: Skevheten i tre olika typfall Liksom ovan betraktar vi avståndet till medelvärdet och den allmäna de nitionen av skevhet i utfallsrummet X är talet A X X 3. För detta tal kan vi visa följande identitet A X X 3 = A X 3 3 XA X + 3 X A (X) X 3 = A X 3 3 XA X + X 3. För alla tre gurer ovan gäller att p i = 3. Vi nner nu skevheten i de tre fallen i gur.3 till:
4.3. Tre typer av avvikelser a) x =, x = och x 3 = 9 vilket ger x = 4 och skevhetens värde blir ( 4) 3 3 + ( 4)3 3 + (9 4)3 3 = 30, b) x = 3, x = 4 och x 3 = 5 vilket ger x = 4 och skevhetens värde blir (3 4) 3 3 + (4 4)3 3 + (5 4)3 3 = 0, c) x =, x = 8 och x 3 = 9 vilket ger x = 6 och skevhetens värde blir ( 6) 3 3 + (8 6)3 3 + (9 6)3 3 = 30. Det gäller således att om den största tyngden nns till vänster om medelvärdet så erhåller vi en positiv skevhet, om tyngden är jämnt utspridd, d v s vi har symmetri, så erhåller vi skevheten 0 och slutligen om den största delen av tyngden ligger till höger om medelvärdet så har vi en negativ skevhet. För att få en dimensionslös storhet på skevheten används vanligen följande de nition på skevhet: De nition 5 (Skevhet) Skevheten för den stokastiska variabeln X med utfallsrummet X, med N element, de nieras av.3.3 Toppighet = A X X 3 3. Sista steget är att beskriva begreppet toppighet och om vi fortsätter på den inslagna vägen med högre potenser så de nerar vi toppigheten i utfallsrummet X som talet A X X 4. För toppigheten gäller följande identitet A X X 4 = A X 4 4 XA X 3 + 6 X A X 4 X 3 A (X) + X 4 = A X 4 4 XA X 3 + 6 X A X 3 X 4. För alla fyra del gurer i gur.4 sid 5 gäller att x = ; x = och x 3 = 3 vilket, tillsammans med värdena på p, p och p 3, ger x = i samtliga fall. Vi nner nu toppigheten i de fyra fallen till:
. Vad statistik handlar om 5 p p 6 8 4 8 (a) 3 4 (b) 3 p p 3 5 5 (c) 3 (d) 3 Figur.4: Toppigheten för fyra olika typfall a) p = 8, p = 3 4 och p 3 = 8 ger värdet ( ) 4 8 + ( )4 3 4 + (3 )4 8 = 0:5, b) p = 4, p = 4 och p 3 = 4 ger värdet ( ) 4 4 + ( )4 8 + (3 )4 4 = 0:5, c) p = 3, p = 3 och p 3 = 3 ger värdet4 ( ) 4 3 + ( )4 3 + (3 )4 3 = 0:66 6, d) p = 3 8, p = 8 och p 3 = 3 8 ger värdet ( ) 4 3 8 + ( )4 8 + (3 )4 3 8 = 0:75. 4 ett streck över talet, som i 6, betyder att 6 skall upprepas i all oändlighet.
6.4. Tre typer av gram Figur a) ger ett spetsigare intryck än gur b) och har även ett mindre värde på toppigheten. Figur b) är i sin tur spetsigare än gur c) som i sin tur är spetsigare än d) (som är urgröpt) och vi får hela tiden störra värden. Toppighet mäter således en gurs spetsighet. För att få en dimensionslös storhet på toppigheten används vanligen följande de nition på toppighet De nition 6 (Toppighet) Toppigheten för den stokastiska variabeln X med utfallsrummet X, med N element, de nieras av = A X X 4 4 3 där trean inte kan förklaras på nuvarande stadium (egentligen är den helt onödig) utan vi får återkomma till den längre fram..4 Tre typer av gram Vi skall nu undersöka den information som nns i p i :na i operatorn A (X). Låt oss göra det utifrån exemplet med 00 dagars slutkurser i aktien Rörvik Timber B (period 00-060 år 006). För denna har vi modellen X 3 = Rörvik Timber B, slutkurs mätt i 0-ören. där utfallsrummet är en uppräkning av de kurser som faktiskt noterats (X) = f6:8; 6:9; 7:; 7:; 7:3; 7:4; 7:5; 7:8; 7:9; :8; ; : : : ; :; :4; :5; :6; 3:5; 3:6; 3:7; 3:8; 3:9; 4; 4:4; 4:5g Slutkurserna i tidsordning kan ses i tabellen nedan (vilken skall läsas från vänster till höger, uppifrån och ned).4. Stolpdiagram och kumulerat stolpdiagram Om vi beräknar medelvärdet av dessa slutkurser så erhålls A (X) = x + x + + x 00 00 = 0:869. Nu är det väl inte så intelligent att räkna ut medelvärdet av aktiekurser 5 men i detta läge är vi ute efter något annat. Vi vet nämligen också att 5 Aktiekurser vandrar och man är mer intresserad av vart de är på väg.
. Vad statistik handlar om 7 Tabell.: Slutkurser Rörvik Timber B, 006-0-0 006-05-9 8:0 7:3 8:0 7:5 7:3 7: 7: 6:8 7: 7: 6:9 7:4 7: 7: 7:3 7: 7:8 7:5 8:7 8:4 8:0 8: 7:9 9:5 9:3 9:4 0:8 0:7 : :3 : :0 0:6 0:9 :3 :3 0:8 :4 : :5 :8 0:7 0:5 0:7 : 0:5 0: 0:3 0:0 0:6 0:8 0:6 : :3 : 0:7 0:5 :0 :8 :3 :5 :8 :3 0:9 0:5 0:5 :3 :4 :4 :4 :6 :8 3:0 3: 4:0 3:5 3:8 3:9 3:6 3:6 3:0 :0 :4 :9 3:0 4:0 3:7 4:0 4:4 4:5 3:5 3:8 :7 3:0 : :7 3:0 4:0 3: vårt medelvärde kan skrivas X00 A (X) = i= x i v i P N j= v j X00 = x i p i där talen v i står för vikter. Genom att sortera ovanstående slutkurser i stigande ordning och därefter räkna antalet gånger en kurs inträ ar kan vi bilda paren (x i ; v i ) och medelst ett stolpdiagram beskriva hur ofta t ex kursen 8 förekommer. Vi ser i gur.5 att detta värde förekommer precis 3 gånger. Detta betyder att att värdet 8 förekommer 3 gånger bland de 00 värdena d v s att chansen för att få 8 vid lottdragning bland de 00 slutkurserna är 3 på 00 eller som vi också säger 3%. Nu kan vi resonera på samma sätt för vart och ett av de i (X) ingående talen och erhåller då en följd av procentsi ror: p = %, p = %, p 3 = 4%, o s v speciellt ser vi att p 8 = 7%. Om vi nu istället för Antal på y-axeln inför Procent, eller helt enkelt bara talet p, så erhåller vi vad vi skall kalla det relativa stolpdiagrammet och det är detta diagram som kommer att användas framöver. Givet detta diagram kan vi snabbt utläsa påståenden av typen i= Sannolikheten för att X 3 = 0:9 är 0:0. 6 Vi ritar inte om det relativa stolpdiagrammet utan nöjer oss med att konstatera att de ändringar som behöver göras är att byta ut si rorna på y-axeln (t ex 7! 0:7) samt skriva p istället för Antal. Ett annat viktigt diagram som i sig innehåller materialet till ett mycket viktigt verktyg, som vi har anledning att återkomma till längre 0:0. 6 I matematiken lär vi oss att procent kan skrivas som hundradelar d v s att % =
8.4. Tre typer av gram Antal 7 6 5 4 3 7 8 9 0 3 4 5 Rörvik Timber Figur.5: Stolpdiagram över slutkurser i Rörvik Timber B, period 006-0-0 006-05-9 fram, är det relativa kumulerade stolpdiagrammet. Detta diagram bestäms av punkterna! nx x n ; x i p i ; n = ; ; 3; : : : ; 00. i= Vi skriver inte upp dess matematiska de nition, som bara blir krånglig, utan nöjer oss med gur.6. p.0 0.8 0.6 0.4 0. 7 8 9 0 3 4 5 Rörvik Timber Figur.6: Kumulerat stolpdiagram över slutkurser i Rörvik Timber B, period 006-0-0 006-05-9 Observera att det kumulativa relativa stolpdiagrammet alltid är växande och går från 0 till.
. Vad statistik handlar om 9 Exempel (SQL-anrop) Till en resebyrås databasserver inkommer SQL-anrop och den dataansvarige har under dagens brådaste timme noterat hur många anrop som anländer varje minut (och varje anrops svarstid) och därvid erhållit bland annat följande tabell över anropen 3 5 7 7 8 6 8 7 4 9 4 9 3 9 8 9 9 5 0 5 9 4 6 6 5 4 7 5 7 6 8 5 5 6 5 8 5 6 7 5 8 6 4 4 7 9 7 6 6 4 5 8 Materialet är tänkt att användas för att söka svar på frågor som: Klarar servern alltid av att besvara frågorna inom rimlig tid? Hur stor andel av tiden har servern inga frågor att besvara? Finns det risk för att servern kan bli överbelastad, så att svarstiderna blir orimliga, och i så fall hur stor är denna risk? Vi har ännu inte alla de verktyg som behövs för att kunna besvara dylika frågor men för en första analys kan vi alltid uttnyttja de vi har. Till att börja med beräknar vi de fyra måtten x s g g Medelvärde Varians Skevhet Toppighet 5:90 5:4 0:08 0:39 Vidare nner vi materialets relativa stolpdiagram och relativa kumulerade stolpdiagram se gur.7a och.7b. p p 0..0 0.8 0. 0.6 0.4 0. 3 4 5 6 7 8 9 0 A n r o p 3 4 5 6 7 8 9 0 A n r o p (a) Stolpdiagram (b) Kumulerat stolpdiagram Figur.7: SQL-anrop till en server.4. Histogram och kumulerat histogram Hitills har vi betraktat de möjliga slutkurserna för Rörvik Timber B som varande ett ändligt antal men en stunds eftertanke ger att detta
0.4. Tre typer av gram utfallsrum bara är en approximation av alla de möjligheter som nns. Det skulle därför inte vara helt fel att för Rörvik Timber B tänka sig ett utfallsrum av typen X = fx j 6:8 x 4:5g. Detta utfallsrum består då av oändligt många punkter och idén med stolpdiagram fungerar inte längre. Vad vi då kan göra är att fösa ihop alla observationer i ett intervall t ex kan vi notera antalet observationer mellan 6:8 x < 6:9, mellan 6:9 x < 7 o s v. Den uppmärksamme ser nu att vi i princip är tillbaks till stolpdiagrammet men nu från en annan utgångspunkt. Vidare är valet av intervall godtyckligt ty jag kunde lika gärna ha valt intervallen 6:8 x < 7, 7 x < 7: o s v eller varför inte olika intervalllängder 6:7 x < 7:3, 7:3 x < 7:7 o s v. Alla varianter kan förekomma och vissa av dem är bättre på att avslöja inneboende strukturer hos data än andra. För att komma fram till en avslöjande intervallindelning nns ingen annan metod än att göra intelligenta prövningar. Till varje indelning hör ett histogram och dess kumulerade histogram och vi skall för vår illustration välja indelningen 6 x < 7, 7 x < 8 o s v se gur.8a och b. Exempel (Skogsområde) Vid försäljning av ett skogsområde skall områdets värde i form av avverkningsbart timmer uppmätas. För att göra detta indelades området i ett rutnät om N rutor ur vilka 49 rutor togs slumpmässigt. I varje utvald ruta uppmättes därefter volymen timmer varvid följande avrundade värden, i något mått, erhölls 0:7 0:9 :0 :3 :9 :7 3: 3:4 3:4 3:5 3:5 4:3 5: 5:9 6:0 6:3 6:5 6:6 7: 7:4 7:6 7:9 8:3 8:3 8:3 8:3 8:7 0:0 0:0 0:3 :0 3:4 4: 4:8 6:7 6:8 7: 7:7 8:9 9:0 9:4 9:7 4:3 6: 6: 8:3 3:7 39:3 44:8 Analysera materialet och skatta den totala mängden timmer i skogsområdet. Data är de nierat på ett sådant sätt, volymmått, att det kan betraktas som kontinuerligt. De fyra måtten blir x s g g Medelvärde Varians Skevhet Toppighet :0 00:0 339:5 45
. Vad statistik handlar om p 0.5 0.4 0.3 0. 0. (a) Histogram.0 0.8 0.6 0.4 0. p 7 8 9 0 3 4 5 7 8 9 0 3 4 5 (b) Kumulerat histogram Rörvik Timber Rörvik Timber Figur.8: Två typer av gurer över slutkurser i Rörvik Timber, period 006-0-0 006-05-9 Vi ser att standardavvikelsen (roten ur variansen) är stor jämfört med medelvärdet och det är därför av vikt att nna data:s underliggande struktur. Skevheten säger oss att det mesta av data ligger till vänster om medelvärdet. Vårt nästa steg blir att rita några lämpliga histogram se gur.9 på sid. Observera att data självt informerar oss om att en symmetrisk fördelning inte kan föreligga. I det vänstra histogrammet har vi lika stor bas på alla rektanglar (vilket är olämpligt vid skeva fördelningar) och i det högra histogrammet gäller istället att varje rektangel har lika stor yta.det vänstra diagrammet är förvisso skevt men alltför grovt för att ge en bra bild över data. I det högra diagrammet ger vi varje rektangel en lika stor yta och detta ger en bättre bild över hur data fördelar sig på ytor med lite respektive mycket timmer. De två första diagrammen bekräftar således den skevhet som anges av talet g. Vårt nästa steg blir att pröva med en nare indelning som tar hänsyn till att det nns mer data i början. Därvid erhålls digram (c) som, av ännu ej diskuterade skäl, ger en bra beskrivning av data.
.4. Tre typer av gram 0.06 0.07 0.05 0.06 0.04 0.03 0.0 0.0 0.05 0.04 0.03 0.0 0.0 0.00 5 0 5 0 5 30 35 40 45 (a) Lika intervall, total yta= 0.00 5 0 5 0 5 30 35 40 45 (b) Lika ytor, total yta= 0.06 0.05 0.04 0.03 0.0 0.0 0.00 0 0 0 30 40 50 (c) Olika intervall, total yta= Figur.9: Försäljning av ett markområde
. Stokastiska variabler, väntevärden och sannolikheter I avsnittet om Vad statistik handlar om infördes en mängd nya begrepp på intuitiv grund och vi skall nu ägna ett par kapitel åt att formalisera och exakt de niera vad vi menar med begrepp som stokastisk variabel, väntevärde (synonym till vårt aritmetiska medelvärde), sannolikhet (våra pinnar) och fördelningsfunktion (våra diagram). Observera att om man inte är noggrann inom statistik så kan man bevisa vad som helst t ex att gud nns eller att medlemmarna i Stockholms Kooperativa Hyresförening vill ha höga hyror och många andra tokigheter. I detta kapitel börjar vi med att diskutera begreppet stokastisk variabel.. Diskret och kontinuerlig Trot det eller ej men en stokastisk variabel är faktiskt en funktion så egentligen verkar benämningen variabel helt korkad. Men för er som läst lite matematik och speciellt då funktionslära vet att man kan skapa en funktion av en funktion och då är den ena funktionen en variabel till den andra (i matematisk formalism blir det att funktionerna f(x) och g(x) båda med variabeln x ger upphov till funktionen f(g(x)) och g(x) som faktiskt är en funktion blir en variabel till f(x)). För att erhålla en intuitiv förståelse för detta tänker vi på situationen kast med en tärning där vi intresserar oss för antalet prickar som kommer upp d v s vi bildar den stokastiska variabeln X = antal prickar som erhålls vid kast med en tärning. Vad vi oftast tänker på i denna situation är antalet prickar men det egentliga utfallsrummet innehåller sådana händelser som att tärningen hamnar på kanten eller hörnet. Även hur tärningen är vriden i förhållande till något godtyckligt koordinatsystem kommer in. Vår hjärna applicerar dock en funktion som bortser från dessa möjligheter, den lterar bort dem, och det enda som återstår är "antalet prickar". En mer 3
4.. Diskret och kontinuerlig korrekt beskrivning av vår variabel X är därför X (!) = antal prickar som erhålls vid kast med en tärning. för alla! i mängden av alla möjliga utfall. Detta ger oss nu en anledning att ta upp skillnaden mellan utfallsrummen och X. Med utfallsrummet menar vi de nitionsmängden till den stokastiska variabeln X och med X avses X:s värdemängd. Om t ex = f! ;! ; : : :g så blir X = fx (! ) ; X (! ) ; : : :g och om är uppräkneligt så blir också X det. Vidare nns inget slumpmässigt i talet X (! k ) och vi betcknar det därför med x k och har därför att X = fx ; x ; : : :g. Observera att mycket väl kan vara större än X ty det kan t ex gälla att X (! i ) = X (! j ). Om vi t ex intresserar oss för familjer så består dessa ofta av er än en person men varje person i familjen är en representant för familjen. Detta resonemang är även giltigt för icke-uppräkneliga utfallsrum t ex kan sex, vid kast med tärning, komma upp på ett oändligt antal sätt om man beaktar vridningar i förhållande till något xerat koordinatsystem. Stokastiska variabler delar naturligt in sig i två grupper dels de som är diskreta och dels de som är kontinuerliga. Vårt nästa steg är att de niera vad vi menar med de två orden diskret och kontinuerlig och för att de niera dem använder vi oss av utfallsrummets struktur. Om utfallsrummet för den stokastiska variabeln X kan skrivas X = fx i j i N \ Bg där N är de naturliga talen (de positiva heltalen) d v s ; ; 3; : : : och B någon form av begränsning säges utfallsrummet vara diskret (uppräkneligt). Till denna typ av utfallsrum hör mängden av de naturliga talen, de hela talen, de rationella talen och många er mängder. Mängderna behöver inte ens bestå av tal utan kan vara alla pilsnerkorvar i ett snabbköp. Det enda kravet är att elementen (talen, pilsnerkorvarna m m) i vårt utfallsrum inte får vara er än de naturliga talen (märkligt men sannt men de hela talen är lika många som den naturliga talen). Med en diskret stokastisk variabel avses sålunda den funktion som har ett diskret utfallsrum (X). Med begränsningen B = f; ; 3; 4; 5; 6g svarar vårt (X) ovan de nitivt mot en diskret stokastisk variabel. Om utfallsrummet kan skrivas X = fx j x R \ Bg Detta är vid en noggrannare analys inte helt korrekt men synsättet duger mer än väl. I löpande text skriver vi (X) och i formelområden X om vi nu överhuvudtaget bryr oss om att ange X.
. Stokastiska variabler, väntevärden och sannolikheter 5 där R är de reella talen och B någon form av begränsning säges utfallsrummet vara kontinuerligt (icke-uppräkneligt). Ett exempel på en stokastisk variabel som ger upphov till ett kontinuerligt utfallsrum är X = längden hos en homo sapiens. Här är en möjlig begränsning på längden cm till 400 cm (även om längden cm måste vara en kort rackare) ty längden måste vara positiv och människan kan inte bli hur lång som helst. Vi har således X = fx j x R \ (; 400)g där begränsningen B är intervallet cm till 400 cm. Detta utfallsrum kan även skrivas X = fx j x 400g och det behövs mycken eftertanke för att visa att punkterna i denna mängd ej är möjlig att räkna upp. Än mer märkligt är att antalet punkter i intervallet (; 400) är lika många som antalet punkter i intervallet (0; ). 3 De nition 7 En stokastisk variabel säges vara diskret om dess utfallsrum är uppräkneligt och kontinuerlig om dess utfallsrum är ickeuppräkneligt.. Väntevärden I vår de nition av A (X) utgick vi ifrån ett ändligt utfallsrum och kunde visa att funktionen A (X) uppfyller följande tre egenskaper. Om X 0 ) A (X) 0. Om X och X är två stokastiska variabler och c ; c R så gäller att A (c X + c X ) = c A (X ) + c A (X ). 3. A () =. Vi skall nu utvidga storheten A (X) till att gälla för godtyckliga diskreta (d v s även sådana med uppräkneligt oändliga utfallsrum) och kontinuerliga stokastiska variabler och vi gör detta axiomatiskt (med icke bevisbara påståenden som vi tror på) genom att stipulera att väntevärdet (ett generaliserat medelvärde, även kallat det förväntade värdet) E (X) är en storhet som uppfyller följande 3 Beviset för detta påstående är dock helt elementärt bara man skapar rätt geometrisk bild.
6.. Väntevärden Axiom 8 (Väntevärde) För en godtycklig stokastisk variabel X gäller. Om X 0 ) E (X) 0.. Om X och X är två stokastiska variabler och c ; c R så gäller att E (c X + c X ) = c E (X ) + c E (X ). 3. E () =. Detta betyder att även E (X) är en normaliserad positiv linjär operator (på samma sätt som A (X)). Eftersom vi nu tillåter oändliga utfallsrum behöver vi ytterligare ett "axiom" 4. Givet stokastiska variabler fx i g som växer monotont (X i X i+ ) mot en x gräns X då gäller för dessa stokastiska variabler att lim E (X i) = E lim X i = E (X) i! i! d v s att vi kan låta symbolerna E och lim byta plats. Nu behövs egentligen inte detta fjärde axiom ty det går att visa att det, under vissa förutsättningar, gäller och därmed är det inte ett axiom utan ett bevisbart påstående. Axiomen ger oss direkt följande viktiga samband. Theorem 9 För väntevärdesoperatorn E har vi att. för godtyckliga X i (X) och c i R så gäller E! nx nx c i X i = c i E (X i ). i= i=. om X Y X så gäller E (X ) E (Y ) E (X ). Bevis ) Axiom och induktionsbevis ger påståendet. ) Den första olikheten följer av axiom och eftersom varav det följer Y X 0 ) E (Y X ) 0 ) E (Y ) E (X ) 0 E (Y ) E (X ). Den andra olikheten följer på samma sätt.
. Stokastiska variabler, väntevärden och sannolikheter 7 Ibland kan det inträ a att E (X ) = + och E (X ) = så att E (X + X ) = +. Detta är ett obestämt tal. Vi löser detta problem genom att helt enkelt inskränka oss till de variabler där detta inte kan inträ a (prata om gordisk lösning) genom att kräva att.3 Sannolikhet E (jxj) < +. Hitills har vi undvikit begreppet sannolikhet även om vi pratat om chans och pinnar vilka båda i princip är synonyma med detta begrepp. Detta beror på att vi vill sätta den sannolikhet vi skall prata om på en objektiv och matematiskt formell grund. Låt vara ett utfallsrum och tag en delmängd A. 4 Bilda nu den stokastiska variabeln (en s k indikatorvariabel)! A I A (!) = 0! = A som indikerar om! nns i mängden A eller ej. De niera sedan sannolikheten för A genom relationen P (A) = E I A (!). (.) Notera att P sannolikheten i sig är en funktion vars de nitionsområde är alla (ja de viktigaste i varje fall) delmängder i utfallsrummet. En indikatorfunktion har ett par trevliga egenskaper. Om A och B är två delmängder i så ger gur. på sid 8 och en stunds eftertanke att. I A[B (!) = I A (!) + I B (!) om A och B är disjunkta,. I A\B (!) = I A (!) I B (!). Dessa egenskaper låter sig lätt utvidgas, med hjälp av induktion, till att gälla för n disjunkta mängder. I följande exempel, baserat på ett diskret utfallsrum, skall ordet symmetri tolkas som att ha identiska egenskaper. 4 Läsaren må se upp här därför att beteckningen A, nu och framledes, står för två olika saker. Sammanhanget avgör om vi betraktar en delmängd eller ett medelvärde.
8.3. Sannolikhet A B A B (a) Union A [ B (b) Snitt A \ B Figur.: Illustration av union och snitt Exempel 3 Bilda den stokastiska variabeln X = antalet prickar vid kast med en symmetrisk tärning. Det gäller då att X = f; ; 3; 4; 5; 6g ty det är endast dessa tal vi intresserar oss för. Eftersom X kan delas upp i sex disjunkta delmängder X = fg [ fg [ f3g [ f4g [ f5g [ f6g erhålls med upprepad användning av. ovan och axiom för väntevärdet att! 6X P ( X ) = E (I X (!)) = E I fig (!) = = 6X E I fig (!) = i= 6X p i. i= i= 6X P (fig) Att tärningen är symmetrisk betyder att varje möjligt utfall har samma sannolikhet (identisk egenskap) d v s p i = p och detta tillsammans med axiom 3 för väntevärdet ger oss = E (I X (!)) = P ( X ) = i= 6X p i = i= 6X p = 6p i=
. Stokastiska variabler, väntevärden och sannolikheter 9 varför sannolikheten p erhålls till (förvånad?) p = 6. I detta exempel har vi att elementarmängden 5! är en av mängderna fig, för något i. Observera att det är skillnad på fig och i den första storheten är en mängd och den andra ett tal. Detta gör att vi kan ställa och besvara frågor av typen vad är sannolikheten att få mer än tre prickar vid kast med en symmetrisk tärning. Exempel 4 Bilda den stokastiska variabeln X = antal prickar vid kast med en symmetrisk tärning där X = f; ; 3; 4; 5; 6g. Vi har nu att den efterfrågade sannolikheten kan skrivas P (X > 3) = P (f4g [ f5g [ f6g)! 6X = E I fig (!) = i=4 6X E I fig (!) i=4 = P (f4g) + P (f5g) + P (f6g) = 3 6 = 0:5. Nåväl, inte orkar man skriva hela uppsatser för de enklaste problem så istället skriver man kortare P (X > 3) = gynnsamma utfall för fx > 3g möjliga utfall = 3 6. Med hjälp av de fyra axiomen, för väntevärdet, kan vi nu generellt ange sannolikheterna för alla delmängder A, på det diskreta utfallsrummet = f! k g kn, till P (A) = E I A (!) = X! k A P (! k ). (.) 5 En av de minsta möjliga delmängderna d v s den innehåller ingen annan delmängd än sig själv.
30.3. Sannolikhet Sannolikheten p k = P (! k ) är sannolikheten för en av de ömsesidigt uteslutande händelserna (kallade elementarhändelser 6, t ex att få en sexa) och denna sannolikhet kan vara godtycklig så länge som axiomen ovan är uppfyllda d v s den behöver inte anta ett och samma värde för alla k. Ovanstående ger oss följande alternativa, komplementära, sätt att beräkna sannolikheter som vi kommer ha stor nytta av framöver. Theorem 0 För varje utfallsrum = f! ;! ; : : : ;! N g där de tillhörande sannolikheterna p ; p ; : : : ; p N alla är rationella tal så gäller för en godycklig delmängd A i att P (A) = gynnsamma utfall för A möjliga utfall Bevis Vi kan i ett första steg betrakta utfallsrummet 0 =! ; f! ; : : : ;! N g = f! ;! 0 g med sannolikheterna p och p 0. Det gäller nu att kvoten p p 0 är ett rationellt tal och det nns därför tal k och l sådana att i utfallsrummet 00 = f! ; : : : ;! k ;! 0 ; : : : ;! 0 lg, där! = =! k och! 0 = =! l 0, har alla elementarhändelser samma sannolikheter p 00 = k+l. Sålunda inses att varje utfallsrum = f! ;! ; : : : ;! N g kan utvidgas till ett nytt och större utfallsrum 0 = f! ; 0! ; 0 : : : ;! N 0 0g där varje elementarhändelse har samma sannolikhet p = N. Det gäller därför att 0 P (A) = X ia = E I (! i) 0 = X p = ia gynnsamma utfall för A möjliga utfall antal elemtarhändelser i A N 0 6 Händelse och mängd är synonyma ord för samma sak. Händelse är vardagsspråk och mängd matematikspråk.
. Stokastiska variabler, väntevärden och sannolikheter 3 Låt nu X vara en godtycklig stokastisk variabel på utfallsrummet och I f!k g (!) vara indikatorfunktionen för elementarhändelsen! k. Observera att X är en funktion på utfallsrummet varav följer att uttrycket X (!) = X I (! k ) X (! k ) för!! k är välde nierat för diskreta utfallsrum. Om vi nu använder förväntningsoperatorn E på detta uttryck så erhålls E X (!) = X E I f!k g (!) X (! k ) = X E I f!k g (!) X (! k )! k = X! k X (! k ) p k! k ty X (! k ) är ett xt reellt tal. Detta innebär att vi nu har en metod för att räkna ut väntevärdet för en diskret stokastisk variabel om vi känner till de enskilda sannolikheterna p k. Exempel 5 Bilda den stokastiska variabeln X = antal prickar vid kast med en symmetrisk tärning där X = f; ; 3; 4; 5; 6g. För denna variabel gäller att p k = P (X = k) = 6 ; k X och vi nner det förväntade antalet prickar till E (X) = 6X x 6 = 3:5. x= Ett resultat som vi intuitivt känner för ty det är inget annat än balanseringspunkten för talen ; ; 3; 4; 5; 6 alla med lika sannolikhet (vikt). Vi har nu ett uttryck för sannolikheten av en mängd A i ett diskret utfallsrum men vi saknar motsvarande uttryck för de kontinuerliga utfallsrummen. När det gäller diskreta utfallsrum så är dessa hanterbara på en elementär nivå ty vi kan alla räkna ; ; 3; : : : och det är allt som behövs. Men de kontinuerliga utfallsrummen skapar problem av en helt annan dimension (vi behöver t ex måtteori en av många grenar på matematikens träd) och vi skall därför nöja oss med att de niera denna sannolikhet.