Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Relevanta dokument
Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

Kombinatorik och sannolikhetslära

1 Föreläsning I, Mängdlära och elementär sannolikhetsteori,

Grundläggande matematisk statistik

Matematisk statistik - Slumpens matematik

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

Statistikens grunder HT, dagtid Statistiska institutionen

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Statistik 1 för biologer, logopeder och psykologer

Utfall, Utfallsrummet, Händelse. Sannolikhet och statistik. Utfall, Utfallsrummet, Händelse. Utfall, Utfallsrummet, Händelse

1 Föreläsning I, Vecka I: 5/11-11/11 MatStat: Kap 1, avsnitt , 2.5

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 1 Mängdlära Grundläggande sannolikhetsteori Kombinatorik Deskriptiv statistik

Matematisk statistik 9hp för: C,D,I, Pi

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

SF1901: Sannolikhetslära och statistik

F2 SANNOLIKHETSLÄRA (NCT )

Kolmogorovs Axiomsystem Kolmogorovs Axiomsystem Varje händelse A tilldelas ett tal : slh att A inträar Sannolikheten måste uppfylla vissa krav: Kolmog

TAMS79: Föreläsning 1 Grundläggande begrepp

Sannolikhetsteori. Måns Thulin. Uppsala universitet Statistik för ingenjörer 23/ /14

Föreläsning 1, Matematisk statistik Π + E

TMS136. Föreläsning 2

Matematisk statistik 9 hp för I, Pi, C, D och fysiker Föreläsning 1: Introduktion och Sannolikhet

Sannolikhetsbegreppet

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 2 HT07

Kap 2: Några grundläggande begrepp

Introduktion till sannolikhetslära. Människor talar om sannolikheter :

3 Grundläggande sannolikhetsteori

Föreläsning 1: Introduktion

Matematisk Statistik och Disktret Matematik, MVE051/MSG810, VT19

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Föreläsning 2. Kapitel 3, sid Sannolikhetsteori

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TMS136. Föreläsning 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 1, Matematisk statistik för M

Föreläsning 1: Introduktion

1 Mätdata och statistik

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

13.1 Matematisk statistik

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

Föreläsning 1: Introduktion

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

SF1901: Sannolikhetslära och statistik

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

F3 Introduktion Stickprov

TMS136. Föreläsning 2

MVE051/MSG Föreläsning 7

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistik 1 för biologer, logopeder och psykologer

2 Dataanalys och beskrivande statistik

Sannolikhetslära. 19 februari Vad är sannolikheten att vinna om jag köper en lott?

Föreläsning 1. Grundläggande begrepp

Lektionsanteckningar 11-12: Normalfördelningen

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

F9 SAMPLINGFÖRDELNINGAR (NCT

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TMS136. Föreläsning 1

(N) och mängden av heltal (Z); objekten i en mängd behöver dock inte vara tal. De objekt som ingår i en mängd kallas för mängdens element.

Slumpförsök för åk 1-3

Föreläsning G60 Statistiska metoder

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

1.1 Diskret (Sannolikhets-)fördelning

Övning 1 Sannolikhetsteorins grunder

FÖRELÄSNING 3:

En typisk medianmorot

S0007M Statistik2: Slumpmodeller och inferens. Inge Söderkvist

Grundläggande matematisk statistik

Föreläsning G70, 732G01 Statistik A

Uppsala universitet Institutionen för lingvistik och filologi. Grundbegrepp: Mängder och element Delmängder

SF1901: SANNOLIKHETSTEORI OCH GRUNDLÄGGANDE SANNOLIKHETSTEORI, STATISTIK BETINGADE SANNOLIKHETER, OBEROENDE. Tatjana Pavlenko.

Statistisk slutledning (statistisk inferens): Sannolikhetslära: GRUNDLÄGGANDE SANNOLIKHETSLÄRA. Med utgångspunkt från ett stickprov

Introföreläsning i S0001M, Matematisk statistik LP3 VT18

Repetitionsföreläsning

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, BETINGAD SANNOLIKHETER, OBEROENDE. Tatjana Pavlenko.

Stora talens lag eller det jämnar ut sig

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

4 Diskret stokastisk variabel

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Uppgifter 6: Kombinatorik och sannolikhetsteori

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Reliability analysis in engineering applications

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 1

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Finansiell statistik, vt-05. Sannolikhetslära. Mängder En mängd är en samling element (objekt) 1, 2,, F2 Sannolikhetsteori. koppling till verkligheten

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Lektion 1: Fördelningar och deskriptiv analys

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

, s a. , s b. personer från Alingsås och n b

EXAMINATION KVANTITATIV METOD vt-11 (110204)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning G70 Statistik A

Transkript:

UPPSALA UNIVERSITET Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014). 9 Sannolikhet Detta kapitel behandlar grundläggande begrepp i sannolikhetsteori: enkel sannolikhet, betingad sannolikhet, lagen om total sannolikhet och Bayes lag. 9.1 Enkel sannolikhet Den klassiska sannolikhetsteorin, som började utvecklas på 1600-talet, har sitt ursprung i tillämpningar på hasardspel. De frågor som man ville ha svar på var av typen Är det gynnsamt (skulle man vinna i längden) att, vid jämna odds, slå vad om att man vid fyra kast med en tärning får minst en sexa? Detta specifika problem kallas även för De Mérés problem. 1 Fråga: Hur du skulle intuitivt svara på frågan? Hur skulle du kunna gå tillväga för att lösa problemet? 9.1.1 Sannolikhet och relativ frekvens Låt oss försöka att lösa detta problem empiriskt. I Figur 1 ser vi utdatan från ett program som kastar fyra tärningar åt oss och håller koll på antalet i sammanhanget gynnsamma utfall, dvs. antalet gånger där man kastat minst en sexa vid fyra kast. Programmet skriver även ut den relativa frekvensen av de gynnsamma utfallen: andelen som de gynnsamma utfallen har bland alla utfall. Som vi ser så ligger denna andel på 60% efter tio försök. Sannolikhetsteorin utvecklades för att man ville kunna förutsäga framtiden baserat på empiriska erfarenheter. Det hela bygger på antagandet att den relativa frekvensen av en given händelse (såsom att kasta minst en sexa vid fyra kast) så småningom stabiliseras kring ett värde. Detta värde kallas för händelsens sannolikhet. 1 Efter Antoine Gombaud (1607 1684), som kallades Chevalier de Méré (även om han inte var riddare). 1

Försök Tärningskast Gynsamma Rel. frekvens 1 3 3 4 3 0 0.000000 2 4 5 1 6 1 0.500000 3 4 4 3 5 1 0.333333 4 2 3 5 5 1 0.250000 5 5 5 6 2 2 0.400000 6 6 4 5 2 3 0.500000 7 5 5 3 5 3 0.428571 8 4 6 6 3 4 0.500000 9 2 6 5 2 5 0.555556 10 4 2 6 1 6 0.600000 Figur 1: Experiment utifrån De Mérés problem Sannolikheten för en händelse A skrivs P(A). Det gäller att 0 P(A) 1. P(A) = 0 innebär att händelse aldrig inträffar och P(A) = 1 att den alltid inträffar. (Figur 1 visar att sannolikheten för ett gynnsamt utfall ligger någonstans mellan aldrig och alltid.) Det är viktigt att förstå att en händelses sannolikhet kan inte observeras; det kan bara skattas. (I det experiment som vi körde i Figur 1 observerade vi relativa frekvenser, inte sannolikheter.) Skattning kommer vi tillbaka till i nästa kapitel, som handlar om statistik. Fråga: Är skattningen efter tio försök i Figur 1 pålitlig? 9.1.2 Utfall, händelser och sannolikhet För att lösa De Mérés problem med hjälp av sannolikhetsteorin börjar vi med en förenklad fråga: Är det gynnsamt att, vid jämna odds, slå vad om att man vid ett kast med en tärning får en sexa? Svaret på denna fråga är lätt. När man kastar en tärning finns det sex möjliga utfall: Tärningen kan visa en etta, en tvåa, en trea, en fyra, en femma eller en sexa. Mängden av alla möjliga utfall kallas för utfallsrum och betecknas med den grekiska bokstaven Ω. I det här fallet har vi alltså Ω = {1, 2, 3, 4, 5, 6} Vid jämna odds finns det alltså bara ett gynnsamt utfall (man kastar en sexa), men fem stycken ogynnsamma utfall (man kastar något annat). Det är alltså inte gynnsamt att slå vad om att man får en sexa. 2

Fråga: Hur måste man argumentera om man istället är intresserad i frågan om det är gynnsamt att slå vad om att man vid ett kast med en tärning får ett jämt tal? Om man istället är intresserad av händelsen man kastar ett jämt tal så finns det tre gynnsamma utfall: en tvåa, en fyra och en sexa. Det föregående exempel illustrerar skillnaden mellan begreppen utfall och händelse: Varje kast med tärningen kommer att ge exakt ett tal som utfall; men vissa relevanta händelser, t.ex. talet är jämnt ({2, 4, 6}) och talet är större än 3 ({4, 5, 6}), kan bara beskrivas som kombinationer av sådana utfall. Allmänt definierar man därför en händelse som en mängd utfall. En händelse är därför en delmängd till utfallsrummet. Och hela utfallsrummet utgör den händelse som alltid inträffar. Sannolikheten för en händelse A kan räknas ut på detta sätt, om alla utfall är lika sannolika: antal utfall som leder till A P(A) = = A antal möjliga utfall Ω (Kom ihåg att notationen X betecknar kardinaliteten eller storleken hos X.) T.ex. vid tärningskast (med vanliga typen av tärning): P(talet är jämnt) = P({2, 4, 6}) = {2, 4, 6} / {1, 2, 3, 4, 5, 6} = 3/6 = 0,5. P(talet är inte 5) = P({1, 2, 3, 4, 6}) = {1, 2, 3, 4, 6} / {1, 2, 3, 4, 5, 6} = 5/6 0,833. P(talet är inte 7) = P({1, 2, 3, 4, 5, 6}) = {1, 2, 3, 4, 5, 6} / {1, 2, 3, 4, 5, 6} = 6/6 = 1. P(talet är 7) = P( ) = / {1, 2, 3, 4, 5, 6} = 0/6 = 0. Fråga: Vad för sorts händelser är och Ω? Den tomma mängden representerar omöjlighet : Det finns inget som helst utfall som kan leda till denna händelse; dess sannolikhet är 0. Den fullständiga mängden representerar nödvändighet : Alla möjliga utfall leder till denna händelse; dess sannolikhet är 1. Nu kan vi gå tillbaka till De Mérés problem. Fråga: Vilket utfallsrum får man för De Mérés problem? Vilken storlek har detta rum? Vilken händelse är man intresserad av? Hur stor är sannolikheten för den händelsen? 3

Ω A Figur 2: Diagrammet visar att A c = Ω \ A = Ω Ω A. Det nya utfallsrummet består av alla följder (tupler) av fyra tärningskast. Detta utfallsrum har kardinalitet 6 4 = 1296. Alltså: Ω = 1296. En typ av händelser innehåller bara en bestämd sekvens av tärningskast, t.ex. {(1, 2, 3, 4)}, P({(1, 2, 3, 4)}) = 1/1296. Händelsen som är aktuell i De Mérés fall är den att få en följd som innehåller minst en sexa. Men det är inte så lätt att räkna ut sannolikheten för denna händelse... En ganska dum metod vore att gå igenom alla följder (tupler) av fyra tärningskast och räkna hur många som innehåller minst en sexa, men det skulle vara ganska jobbigt och vi skulle riskera att räkna fel. Vi kan dessbättre tänka på ett smartare sätt för att räkna ut antalet utfall som leder till händelsen minst en sexa! Ett begrepp som är mycket användbart i samband med De Mérés problem är begreppet komplementhändelse. Med komplementhändelsen till en händelse A menas händelsen att A inte inträffar. Eftersom varje händelse är en mängd är komplementhändelsen till A helt enkelt komplementmängden till A, relativt till universum Ω. Det är inte svårt att se att sannolikheten för komplementhändelsen till en händelse A är På samma sätt får man P(A) = 1 P(A c ). P(A c ) = 1 P(A) Fråga: Kan du bevisa detta? Mängden A c kan skrivas som Ω \ A. Enligt definitionen av sannolikhet gäller då att P(A c Ω \ A ) = P(Ω \ A) = Ω När man ritar ett Venn-diagram som i Figur 2 ser man att Ω \ A = Ω Ω A. Men eftersom A Ω har man Ω A = A. Med detta: P(A c Ω \ A Ω Ω A Ω A ) = = = Ω Ω Ω = Ω Ω A Ω = 1 P(A) 4

Det som gör begreppet komplementhändelsen användbart i samband med De Mérés problem är att det är mycket lättare att räkna ut storleken på komplementhändelsen till minst en sexa på fyra kast än händelsen själv. Fråga: Vad är komplementhändelsen, hur stor är respektive mängd och hur sannolikt är komplementhändelsen? Komplementhändelsen är ingen sexa på fyra kast ; dess storlek är 5 4 = 625; och sannolikheten för komplementhändelsen är då 625/1296 = 48, 2%. Med detta vet vi alltså att sannolikheten att få minst en sexa på fyra kast (vilket är komplementhändelsen till komplementhändelsen, så att säga) är P(A) = 1 P(A c ) = 1 625 51, 8% 1296 Detta betyder att man har större chans att vinna än att förlora när man slår vad om att man vid fyra kast med en tärning får minst en sexa. Sammanfattning, begrepp En typ av försök, t.ex. ett tärningskast, ger ett utfall, t.ex. 4. En typ av försök har ett utfallsrum (Ω), t.ex. för tärningskast, Ω = {1, 2, 3, 4, 5, 6}, som är mängden av möjliga utfall. En händelse kan inträffa genom olika utfall, och definieras som en delmängd av Ω. T.ex. händelsen att ett tärningskast ger ett udda tal, som blir A = {1, 3, 5}. En händelse A inträffar på så sätt att ett försök ger ett utfall u och u A. Ω utgör därför den händelse som alltid inträffar och utgör den händelse som aldrig inträffar. Komplementhändelsen till händelsen A: A c = Ω \ A. T.ex. Händelsen att ett tärningskast ger 5: A = {5}. Händelsen att ett tärningskast ger ett annat tal än 5: A c = {1, 2, 3, 4, 6}. Sannolikheter, där A är en händelse: 0 P(A) 1 P(A) = A Ω P(A c ) = 1 P(A) 5

9.2 Betingad sannolikhet En mycket användbar generalisering av begreppet sannolikhet är begreppet betingad sannolikhet. Den betingade sannolikheten för händelsen A givet händelsen B är A B P(A B) = B För att se att denna definition är en generalisering av vår tidigare definition av sannolikhet kan man notera att man får den vanliga (enkla) sannolikheten genom att sätta B = Ω: A Ω P(A Ω) = = A Ω Ω = P(A) Sammanhanget mellan enkel sannolikhet och betingad sannolikhet kan beskrivas så att man zoomar in på en delmängd av händelserna, nämligen dem som är förenliga med B. Dessa händelser blir det nya utfallsrummet. Detta illustreras i följande exempel. Ett bigram är en sekvens av två ord. En korpus på engelska meningar med sammanlagt 100 000 000 ord innehåller 35 förekomster av bigram som slutar på ordet amok. Fråga: Låt P(amok) vara sannolikheten för händelsen att man läser ordet amok när man läser ett ord i en engelsk text. Hur skulle du kunna använda dig av korpusen för att skatta P(amok)? Man skulle kunna skatta sannolikheten genom att anta att den motsvarar den relativa frekvensen av bigram som slutar på amok i korpusen. (Detta utgår ifrån att amok inte är det första ordet i korpusen.) På det sättet får man ett värde P(amok) = 35/100 000 000 0,000035%. Nu får du lite ny information: Korpusen innehåller 8,500 förekomster av bigram som börjar på run och 15 förekomster av bigrammet run amok. Fråga: Hur skulle du kunna använda denna information för att skatta sannolikheten att se ordet amok när du har just sett ordet run? Låt oss beteckna sannolikheten för att se amok efter run med P(amok run). Då gäller P(amok run) = 15/8 500 0,18%. Det är alltså betydligt mera sannolikt att få amok efter run än att få amok i godtyckliga kontexter. Två händelser A och B kallas oberoende om P(A B) = P(A). Detta betyder att den betingade sannolikheten för A givet B inte är större än den enkla sannolikheten för A; händelsen B händer har ingen påverkan på A. 6

A B Figur 3: Venn-diagram för A B. Fråga: Hur räknar man ut P(A B)? Vad gäller när A och B är beroende? Genom att titta på Venn-diagrammet för A B (Figur 3) är det lätt att se att P(A B) = P(A) P(B A) = P(A B) P(B) = P(B A) Alternativt, utgå från definitionerna av enkel och betingad sannolikhet: A B P(A B) P(B) = B B A B A B = = P(A B) = P(B A) P(A) = A Ω Ω A Ω Om nu A och B är oberoende gäller P(A B) = P(A), så P(A B) = P(A) P(B) 7

9.3 Lagen om total sannolikhet Två händelser A och B kallas disjunkta om A B =. Fråga: Hur räknar man ut P(A B)? Vad gäller när A och B är disjunkta? Genom att använda oss av räknereglerna för kardinalitet får vi A B P(A B) = Ω = A Ω + B A B = P(A) + P(B) P(A B) Ω Ω Om nu A och B är disjunkta gäller P(A B) = 0 och P(A B) = P(A) + P(B). Fråga: I en fabrik tillverkas 40% av enheterna vid maskin 1 och 60% vid maskin 2. Maskinerna tillverkar en viss andel defekta enheter; denna andel är 2% för maskin 1 och 5% för maskin 2. Hur stor är sannolikheten att en slumpmässigt vald enhet är defekt? Låt oss beteckna händelsen att en enhet tillverkas vid maskin 1 med M 1 och händelsen att en enhet tillverkas vid maskin 2 med M 2. Låt oss beteckna händelsen att en enhet är defekt med A. Eftersom varje enhet tillverkas av någon maskin kan vi skriva P(A) = P(A (M 1 M 2 )) = P((A M 1 ) (A M 2 )) Eftersom varje enhet tillverkas antingen vid maskin 1 eller vid maskin 2 är M 1 och M 2 disjunkta händelser. Därför är även A M 1 och A M 2 disjunkta och vi får P(A) = P((A M 1 ) (A M 2 )) = P(A M 1 ) + P(A M 2 ) Genom att använda formlerna för P(A M 1 ) och P(A M 2 ) kan vi skriva P(A) = P(A M 1 ) + P(A M 2 ) = P(M 1 ) P(A M 1 ) + P(M 2 ) P(A M 2 ) Och nu är det bara att stoppa in värdena ur uppgiften: P(A) = P(M 1 ) P(A M 1 ) + P(M 2 ) P(A M 2 ) = 0,4 0,02 + 0,6 0,05 = 0,038 Sannolikheten att en slumpmässigt vald enhet är defekt är alltså 3,8%. Principen som vi använde oss av för att lösa denna uppgift kallas för lagen om total sannolikhet. Den lyder: Låt A och B vara händelser så att A B = Ω och A B =. Då gäller följande formel för varje händelse X : P(X ) = P(A) P(X A) + P(B) P(X B) 8

9.4 Bayes lag Bayes lag låter en vända på en betingad sannolikhet. Den kan fattas i följande formel där A och B är godtyckliga händelser: P(B A) = P(A B)P(B) P(A) Fråga: Hur kan vi härleda Bayes lag från formeln för att beräkna sannolikheten för snittet av två händelser (P(A B))? P(A B) = P(A) P(B A) = P(A B) P(B) P(B A) = P(A B) P(B) P(A) Bayes lag är användbar eftersom det finns många situationer där vi är intresserade i P(B A) men bara har tillgång till P(A B). Ett exempel är medicinsk diagnos. Läkare vill gärna veta P(influensa feber), men det är mycket enklare att skatta P(feber influensa). Bayes lag låter en använda denna information för att dra slutsatser om den information man egentligen är intresserad av. Här är ett annat exempel: Fråga: Kom ihåg fabriken från förra frågan. En kund påträffar en defekt enhet. Hur stor är sannolikheten att den har tillverkats vid maskin 2? Vi är intresserade av sannolikheten P(M 2 A). Enligt Bayes lag gäller: P(M 2 A) = P(A M 2) P(M 2 ) P(A) 0,05 0,60 = 0,789 0,038 Sannolikheten att den felaktiga enheten tillverkats vid maskin 2 är alltså ungefär 78,9%. 9

10 Statistik Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information (Wikipedia). Statistiska inslag spelar en allt större roll inom datorlingvistik och språkteknologi. Exempel: Inom korpuslingvistiken tar man fram statistik om ord, ordklasser och konstruktioner för att t.ex. beskriva språkhistoriska förlopp, dra slutsatser om sociologiska förhållanden eller identifiera författare. System för ordklasstaggning och parsning använder sig av statistik om hur frekvent ordklasser eller dependensrelationer är i korpusar för att kunna förutsäga ordklasser eller dependensrelationer för nya meningar. Statistik används även i samband med utvärdering och jämförelse av språkteknologiska system. På den här kursen tar vi upp grundläggande statistiska begrepp såsom stickprov, skattning och hypotestestning. Ett grundläggande problem inom statistiken är att man i praktiken sällan kan göra observationer på en stor grupp. Istället utgår man från ett stickprov, dvs. ett urval. På basen av detta stickprov försöker man sedan dra slutsatser om hela populationen. Fråga: Vilka kriterier bör användas när man gör ett urval? 10.1 Deskriptiv statistik Deskriptiv statistik handlar om att sammanfatta och presentera data. I detta sammanhang används olika mått, tabeller och diagram. 10.1.1 Centralmått Centralmått anger en punkt kring vilken datan är centrerad. Här tar vi upp två olika centralmått: medelvärde och median. Medelvärdet (genomsnitt) är summan av alla värden delat med antalet värden. Om vi ska räkna ut medelvärdet för n värden x 1,..., x n får vi medelvärdet x genom formeln x = x 1 + + x n n = n i=1 x i n Figur 4 visar resultatet av en undersökning där man tagit upp kroppslängden och skostorleken hos 8 individer. Vi kommer att använda denna undersökning som löpande 10

Kroppslängd Skostorlek 165 38 175 41 180 42 181 43 182 44 183 43 184 44 188 45 Figur 4: En undersökning om kroppslängd och skostorlek. exempel i detta avsnitt. Medelvärdet för kroppslängden i denna undersökning är 165 + 175 + 180 + 181 + 182 + 183 + 184 + 188 = 179,75 8 Medianen är värdet på den mittersta observationen i ett datamaterial som är ordnat från det minsta värdet till det största (i rangordning). Ifall det finns ett jämt antal observationer tar man det värdet som ligger halvvägs mellan de två mellersta observationerna. I vårt exempelundersökning är medianen för kroppslängden 181,5. Fråga: Kan du tänka dig typer av undersökningar där det inte är meningsfullt att räkna ut medianen? Mått där det inte finns någon inbördes rangordning, t.ex. ögonfärg. 10.1.2 Spridningsmått Spridningsmått anger hur utspridd datan är. Här tar vi upp två olika spridningsmått: standardavvikelse och percentiler. Standardavvikelsen i en datamängd visar hur mycket de observerade värdena skiljer sig från medelvärdet. En låg standardavvikelse är ett tecken på att de observerade värdena är alla nära medelvärdet; en hög standardavvikelse innebär att de är väldigt utspridda. Standardavvikelsen beräknas enligt formeln: s = 1 n 1 n (x i x) 2 i=1 11

p 0.00 0.02 0.04 0.06 0.08 30 40 50 60 70 gånger krona Figur 5: Sannolikheten p att få x gånger krona när man singlar slant 100 gånger. Standardavvikelsen har samma dimension som observationerna. I vårt exempel, där man mäter kroppslängd, är alltså standardavvikelsen också en längd. Dess värde är 6,553. Percentiler är ett sätt att dela in data. En percentil betecknar ett värde x så att en viss procentsats av observationerna är lägre än x. Den 10:e percentilen till exempel är det värdet x som har egenskapen att 10% av observationerna är lägre än x och 90% är högre. Den 50:e percentilen är alltså lika med medianen. I vårt exempel är den 10:e percentilen 172,0 och den 90:e percentilen 185,2. 10.2 Hypotesprövning Antag att vi singlat slant 100 gånger och fått krona 44 gånger och klave 56 gånger. Har vi anledning att misstänka att slanten är manipulerad? Fråga: Vad säger din intuition? När vi singlar en omanipulerad slant förväntar vi oss att få krona i ungefär hälften av fallen, dvs. 50 gånger av 100. Om differensen mellan det förväntade och det observerade antalet gånger är liten, så ligger det nära till hands att tro att det bara rör sig om en slumpmässig avvikelse och att myntet kan mycket väl vara helt okej. Om differensen däremot är stor, så kan vi anta att myntet är manipulerad. Frågan är vilka differenser som skall anses som stora och vilka som små. Figur 5 visar sannolikheten p(x) för att få exakt x gånger krona när man singlar en 12

omanipulerad slant 100 gånger. (Kurvan är beräknad med hjälp av den s.k. binomialfördelningen.) Man kan se att sannolikheten att få exakt 50 gånger krona är ungefär 8%, och att sannolikheten att få 40 eller 60 gånger krona är ungefär 1%. De två punkterade linjerna i Figur 5 begränsar en intervall mellan 40 gånger krona och 60 gånger krona. Intervallen är vald så att sannolikheten att hamna i den är 95%, och att sannolikheten att hamna utanför den är bara 5%. Sannolikheten att observera en avvikelse på mer än ±10 från medelvärdet 50 gånger krona är alltså mycket liten. Om vi ändå observerar en så pass stor differens, så kommer vi att anta att myntet är manipulerat. I vårt konkreta fall ligger det observerade värdet (44 gånger krona) innanför toleransgränsen på 95%. Detta tolkar vi som att vi inte har någon anledning att misstänka fusk. 10.2.1 Den generella metoden En enkel beskrivning av den generella metoden för hypotesprövning är följande: 1. Bestäm nollhypotesen. I vårt exempel ovan är nollhypotesen att sannolikheten för att få krona (eller klave) är 1/2. 2. Bestäm vilka värden vi kan förvänta oss om nollhypotesen är sann. I exemplet hade vi förväntat oss värdena i Figur 5. 3. Jämför dessa värden med det faktiska utfallet. I exemplet fick vi 44 gånger krona. Differensen från det förväntade medelvärdet 50 är alltså 50 44 = 6. Man ställer sedan frågan: Under antagandet att nollhypotesen är sann, vad är sannolikheten (p-värdet) för att få så pass stora (eller större) differenser? 4. Om differenserna mellan utfall och förväntan är små behåll nollhypotesen; annars förkasta den. Det har utvecklats en praxis att bara förkasta nollhypotesen vid p-värden som är lägre än 0,05, dvs. bara om sannolikheten att nollhypotesen kan förklara datan är mindre än 5%. Sådana resultat kallas statistiskt signifikanta. 10.2.2 En specifik metod: Chi-kvadrat-test (överkurs) Vi kommer nu att titta på en specifik metod för hypotesprövning, det så kallade chikvadrat-testet. Detta test kan tillämpas på data som kan skrivas in i en 2 2-matris. Ett exempel för sådan data visas i Figur 6a. Tabellen visar hur många av studenterna på en viss kurs regelbundet deltagit i undervisningen och hur många blev godkända på kursen. Det vi vill veta är om det finns något samband mellan dessa två variabler. 13

P(deltagit) = 31/ P(godkänd) = 33/ godkänd ej godkänd totalt deltagit 25 6 31 ej deltagit 8 15 23 totalt 33 21 (a) observerad P(deltagit godkänd) = P(deltagit) P(godkänd) deltagit godkänd = deltagit godkänd deltagit godkänd = deltagit godkänd = 31 33 = 18, 94 (b) sannolikheter och förväntade värden enligt nollhypotesen (händelserna oberoende) godkänd ej godkänd totalt deltagit 18,94 12, 06 31 ej deltagit 14,06 8, 94 23 totalt 33 21 (c) förväntade värden utifrån (b), alla fyra cellerna Figur 6: Sammanhang mellan deltagande i föreläsningar och betyg. 14

Steg 1: Formulera nollhypotesen mellan deltagande och betyg. Vår nollhypotes är: Det finns inte något samband Steg 2: Beräkna vad som kan förväntas om nollhypotesen vore sann Tabellen i Figur 6 visar observationer relaterade till två händelser och deras komplementhändelser: har deltagit i undervisningen och blev godkänd på provet. Om nollhypotesen vore sann borde vi enligt definitionen av oberoende händelser kunna räkna ut de olika värdena i tabellen genom att använda formler som t.ex. P(deltagit godkänd) = P(deltagit) P(godkänd) Vi kan använda denna information för att räkna ut förväntade värden för de olika cellerna. Enligt definitionen av sannolikhet vet vi t.ex. att: deltagit godkänd = deltagit När vi nu multiplicerar med på båda sidor får vi godkänd deltagit godkänd deltagit godkänd = Det förväntade värdet för cellen deltagit/godkänd är alltså produkten av alla studenter som deltagit och alla studenter som blev godkända, delad i. Med detta får vi tabellen i Figur 6c. Steg 3: Jämför det faktiska med det förväntade utfallet För varje cell i de två tabellerna räknar man ut differensen mellan det faktiska utfallet och det förväntade utfallet med hjälp av följande formel: (observerad förväntad) 2 förväntad Till slut lägger man ihop alla dessa differenser till ett värde χ 2. I vårt fall: χ 2 (25 18,94)2 (6 12,06)2 (8 14,06)2 (15 8,94)2 = + + + 18,94 12,06 14,06 8,94 = 11,704 Varje värde på χ 2 motsvarar ett visst p-värde, dvs. en viss sannolikhet att en så pass stor differens från det förväntade utfallet är förenligt med nollhypotesen. Några utvalda värden visas i Figur 7. Steg 4: Fatta ett beslut Enligt Figur 7 är sannolikheten att observera de observerade differenserna mindre än 1%. Detta är betydligt lägre än de 5% som vi brukar kräva. Därför så förkastar vi nollhypotesen och accepterar mothypotesen: Att det finns ett samband mellan deltagandet på undervisningen och kursbetyget. 15

χ 2 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,64 p 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 Figur 7: Sammanhang mellan χ 2 -värdet och p-värdet. 16