Statistik Statistik betyder ungefär sifferkunskap om staten Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information. Verkligheten är en kombination av systematik och slump. Råkade Du väga Dig vid olycklig tidpunkt (slumpen), eller har Din vikt förändrats (systematik)? Det finns tre sorters lögner: lögn, förbannad lögn och statistik Vad ska man med verklighet till när det finns statistik? Tillämpad matematik III/Statistik - Sida 1
Deskriptiv informera, kartlägga Hypotesprövande Fyra syften med statistik Verifiera eller förkasta ett antagande (hypotes) Utredande kausala samband, orsakssammanhang Prognosticerande vad händer i framtiden?, vad händer om vi gör så här? alltför många försöker spå om framtiden, utan att ens kunna historien Tillämpad matematik III/Statistik - Sida 2
Några vanliga begrepp Total undersökning hela populationen studeras Stickprovsundersökning del av populationen studeras Stickprov - en del av populationen Element (individ) - de som information söks om Mängden av dessa element kallas ofta population. Populationen kan vara ändlig eller oändlig. Validitet - mäter vi det vi avser att mäta? Reliabilitet - är de mätningar vi gör tillförlitliga? Tillämpad matematik III/Statistik - Sida 3
Fler vanliga begrepp Kvalitativ - icke-numerisk variabel; färg, ogift, god mat, attityd, servicegrad, kundnöjdhet (kan ges siffervärden) Kvantitativ - numerisk variabel Kontinuerlig - alla (oändligt antal) värden inom ett intervall Diskret - vissa (ändligt antal) värden inom ett intervall Tillämpad matematik III/Statistik - Sida 4
Något om mätskalor Variabel Kvalitativ (Icke-numerisk) Kvantitativ (Numerisk) Nominalskala (enbart klassificering) Ordinalskala (ordning) Intervallskala (ording + differens) Kvotskala (ordning + differens + kvot) Ex. Betyg Ex. Vikt Ex. Temp ( K) Tillämpad matematik III/Statistik - Sida 5
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) En firma tillverkar en typ av mätapparat till vilken det behövs kretskort. Det blir dyrt om man får in för många defekta kretskort i produktionen varför underleverantören av kretskorten lovar högst 0,5% defekta kretskort. Kretskorten ligger i förpackningar med 10 000 i varje. Man undersöker 200 på måfå utvalda kort ur varje förpackning. I en sändning på 80 förpackningar fick man följande resultat. (Detta är ett exempel på diskret variation) Tillämpad matematik III/Statistik - Sida 6
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Antal defekta kretskort bland 200 utvalda i 80 förpackningar. Grunddata 1 2 1 0 3 3 4 2 4 7 4 1 1 0 0 1 1 0 0 4 1 2 2 2 2 2 2 5 2 2 3 5 1 2 2 4 0 1 4 1 5 1 3 3 1 1 3 2 1 4 2 1 3 2 1 1 4 3 1 3 5 2 2 4 1 3 3 0 0 1 2 4 3 2 0 3 1 1 1 1 Tillämpad matematik III/Statistik - Sida 7
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Frekvenstabell för antalet defekta kretskort Tillämpad matematik III/Statistik - Sida 8
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Stolpdiagram Tillämpad matematik III/Statistik - Sida 9
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) % Stolpdiagram, Relativa frekvenser Tillämpad matematik III/Statistik - Sida 10
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Trappstegskurva för antalet defekta kretskort Kumulativ relativ frekvens % Tillämpad matematik III/Statistik - Sida 11
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Trappstegskurva för antalet defekta kretskort Kumulativ relativ frekvens Tillämpad matematik III/Statistik - Sida 12
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Totalt valdes 200*80 = 16000 kretskort ut för undersökning. Stickprovstorlek är på 16000, n = 16000. Stickprovet valdes ut bland totalt 80*10000 = 800000 kort. Populationsstorleken är på 800000, N = 800000 Felkvoten i stickprovet var 168/16000 = 0.0105 = 1.05 % dvs något större än den utlovade. Hur säkra uttalanden kan man göra om felkvoten? Är det statistiskt säkert att felkvoten överstiger 0.5%? För att svara på dessa frågor behövs sannolikhetsteori! Tillämpad matematik III/Statistik - Sida 13
Ett exempel till på stickprovsundersökning (Experimentell undersökning) I en järnmalmsgruva gjordes ett fullskaleförsök för att bl.a. studera hur lång tid det tar att fylla en 2 m 3 vagn med malm. Man noterade tiden från det att lastmaskinen började köra in i berghögen tills att lastaren kopplade loss vagnen. Följande resultat erhölls. (Detta är ett exempel på kontinuerlig variation) Tillämpad matematik III/Statistik - Sida 14
Ett exempel till på stickprovsundersökning (Experimentell undersökning) Tidsåtgång vid lastning i sek. Grunddata 85,80,85,77,101,109,111,109,148,183,153,78,84,80,94,104,96,100 117,112,103,122,155,153,128,172,69,84,99,110,112,181,176,79,94 111,111,118,133,140,80,84,100,101,122,129,73,75,111,96,126,147 90,103,100,96,116,128,86,80,97,118,124,150,96,105,83,99,140,79 78,87,107,134,140,79,87,104,153,134,82,91,104,128,76,108,141 134,117,110,149,119,121,116,114,130,90,97,127,113,96,106,107, 108,128,110,109,85,95,116,118,110,91,126,97,121,107,104,129, 06,112,91,119,118,105 Tillämpad matematik III/Statistik - Sida 15
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Frekvenstabell för tidsåtgång vid lastning, Klassindelat material Tidsåtgång Frekvens Rel.frekvens Kum.frekvens -75 2 1.60 1.60 75-85 17 13.6 15.2 85-95 13 10.4 25.6 95-105 22 17.6 43.2 105-115 25 20.0 63.2 115-125 16 12.8 76.0 125-135 14 11.2 87.2 135-145 4 3.20 90.4 145-155 7 5.60 96.0 155-165 1 0.800 96.8 165-175 1 0.800 97.6 175-3 2.40 100. Tillämpad matematik III/Statistik - Sida 16
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Histogram tidsåtgång vid lastning Tillämpad matematik III/Statistik - Sida 17
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) Histogram tidsåtgång vid lastning, kumulativ relativ frekvens Tillämpad matematik III/Statistik - Sida 18
Ett exempel på stickprovsundersökning (icke-experimentell undersökning) 1) Vad är den genomsnittliga tidsåtgången? Den genomsnittliga tidsåtgången är 110.2. 2) Hur mycket varierar det? Standardavvikelsen i stickprovet är 23.7. 3) Hur stor andel av vagnarna överstiger 2 min? Andelen av vagnarna som överstiger 2 min är 28%. Hur säkra är dessa uttalanden? För att svara på dessa frågor behövs sannolikhetsteori! Tillämpad matematik III/Statistik - Sida 19
Beskrivande statistik Lägesmått Medelvärde, Median, m, (2:a kvartil Q 2 ) Typvärde, T Spridningsmått Standardavvikelse, s (Varians, s 2 ) Kvartilavstånd, Q = Q 3 - Q 1 Variationsbredd, R Tillämpad matematik III/Statistik - Sida 20
Medelvärde: Lägesmått Summan av alla värden delat med antalet värden Mathematica: Mean[Data] Median: En storleksordnad datamängd kan delas in i 4 kvartiler, 25% av materialet är, % är och 75% är eller 25% är Matematica: Median[Data], Quartiles[Data] Typvärde, T Det värde som förekommer flest gånger. Mathematica: Commonest[Data] Tillämpad matematik III/Statistik - Sida 21
Standardavvikelse: Spridningsmått Genomsnittliga kvadratiska skillnaden mot medelvärdet Varians: Mathmatica: Standarddeviation[Data], Variance[Data] Kvartilavstånd: 50% av materialet mellan och Mathmatica: Quantile[Data,0.75] - Quantile[Data,0.25] Variationsbred: Mathematica: Max[Data]-Min[Data] Tillämpad matematik III/Statistik - Sida 22
Resultat, kretskort Medelvärdet,. Varje förpackning innehåller 2.1 defekta kretskort. Varians och standardavvikelse.. Medianen, m = 2 50% av förpackningarna innehåller 2 eller fler defekta kretskort. Typvärdet, T = 1 En typisk förpackning innehåller ett defekt kretskort. Tillämpad matematik III/Statistik - Sida 23
Resultat, lastning Medelvärdet,. I genomsnitt tog det 110. 2 s. att lasta vagnen. Varians och standardavvikelse.. Medianen, m = 108 s. 50% av ggr. tog det 108 s. att lasta vagnen 1:a kvartil,., 25% av ggr tog det högst 94 s. att lasta vagnen. 3:e kvartil,.., 75% av ggr tog det högst 122.5 s. att lasta vagnen Tillämpad matematik III/Statistik - Sida 24
Liten statistisk ordlista Individ Undersökningsobjekt i en statistisk undersökning. Population En definierad grupp individer med någon gemensam egenskap. Variabel En egenskap man studerar hos en individ. Kvantitativ variabel En variabel som mäts med numeriska mätvärden. Kvalitativ variabel En icke-numerisk variabel. Innebär klassificering. Tillämpad matematik III/Statistik - Sida 25
Diskret variabel Kvantitativ variabel som endast kan anta vissa värden, ofta heltalsvärden. Kontinuerlig variabel Kvantitativ variabel som i princip kan anta alla värden i ett intervall. Nominalskala Lägsta datanivån, klassificering av den studerade variabeln Ordinalskala Föreligger då mätvärden kan rangordnas Intervallskala Förutom rangordning av data är skillnader mellan mätvärden meningsfulla Kvotskala Liten statistisk ordlista fortsätter Har intervallskalans egenskaper och en absolut nollpunkt. Tillämpad matematik III/Statistik - Sida 26
Sannolikhetsteori Sannolikhetsteorin kan ses som teorin om slumpmässiga försök Def: Med ett slumpmässigt försök menas ett försök vars resultat inte säkert kan förutsägas. Klassiska exempel: Slå en tärning, drag 5 kort ur en kortlek, ta en lott Men det kan också vara: Antalet defekta kretskort i en förpackning, Tidsåtgång vid lastning Tillämpad matematik III/Statistik - Sida 27
Utfallsrum, händelse och komplement Definitioner: Resultatet av ett slumpmässigt försök kallas utfall. Mängden av alla möjliga utfall av ett slumpmässigt försök kallas utfallsrum (Ω) En samling utfall kallas händelse (A, B, C,.) Grundmängd Delmängd Komplementet till A Utfallsrummet, Ω Komplementhändelse A C Händelsen A Händelsen A Tillämpad matematik III/Statistik - Sida 28
Unions-, snitt- och disjunkta händelser Då man undersöker händelser kan man med fördel använda mängdlärans symboler. Unionshändelse, A B Snitthändelse, A B Disjunkta händelser Minst en av händelserna A och B inträffar A eller B inträffar både A och B inträffar A och B kan ej inträffa samtidigt, A B = ( = tomma mängden) Unionshändelse Snitthändelse Disjunkta händelser Händelsen A Händelsen B Händelsen A Händelsen B Händelsen A Händelsen B Tillämpad matematik III/Statistik - Sida 29
Definition av sannolikhet Klassiska definitionen, sid 41 i Vännman Det finns m möjliga utfall med lika sannolikhet. Om händelse A innefattar g av utfallen blir sannolikheten för händelsen A Tillämpad matematik III/Statistik - Sida 30
Definition av sannolikhet Matematisk definition, s.48 i Vännman En funktion P, som till varje händelse A i utfallsrummet Ω, ordnar ett reellt tal P(A), är ett sannolikhetsmått, [P(A) kallas sannolikheten för A], om P har följande egenskaper (Kolmogorovs axiomsystem): 1. 0 b P(A) b 1, för alla A 2. P(Ω) = 1 3. P(A B) = P(A) + P(B), om A och B är disjunkta Tillämpad matematik III/Statistik - Sida 31
Sannolikhet som relativ frekvens 1.0 0.5 0.1 Tillämpad matematik III/Statistik - Sida 32
Räkneregler för sannolikheter Sats 2 B (Komplementsatsen) P(A C ) = 1 - P(A) Sats 2 C (Additionssatsen 2 händelser) P(A Β) = P(A) + P(B) - P(A B) (Kan utvidgas till flera händelser) ex 3 händelser P(A Β C) = = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C) Tillämpad matematik III/Statistik - Sida 33
Kombinatorik - Multiplikationsprincipen Om N stycken operationer (moment) utföras. Den första operationen kan utföras på n 1 sätt, den andra på n 2 sätt och den N:te på n N sätt. Då kan de N operationerna kan utföras på n 1 n 2... n N olika sätt. Operation 1 n 1 olika sätt Operation 2 n 2 olika sätt... Operation k n k olika sätt Tillämpad matematik III/Statistik - Sida 34
Kombinatorik - Urval utan återlägg Välj n element bland N st Med hänsyn till ordningen: Antalet möjliga Permutationer är Med Mathematica:!/( )! Utan hänsyn till ordningen: Antalet möjliga Kombinationer är! Med Mathematica: Binomial[N,n]!!!!! Tillämpad matematik III/Statistik - Sida 35
Kombinatorik - Urval med återlägg Välj n element bland N st Med hänsyn till ordningen: Antalet möjliga Permutationer är Utan hänsyn till ordningen: Antalet möjliga Kombinationer är Tillämpad matematik III/Statistik - Sida 36
Betingad sannolikhet Med den betingade sannolikheten,, menas sannolikheten för händelsen A givet att händelsen B Inträffat och definieras som Det ger följande nyttiga omskrivning: Tillämpad matematik III/Statistik - Sida 37
Betingad sannolikhet Tillämpad matematik III/Statistik - Sida 38
Satsen om total sannolikhet och Bayes sats (står inte i boken) Om händelserna tillsammans fyller hela Ω dvs H i = Φ och då gäller för varje händelse A att P(A) = H n i= 1 j P(H i H,H 1 2 n U i= 1 )P(A H i,..., H H i n = Ω är parvis oförenliga och ) (total sannolikhet) P(H A) i = n j= 1 P(H i P(H )P(A H j i ) )P(A H j ) (Bayessats) Tillämpad matematik III/Statistik - Sida 39
Definition Oberoende händelser Två händelser sägs vara oberoende av varandra om Om A och B är oberoende gäller Om B har inträffat påverkar detta inte sannolikheten för att A ska inträffa. OBS!! Förväxla inte oberoende och disjunkta händelser!! Exempel på oberoende händelser: flera kast med en tärning. Tillämpad matematik III/Statistik - Sida 40
Oberoende upprepade försök - Sats 2D Ett försök upprepas n oberoende gånger. A är en händelse som inträffar med sannolikheten p i ett försök. Sannolikheten att händelsen A inträffar k gånger under de n försöken är P(A inträffar k gånger) = Med Mathematica: PDF[BinomialDistribution[n,p],k] P(A) = p P(A) = p P(A) = p 1 2 n A A... A Tillämpad matematik III/Statistik - Sida 41