3.1 Beskrivande statistik En sammanställning av beskrivande statistik Summary for Vikt A nderson-darling Normality Test A -Squared 0.24 P-V alue 0.771 Mean 9.9294 StDev 1.7603 V ariance 3.0988 Skew ness 0.050000 Kurtosis 0.888347 N 50 6 8 10 12 14 Minimum 5.1600 1st Q uartile 8.8000 Median 10.0500 3rd Q uartile 11.3250 Maximum 15.1300 95% C onfidence Interv al for Mean Mean 95% Confidence Intervals 9.4291 10.4297 95% C onfidence Interv al for Median 9.3073 10.4794 95% C onfidence Interv al for StDev 1.4705 2.1936 Median 9.2 9.4 9.6 9.8 10.0 10.2 10.4 Mean (Medelvärde), är ett mått på läge. Stdev (Standardavvikelse), är ett mått på spridning kring medelvärdet, (S). Histogram är ett visuellt sätt att se spridningen kring medelvärdet. Boxplot är ett visuellt sätt att se spridningen kring medianen. (Minitab) Stat Basic Statistics Graphical Summary
3-4 Sannolikheter Vi utnyttjar begrepp från mängdlära när vi bestämmer sannolikheter. A = händelsen 6:a, B = händelsen 5:a A = inte A A B = A och/eller B A B = A och B P(A B) = P(A) + P(B) om A och B är disjunkta P(A B) = P(A) P(B) om A och B är oberoende
4 Fördelningar Ex. Vi kastar en 6-sidig tärning och låter en slumpvariabel X beteckna utfallet av tärning kastet. X kan då anta värden 1-6 med någon sannolikhet. Sannolikhetsfunktionen f(x) beskriver sannolikheten för de olika utfallen, f(x) = p(x=i) =1/6, i=1 6 Fördelningsfunktionen beskriver sannolikheten att X är mindre eller lika med något värde F(X) = P(X<=k) = k i=a P(X = i) där a är det minsta värde som X kan anta. E(X)=μ ger väntevärdet för slumpvariabeln och är ett mått på läget. V(X)= σ 2 ger variansen för slumpvariabel, är ett mått på spridning kring väntevärdet. σ kallas standard avvikelsen och är ett annat mått på spridningen kring väntevärdet (i samma måttenhet som X).
4 Fördelningar Hur påverkas väntevärde och varians om data skalas om? E(k X)=k E(X)=k μ V(k X)=k2 V(X)=k2 σ2 Det innebär att standardavvikelsen blir k σ Ex. Skala om längderna till meter I praktiken tar vi medelvärdet av upprepade mätningar dvs slumpvariablerna har samma väntevärde och varians. Då gäller n n n 1 X n 1 V X V n n 1 X n 1 E X E 2 2 2 2 2 n 1 i 2 2 n 1 i i n 1 i n 1 i i σ = + σ + + σ σ = σ = = = µ + µ µ + µ + µ = = = = = = = ) ( ) ( ) ( ) (
4 Fördelningar Det finns två typer av slumpvariabler (fördelningar). Diskreta slumpvariabler som endast kan anta ett uppräkneligt antal värden. (ex heltal). Binomial fördelningen. Beskriver antalet av n stycken händelser, där händelserna sker oberoende av varandra med sannolikheten p. Ex antalet 6:or i 10 tärningskast. bin(10,1/6) Poisson fördelningen Beskriver antalet händelser som sker slumpmässigt i tiden och händelserna sker med en viss frekvens λ. Ex inkomna telefonsamtal till en växel på en given timme, där växeln i genomsnitt får 2 samtal per timme
4 Fördelningar Kontinuerliga slumpvariabler som kan alla (oändligt många) värden i ett intervall. För kontinuerliga fördelningar använd täthetsfunktionen som beskriver den relativa frekvensen för utfallen, betecknas f(x). Fördelningsfunktionen beskriver även här sannolikheten att få mindre eller lika med ett värde: a F(X) = P(X <= a) = f x dd Normal fördelningen Används ofta för att beskriva (modellera) slumpfelet i mätningar. Denna fördelning beskrivs av väntevärdet och variansen/standardavvikelsen. En praktisk skillnad mellan kontinuerliga och diskreta fördelningar som man bör känna till. P(X >= 6) = 1 P(X < 6) = 1 P (X <= 5) för diskreta fördelningar. P(X >= 6) = 1 P(X < 6) = 1 P (X <= 6) för kontinuerliga fördelningar.
4.3 CGS Om våra slumpvariabler X 1, X 2,, X n är oberoende och normalfördelade slumpvariabler blir medelvärdet (och summan) normalfördelad. Även om de inte är normalfördelade kommer medelvärdet (och summan) approximativt att vara normalfördelad. Detta approximativa resultat följer av centrala gränsvärdessatsen. σ X är (approximativt) N( µ, n n i= 1 X är (approximativt) N(nµ, nσ i 2 ) 2 )
5. Kontrolldiagram Två typer av variation Akut variation skapas av urskiljbara orsaker (assignable causes). Kroniska variationen skapas av slumpmässiga orsaker (chance causes). Stabil process När endast kronisk variation finns, har vi en stabil process. En sådan process sägs vara under kontroll. Kontrolldiagram används för att styra en stabil process, där målet är att bibehålla stabiliteten och så snabbt som möjligt upptäcka och åtgärda nya akuta variationer.
5. Kontrolldiagram 57.5 Xbar Chart of stable 55.0 UCL=56,21 Sample Mean 52.5 50.0 _ X=50,14 47.5 45.0 LCL=44,08 1 6 12 18 24 30 Sample 36 42 48 54 60 Ett styrdiagram består av en centrumlinje samt en övre- och en undre kontrollgräns (UCL och LCL). Dessa väljs ofta till 3 standardavvikelser från centrumlinjen.
5. Kontrolldiagram De naturliga kontroll gränserna välj som medelvärdet +- 3*standardavvikelsen. (NUCL, NLCL), där standardavvikelsen skattas på olika sätt beroende på vilken typ av data det är. Det finns 8 stycken test som görs i sambanden med kontrolldiagram. Om något av dessa testen misslyckas så går vi tillbaka och kollar om det finns belägg för att ta bort dessa eller om de är en del av den kroniska variationen. Om vi har belägg för att processen inte är under kontroll vid dessa ska dessa observationer inte vara med vid konstruktion av styrgränserna. Oftast kollar man två kontrolldiagram, Där den ena visar mätvärdena och den andra visar spridningen. Individual Value 4.00 3.95 3.90 3.85 3.80 1 4 8 I Chart of Uppmätt resistans_a 12 16 20 24 28 32 Observation 1 36 40 UCL=3.9209 _ X=3.8683 LCL=3.8157
5. Kontrolldiagram Xbar-R och Xbar-S används då ett stickprov tagits vid varje kontrollpunkt. X-bar visar medelvärdena inom varje grupp. R och S, visar spridningen skattad antingen med Range (dvs max-min i varje grupp;r) eller standard avvikelsen (S). I-MR används då vi enbart har en observation per kontrollpunkt. I-chart visar de individuella mätvärdena och MR chart visar spridningen (moving range, avståndet mellan på varandra följande punkter. P-chart och NP-char används då vi studerar andelen (P) eller antalet (NP) defekta enheter i stickprovtagna vid varje kontrollpunkt. C-chart används då vi studerar antalet defekter på enheter. U-chart används då vi studerar antalet defekter per måttenhet. För dessa är standardavvikelsen och kontrollgränserna beräknade på olika sätt.
6.1.1 Capability analysis Kapabiliteten eller dugligheten jämför förmågan hos en process (med väntevärde μ och standard-avvikelse σ) med de krav vi har på den i form av givna specifikationsgränser (LSL, USL) och targetvärde. Ett mått på processens kapabilitet (duglighet) är kvoten USL LSL NUCL NLCL = USL LSL 6σ där USL och LSL är specifikationsgränserna, och NUCL och NLCL är de naturliga kontrollgränserna. Eftersom σ oftast är okänd ersätts den av en skattning av σ (antingen within eller overall standardavvikelsen).
6.1.1 Capability analysis Cp kallas potentiell kapabilitet och beräknas med standardavvikelsen skattad inom varje kontrollpunkt (kan vägas samman på olika sätt). Tar ej hänsyn till hur centrerad processen är. Cp USL LSL = 6σ För att ta hänsyn till hur centrerad processen är använd C pk den aktuella kapabiliteten USL µ µ LSL CPU CPL C pk = min, = min, 3σ 3σ 3σ 3σ Vilket skattas med USL X min 3ˆ σ, X LSL 3ˆ σ
6.1.1 Capability analysis Motsvarande mått kan beräknas med hjälp av standard avvikelsen för hela datamaterialet (overall). Och benämns då Pp, Ppk, Ppl och Ppu. Dessa kallas då för performance indices. Om skillnaden är stor mellan Pp och Cp tyder det på en stor del av variationen i processen kommer av variationen mellan medelvärden i varje kontrollpunkt. Cp > 1 innebär att de flesta enheterna uppfyller toleransgränserna (om processen är centrerat runt önskat väntevärde µ). Cp 1 innebär att cirka 99.73% av enheterna uppfyller toleransgränserna (om processen är centrerat runt önskat väntevärde µ). Cp < 1 innebär att en lägre andel av enheterna uppfyller toleransgränserna.
6.1.1 Capability analysis Process Capability of Supp1 Process Data LSL 598.00000 Target 600.00000 USL 602.00000 Sample Mean 599.54800 Sample N 100 StDev (Within) 0.57643 StDev (O v erall) 0.62086 LSL Target USL Within Overall Potential (Within) C apability C p 1.16 C PL 0.90 C PU 1.42 C pk 0.90 C C pk 1.16 O v erall C apability Pp 1.07 PPL 0.83 PPU 1.32 Ppk 0.83 C pm 0.87 597.75 598.50 599.25 600.00 600.75 601.50 O bserv ed Performance PPM < LSL 10000.00 PPM > USL 0.00 PPM Total 10000.00 Exp. Within Performance PPM < LSL 3621.06 PPM > USL 10.51 PPM Total 3631.57 Exp. O v erall Performance PPM < LSL 6328.16 PPM > USL 39.19 PPM Total 6367.35 PPM total anger antalet av 1 miljon som kommer hamna utanför Specifikationsgränserna. Skattas från observationerna, och under antagande om normalfördelning där väntevärde är det observerade medelvärdet och standardavvikelsen med de olika sätten (within och overall).
7.1 Hypotesprövning Vi har mätningar från ett försök som betecknas med en slumpvariabel X. Vi vill testa om väntevärdet E[X]=μ för våra mätningar har ett givet värde μ 0. H 0 representerar det som alltid gällt, ett fixt tal, lika med nånting. H 1 representerar det vi vill påvisa, skiljt ifrån, större än, mindre än. Med hjälp av data kan vi antingen förkasta H 0 till förmån för H 1, eller inte förkasta H 0. Obs! Vi accepterar aldrig H 0 som sann! Nollhypotes: H 0 : µ = µ 0 Alternativa hypoteser: H 1 : µ > µ 0, H 1 : µ < µ 0, H 1 : µ µ 0
7.1 Hypotesprövning Genomförandet av testet är att beräkna p-värdet. p-värde = P(minst lika extremt utfall som vi har fått givet att H 0 är sann) Vi jämför p-värdet med en given signifikansnivå (oftast 5%) och om p-värdet är mindre än signifikansnivån förkastas nollhypotesen till förmån för mothypotesen. Alternativt kan vi skapa ett konfidensintervall som anger att med en viss konfidensgrad (ofta 95%) täcker intervallet det sanna väntevärdet. Om värdet i nollhypotesen ej ligger i intervallet motsvarar detta att p-värdet är mindre än signifikansnivån (som är konfidensgraden).
7.1 Hypotesprövning Testförfarande: förkasta nollhypotesen till förmån för den alternativa hypotesen om p-värdet är mindre än den i förväg valda signifikansnivån α. Vanligtvis är α = 0.05. Tolkning av signifikansnivå: Den risk som man är villig att ta i att göra fel, dvs att förkasta nollhypotesen fast den kan vara sann.
7.2.1-7.2.2 Z-test och t-test Vi antar att vårt medelvärde av mätvärden är normalfördelad och att nollhypotesen är sann. (Det är ett rimligt antagande om mätvärdena är approximativt normalfördelade eller antalet observationer är stort också). Z-test Om variansen σ 2 är känd kan p-värdet eller konfidensintervall bestämmas med hjälp av normalfördelningen. p-värdet=p(x > x ) (vid ensidig hypotes μ>μ 0 ). T-test Om variansen σ 2 är okänd, så skattas (bestäms) den med S 2. Vi får då använda t-fördelningen för att bestämma p-värdet-
7.2.1-7.2.2 Z-test och t-test One-Sample Z: ph-värde Test of mu = 7 vs not = 7 The assumed standard deviation = 0,5 Variable N Mean StDev SE Mean 95% CI Z P ph-värde 10 6,671 0,514 0,158 (6,361; 6,981) -2,08 0,038 One-Sample T: ph-värde Test of mu = 7 vs not = 7 Variable N Mean StDev SE Mean 95% CI T P ph-värde 10 6,671 0,514 0,162 (6,304; 7,039) -2,02 0,074
7.2.1-7.2.2 Z-test och t-test Kontrollera antagandet om normalfördelning mha normalfördelningstest H 0 : Observationerna kommer från normalfördelningen. H 1 : Observationerna kommer ej från normalfördelningen. P-värdet är större än 0.05 Nollhypotesen kan ej förkastas. Antagandet om normalfördelning är rimligt.
7.2.3 Test för proportioner Då vi inte undersöker väntevärdet utan andelen/antalet enheter med någon egenskap, (ex. Antalet felaktiga fakturor), i ett stickprov använder vi en annan typ av test. I detta fall kommer antalet enheter vara binomial fördelad. H0: P=P0 H1: P P0 Under H0 har vi att antalet (X) är X~bin(200,P0) där n är storleken på stickprovet. Vi kan bestämma p-värdet direkt med hjälp av binomialfördelningen. Alternativt kan vi approximera X med normalfördelningen och utföra ett z- test.
7.2.3 Test för proportioner Test and CI for One Proportion Test of p = 0,1 vs p > 0,1 95% Lower Exact Sample X N Sample p Bound P-Value 1 27 200 0,135000 0,097028 0,067 ------------------------------------------------------------ 95% Lower Sample X N Sample p Bound Z-Value P-Value 1 27 200 0,135000 0,095255 1,65 0,049 Using the normal approximation. (Minitab) stat->basic statistics-> 1 proportion (ändra i options för normalapproximation)
7.3.1 Två stickprov t-test Då vi har mätvärden (X och Y) från två oberoende stickprov och är intresserad att testa om väntevärdena för dessa är lika använder vi two-sample t-test. För att undersöka dessa hypoteser kollar vi på skillnaden i medelvärdena under antagande om att dessa är normalfördelade. Vi har hypoteserna H0: μx=μy H1: μx μy H0: μx μy=0 H1: μx μy 0 Under nollhypotesen och antagande om normalfördelning så är medelskillnaden mellan X och Y också normalfördelad. Variansen för denna kan skattas på två sätt beroende på om Vi antar att varianserna är lika för X och Y eller om de är olika.
7.3.1 Två stickprov t-test Two-Sample T-Test and CI: New; Standard Two-sample T for New vs Standard N Mean StDev SE Mean New 9 30,33 4,15 1,4 Standard 9 35,22 4,94 1,6 Difference = mu (New) - mu (Standard) Estimate for difference: -4,89 95% upper bound for difference: -1,13 T-Test of difference = 0 (vs <): T-Value = -2,27 P-Value = 0,019 DF = 16 Both use Pooled StDev = 4,5659 Kontrollera antaganden om att båda variablerna är normalfördelade och om de har samma varians. (Minitab) Stat -> basic statistics -> 2 variances
7.4 Parat t-test Ibland finns ett beroende mellan X och Y och vi har stickprov i par, något som knyter en varje observation i första gruppen med specifika observationer i den andra gruppen. I detta fall kan vi inte använda two sample t-test utan använder istället paired T-test. Iden med denna är att först bilda differensen för varje par, xi yi ~ N(δ,σ D2 ) och sedan utföra ett 1-sample t-test på differenserna. Paired T-Test and CI: Efter; Före Paired T for Efter - Före N Mean StDev SE Mean Efter 12 68,92 14,20 4,10 Före 12 63,08 15,21 4,39 Difference 12 5,83 5,41 1,56 95% lower bound for mean difference: 3,03 T-Test of mean difference = 0 (vs > 0): T-Value = 3,74 P-Value = 0,002 Kontrollera antagandet om att differenserna är normalfördelade.
7.3.2 Test av två proportioner Vi har två populationer i vilka en egenskap förkommer med proportionerna p1 respektive p2. X är antalet förekomster i ett stickprov av storlek n1 Y är antalet förekomster i ett stickprov av storlek n2 X ~bin(n1, p1) Y~bin(n2, p2) Vi vill testa Hypoteserna, H0: p1 = p2 = p (p1 p2=0) H1: p1 p2. (p1 p2 0)
7.3.2 Test av två proportioner Då nollhypotesen är sann H0: p1 = p2 = p, dvs (p1 p2=0) då kommer (approximativt pga CGS) X n 1 + Y n 2 ~N(0, p(1 p)( 1 n 1 + 1 n 2 ) Där vi skattar p med den totala andelen X+y n 1 +n 2. Vi kan sedan göra ett z-test för att testa hypoteserna. Bocka för Use pooled estimate of p for test under options.
7.3.2 Test av två proportioner Test and CI for Two Proportions Sample X N Sample p 1 23 400 0,057500 2 14 360 0,038889 Difference = p (1) - p (2) Estimate for difference: 0,0186111 95% CI for difference: (-0,0117087; 0,0489309) Test for difference = 0 (vs not = 0): Z = 1,19 P-Value = 0,234 Fisher's exact test: P-Value = 0,243 Fisher s exact test är att föredra, när antalet observationer är litet.
7.5 Experiment with a single factor having more than two levels One-way ANOVA: Dragstyrka versus Inblandning Source DF SS MS F P Inblandning 4 475.76 118.94 14.76 0.000 Error 20 161.20 8.06 Total 24 636.96 S = 2.839 R-Sq = 74.69% R-Sq(adj) = 69.63% Stat ANOVA One-way...
7.5 Experiment with a single factor having more than two levels För att ta reda på var skillnaden finns används post-hoc test. Där alla parvisa skillnader bildas och testat om de är 0. (för konfidensintervall så undersöks om 0 finns i intervallen). Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Inblandning Individual confidence level = 99.28% Inblandning = 15 subtracted from: Inblandning Lower Center Upper ------+---------+---------+------- 20 0.229 5.600 10.971 (-----*----) 25 2.429 7.800 13.171 (-----*----) 30 6.429 11.800 17.171 (-----*----) 35-4.371 1.000 6.371 (----*----) ------+---------+---------+------- -10 0 10
7.5 Experiment with a single factor having more than two levels Antagande 2: Lika varians Antagande 1: Residualerna normalfördelade Antagande 3: oberoende observationer Analys av residualer (modellverifiering), Stat ANOVA One-way...
7.5 Experiment with a single factor having more than two levels Låt oss kontrollera om varianserna är lika hos de olika inblandningarna för dragstyrkeexemplet. H 0 : σ 2 15 = σ 2 20 = = σ 2 35 = σ 2. H 1 : Åtminstone ett σ 2 i σ 2 Stat ANOVA test for equal variances
7.5.2 The random effects model Anta att man är intresserad av att studera ett stort antal faktornivåer (oändligt många teoretiskt). Av praktiska skäl kan vi inte observera alla dessa nivåer utan väljer slumpmässigt ut ett antal faktornivåer som vi sedan observerar. Modell: Y ij = µ + α i + ε ij, j = 1, 2,, n i, i = 1, 2,, a, α i N(0, σ 2 a), ε ij N(0, σ 2 ). Hypotes: H 0 : σ 2 a = 0. H 1 : σ 2 a 0. Detta är en s.k. random effects model. Till skillnad från vid fixed effects model så vill man här uttala sig om alla tänkbara faktornivåer, inte ett begränsat antal. (Vi är då inte intresserad av post-hoc test).
7.6-8.1 experiments with blocks or more than two factors Då vi är intresserad av mer än en faktor (två kanske eller en faktor med block) används också variansanalys. Modell: Y ij = µ + α i + β j + ε ij, j = 1, 2,, b, i = 1, 2,, a, ε ij N(0, σ 2 ). Intressanta hypoteser: H 0 : α 1 = α 2 = = α a = 0. H 1 : Åtminstone ett α i 0. H 0 : β 1 = β 2 = = β b = 0. H 1 : Åtminstone ett β j 0. Stat-> ANOVA -> two way anova (additative model)
8.1 General factorial experiments Ytterligare en tvist av modellerandet kan vi göra om vi tror att det finns en samspelseffekt mellan dom förklarande faktorerna i modellen, dvs samspel av vissa kombinationer av två faktorer (eller fler) ger en annan effekt än summan av effekterna. Stat ANOVA Interactions Plot
8.1 General factorial experiments Modell: Y ijk = µ + α i + β j + (αβ) ij + ε ijk, i = 1, 2,, a, j = 1, 2,, b, ε ijk N(0, σ 2 ) k = 1, 2,,n. a i= 1 b α = 0, = 0, ( ) = 0, i β j αβ ij ( αβ ) j= 1 i= 1 Hypoteser: (1) H 0 : (αβ) 11 = = (αβ) ab = 0. (2) H 0 : α 1 = = α a = 0 (2) H 0 : β 1 = = β b = 0 a b j= 1 ij = 0 Om vi förkastar (1) så är det nog enklast att bryta sönder försöket på någon av faktorerna och analysera för varje nivå på den faktorn. 37