EDA detektivarbete bland siffror med papper, penna och linjal

Relevanta dokument
2 Dataanalys och beskrivande statistik

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Valresultat Riksdagen 2018

Att göra före det schemalagda labpasset.

Beskrivande statistik

En typisk medianmorot

13.1 Matematisk statistik

Statistiska begrepp och uttrycksformer

Bearbetning och Presentation

Medelvärde, median och standardavvikelse

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Repetitionsprov inför provet Statistik

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Beskrivande statistik

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Föreläsning G60 Statistiska metoder

Statistik 1 för biologer, logopeder och psykologer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

732G01/732G40 Grundläggande statistik (7.5hp)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Läs noggrant informationen nedan innan du börjar skriva tentamen

Piteås kunskapsresultat jämfört med Sveriges kommuner 2015/2016

Laboration med Minitab

Förra gången (F4-F5)

Föreläsning G70 Statistik A

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Upprepade mönster (fortsättning från del 1)

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

MA1S TATISTIK UPPGIFTER

Västra Götalandsregionen. Användarguide. PrimärvårdsKvalitet

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Bok: X (fjärde upplagan) Kapitel : 3 Längd, tid och samband Kapitel : 4 Algebra och mönster

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Sammanfattningar Matematikboken X

Introduktion till statistik för statsvetare

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Läs noggrant informationen nedan innan du börjar skriva tentamen

En introduktion till och första övning for Excel

NpMa2b ht Kravgränser

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 27 mars 2004, kl

Föreläsning 1: Introduktion

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Läs noggrant informationen nedan innan du börjar skriva tentamen

MVE051/MSG Föreläsning 7

Det är tänkt att varje elev eller grupp ska få en egen kopia av provresultaten och en egen datablankett att fylla i.

Varje deluppgift ger 1 poäng. Det är även utskrivet vilken förmåga du kan visa på varje uppgift. Till exempel betyder EB, begreppsförmåga på E-nivå.

vux GeoGebraexempel 2b/2c Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker

Statistik. Berit Bergius & Lena Trygg, NCM

ÖVNINGSUPPGIFTER KAPITEL 2

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

16. Max 2/0/ Max 3/0/0

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Lärarhandledning Vi berättar och beskriver

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Först se men inte röra sedan klippa till och göra

Matematik. Ämnesprov, läsår 2014/2015. Bedömningsanvisningar Delprov B, C, D, E. Årskurs

Marknadsinformationsmetodik Inlämningsuppgift

Förord. Innehåll. 1 Tal 4. 4 Algebra Bråk och procent Statistik och sannolikhet Tid, hastighet och skala 60.

Föreläsning 1: Introduktion

Visible teaching visible learning. Formativ bedömning en väg till bättre lärande

LABORATION 1. Syfte: Syftet med laborationen är att

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

*****************************************************************************

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Forskningsmetodik 2006 Lektion 3

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

ÖVNINGSUPPGIFTER KAPITEL 2

Sannolihhet. och statistik. Vad är möjligt och vad är inte möjligt? Kommer tåget fram i tid? Blir det regn imorgon? Vi bedömer ständigt risker eller

Tabeller och figurer / Ilkka Norri / TY Kielikeskus

LABORATIONER. Det finns en introduktionsfilm till Minitab på

Laboration 2 Inferens S0005M VT16

Lärarhandledning Vi berättar och beskriver

Extramaterial till Matematik Y

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Arbeta med normalfördelningar

11. DESKRIPTION EN VARIABEL

Längd. Till Läraren. Kristina Lutteman Per-Anders Nilsson. Specialpedagogiska skolmyndigheten

Läs noggrant informationen nedan innan du börjar skriva tentamen

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Stolpdiagram Genomförande Uppföljning

6-2 Medelvärde och median. Namn:

Statistisk undersökning och jämförelser mellan några volumetriska kärl. XXXXXXX

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

ÄMNESPROV I MATEMATIK Skolår 9 Delprov B

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Föreläsning 1: Introduktion

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

NATIONELLT KURSPROV I MATEMATIK KURS A VÅREN Del I

Välkommen till Kängurun Matematikens hopp 2008 Benjamin

Transkript:

EDA detektivarbete bland siffror med papper, penna och linjal KERSTIN VÄNNMAN För att bli framgångsrik "datadetektiv" måste man på ett enkelt sätt kunna åskådliggöra ett siffermaterial. Kerstin Vännman, universitetslektor i matematisk statistik vid Högskolan i Luleå beskriver här hur man snabbt får överblick över statistiska material med hjälp av stam-bladdiagram och lådagram, nya redskap i en mer kreativ undervisning på alla stadier. Det vanligaste sättet att beskriva ett statistiskt material är med hjälp av stolpdiagram eller histogram, medelvärde och standardavvikelse. Under 70-talet har John W Tukey från Princeton, New Jersey, USA, lanserat ett nytt sätt att angripa en samling data. Det kallas för EDA (Exploratory Data Analysis) [9]. På svenska skulle det bli "undersökande dataanalys". Tukey beskriver själv EDA som ett numeriskt eller grafiskt detektivarbete och jämför med situationen i ett rättsfall. Den undersökande dataanalysen använder man för att söka efter ledtrådar och bevis i sitt datamaterial. Sedan måste man pröva bevisens styrka, och det får man göra med den bekräftande analysen, där man använder t ex konfidensintervall och test. De redskap man använder inom EDA vid den undersökande dataanalysen kännetecknas av att de dels är enkla och dels robusta. Med robust menas då ungefär okänslig för eventuella felaktigheter i datat. För att vara framgångsrik "datadetektiv" måste man på ett bra och enkelt sätt kunna åskådliggöra ett datamaterial. Här kommer jag att beskriva några av de enkla grafiska metoder som Tukey rekommenderar. Betrakta följande exempel hämtat ur Nyman-Emanuelsson, Matematik för gymnasieskolan, NT 1.

40 flickor i gymnasieskolans årskurs 1 tillfrågades om sina vikter. Svaren blev följande. 53 52 54 56 50 56 50 55 50 59 49 52 50 57 52 42 55 45 45 52 55 60 51 43 53 46 47 46 58 48 64 57 58 57 50 50 55 47 53 51 För att få överblick över materialet gör vi på följande sätt. Tiotalssiffrorna för vikterna är 4, 5 eller 6. På ett rutat papper skriver vi dem under varandra och drar ett streck till höger om dem 4 5 6 Sedan läser vi av vikterna en i taget och placerar entalssiffran till höger om rätt tiotalssiffra. Efter att ha läst de två första vikterna i kolonn 1 får vi då 4 9 5 3 6 Hela kolonn 1 ger 4 9 5 35 6 4 Här har vi alltså sammanställt vikterna 49, 53, 55 och 64. När vi sammanställt alla 40 vikterna blir det på följande sätt. 4 9326756758 5 3522740186770230600555083921 6 40 Detta är ett stam-bladdiagram (stem-and-leaf-display) där tiotalssiffrorna för vikterna bildar stammen och entalssiffrorna för vikterna bildar bladen. Sedan ordnar vi bladen efter storlek och får följande stam-bladdiagram. 4 2355667789 (10) 5 0000001122223334555566777889 (28) 6 04 (2) Stam: tiotalssiffra Blad: entalssiffra I parenteserna efter bladen står frekvensen för varje rad. Ännu

bättre överblick över materialet fås om vi sträcker ut stammen, vilket är snabbt gjort. 4 23 (2) 4 55667789 ( 8) 5 0000001122223334 (16) 5 555566777889 (12) 6 04 (2) Stam: tiotalssiffra Blad: entalssiffra I första raden står nu alla vikter fr o m 40 t o m 44 kg, i andra raden fr o m 45 t o m 49 osv. I stam-bladdiagrammet har vi nu all information som finns med i ett histogram med tillhörande frekvenstabell plus en hel del till, eftersom vi har kvar ursprungsvärdena. Det var också mycket enkelt att sträcka ut stammen, när vi inte var nöjda med första försöket. Jämför detta med det extra arbete som behövs om vi måste göra om klassindelningen vid histogrammet. Om man av någon anledning vill presentera ett histogram är det snabbt gjort när man har sitt stam-bladdiagram. När man sammanställt sina värden i ett stam-bladdiagram bör man inte stanna där, ty det är nu som själva "detektivarbetet" börjar. Vi kan bl a observera att många har angett vikten 50 kg. Vad beror det på? Har några angett lägre vikt än den verkliga? Väger man lite mer än 50 kg kanske man vågar säga 50 kg men inte 49 kg. Avviker den minsta och största vikten i materialet mycket från "den stora massan"? Hur stämmer de här vikterna överens med de vikter som du kan samla in i den egna klassen? Gör ett stam-bladdiagram och jämför. Man kan fortsätta så här och ställa en lång rad frågor. Här finns verkligen möjlighet att vara kreativ. För att snabbt få överblick över ett statistiskt material, framför allt vid jämförelser mellan olika material, behöver man snabbritade figurer som framhäver viktiga egenskaper i materialet men utelämnar onödiga detaljer. Tukey föreslår att man grafiskt skall åskådliggöra följande fem storheter: det största värdet, det minsta värdet, medianen, nedre kvartilen och övre kvartilen. Ett slående sätt att illustrera dessa fem storheter är att använda "ihopvikning". Antag att vi har följande 13 observationer: 53 52 54 56 50 56 50 55 50 59 49 52 50 Vi ordnar dem efter storlek. 49 50 50 50 50 52 52 53 54 55 56 56 59

Sedan "viker vi av i mitten" och slutligen "viker vi upp" ändarna, så att vi får bilden Vi går tillbaka till exemplet med vikter. Ur stam-bladdiagrammet får vi direkt att minsta värdet är x min = 42 och att största värdet är x max = 64. Vi kan även snabbt ta fram de två mittersta värdena ur stam-bladdiagrammet eftersom materialet är storleksordnat. De blir 52 resp 52. Medianen av materialet blir då Md = (52 + 52)/2 = 52, ty antalet observationer är jämnt. Att plocka fram den nedre kvartilen går lika snabbt. Då betraktar vi de 20 minsta observationerna och tar ut de två mittersta bland dem. De är 49 resp 50. Nedre kvartilen blir då medelvärdet av dessa två, dvs Q 1 = (49 + 50)/2 = 49.5. På motsvarande sätt får vi den övre kvartilen genom att betrakta de 20 största observationerna och ta de två mittersta bland dessa. De är 56 resp 55. Övre kvartilen blir då Q 3 = (56 + 55)/2 = 55.5. Den nedre och övre kvartilen har nu egenskapen att 25 % av antalet observationer (ordnade efter storlek) är mindre än eller lika med den nedre kvartilen och 75 % av antalet observationer är mindre än eller lika med den övre kvartilen. Mellan kvartilerna har vi alltså den mittersta hälften av observationerna. Vi markerar nu i ett diagram våra fem framräknade storheter x min = 42, Q 1 = 49.5, Md = 52, Q 3 = 55.5, x max = 64 och binder samman den mittersta hälften på följande sätt. En sådan figur kallar Tukey för en "box plot". Översatt till svenska skulle det bli låd-diagram, som kan dras ihop till lådagram. (Denna hopdragning har föreslagits av Andrejs Dunkels, Högskolan i Luleå.) Lådan i mitten har till uppgift att markera läget och spridningen av den mittersta hälften av observationerna. Lägg märke till

att lådans längd är kvartilavståndet. Genom att markera medianen får vi även en känsla för hur snett materialet är. Oftast är de värden som avviker mest från "den stora massan" intressanta. Därför markeras alltid största och minsta värdet. Strecken ut från lådan kallar Tukey för morrhår (whiskers). Om de extrema värdena ligger på ett avstånd från lådan som är mer än 1.5 gånger lådans längd kallar Tukey dem för uteliggare (outliers). I vårt exempel visar vårt lådagram ett relativt symmetriskt material utan uteliggare. Ser det ut på samma sätt i dina egna klasser? En stor fördel med lådagram tror jag är att man får en enkel bild av spridningen i ett material. Genom att rita flera lådagram och jämföra dem med varandra kan man träna upp känslan för vad spridning innebär. Därefter tror jag det är betydligt lättare att införa andra spridningsmått, t ex standardavvikelse. Genom att låta eleverna själva samla in egna material, analysera och jämföra med hjälp av stam-bladdiagram och lådagram kan man få igång kreativt tänkande och många intressanta diskussioner. Här följer några olika exempel då stam-bladdiagram och lådagram, samt variationer av dem, som med fördel kan användas. Följande exempel är hämtat från Gamma, Matematik för gymnasieskolan, Åk 1 NT. Tabellen ger den tid i sekunder som några pojkar kunde hålla en fotboll i luften utan att tappa den. 7 10 32 17 21 29 13 3 18 28 18 6 12 14 25 27 23 29 17 12 8 35 16 31 11 15 22 7 20 9 19 19 5 21 8 13 17 30 14 15 33 18 7 11 13 25 15 16 23 28 Låt oss analysera materialet med stam-bladdiagram och lådagram. Det första försöket ger 0 356777889 ( 9) 1 01122333445556677788899 (23) 2 0112335578899 (13) 3 01235 ( 5) Stam: tiotalssiffra Blad: entalssiffra (50)

Detta blev alltför hoptryckt så vi sträcker ut stammen lite. 0 3 (1) 0 56777889 ( 8) 1 0112233344 (10) 1 5556677788899 (13) 2 011233 (6) 2 5578899 ( 7) 3 0123 ( 4) 3 5 (1) (50) Stam: tiotalssiffra Blad: entalssiffra Här skulle man kunna sträcka ut stammen ytterligare så att det i första raden står 2 och 3, i andra 4 och 5 osv och samtidigt rita lådagrammet. (Observera hur enkelt det är att pröva med olika långa stammar.) Då får vi Tukey har infört egna beteckningar på raderna i utsträckta stambladdiagram för att inga missförstånd skall uppstå. Den intresserade läsaren hänvisas till [9]. Vad kan vi se i våra siffror? Vi kan konstatera att det inte finns några uteliggare. Vid första anblicken tycks materialet rätt jämnt fördelat. Tittar vi närmare på stam-bladdiagrammet kan vi urskilja två toppar utanför lådan (den mittersta hälften), en under och en ovanför. I mitten kan vi även se en topp. Betyder det att bland de pojkar som gett oss värdena så finns några duktiga fotbollspojkar som orsakar den övre toppen och några ovana som står för den lägre toppen? Nu framgår det inte hur många pojkar som var med. Det kanske var 50 stycken eller bara

4 stycken... Låt dina egna elever göra motsvarande försök, analysera det och jämför. I Björk-Brolin-Eliasson-Ljungström, Matematik, Gymnasieskolans tvååriga linjer, SoEk 1, hittar vi följande trevliga övning. "Koppla av en stund genom att läsa Erik Lindegrens dikt Arioso. Arioso Någonstans inom oss är vi alltid tillsamman, någonstans inom oss kan vår kärlek aldrig fly Någonstans o någonstans har alla tågen gått och alla klockor stannat: någonstans inom oss är vi alltid här och nu, är vi alltid du intill förväxling och förblandning, är vi plötsligt undrans under och förvandling, brytande havsvåg, roseneld och snö. Någonstans inom oss där benen har vitnat efter forskares och tvivlares nedsegnade törst till förnekat glidande till förseglat vikande O moln av tröst! någonstans inom oss där dessas ben har vitnat och hägringarna mötts häver fjärran trygghet som dyningarnas dyning speglar du vårt fjärran som stjärnans i en dyning speglar jag vårt nära som stjärnans i en dyning fäller drömmen alltid masken och blir du som i smärta glider från mig för att åter komma åter för att åter komma till mig mer och mer inom oss, mer och mera du. Du kan nu lösa följande uppgifter: a) Skriv upp antalet bokstäver i de 25 första orden i dikten (diktens namn undantaget). Ställ samman materialet i en frekvenstabell. Rita ett stolpdiagram. Beräkna medelvärdet. b) Utför samma uppgift för de 25 sista orden i dikten. Rita stolpdiagrammet i samma skala som det förra. Beräkna medelvärdet här också! Sen har du faktiskt med hjälp av matematik gjort en språklig undersökning."

Vi analyserar nu övningen med stam-bladdiagram och lådagram. Antalet bokstäver per ord i dikten Arioso De 25 första orden De 25 sista orden Stam: tiotalssiffra Blad: entalssiffra Här ser vi exempel på ett rygg-mot-rygg (back-to-back) stambladdiagram. Det kan vara fördelaktigt vid jämförelser. Vi ser genast att det vänstra diagrammet finns 5 stycken 10:or, men inga alls i det högra. Dessutom finns det många fler 3:or i högra diagrammet. Skillnaden i spridning och läge mellan de två diagrammen blir ännu tydligare vid jämförelse av lådagrammen. De 25 första orden De 25 sista orden Av diagrammen framgår tydligt att det används fler kortare ord i slutet än i början. Visserligen kan man få fram detta ur de numeriska värdena genom att tänka ett tag, men informationen i lådagrammen tränger sig på så att man inte kan undgå slutsatserna. Går vi tillbaka till dikten ser vi att ordet "någonstans" förekommer 4 gånger i början, medan vi på slutet har fraserna "för att", "mer och mer" osv.

Material att analysera kan man även hämta ur "Flickornas kalender" eller "Pojkarnas kalender" eller "Vanliga almanackan". Där finns bl a Om vi analyserar invånare per km 2, 1 jan 1980, finner vi följande. Stam: tiotalssiffra Blad: entalssiffra

I lådagrammet kan man gärna med namn markera intressanta punkter. Här ser vi t ex att vi har tre uteliggare, Stockholms, Malmöhus och Göteborgs och Bohuslän som skiljer sig mycket från lådan. De tre Norrlandslänen Norrbottens, Jämtlands och Västerbottens län skiljer sig däremot inte alls så mycket från den mittersta hälften. Man tror ju gärna att det är tvärtom. Om man mer i detalj vill se hur de olika länen förhåller sig till varandra kan man rita stam-bladdiagrammet med länsbokstäver som blad. Här har då Västerbottens län fått bokstaven Å i stället för AC och Norrbottens län fått bokstaven Ä i stället för BD. Sedan kan man jämföra invånare per km 2 med landarealen. Vilka uteliggare får vi då? Gör gärna det i den egna klassen. Gott om aktuellt material som kan analyseras med stam-bladdiagram och lådagram finns även i dagstidningarna, bl a på sportsidorna. Man kan även låta eleverna själva skapa ett material att bearbeta. Ett bra exempel, som föreslås av Brian Joiner i [4] och [8], är att låta eleverna ta pulsen på sig själva. Sedan kan de få springa på stället eller kliva upp och ned från stolen i en minut och på nytt ta pulsen. (Ytterligare ett sätt att drastiskt höja pulsen är att stå med böjda knän och samtidigt pressa handflatorna hårt mot varandra.) I de exempel jag har använt här har siffrorna i stammen råkat vara tiotalssiffror och i bladen entalssiffror. Men så behöver inte alltid vara fallet. Har man siffror angivna med decimaler t ex så kanske decimalerna bildar bladen. Man kan även med fördel använda olika färg på siffrorna i stammen och bladen. Jag har placerat talen i stammen så att det minsta talet står högst upp. Detta bl a för att man skall kunna vrida papperet och betrakta diagrammen. Men man kan lika gärna skriva stammen så att det minsta talet står längst ner. Allmänt kan man säga att det är fritt fram för den egna fantasin när man gör sina stambladdiagram och lådagram. Det är bara grundidén jag har beskrivit här.

Jag tror att det finns många fördelar med att tidigt föra in stam-bladdiagram och lådagram. Med det sättet att analysera data kan man ge många elever "ana-upplevelser", som inte döljs av krångliga formler. Det tränar även elevernas kreativa förmåga. Här skall ju var och en vara "datadetektiv" och försöka suga ut så mycket information som möjligt ur siffrorna. Det tränar också eleven i att hantera och storleksordna tal. Eftersom det krävs så lite formelmanipulationer ger man även de svagare eleverna möjlighet att träna på att analysera siffermaterial. Det är något som alla har glädje av att kunna. Massmedia sköljer ju dagligen över oss information i form av siffror. Jag är övertygad om att det är lättare att förstå betydelsen av andra läges- och spridningsmått, t ex medelvärde och standardavvikelse, sedan man har stiftat bekantskap med stam-bladdiagram och lådagram. Det är endast en ytterst liten del av det Tukey kallar EDA som jag har berört här. För den som vill lära sig mer har jag sammanställt en referenslista med lite kommentarer. Referenslista med kommentarer [1] Erickson, Bonnie H and Nosanchuk, T A, Understanding Data. McGraw-Hill Ryerson Ltd, 1977, 388 s. En lättläst och trevlig bok med bra förklaringar. [2] Hoaglin, David C, A First Course in Data Analysis. Addison Wesley. Under utgivning. [3] Hoaglin, David C and Velleman, Paul F, Computing for Exploratory Data Analysis. Under utgivning. [4] Joiner, Brian L and Campbell, Cathy, Some Interesting Examples for Teaching Statistics. The Mathematics Teacher, Vol 68, No 5, May 1975, s 364 369. En mycket läsvärd artikel med många goda idéer. [5] McGill, Robert, Tukey, John W and Larsen, Wagne A, Variations of Box Plots. The American Statistician, Vol 32, No 1, Febr 1978, s 12 16. Berättar om hur man kan utveckla lådagrammen. [6] McNeil, Donald R, Interactive Data Analysis. Wiley, 1977, 186 sidor. En kompakt och lättläst bok, som även innehåller dataprogram i APL och FORTRAN för EDA-metoderna. [7] Mosteller, Frederick and Tukey, John W, Data Analysis and Regression. Addison-Wesley, 1977, 588 sidor. Fortsättning på Tukeys bok Exploratory Data Analysis. Bitvis är den svårläst. [8] Ryan, Thomas A, Joiner, Brian L and Ryan, Barbara F, MINITAB, Student Handbook. Innehåller ingenting om EDA men har många trevliga exempel på statistiska material. [9] Tukey, John W, Exploratory Data Analysis. Addison Wesley, 1977, 688 sidor. Standardverket på detta område. Den är bitvis svårläst på grund av det speciella språk som Tukey använder. [10] Tukey, John W, We Need Both Exploratory and Confirmatory. The American Statistician, Vol 34, No 1, Febr 1980, s 23 25.