Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram 2.1 Grundläggande matematik 2.1.1 Potensfunktioner xmxn xm n x x x x 3 4 34 7 x x m n x mn x x 4 3 x4 3 x1 x x n 1 x n x 3 1 x 3 x0 1 1
x1 n n x x12 x x m n xmn 2 x x x 3 32 6 x m ymx y m 2 x2y2 x y 2
2.1.2 Logaritmer En logaritm är en matematisk funktion som anger storleksordningen av ett tal. Logaritmer kan användas för att underlätta multiplikation och division. Logaritmer beräknas oftast med basen 10, betecknas log, eller med basen e, betecknas ln. För godtyckliga tal a, b, c, d, så gäller följande för logaritmer med basen 10 (och basen e) log ab log a log b log a loga logb b log cd d logc log 1 = 0 log 10 = 1 3
i) Skriv som en funktion av log 2 a) log4 log 22log2log2 0,6021 1 3 5 5 3 1 b) log 2 log2 log22222 3 1 log 2 log 2 log 2 log2 log 2 3 1 5 log2 0,502 3 ii) Skriv som en funktion av log(y) y 100 20 x log y log 100 20 x log100 log20 x log100x log20 21,309 x iii) Skriv som en funktion av y log y4 2x log y 42x 10 10 y 104 102x 10000100x 4
2.1.3 Summor Den grekiska bokstaven Sigma,, används för att förenkla komplicerade och/eller långa uttryck med summor av variabler. Till exempel, anta att variabeln X mäter total kostnaden för ett antal projekt (i miljoner kronor) för en koncern. Tänk att vi har ett urval på fem projekt som genomförs av koncernen; numrerade 1, 2, 3, 4, och 5. Låt x 1, x 2, x 3, x 4, och x 5 beteckna dessa fem projekts kostnader, dvs. x 1 mäter kostnaden för projekt nummer 1, x 2 mäter kostnaden för projekt nummer 2, osv. Då kan vi kortfattat uttrycka detta som; x i mäter kostnaden för projekt i urvalet för koncernen, där i går från ett till fem. 5
Den totala kostnaden för dessa fem projekt för koncernen är därmed X = x 1 + x 2 + x 3 + x 4 + x 5 Detta kan vi mera kortfattat skriva som X 5 x i1 i ska tolkas som summan av eller här adderar vi x i, där vi startar med i = 1 och slutar med i = 5. Kostnaden (i miljoner kronor) för dessa fem projekt är; 24, 22, 33, 17, och 19, dvs. x 1 = 24, x 2 = 22, x 3= 33, x 4 =17, och x 5 =19. Då kan vi skriva den totala kostnaden för koncernen för dessa fem projekt som X 5 x = 24 + 22 + 33 + 17 + 19 = 115 i1 i De totala kostnaderna för dessa fem projekt är alltså 115 (i miljoner kronor). 6
Ibland kan det vara så att vi har samma värde på en variabel för varje projekt, dvs. en konstant. Koncernen betalar en fast miljöskatt på 2 (i miljoner kronor) för varje projekt och vi benämner miljöskatten med variabeln Y. Låt y 1, y 2, y 3, y 4 och y 5 beteckna dessa fem projekts miljöskatter. Miljöskatten (i miljoner kronor) för dessa fem projekt är således; 2, 2, 2, 2, och 2, dvs. y 1 = 2, y 2 =2, y 3 =2, y 4 =2 och y 5 = 2. Då kan vi skriva den totala miljöskatten för dessa fem projekt som 5 y i1 i = 2 + 2 + 2 + 2 + 2 = 5 2 = 10 Detta kan vi skriva mera generellt som n i1 ana 7
De totala kostnaderna för dessa fem projekt när vi tagit hänsyn till den fasta miljöskatten blir således 5 i i X x y 242 222 332 17 2 192 125 i1 8
2.1.4 Olikheter Om vi antar att lönen för en person är 25 000 kronor i månaden (efter skatt). Då ligger det i denna persons intresse att utgifterna, c, är 25 000 kronor eller mindre varje månad, det vill säga c 25000. Detta är ett exempel på en olikhet. Olikheten c < 25 000 utläses c är mindre än 25 000 och olikheten c 25 000 utläses c är mindre än eller lika med 25 000. På motsvarande sätt kan olikheten representera något som är större än eller lika med något visst värde. En dubbelolikhet innehåller två olika olikhetstecken, exempelvis om x ligger i intervallet sådant att x är större än eller lika med 10 men mindre än eller lika med 20 skrivs detta som 10 x 20. 9
2.2 Tabeller och diagram Tidningar, radio och TV förmedlar dagligen statistiska uppgifter i form av medelvärden, procenttal, diagram och tabeller. Den statistik vi möter i massmedia är naturligtvis i stor utsträckning korrekt. Men ofta händer det tyvärr att uppgifterna är felaktiga, vilseledande eller åtminstone lätta att missuppfatta. Därför är det viktigt att kunna granska statistik kritiskt. Vid redovisning och kritisk granskning av statistik är det lämpligt att rent rutinmässigt ställa sig frågorna i) Är redovisningen meningsful? ii) Ger redovisningen en korrekt bild? iii) Är redovisningen lätt att begripa? 10
2.2.1 Kategorivariabler Kategoriska data är observationer av kvalitativa variabler för vilka det inte är meningsfullt att använda sifferskalor. Under hösten 2007 delades en enkät ut till studenter på Handelshögskolan. Syftet var att undersöka vad universitetsstudenter tycker är viktigt i arbetslivet. Enkäten innehöll några frågor om respondentens bakgrund och ett antal attitydfrågor. Kön är en kategorisk variabel. Vi vill nu ta fram hur många studenter har medverkat i undersökningen och hur könsfördelningen är. Vi kan presenterna resultatet i en frekvenstabell, cirkeldiagram, eller stapeldiagram 11
Frekvenstabell: Kön Valid Kvinna Man Total Frequency Percent 190 52.8 170 47.2 360 100.0 I denna undersökning har vi alltså mätt variabeln kön. Variabelvärdena är kvinna och man. Klassen Kvinna har frekvensen 190 och klassen Man frekvensen 170. Summan av frekvenserna, 360, anger totala antalet studenter som deltog i undersökningen. Den andra kolumnen redovisar den relativa fördelningen. Då räknar man om frekvenserna till relativa frekvenser, som ofta anges i procent. För varje klass bildar man kvoten mellan antalet individer i klassen och totalantalet individer i materialet. 12
För klassen Kvinna blir den relativa frekvensen 190/360=0,528, vilket motsvarar 52,8 %. För klassen Man blir den relativa frekvensen 170/360=0,472, vilket motsvarar 47,2 %. Vi får samma information genom ett cirkeldiagram eller ett stapeldiagram. Det finns inget rätt eller fel, utan det beror på vad du tycker är lämpligt att använda för att belysa materialet med. 13
Cirkeldiagram: 14
Stapeldiagram: 15
Respondenterna fick en fråga om hur viktig anställningstrygghet var för dem i arbetslivet och dem skulle svara på en 7-gradig skala, från inte så viktigt (=1) till ytterst viktigt (=7). Några få studenter svarade vet ej, varför vi tog bort dessa observationer. Vi fick då följande resultat som presenteras i frekvenstabellen och stapeldiagrammet nedan 16
Valid Inte så viktigt 2 3 4 5 6 Ytterst viktigt Total Frequency Percent 4 1.1 8 2.3 27 7.7 45 12.8 90 25.6 85 24.1 93 26.4 352 100.0 17
Cirka 26 procent av studenterna tyckte att det är ytterst viktigt med en anställningstrygghet i arbetslivet. Fördelningen är skev till höger och det tyder på att de flesta studenter som deltog i undersökningen tycker att anställningstrygghet i arbetslivet är viktigt för dem i arbetslivet. 18
Är anställningstrygghet i arbetslivet oberoende av kön? För att kunna besvara denna fråga kan vi använda oss av en korstabell eller stapeldiagram. 19
Anställningstrygghet och kön % within Kön Inte så viktigt 2 3 4 5 6 Ytterst viktigt Total Kön Kvinna Man Total.5% 1.8% 1.1% 1.1% 3.6% 2.3% 4.8% 10.8% 7.7% 9.7% 16.3% 12.8% 21.5% 30.1% 25.6% 27.4% 20.5% 24.1% 34.9% 16.9% 26.4% 100.0% 100.0% 100.0% 20
Det verkar vara så att anställningstrygghet i arbetslivet är viktigare för kvinnor än män. Av kvinnorna tyckte 34,9 % att det är ytterst viktigt med anställningstrygghet i arbetslivet men bara 16,9 % av männen hade samma åsikt. 21
2.2.2 Kontinuerliga variabler Kontinuerliga data är observationer av kontinuerliga variabler. För dem kan alla tal inom ett givet intervall användas för att ange egenskaper. Man hade frågat om studenternas födelseår och kan således ta fram studenternas ålder. Ålder är en kontinuerlig variabel. Vid kontinuerliga variabler är frekvenstabeller inte lämpliga då tabellen riskerar att bli ohanterligt stor. Då brukar man vanligen klassindela den kontinuerliga variabeln och sedan redovisa den klassindelade variabeln i ett histogram. De olika klasserna representerar då av rektanglar vars ytor är proportionella mot klassens frekvens. Klassindelningen kan göra på detta sätt Klassbredd =(Största värdet - Minsta värdet)/antal klasser 22
Man brukar rekommendera att man använder mellan 8 till 12 klasser beroende på vilken data som man har till sitt förfogande. Ett approximativt värde för de individer som tillhör en viss klass är klassmitten. Undre klassgränsen plus halva klassbredden ger klassmitten. Klassindelningen gör materialet mer överskådligt men innebär också informationsförlust. Ju färre klasser desto mera information förlorar vi. Detta innebär att man inte i onödan ska göra beräkningar med utgångspunkten från klassindelat material. Det är bättre att räkna på de ursprungliga mätvärdena om de finns tillgängliga. Man brukar oftast avrunda mätvärdena så att t.ex. individer med längden 174,5 cm och 175,5 cm fått värdet 175 cm. Detta innebär att individer som finns i klassen 175 179 är mellan 174,5 cm och 179,5 cm. Klassbredden är då 5 cm och då blir undre klassgränsen plus halva klassbredden, dvs. 174,5 + 2,5 = 177 klassmitten. 23
Variabeln ålder avrundas alltid nedåt till närmaste heltal. Det innebär att klassen 25 29 år innehåller de individer som fyllt 25 år men ännu inte 30 år. Klassgränserna i denna klass är därför 25 år och 30 år, klassbredden 5 år, vilket innebär att klassmitten är 25 + 2,5 = 27,5 år. Om man således tar undre gränsen plus den övre gränsen dividerat med två klarar man de flesta situationer om man kommer ihåg att lägga till ett år på den övre gränsen när man har åldern i en frekvenstabell. 24
Ett histogram för studenternas ålder ges av Snedhet (skewness) och toppighet (kurtosis) är två tal som strävar efter att uttrycka något om formen på histogrammet. Ett perfekt klockformad histogram har snedheten 0 och en toppighet på 3. 25
Om histogrammet (fördelningen) är nästan symmetrisk ska den absoluta snedheten vara mindre än 0.5. Ett histogram som är något sned har en absolut snedhet mellan 0.5 och 1. En mycket sned fördelning har en absolut snedhet större än 1. Toppigheten är ett tal som ska säga hur spetsigt histogrammet är. Om toppigheten är positiv betyder det att histogrammet liknar en spetsig bergstopp. Är toppigheten omkring 3 har vi den berömda normalfördelningskurvan. Om toppigheten är negativ betyder det att histogrammet är mera jämnt. I histogrammet för studenternas ålder är snedheten -0,21 och toppigheten 3,3. Histogrammet för studenternas ålder är nästan symmetrisk och liknar normalfördelningskurvan. 26
Ett alternativ till den relativa frekvensen är de ackumulerade eller kumulerade frekvensen. Man beräknar de kumulerade frekvenserna genom att stegvis addera frekvenserna från det lägsta variabelvärdet till det högsta. Den kumulerade relativa frekvensen visar de summerade andelarna från det lägsta variabelvärdet till det högsta. Ett diagram av de kumulerade frekvenserna kallas för en summapolygon, dvs. ett diagram över fördelningen av de kumulerade frekvenserna. 27
Ett annat sätt att presentera är stambladdiagram. Det ger en liknande bild som histogrammet, men grundas på en siffermässig uppställning. Vi gör diagrammet genom att sortera data och ordna dem i rader efter den första siffran (eller de första siffrorna). Antag att vi har dessa resultat från en tentamen med 35 studenter; 97, 117, 89, 145, 124, 73, 84, 95, 136, 112, 135, 92, 95, 136, 112, 135, 92, 108, 88, 102, 116, 138, 97, 141, 78, 98, 103, 103, 113, 94, 45, 97, 101, 121, 100. 28
Ett stambladdiagram för tenta resultatet ges då av 1 2 3 4 5 5 6 7 38 8 489 9 224557778 10 012338 11 22367 12 14 13 55668 14 15 15 Diagrammet ska läsas så här: Raden 4 5 motsvarar talet 45 medan 14 15 motsvarar talen 141 och 145 osv. 29
Vi är oftast intresserade av att se om det finns något samband mellan två variabler. Ett spridningsdiagram kan användas för detta syfte. I ett spridningsdiagram plottar vi således två variabler mot varandra. Ett spridningsdiagram kan ge en antydan om att det finns ett samband mellan variabler. Läraren hade gjort en närvarolista på varje föreläsning och visste närvaroprocenten och tentamensresultat för varje student. Finns det ett samband mellan deltagande på föreläsningarna och tentamensresultatet? Således skapade läraren två variabler, provresultat och närvaroprocent, och plottade dem i ett spridningsdiagram 30
Kan vi dra slutsatsen att studenterna lärde sig något av föreläsningarna? Det ser ut som det är ett positivt samband mellan provresultat och deltagande på föreläsningar. Vi återkommer till detta senare i kursen. 31
Många variabler ändras med tiden. Flera mätningar över tiden på samma variabel kallas för en tidsserie. Vanligtvis görs mätningarna med jämna intervall, dagligen, per månad, per kvartal eller per år. Tidsserien illustreras enkelt genom tidsserieplottning. Vi har försäljningen för ett företag på årsbasis från 1983 till 2007, och vi kan illustrera utvecklingen över tiden med en tidsserieplottning 32
Vi gör diagram därför att vi vill förmedla information till dem som läser dem. När vi gör diagrammen måste vi därför hela tiden tänka vilket budskap vi vill förmedla och vilken målgrupp vi vänder oss till. Gör enkla figurer och undvik onödiga effekter. Kom ihåg förklaringar och enhet på axlarna. Låt om möjligt y axeln börja på noll. Storleken på intervall längs axlarna ska vara konstanta. Tolka diagrammet försiktigt. 33