Tätortsklassificering utifrån servicebredd och servicegrad



Relevanta dokument
Krydda med siffror Smaka på kartan

Hur påverkas de skånska tätorternas servicebredd och servicegrad av externa köpcentrum?

Demografiska statistikområden Ny regional indelning under kommunnivå

LANDET, STADEN OCH URBANISERINGEN

De nya tätorterna Definition Metod - Statistik

Välkommen till SCB:s frukostseminarium om grönytor

Vad har hänt med urbaniseringen

Statistiska centralbyråns. Tätorter Statistik, definition, metod. Karin Hedeklint, Avdelningen för regioner och miljö

Demografiska statistikområden - Kombinerad statistik och geodata för att beskriva Sverige

Restaurangåret 2017 En genomgång av de 50 största restaurangkommunerna i Sverige

Tillgång till grönytor/grönområden i och omkring tätorter

Handelsområden 2010 MI0804

Stad, land och urbanisering via kommuner och tätorter. Stefan Svanström RM/SBT

Kartor som verktyg i analysarbete

Arbetsplatsområden utanför tätort 2010 MI0815

DEN SVENSKA URBANISERINGEN BORTOM MYTER, PERSPEKTIV OCH POLARISERING

Arbetsplatsområden utanför tätort 2010 MI0815

Figur 1 Antal förvärvsarbetande män och kvinnor (16 år och äldre), Västerås år

Innovation och Entreprenörskap på Landsbygden

INNEHÅLLSFÖRTECKNING

Att planera bort störningar

Småorter; arealer, befolkning 2005 MI0811

Dnr 2000:644. Grupper i förskolan en kartläggning våren 2001

Ökat personligt engagemang En studie om coachande förhållningssätt

LANDET, STADEN OCH URBANISERINGEN

CITYKLIMATET FALKENBERG 2014

CITYKLIMATET ALINGSÅS 2014

PENDLINGSBARA SVERIGE 2015

Helsingborg. Områdesbeskrivning

De nya arbetstillfällena tillkom främst i branscherna Utbildning, Byggverksamhet samt Transport och magasinering.

Vad beror benägenheten att återvinna på? Annett Persson

SCB:s geodata och e-tjänster

FLYTTA TILLBAKA? ALDRIG! Utmaningar och möjligheter

Integration - Analys 2008 LE0105

StatistikInfo. Arbetspendling till och från Västerås år Statistiskt meddelande från Västerås stad, Konsult och Service 2015:6.

HSBs BOSTADSINDEX 2015

Anvisningar till rapporter i psykologi på B-nivå

Större kommuner och riket. Larger municipalities and national level

Småorter; arealer, befolkning 2010 MI0811

HSBs BOSTADSINDEX (10)

Geografidatabasen. Statistiska centralbyrån SCBDOK (8) OV0100. Innehåll

Optimering av NCCs klippstation för armeringsjärn

Arbetskraftflöden 2012

Arbetskraftflöden 2011

Aborter i Sverige 2008 januari juni

Lägesrapport Nyproduktion 2015

Småföretagen spår ljusa tider

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Kursnamn Kurstid Datum och starttid Ort Brandskyddsutbildning 3 timmar :00:00 Alingsås Brandskyddsutbildning 3 timmar

IKEA Alla stunder räknas. Malmö, juni 2013

DEN SVENSKA URBANISERINGEN BORTOM MYTER, PERSPEKTIV OCH POLARISERING

Fritidshus som tagits i anspråk för permanent boende mellan 1991 och En metodstudie

Geografiska Informationssystem förenklat: digitala kartor

Förslag till ändrad valdistriktsindelning och indelning i valkretsar i Västerås inför de allmänna valen 2014

Småföretagen spår ljusa tider

STATISTIKENS FRAMSTÄLLNING

En undersökning om samhällsservice i tätort

732G60 - Statistiska Metoder. Trafikolyckor Statistik

CITYKLIMATET I BORÅS 27 OKTOBER

PRISSTUDIE AV ETT TYPISKT KONTORSHUS ÅR 2013

Västmanlands länmånad

Arbetsmarknadsstatistik för Norrköping 2012

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Hur väl informerar Sveriges 25 folkrikaste kommuner om det fria skolvalet?

Bilaga 1. Kvantitativ analys

KVALITETSDEKLARATION

Introduktion till frågespråket SQL (v0.91)

Sysselsättningen i Kronobergs län 2017

HSBs Bostadsindex Varför bostadsindex? Hur har vi gjort? Avgränsningar Resultat av HSBs bostadsindex

Grönytor/grönområden i och omkring tätorter Grönområden inom tätort med omland

FOKUS: STATISTIK Arbetsmarknadsstatistik för Norrköping 2016

Kartläggning av territoriell mångfald: Nyttan med typologier i regionalt analysarbete. Alexandre Dubois, forskare Institution för Stad och Land

BRF-RESPONS st lokala kartläggningar för ökad försäljning

Oktober Kommunbeskrivning för Norbergs kommun Översiktlig planering 2016

StatistikInfo. Detaljhandeln i Västerås år Statistiskt meddelande från Västerås stad, Servicepartner. [Skriv text]

Att välja statistisk metod

DALSLANDSRING Idéskiss

Norra landsbygden. Områdesbeskrivning

Genomsnittlig ny månadshyra för 3 rum och kök 2014 efter region

Copyright Brottsanalys 2015

Tentamen i Matematik 2: M0030M.

Klassificering av kurser vid universitet och högskolor 2007

Turismen i Helsingborg sommaren Varm VM-sommar med SM-vecka och jubilerande Eskilscup

Genusstudier i Sverige

Framtida utbildning och arbetsmarknad

Geografiskt synsätt stöd i forskningen

Vilken beredskap har kommunerna för nya bostäder?

Arbetsmarknadsstatistik för Norrköping 2010

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Performance culture in policing. Författare: Tevfik Refik Altonchi (Ph.d)

BYGGRAPPORT En sammanställning över kötider och nyproduktion bland Studentbostadsföretagens medlemsföretag.

Kursplan. AB1029 Introduktion till Professionell kommunikation - mer än bara samtal. 7,5 högskolepoäng, Grundnivå 1

Version Juni Utskriftsbeställning

Hur långt har Umeåborna till jobbet? Utredningar och rapporter från Övergripande planering nr

Fritidshusområden 2010

Från karta till statistik och från statistik till karta

CITYKLIMATET FASTIGHETSÄGARNA SYD

Utbildningar inom yrkeshögskolan. Utbildningsplatser som avslutas

Statistiska centralbyråns författningssamling

Transkript:

UPTEC STS 14021 Examensarbete 30 hp Juni 2014 Tätortsklassificering utifrån servicebredd och servicegrad En klusteranalys av Sveriges tätorter Stina-Kajsa Andersson

Abstract Tätortsklassificering utifrån servicebredd och servicegrad : En klusteranalys av Sveriges tätorter Classification of Swedish built-up areas according to service width and service degree : A cluster analysis Teknisk- naturvetenskaplig fakultet UTH-enheten Besöksadress: Ångströmlaboratoriet Lägerhyddsvägen 1 Hus 4, Plan 0 Postadress: Box 536 751 21 Uppsala Telefon: 018 471 30 03 Telefax: 018 471 30 00 Hemsida: http://www.teknat.uu.se/student Stina-Kajsa Andersson Statistics Sweden is an administrative agency that delimits built-up areas and produces statistics regarding them. The statistics provide information about the area of the built-up areas, their population number, number of gainfully employees working in the built-up areas, and of buildings. Now Statistics Sweden wishes to extend such statistics by producing a measure regarding how well developed the service is in each built-up area. This study is a contribution to this statistical improvement work and the purpose is to by employing geographical information systems and cluster analysis classify the Swedish built-up areas according to 1) service width and 2) service degree. A particular built-up area has a high service width if it has many different service functions, such as pharmacies, schools and grocery stores. It has a high service degree if it has many service functions per 1000 inhabitants. The result consists of two different urban hierarchies, one in which one can identify the level of service width of each built-up area and one in which one can position each built-up area according to its service degree. This study shows that built-up areas with a high service width also have many inhabitants. In contrast, this is not the case for built-up areas with a high service degree: built-up areas with high service degree have relatively few inhabitants. The study shows that built-up areas with high service degree have a higher quota number of people employed in the locality / number of residents, which indicates that these built-up areas are commuting localities built-up areas where people work but not necessarily live. The results from the two separate modes of classification also show that the service width and service degree do not display a positive correlation. Built-up areas with high service degree are thus not the same built-up areas that those scoring high on service width; if anything, the relationship is rather the opposite. Handledare: Stefan Svanström Ämnesgranskare: Jesper Rydén Examinator: Elísabet Andrésdóttir ISSN: 1650-8319, UPTEC STS 14021

Sammanfattning Statistiska centralbyrån (SCB) är den myndighet i Sverige som avgränsar tätorter och som för statistik över dessa. I dagsläget förs statistik över tätorternas area, befolkningsmängd, förvärvsarbetande och byggnader, men det finns en önskan hos SCB att utveckla tätortsstatistiken genom att ta fram mått på hur god servicen är i respektive tätort. Detta examensarbete är ett bidrag till denna statistikutveckling och syftet är att med hjälp av geografiska informationssystem och statistisk klusteranalys klassificera Sveriges tätorter utifrån 1) servicebredd och 2) servicegrad. En tätort har en hög servicebredd om den har många olika servicefunktioner och hög servicegrad om den har många olika servicefunktioner per 1000 invånare. I detta examensarbete togs hänsyn till 25 olika servicefunktioner, allt ifrån apotek, grundskolor och livsmedelsbutiker till restauranger och resecentrum. Resultatet består av två olika tätortshierarkier. I den ena kan man se vilken nivå på servicebredd respektive tätort har, och i den andra framkommer vilken nivå på servicegrad respektive tätort har. I examensarbetet framkommer att tätorters servicebredd samvarierar positivt med tätorters befolkningsmängd. Detta till skillnad från tätorters servicegrad, där tätorter med hög servicegrad snarare är tätorter med relativt liten befolkningsmängd. Det framkommer att tätorter med hög servicegrad har en högre kvot förvärvsarbetande / befolkningsmängd, vilket indikerar att de i större utsträckning är in- än utpendlingsorter. Resultaten från tätortsklassificeringarna visar även att tätorters servicebredd och servicegrad långt ifrån korrelerar, tätorter med högst servicegrad är alltså inte samma tätorter som de som har hög servicebredd, snarare tvärtom.

Innehållsförteckning 1. Inledning... 4 1.1 Syfte och frågeställningar... 4 1.2 Förutsättningar och avgränsning... 5 2. Vad är en tätort?... 5 2.1 SCB:s tätortsavgränsning... 6 3. Metod och teori... 7 3.1 Val av servicefunktioner... 7 3.1.1 Litteraturstudie... 8 3.1.2 Intervjuer/möten... 9 3.1.3 Valda servicefunktioner... 10 3.2 Insamling av data... 10 3.3 Sammanställning av data... 10 3.3.1 GIS... 10 3.3.2 Sammanställning av SCB:s data... 11 3.3.3 Sammanställning av data från andra myndigheter... 14 3.3.4 Sammanställd data... 14 3.4 Klassificering av data... 15 3.4.1 Klustringstekniker... 15 3.4.2 Tidigare områdesklassificeringar... 18 3.4.3 Klusteralgoritmer i R... 18 3.5 Studiens trovärdighet... 18 3.5.1 Olika datakällor... 18 3.5.2 Validering... 18 4. Resultat... 19 4.1 Valda servicefunktioner... 19 4.2 Sammanställd data... 20 4.3 Tätortsklassificering servicebredd... 20 4.3.1 Eliminering av outliers... 20 4.3.2 Hierarkisk agglomerativ klustring... 22 4.3.3 K-means... 23 4.3.4 Val av antal kluster... 24 4.3.5 Tätortsgrupper servicebredd... 25 4.4 Tätortsklassificering servicegrad... 27 4.4.1 Eliminering av outliers... 27 4.4.2 Hierarkisk agglomerativ klustring... 29 4.4.3 K-means... 30 4.4.4 Val av antal kluster... 31 4.4.5 Tätortsgrupper servicegrad... 31 4.5 Samband servicebredd och servicegrad... 34 5. Slutsatser... 35 6. Användningsområden och framtida forskning... 36 7. Referenser... 37 Böcker... 37 2

Rapporter... 37 Muntliga källor... 37 Internet... 38 Bilaga 1. Definitioner servicefunktioner... 39 Bilaga 2. Script... 43 Bilaga 3. Tätortsgrupper... 47 3

1. Inledning Statistiska centralbyrån (SCB) förde redan mot slutet av 1800-talet statistik över städer, köpingar och landsortskommuner. När kommunsammanslagningarna skedde på 1960- och 1970-talet började SCB avgränsa tätorter för att få en bra geografisk enhet att redovisa statistik på. Bakgrunden var bl.a. frågor kring hur urbaniseringen påverkade tillgången på odlingsbar mark. 1 Sedan dess har SCB successivt byggt ut statistikinnehållet, först med folkmängd och areal, därefter förvärvsarbetande och byggnader. SCB vill nu utveckla tätortsstatistiken genom att ta fram ett mått på hur god servicen är i respektive tätort och detta examensarbete är ett bidrag till det. På sikt vill SCB ta fram en statistikprodukt som fortlöpande kan uppdateras. I detta examensarbete används begreppen servicebredd och servicegrad. En tätort har hög servicebredd om den har många olika servicefunktioner (skolor, apotek, affärer, etc.) och hög servicegrad om den har många servicefunktioner per 1000 invånare. Initialt var det nödvändigt att reda ut vilka typer av servicefunktioner som skulle ingå i studien. 25 typer av servicefunktioner allt ifrån skolor och apotek till livsmedelsbutiker och restauranger valdes att tas med i studien och därefter var denna data tvungen att samlas in från respektive statistikansvarig myndighet. Data sammanställdes med hjälp av GIS (Geografiska Informationssystem) och sedan klassificerades Sveriges 1956 tätorter med hjälp av klusteranalys utifrån hur lika de var, dels i servicebredd och dels i servicegrad. Flera olika klustringstekniker jämfördes med hjälp av den statistiska programvaran R. Även om det här examensarbetet har samhällsgeografisk relevans är bidraget främst av matematisk-statistisk natur, och allt har dokumenterats utförligt under arbetets gång så att studien ska kunna upprepas med fler eller andra variabler, för andra årtal eller för andra geografiska enheter. 1.1 Syfte och frågeställningar Det överordnade syftet med detta examensarbete är att klassificera Sveriges tätorter utifrån dels deras servicebredd, dels deras servicegrad. Utmaningarna för att besvara syftet var många och vissa var av samhällsteoretisk och andra av matematisk-statistisk art. Frågeställningarna i detta examensarbete formulerades som följande: - Vilka servicefunktioner anses viktiga och bör ingå i studien och hur kan servicebredd och servicegrad definieras? - Vilka metoder existerar för att klassificera data och vilken metod passar bäst för att klassificera tätorter utifrån servicebredd och servicegrad? - När alla tätorter tilldelats mått på servicebredd och servicegrad: kan man se några samband mellan tätorters servicebredd och deras befolkningsstorlek, mellan tätorters servicegrad och sysselsättningsgrad, och mellan servicebredd och servicegrad? 1 SCB: Tätorter 2010, s. 3. 4

1.2 Förutsättningar och avgränsning Till de grundläggande problemen hör givetvis tillgång på data. SCB erbjuder en mycket god miljö för att inhämta och sammanställa för studien nödvändiga data om befolkning och verksamheter. Där finns tillgång till grundläggande geografisk information om tätorters avgränsning och deras befolkning. Vidare har SCB rätt att begära in information från andra myndigheter och organisationer. Dataförutsättningarna har i den meningen varit utomordentliga även om mycket tid har fått anslås till att anpassa och sammanställa både data från SCB och från andra myndigheter. Som andra studier har även denna tvingats till viktiga begränsningar. En sådan avser tid och dynamik. Även om det hade varit intressant att studera hur servicebredden och servicegraden i tätorterna har utvecklats över tid har denna aspekt lämnats utanför. Det hade av tidsskäl inte varit möjligt att göra samma studie för till exempel två tidpunkter och jag begränsar mig därför till den aktuella situationen. Flertalet variabler som ingår i klassificeringsarbetet hänför sig till situationen år 2013. Tätortsavgränsning sker var femte år och den senaste skedde 2010. Diskrepansen i tid (2010/2013) bedöms ha marginell betydelse för de samlade utfallen. Vidare innebär ett fokus på viktiga servicefunktioner att andra aspekter av tätorterna utelämnats. Det gäller främst sådant som rör varuproduktionen (gruv-, tillverknings- och byggnadsindustri) och det gäller den delen av tjänsteproduktionen som främst har andra företag som kunder. Fokus riktas därför mot konsumtionstjänster, inklusive samhällstjänster, och handel. Det mer precisa urvalet av funktioner behandlas i kapitel 3. Tilläggas kan att arbetet främst är ett tekniskt bidrag och att studien lätt kan upprepas med kompletterande urval av verksamheter och funktioner. Slutligen ska tilläggas att jag för att öka läsbarheten valt att placera vissa mer tekniska beräkningar och större datatabeller i bilagor. Jag hänvisar till dessa löpande i texten. 2. Vad är en tätort? I Sverige saknas begreppet stad som administrativ kategori, men så har det inte alltid varit. Fram till 1862 var en stad en tätbebyggd och tätbefolkad ort som av kungen hade erhållit rättighet att bedriva handel och hantverk. Till skillnad från landsbygdens socknar hade en stad ett mer kvalificerat lokalt styre och de ansågs vara i större behov av mer utvecklad förvaltning. Städerna var även tvungna att följa särskilda föreskrifter angående brandväsende, hälsovård och byggnation. 2 Från och med 1862 och ända fram till 1971 fanns tre kommuntyper varav stad var en av dem. De andra två var köping och landsortskommun. En köping var en enklare form av stad, med lägre krav på styrelse, förvaltning och jurisdiktion än vad städerna hade och en landsortskommun hade bara ett visst lokalt självstyre. 3 1971 genomfördes en större kommunreform i Sverige och begreppen stad, köping och landsortskommun försvann som administrativa kategorier och ersattes av kommuner, alla med samma uppgifter. Efter diverse delningar och hopslagningar av kommuner består Sverige idag av 290 kommuner, vilka alla innehåller glesbygd och tätorter. Vissa 2 Nilsson och Forsell. 150 år av självstyre, s. 24. 3 Ibid, s. 24-26. 5

kommuner (t.ex. Stockholm och Göteborg) har förvisso fått tillstånd att benämna sig stad men administrativt sett skiljer de sig inte från andra kommuner. 4 2.1 SCB:s tätortsavgränsning I Sverige definieras tätorter som områden med en koncentrerad bebyggelse där avståndet mellan husen är som mest 200 meter och antalet invånare minst 200 personer. Tätorten ska inte ha mer än 50 procent fritidshus. Det är SCB som gör tätortsavgränsningarna, och dessa görs var femte år. De är helt oberoende av administrativa indelningar och en tätort kan därför ligga i flera kommuner samtidigt, och även i flera län. Den senaste tätortsavgränsningen gjordes 2010 och enligt den finns idag 1956 tätorter, vilka är fördelade enligt figur 1. Endast 1,3 procent av Sveriges landyta består av tätorter, men i dessa tätorter bor hela 85 procent av befolkningen. 5 Figur 1. Sveriges tätorter 4 Nilsson och Forsell. 150 år av självstyre, s. 27 5 SCB: Tätorter 2010, s. 1. 6

3. Metod och teori Detta kapitel ägnas åt att redogöra för tillvägagångssättet för att klassificera Sveriges tätorter utifrån servicebredd och servicegrad. Figur 2 presenterar grunddragen i ansatsen. Resten av kapitlet följer dispositionsmässigt de olika steg som återges i figurens vänstra kolumn. Val av variabler (servicefunktioner) Litteraturstudie Intervjuer med kunniga inom området Insamling av data Hämta SCB-data Kontakta andra myndigheter för att erhålla data SCB:s tätortsavgränsning med statistik om tätorterna Sammanställning av data SCB:s företagsdatabas Urval i GIS av respektive servicefunktion, spara i separata tabeller Geografisk matchning i GIS av de olika dataseten Data i varierande format från andra myndigheter Konvertera till rätt filformat och referenssystem Klassificering av data Litteraturstudie Script i statistisk mjukvara Jämförande av, val av och körning av klusteralgoritmer Sammanfattande statistik om klassificeringarna utifrån servicebredd och -grad Figur 2. Tillvägagångssätt för att klassificera Sveriges tätorter utifrån servicebredd och servicegrad I avsnitt 3.1 beskrivs hur valet av variabler gjordes, det vill säga hur det bestämdes vilka typer av servicefunktioner som skulle tas med i studien. I avsnitt 3.2 redogörs för hur insamlingen av data gick till, i 3.3 hur denna data anpassades och sammanställdes, och i avsnitt 3.4 beskrivs hur klassificeringen av tätorterna gick till. Avsnitt 3.5 tar upp frågor som har att göra med studiens och utfallets trovärdighet. 3.1 Val av servicefunktioner Initialt var det nödvändigt att bestämma vilka typer av servicefunktioner som anses viktiga i samhället. Detta kan förstås anses vara en subjektiv fråga, en elitsimmare tycker att närheten till en simhall är viktig medan en barnfamilj vill bo i en tätort där det finns kanske både förskola och grundskola. För att komma fram till vilka 7

servicefunktioner som skulle tas med i detta examensarbete gjordes inledningsvis en litteraturstudie på området. Därefter hölls intervjuer/möten med, inom området, kunniga på SCB för att komma fram till den slutgiltiga uppsättningen servicefunktioner. I avsnitt 3.1.1 avsnitt beskrivs litteraturstudien och i 3.1.2 intervjuerna/mötena. I avsnitt 3.1.3 presenteras vilka servicefunktioner som valdes ut att ingå i detta examensarbete. 3.1.1 Litteraturstudie Tre tidigare studier kommer att gås igenom, två av dem är rapporter från myndigheten Tillväxtanalys och en är en rapport från avdelningen för samhällsplanering på Cornwall Council i England. Samtliga har spelat roll för vilka servicefunktioner som utvaldes att ingå i studien. 3.1.1.1 Tillväxtanalys: Städer och deras tillväxtförutsättningar Myndigheten Tillväxtanalys tog 2011 på uppdrag av regeringen fram rapporten Städer och deras tillväxtförutsättningar En beskrivning av olika städer och deras förutsättningar för tillväxt. Denna rapport syftar till att skapa en grund för att studera, analysera och jämföra olika städer 6, och är därför relevant för mitt examensarbete. Rapporten beskriver bland annat beroendeförhållandet mellan landsbygd och stad, där landsbygden producerar mat, råvaror och energi som staden drar nytta av, medan staden fungerar som en mötes- och handelsplats med sitt utbud av offentlig- och kommersiell service, kultur och utbildning. Ett rekreations- och turismflöde beskrivs, och detta flöde går både från landsbygd till stad och från stad till landsbygd. De som bor i staden vill få tillgång till skog och natur medan de som bor på landsbygden vill nyttja de kulturella aktiviteter som finns i staden. 7 Även om den här bilden är generaliserad har jag hämtat inspiration från denna syn på landsbygd och stad till valet av servicefunktioner. Jag har valt att inte ta med varuproduktion (gruv-, tillverknings- eller byggindustri) i studien, och jag har valt att inte se skog och natur som en viktig servicefunktion i en tätort. Fokus riktas istället mot konsumtionstjänster, samhällstjänster och handel. 3.1.1.2 Tillväxtanalys: Tillgänglighet till kommersiell och offentlig service En annan för examensarbetet relevant rapport framtagen av Tillväxtanalys är Tillgänglighet till kommersiell och offentlig service 2012. Syftet med denna rapport är att beskriva tillgång till offentlig och kommersiell service i olika delar av Sverige, och även hur denna service har utvecklats över tid. Detta därför att tillväxtpolitikens insatser ska kunna anpassas till de regionala och lokala förutsättningar som finns på olika håll i Sverige. En god servicenivå bedöms nämligen vara en av förutsättningarna för tillväxt. 8 Tillväxtanalys har i denna studie valt att undersöka följande servicefunktioner: Livsmedelsbutik Apotek Bankomat Vårdcentral Bensinstation Apoteksombud Postservice Grundskola 6 Tillväxtanalys. Städer och deras tillväxtförutsättningar - En beskrivning av olika städer och deras förutsättningar för tillväxt, s. 3. 7 Ibid, s. 10-11. 8 Tillväxtanalys. Tillgänglighet till kommersiell och offentlig service 2012, s. 13. 8

Författarna bakom rapporten menar att dessa servicefunktioner är centrala och bedöms som mest intressanta, men skriver också att studien begränsats av tillgängliga data. I Tillväxtanalys rapport definieras tillgång som fysisk tillgång, närmare bestämt som avstånd med bil från hemmet till en servicefunktion. 9 I studien redovisas statistik och fakta om samtliga av de åtta servicefunktionerna ovan, men endast tre av dem följs upp över tid. Det är livsmedelsbutik, bensinstation och grundskola. Dessa tre servicefunktioner var därför självklara att ha med i min studie, men även de hälsorelaterade apotek och vårdcentral. I rapporten nämns det faktum att fler och fler tjänster idag kan skötas via internet eller via andra tekniska hjälpmedel. 10 Detta är något jag tagit hänsyn till vid valet av servicefunktioner; post- och bankservice är förvisso servicefunktioner som vissa personer vill ha fysisk närhet till, men allt fler sköter sådana ärenden på annat sätt, varför jag har valt att inte ha med dem i studien. Av samma anledning har jag valt att inte ha med bankomater i studien. 3.1.1.3 Planning Future Cornwall Settlements: Hierarchy and Settlement Categories I enhetskommunen Cornwall i England fick samhällsplanerare i uppdrag att klassificera olika områden utifrån hur lika de var. Detta för att få indikationer om vilken tillväxt som är möjlig i respektive område. 11 Studien resulterade i en rapport, Planning Future Cornwall Settlements: Hierarchy and Settlement Categories, och i denna togs följande servicefunktioner med i beaktning: Livsmedelsbutik Apotek Postkontor Grundskola Arbetsplatser Kirurgimottagning Pub Religiös byggnad Lekplats Bensinstation Bank Förskola Gymnasieskola Sjukhus Bibliotek Samlingslokal Idrottscenter Busstation/tågstation Några av dessa servicefunktioner fanns även med i Tillväxtanalys rapport Tillgänglighet till kommersiell och offentlig service 2012, medan andra är nya. Flera av dessa kom att tas med i detta examensarbete. 3.1.2 Intervjuer/möten Efter litteraturgenomgången hölls intervjuer/möten med Stefan Svanström och Karin Hedeklint, experter på geografisk analys och GIS på SCB. Vissa servicefunktioner togs bort, andra lades till och vissa omformulerades så de stämde överens med svenska beteckningar och SCB:s definitioner. Till slut fanns en slutgiltig lista över servicefunktioner. Denna presenteras i avsnitt 3.1.3. 9 Tillväxtanalys. Tillgänglighet till kommersiell och offentlig service 2012, s. 14 10 Ibid. 11 Planning Future Cornwall Settlements: Hierarchy and Settlement Categories, s. 3 9

3.1.3 Valda servicefunktioner Följande 25 servicefunktioner valdes att ingå i studien: Förskola Grundskola Gymnasieskola Universitet Bibliotek Öppen vård Sluten vård Tandläkare Vårdboende/äldreboende Apotek Livsmedelsbutik Butik (alla typer förutom livsmedel) Systembolag Bensinstation Biograf/teater/konserthus Museum Sporthall/idrottsplats/gym Frisörsalong Restaurang/bar Hotell/vandrarhem Polisstation Brandstation Arbetsförmedling Stats- och kommunledning Resecentrum (tåg- och busstationer) Definitioner för var och en av dessa återfinns i bilaga 1. 3.2 Insamling av data När det stod klart vilka servicefunktioner som skulle tas med i detta examensarbete var nästa steg att samla in data. SCB ansvarar för majoriteten av den data som använts i detta examensarbete och avgörande för att kunna utföra detta examensarbete var tillgången till SCB:s tätortsavgränsningar med tillhörande tätortsstatistik samt till SCB:s företagsdatabas. Dessa beskrivs närmare i avsnitt 3.3.2.2 och 3.3.2.3. SCB ansvarar dock inte för all data utan olika myndigheter ansvarar för olika typer av data. I Förordning 2010:1770 om geografisk miljöinformation finns en översikt om informationsansvarets fördelning mellan myndigheterna och för att få tag på data som inte fanns tillgänglig hos SCB var respektive myndighet tvungen att kontaktas med begäran att få ta del av denna. Detta gällde data över grundskolor, gymnasieskolor, apotek, brandstationer, arbetsförmedlingar och resecentrum. Eftersom insamling av data var beroende av andra aktörer, både på SCB och på andra myndigheter, var det svårt att styra över tidsåtgången, och detta tog längre tid än planerat. 3.3 Sammanställning av data Mycket tid fick anslås till att sammanställa och anpassa data från SCB och från andra myndigheter. Insamlad data var av olika karaktär, men gemensamt för all data rörande servicefunktioner var att den på något sätt var geografiskt angiven, det vill säga hade en geografisk position angiven i antingen geografiska koordinater eller som adress. Målet med sammanställningen var att få all data i samma format och i samma tabell och för att kunna uppnå detta användes ett så kallat GIS-program. 3.3.1 GIS GIS står för Geografiska Informationssystem och är ett system för att hantera geografiska data, det vill säga data som är knuten till ett geografiskt läge. GIS har flera 10

olika användningsområden och ett av dem är urval och sökning. Har man till exempel en databas med data över alla Sveriges arbetsplatser med information om vilken typ av arbetsplats det är (ett apotek, ett universitet, ett sjukhus) kan man till exempel göra urvalet alla arbetsplatser som är universitet och få endast dessa i en tabell. Ett annat användningsområde är visualisering av data i till exempel tabeller, grafer eller kartor. 12 Både urval och sökning samt visualisering är något som tillämpats i stor utsträckning i detta examensarbete. Det finns flera olika GIS-program men i detta examensarbete har GIS-programmet MapInfo Professional använts. I MapInfo Professional kommunicerar man genom frågespråket SQL. 3.3.1.1 Referenssystem För att kunna ange ett geografiskt läge för ett objekt (t.ex. en servicefunktion som apotek) behöver man ett koordinatsystem vars axlar har fixerats till jordens yta, ett så kallat referenssystem. Det finns flera olika referenssystem, vilka beräknas på olika sätt, och det är mycket viktigt att objekten är bestämda i ett väldefinierat referenssystem. I Sverige är det framförallt referenssystemen WGS84, RT90 och SWEREF 99 som används, där SWEREF 99 är det officiella referenssystemet i Sverige. 13 Trots detta är det inte alltid geografisk data är angivet i SWEREF 99, i de fallen behöver data konverteras till önskat referenssystem. I detta examensarbete var detta nödvändigt med flera dataset. 3.3.2 Sammanställning av SCB:s data I denna studie har, som nämnt, två typer av SCB-data använts; data över SCB:s tätortsavgränsningar med tillhörande tätortsstatistik samt data ur SCB:s företagsdatabas. Dessa beskrivs närmare i avsnitt 3.3.2.2 och 3.3.2.3. SCB:s geografiska data är angiven i referenssystemet SWEREF 99, och eftersom MapInfo Professional är ett av de GISprogram som används på SCB finns all data representerad i MapInfos interna.tabformat. 3.3.2.2 Tätortsavgränsningar SCB gör så kallade tätortsavgränsningar var femte år. Med tätortsavgränsning avses de ytor som representerar tätorter, och dessa ytor bestäms utifrån definitionen, som även nämnts tidigare, områden med en koncentrerad bebyggelse där avståndet mellan husen är som mest 200 meter och antalet invånare minst 200 personer. Tätorten ska inte ha mer än 50 procent fritidshus. I figur 3 visas ett exempel på en tätortsavgränsning. SCB för även statistik över tätorterna, och i denna statistik kan man hitta bland annat invånarantal och antal förvärvsarbetande. Denna statistik har även den använts i detta examensarbete. 12 Harrie. Geografisk Informationsbehandling: Teori, metoder och tillämpningar, s. 21-22. 13 Ibid, s. 68. 11

Figur 3. Exempel på en tätortsavgränsning (Karin Hedeklint, SCB) 3.3.2.1 Företagsdatabasen SCB har i sin företagsdatabas data över alla arbetsställen i Sverige. Ett arbetsställe är en adress, fastighet eller grupp av fastigheter där ett företag eller en organisation bedriver verksamhet. Alla företag och organisationer har alltså minst ett arbetsställe. 14 I SCB:s företagsdatabas finns för varje arbetsställe information om geografisk position, antal anställda och vilken typ av verksamhet som bedrivs. Sistnämnt framgår av en så kallad SNI-kod (Svensk Näringsgrensindelningskod). SNI-koden 85420 står till exempel för universitet. 15 3.3.2.3 Urval och geografisk matchning För var och en av de valda servicefunktionerna fick arbetet med att göra urval från företagsdatabasen, utifrån SNI-kod, göras i MapInfo Professional. Såhär väljer man t.ex. genom SQL-kommandon ut alla universitet (universitet har som nämnt SNI-kod 85420): SELECT <arbetsplats> FROM <företagsdatabasen> WHERE SNI-kod = 85420 ; Urvalen sparades i separata tabeller och när dessa tabeller är skapade kan man med hjälp av MapInfo Professional välja att visualisera servicefunktionernas geografiska lokaliseringsmönster. Finns till exempel tabeller sparade för grundskolor och gymnasieskolor kan dessa visas på en och samma karta, eller på separata kartor, se figur 4 och 5. 14 SCB: Vad står arbetsställe för? 15 SCB: Sökning efter SNI-kod 12

Figur 4. Sveriges grundskolor Figur 5. Sveriges gymnasieskolor När tätortsavgränsningarna fanns representerade i en tabell, och alla servicefunktioner i varsina tabeller, skulle dessa matchas geografiskt. Varje servicefunktion kopplades till tätortsavgränsningarna med tillhörande statistik, och detta gjordes i MapInfo Professional. Figur 6 ger en bild av hur detta görs. 9 Tätortsavgränsning för en tätort X Servicefunktion Y:s lokaliseringsmönster Dessa matchas geografiskt Antalet Y-servicefunktioner räknas ut för tätort X Figur 6. Geografisk matchning Tätortsavgränsningarna med tillhörande statistik matchades med respektive servicefunktions lokalisering för att kunna räkna ut hur många av respektive servicefunktion det finns i varje tätort. Eftersom man antalet invånare i varje tätort är känt går det även att räkna ut antalet av respektive servicefunktion per 1000 invånare. Information om antalet av respektive servicefunktion per tätort lades till i en kolumn i tätortstabellen och antalet av respektive servicefunktion per 1000 invånare lades till i en annan kolumn i tätortstabellen. 13

3.3.3 Sammanställning av data från andra myndigheter Data som samlats in från andra myndigheter än SCB var av varierande filformat och var även angiven i olika referenssystem. Data som inte var angiven i det officiella referenssystemet SWEREF 99 var tvungen att konverteras i MapInfo Professional. Vid de fall där endast adresser fanns angivna var koordinaterna tvungna att letas upp med stöd av olika adressökningsverktyg. När alla servicefunktioner fanns representerade i separata tabeller lades, precis som för den data som kom från SCB, kolumner till i tätortstabellen, två per servicefunktion. I en kolumn lades information om antalet förekomster av varje servicefunktion och i den andra lades information om antalet förekomster av varje servicefunktion per 1000 invånare. 3.3.3.1 Lantmäteriets kartor En av de valda servicefunktionerna, nämligen resecentrum, var tvungen att hämtas från Lantmäteriets fastighetskarta. Fastighetskartan är Lantmäteriets mest detaljrika karta med bland annat information om byggnader. 16 Information om antalet resecentrum (buss- och tågstationer) per tätort, samt antalet resecentrum per 1000 invånare lades till i tätortstabellen. Lantmäteriets Sverigekarta är en annan karta som har använts i detta examensarbete, men endast som bakgrundskarta vid visualiseringar (t.ex. sjöar, hav och länsgränser i figur 1, 4, 5, 13, 14, 19 och 20). 17 3.3.4 Sammanställd data Resultatet av sammanställningen var en tabell över alla tätorter, där varje tätort hade information om antal förekomster av varje servicefunktion samt antal förekomster av respektive vald servicefunktion per 1000 invånare. Tabell 1 ger en bild av tabellens struktur då data var sammanställd. Förutom grundskolor och gymnasieskolor fanns resterande 23 servicefunktioner representerade med information om antal samt antal per 1000 invånare. Tabell 1. Exempeltabell sammanställd data Tätort Befolknmängd Antal förvärvsarbetande Antal grundskolor Antal grundskolor per 1000 inv. Antal gymnasieskolor Tätort1............ Tätort2............ Tätort 1956........... När data var sammanställd på detta vis kunde tätortsklassificeringen ske. Antal gymnasieskolor per 1000 inv. 16 Lantmäteriet: Fastighetskartan 17 Lantmäteriet: Sverigekartor 14

3.4 Klassificering av data När data var sammanställd kunde klassificeringen av tätorterna, utifrån hur lika de var i dels servicebredd och dels servicegrad, ske. Detta gjordes med hjälp av så kallad klusteranalys. Klusteranalys är en term för ett stort antal numeriska metoder, alla med mål att upptäcka kluster (grupper) i stora dataset innehållande objekt med flera attribut. I en, två och kanske tre dimensioner, det vill säga om varje objekt har en, två eller tre attribut, är det lätt för ett mänskligt öga att upptäcka kluster, se figur 7 nedan där man enkelt kan identifiera tre kluster i det tvådimensionella datasetet. Men redan vid fyra attribut är det omöjligt utan datorns hjälp. 18 Figur 7. Tre kluster (Introduction to Applied Multivariate Analysis with R, s.165) Klusteranalys refererar inte till en specifik algoritm, utan är ett samlingsnamn för metoden. Det finns många olika sorters klustringstekniker och några av dessa, inklusive dess teoretiska bakgrunder, kommer att gås igenom i avsnitt 3.4.1. 3.4.1 Klustringstekniker Beroende på om man vet på förhand hur många kluster man vill klassificera sin data i eller inte, finns olika typer av klustringstekniker, se figur 8. Är antalet kluster inte förutbestämt använder man sig av så kallad hierarkisk klassificering. Det finns olika hierarkiska klustringstekniker men eftersom det i detta examensarbete endast har använts så kallade hierarkiska agglomerativa klustertekniker kommer endast teorin för dessa att gås igenom, detta i avsnitt 3.4.1.1. Är antalet kluster förutbestämt kan man istället använda sig av k-means. 19 Det finns dock sätt att undersöka vilket antal kluster som lämpar sig bäst även för k-means. Teori för k-means gås igenom i avsnitt 3.4.1.2. I detta examensarbete fanns inga riktlinjer från SCB för hur många olika grupper tätorterna skulle delas in i, varför det kändes rimligt att inledningsvis testa några olika hierarkiska agglomerativa klustertekniker, och sedan även k-means när det fanns en uppfattning om det ungefärliga antal kluster som objekten (tätorterna) lämpligen borde indelas i. 18 Everitt och Hothorn. An Introduction to Applied Multivariate Analysis with R, s. 165. 19 Miljöstatistik: Att analysera flera variabler samtidigt 15

Klassifikation Antalet kluster förutbestämt? Nej Ja Hierarkiska klassificeringsmetoder K-means Figur 8. Val av klusterteknik (Miljöstatistik: Att analysera flera variabler samtidigt. Behandlad av författaren.) 3.4.1.1 Hierarkiska agglomerativa klustertekniker I agglomerativ hierarkisk klustring är utgångspunkten att det finns lika många kluster som objekt (i detta fall tätorter, 1956 stycken), varje kluster innehåller alltså ett objekt. Dessa slås sedan ihop beroende på hur lika de är i sina egenskaper tills alla objekt befinner sig i ett kluster, och då väljer man vilket antal kluster under denna aggregeringsprocess som passar bäst. Rent teknisk utgår man från en matris med objekt och attribut. I denna studie alltså eftersom det finns 1956 tätorter med 25 attribut. Likheten mellan objekten beskrivs med hjälp av en annan matris, det vill säga i detta fall initialt. Skillnaden mellan olika hierarkiska agglomerativa klustertekniker ligger i hur denna likhet räknas ut. Eftersom objekt slås ihop med objekt (och objekt med kluster och kluster med kluster) utifrån hur lika de är har val av klusterteknik stor betydelse för slutresultatet. I denna studie jämfördes fyra olika hierarkiska agglomerativa klusteralgoritmer; Single Linkage, Complete Linkage, Group Average och Wards metod, och nedan beskrivs hur dessa olika klustertekniker räknar ut likheten mellan kluster. I Single Linkage, Complete Linkage och Group Average räknas likheten ut i form av avstånd: Single Linkage 16

Complete Linkage där är avståndet mellan två kluster och är det euklidiska avståndet mellan objekt och i den initiala inter-individuella avståndsmatrisen. 20 Group Average där samma definitioner för och för gäller som ovan och där och är antalet objekt i klustren A och B. 21 Wards metod Wards metod räknar inte ut likhet i form av avstånd. Istället görs klustringen så att ökningen av variansen (efter att en hopslagning skett) minimeras, med andra ord så att heterogeniteten i det nya klustret minimeras. Heterogeniteten i ett kluster R definieras som Där är centroiden för kluster R, dvs. medelvärdet av alla objekt som ingår i klustret. för klustret R. I Wards metod är det det euklidiska avståndet i kvadrat som används. 22 För samtliga av dessa hierarkiska agglomerativa tekniker gäller att algoritmen för varje steg kontrollerar varje möjlig lösning och kluster formas genom att den lösning som ger störst likhet används. När alla objekt befinner sig i ett enda stort kluster avslutas algoritmen och hopslagningarna kan illustreras i ett så kallat dendrogram. Utifrån dendrogrammet bedöms sedan hur många grupper som är lämpliga. 3.4.1.2 K-means K-means arbetar inte som de hierarkiska agglomerativa klusterteknikerna, istället befinner sig alla objekt initialt i ett kluster, vilka sedan delas in i ett förutbestämt antal kluster k. Indelningen sker så att objekten hamnar i det kluster som har sin centroid (sitt medelvärde) närmast objektet, det vill säga så att within-group sum of squares (WGSS) minimeras över alla variabler. 23 Där är medelvärdet av alla objekt i kluster för variabeln. 20 Everitt och Hothorn. An Introduction to Multivariate Analysis with R, s. 167. 21 Ibid. 22 Berlin School of Business and Economics: Cluster algorithms 23 Everitt och Hothorn. An Introduction to Multivariate Analysis with R, s. 175. 17

3.4.2 Tidigare områdesklassificeringar Storbritanniens statistikbyrå Office for National Statistics klassificerar med jämna mellanrum områden utifrån vilka egenskaper de har (typer av bostäder, hushållens sammansättning, socioekonomisk karaktär, sysselsättningsgrad och vilka typer av företag som finns där). Deras tillvägagångssätt för att klassificera områden finns noga dokumenterad i rapporten Methods for National Statistics 2001 area classification for local authorities. 24 Office for National Statistics använder sig av Wards metod, men kontrollerar resultaten med hjälp av k-means, varför jag hade en hypotes om att dessa två klustertekniker skulle ge bra resultat. 3.4.3 Klusteralgoritmer i R I detta examensarbete har den statistiska programvaran R använts för att genomföra klusteranalysen. R är en open-source-programvara med många inbyggda funktioner, bland annat för klusteranalys. En hel del tid gick dock åt till att läsa R-manualer och till att skriva script. Samtliga script återfinns i Bilaga 2, men presenteras även löpande i kapitel 4, Resultat. 3.5 Studiens trovärdighet I detta avsnitt presenteras sådant som rör studiens och utfallets trovärdighet. 3.5.1 Olika datakällor Flertalet variabler som ingår i klassificeringsarbetet hänför sig till situationen år 2013, men inte alla. Detta är något som inte har gått att styra över. Tätortsavgränsning sker var femte år och den senaste skedde 2010. Bedömningen är att tidsvariationen här inte utgör något stort problem. Tätortsavgränsningar ändras med nybyggnation och rivningar och genom att tätorter faller under 200-personersstrecket genom negativ befolkningsutveckling, men de är på det hela taget stabila i det korta perspektivet av tre år. Att kombinera olika datakällor har varit arbetsintensivt men kvaliteten i det slutliga datamaterialet bedöms som mycket god. 3.5.2 Validering Data har granskats både på mikronivå och makronivå. Till granskning av data på mikronivå hörde att kontrollera indata. Stickprovskontroller gjordes genom att jämföra t.ex. det antal systembolag i en viss tätort som erhållits ur SCB:s företagsdatabas, med de adresser till systembolag i samma tätort, som finns på systembolagets hemsida. Data granskades även på makronivå, det vill säga att slutresultatet granskades för att undersöka om resultatet av klassificeringen var logisk. 24 Office for National Statistics: Area Classification methodology and variables 18

4. Resultat I detta kapitel kommer samtliga resultat att gås igenom. Inledningsvis, i avsnitt 4.1, presenteras listan över de servicefunktioner som inkluderades i studien, samt vilken myndighet som har tillhandahållit data över respektive servicefunktion. Därefter, i avsnitt 4.2, ges en bild av hur den slutgiltiga tätortstabellen såg ut. I avsnitt 4.3 presenteras resultaten för klassificeringen utifrån servicebredd och i avsnitt 4.4 presenteras resultaten från klassificeringen utifrån servicegrad. I avsnitt 4.5 presenteras samband mellan tätorters servicebredd och servicegrad. 4.1 Valda servicefunktioner Tabell 2 visar vilka servicefunktioner som valdes ut att ingå i detta examensarbete, samt vilken myndighet som har tillhandahållit vilken data. Tabell 2.Servicefunktioner och källor Servicefunktion Källa Förskola SCB Grundskola Skolverket (via geodataportalen) Gymnasieskola Skolverket (via geodataportalen) Universitet SCB Bibliotek SCB Öppen vård SCB Sluten vård SCB Tandläkare SCB Vårdboende / äldreboende SCB Apotek Läkemedelsverket Livsmedelsbutik SCB Butik (alla typer förutom livsmedel) Systembolag Bensinstation Biograf / teater / konserthus Museum Sporthall / idrottsplats / gym Frisörsalong Restaurang/bar Hotell / vandrarhem Polisstation Brandstation Arbetsförmedling Stats- och kommunledning Resecentrum SCB SCB SCB SCB SCB SCB SCB SCB SCB SCB MSB (via geodataportalen) Arbetsförmedlingen SCB Lantmäteriets fastighetskarta 19

4.2 Sammanställd data Sammanställningen av data resulterade i en tabell som lämpade sig för att klassificera data med hjälp av klusteranalys i R. Av platsskäl visas inte hela tabellen, men tabell 3 ger en bild av hur den såg ut. Detta är samma tabell som visades i avsnitt 3.3.5 och som nämndes då innehåller tabellen, förutom antalet grundskolor och gymnasieskolor per tätort och per 1000 invånare per tätort, förstås även de resterande 23 variablerna. Istället för Tätort1, Tätort2 och så vidare, står där tätorternas namn. Tabell 3. Exempeltabell sammanställd data Tätort Befolknmängd Antal förvärvsarbetande Antal grundskolor Antal grundskolor per 1000 inv. Antal gymnasieskolor Tätort1............ Tätort2............ Tätort 1956........... 4.3 Tätortsklassificering servicebredd Antal gymnasieskolor per 1000 inv. I följande avsnitt presenteras resultaten från klassificeringen av tätorter utifrån servicebredd. En tätort har hög servicebredd om den har ett stort antal av respektive servicefunktion. Klassificeringen gjordes med hjälp av klusteranalys i R och i kommande avsnitt varvas R-kod med resultat. 4.3.1 Eliminering av outliers Resultatet av en klusteranalys blir bäst om man först eliminerar outliers och för att kunna identifiera outliers skapades en scatterplotmatris. Att ta med samtliga variabler (antal servicefunktioner) blev svåröverskådligt så fyra stycken valdes ut; livsmedelsbutik, grundskola, apotek och bensinstation. Att just dessa servicefunktioner valdes ut berodde på att samtliga av dessa fanns med i de tidigare nämnda studierna av Tillväxtanalys och Cornwall Council. På följande vis skapades en scatterplotmatris. Z <- tatorter[, c("handel_mat","grundskola","apotek","bensinstation")] pairs(z, pch = ".", cex=4) Figur 9 visar utskriften. 20

Figur 9. Scatterplotmatris för att identifiera outliers Tre tätorter skiljde sig från de övriga och dessa var tvungna att identifieras: Subset(tatorter, grundskola > 90) Detta ger utskriften: Tätort handel_mat grundskola apotek resecentrum Stockholm 1605 459 75 48 Malmö 427 102 39 12 Göteborg 704 215 44 7 Dessa tätorter plockades bort och då såg scatterplotmatrisen istället ut som i figur 10. 21

Figur 10. Scatterplotmatris efter eliminering av outliers Objekten (tätorterna) var nu mer lika varandra, och förutsättningarna för en klusteranalys därmed bättre. 4.3.2 Hierarkisk agglomerativ klustring Initialt testades fyra olika hierarkiska agglomerativa klustertekniker, men tidigt stod det klart att tre av dom inte lämpade sig för denna typ av data. Både Single Linkage, Complete Linkage och Group Average gav grupperingar där det var en tätort i varje grupp och resten av tätorterna i en enda stor grupp. Wards metod däremot gav intressanta resultat och i detta avsnitt kommer R-kod och resultat från just Wards metod att gås igenom. Innan tätorterna kunde klassificeras med hjälp av klusteranalys var data tvungen att standardiseras. Detta därför att variablerna (antalet av respektive servicefunktion) har olika skalor. Tätorter har nämligen generellt sett många fler t.ex. livsmedelsbutiker och grundskolor, än t.ex. polisstationer och universitet. Standardiseringen av data gjordes med hjälp av R:s inbyggda funktion scale som räknar ut medelvärdet och standardavvikelsen för hela vektorn och sedan standardiserar varje element med dessa värden genom att subtrahera medelvärdet och dela med standardavvikelsen. Följande R-kod standardiserad data och sparar den i en matris X. 22

X <- scale(tatorter[, c("polis","brand","arbetsformedling","ledning","forskola","grundskola","gymnasie","universitet","boende","oppen_vard","sluten_vard","apotek","handel_mat","handel_ovr","systembolag","bensinstation","bibliotek"," kultur","museum","idrott","frisor","restaurang_bar","hotell","tandlaka re", "resecentrum")], center = FALSE, scale = TRUE) När denna matris var skapad skulle avståndsmatrisen räknas ut. För Wards metod används det euklidiska avståndet i kvadrat. dj <- dist(x) dj2 <- dj^2 Klustringen skedde med hjälp av R:s inbyggda funktion hclust. Ett dendrogram skapades och sparades. pdf("ward_servicebredd.pdf") plot(w <- hclust(dj2, method="ward"), labels=tatorter$namn, main = "Wards, squared eucludean distance") dev.off() w Dendrogrammet i figur 11 erhölls. Figur 11. Dendogram servicebredd Dendrogrammet visar hur ihopslagningen av kluster har skett. Distance, avstånd, refererar till avståndet mellan klustren. Ju högre upp i dendrogrammet man kan se att två kluster bildats, desto mer olika är klustren. Beroende på var ett dendrogram skärs erhålls olika antal kluster och i detta fall hade man alltså flera tilltalande alternativ. Ett alternativ hade varit att skära grafen vid fem kluster (märkt med rosa linje) och ett annat alternativ att skära grafen vid sju kluster (blå linje). 4.3.3 K-means Klustring med k-means gjordes för att kontrollera valet av antal kluster. För att se hur många kluster som föredras med k-means skrevs följande kod i R. wss <- (nrow(x)-1)*sum(apply(x,2,var)) for (i in 2:15) wss[i] <- sum(kmeans(x, centers=i)$withinss) pdf("kmeans") 23

plot(1:15, wss, type="b", xlab="number of clusters", ylab="within group sum of squares") dev.off() Figur 12. Att bestämma antalet lämpliga kluster med k-means Antalet within group sum of squares hade en dipp vid sju kluster och vid tio kluster, vilket innebär att om k-means ska användas bör tätorterna grupperas i sju eller tio grupper. 4.3.4 Val av antal kluster Vid klassificering av tätorter utifrån servicebredd lämpade sig fem eller sju kluster när Wards metod användes, och sju eller tio kluster när k-means användes. Tabell 4. Val av antal kluster vid klassificering utifrån servicebredd Metod Bäst antal kluster Val av antal kluster Ward 5 eller 7 kmeans 7 eller 10 7 24

Båda metoderna gav sju kluster som ett lämpligt antal och därför valdes antalet kluster till sju. 4.3.5 Tätortsgrupper servicebredd När antalet kluster var bestämt skulle tätorterna grupperas in i sju olika grupper. Wards metod användes till detta. Följande kod väljer att skära dendrogrammet vid sju kluster, och därefter skriva ut antalet tätorter per grupp samt vilka tätorter som klassificerats till vilken grupp. groups.7 = cutree(hclust(dj2, method="ward"), 7) table(groups.7) sapply(unique(groups.7),function(g)tatorter$namn[groups.7==g]) groups.7 Och utskriften: groups.7 1 2 3 4 5 6 7 1336 373 165 60 12 5 2 Det var alltså 1336 tätorter som klassificerades till grupp 1, 373 stycken som klassificerades till grupp 2, etc. Följande R-kod skriver ut medelvärdena 25 för icke-standardiserad data för var och en av servicefunktionerna för var och en av klustergrupperna. aggregate(y, list(groups.7), mean) Grupp gymnasieskola apotek restaurang_bar 1 0,01 0,06 0,98 2 0,15 0,49 3,19 3 1,28 1,35 11,73 4 5,90 4,47 53,47 5 15,08 8,33 158,33 6 23,80 14,2 252,40 7 20,00 19,5 258,50 Av platsskäl redovisas bara medelvärdena för ett urval av servicefunktionerna, men tittade man på samtliga av dessa medelvärden gick det att tyda en hierarki, där högre gruppnummer innebar en större servicebredd. Grupp 7 har högst medelvärde för 19 av 25 servicefunktioner, i övriga fall är det grupp 6 som har högst medelvärde. Grupp 7, 6 och 5 innehåller följande tätorter (samtliga grupper återfinns i Bilaga 3.): 25 Medianvärdena gav mycket liknande resultat 25

Grupp 7 Lund, Uppsala Grupp 6 Linköping, Norrköping, Helsingborg, Örebro, Västerås Grupp 5 Täby, Södertälje, Eskilstuna, Jönköping, Växjö, Halmstad, Borås, Karlstad, Gävle, Sundsvall, Östersund, Umeå Figur 13 visar alla tätorter och vilken servicebredd de har (1 är lägst, 7 är högst). Figur 14 visar de tätorter med högst, näst högst samt tredje högst servicebredd, det vill säga de som nämndes ovan. Figur 13. Tätorters servicebredd Figur 14. Tätorter med högst servicebredd Samtliga av dessa tätorter är kända tätorter med hög befolkningsmängd. Det finns skäl att tro att det finns ett samband mellan klusternummer (dvs. servicebredd) och befolkningsmängd. Tabell 5 visar att så är fallet, majoriteten av de tätorter med låg servicebredd (nivå 1-2) har max 5000 invånare, även om de finns några som har en större befolkningsmängd. Av de tätorter om har hög servicebredd (nivå 5-7) har alla utom en en befolkningsmängd på över 50 000 invånare. 26

Tabell 5. Samband mellan servicebredd och befolkningsmängd Bef.mängd Servicebredd 200-1000 1001-5000 5001-50000 >50000 S:a antal tätorter 1 1065 246 25 0 1336 2 167 171 35 0 373 3 3 83 79 0 165 4 0 0 60 0 60 5 0 0 1 11 12 6 0 0 0 5 5 7 0 0 0 2 2 S:a antal tätorter 1235 500 200 18 1953 4.4 Tätortsklassificering servicegrad I detta avsnitt gås resultaten igenom för den klassificering som grundar sig på antal förekomster av varje servicefunktion per 1000 invånare, dvs. servicegrad. 4.4.1 Eliminering av outliers Även i denna klassificering skapades en scatterplotmatris för att kunna upptäcka outliers. Variablerna livsmedelsbutiker, grundskola, apotek och bensinstation valdes ut, detta för att samtliga av dessa fanns med i de tidigare nämnda studierna av Tillväxtanalys och Cornwall Council. Se scatterplotmatrisen i figur 15. 27

Figur 15. Scatterplotmatris för att identifiera outliers Det var framförallt en tätort som skiljde sig från de övriga. Denna identifierades genom: Subset(tatorter, bensinstation_per_k>6) Tätort handelmat_ per_k grundskola_ per_k apotek_ per_k bensinstation_ per_k Granö 4.201681 4.201681 0 8.403361 Denna tätort togs bort från datamaterialet och den nya scatterplotmatrisen (figur 16) visade att utgångsläget för klustring nu var bättre. 28

Figur 16. Scatterplotmatris efter eliminering av outliers 4.4.2 Hierarkisk agglomerativ klustring De fyra hierarkiska agglomerativa klustringsteknikerna testades även för denna typ av klassificering. Single Linkage, Complete Linkage och Average Linkage gav återigen väldigt ojämna grupper (nästan alla tätorter i en grupp) och därför användes, precis som för klassificeringen utifrån servicebredd, Wards metod. Följande R-kod standardiserar data med hjälp av scale, skapar en avståndsmatris, klustrar data med hjälp av R-funktionen hclust och plottar resultatet av klustringen i ett dendrogram: X <- scale(tatorter[, c("polis_per_k","brand_per_k","arbetsformedling_per_k","ledning_per_k","forskola_per_k","grundskola_per_k","gymnasie_per_k","universitet_per _k","boende_per_k","oppenvard_per_k","slutenvard_per_k","apotek_per_k","handelmat_per_k","handelovr_per_k","systembolag_per_k","bensinstatio n_per_k","bibliotek_per_k","kultur_per_k","museum_per_k","idrott_per_k ","frisor_per_k","restaurang_bar_per_k","hotell_per_k","tandlakare_per _k","resecentrum_per_k")], center = FALSE, scale = TRUE) dj <- dist(x) dj2 <- dj^2 29

pdf("ward_antal_per_k.pdf") plot(w <- hclust(dj2, method="ward"), labels=tatorter$namn, main = "Wards, squared eucludean distance") dev.off() w Figur 17. Dendrogram servicegrad Det fanns här flera olika alternativ för att välja antalet kluster för detta dataset, men skär man dendrogrammet för högt upp erhålls för få kluster, och skär man dendrogrammet för långt ned blir antalet kluster för många. Ett lockande alternativ var att skära grafen vid nio kluster (rosa linje). 4.4.3 K-means För att se hur många kluster som lämpar sig vid klustring med k-means plottades grafen som visas i figur 18. 30

Figur 18. Att bestämma antalet lämpliga kluster med k-means Kurvan har en dipp vid 9 kluster och vid 12 kluster, vilket innebar att något av dessa antal borde väljas. 4.4.4 Val av antal kluster Tabell 6 visar vilket antal kluster som passade bäst med Wards metod och med k- means, och vilket antal kluster som valdes. Tabell 6. Val av antal kluster vid klassificering utifrån servicegrad Metod Bäst antal kluster Val av antal kluster Ward Flera alternativ, t.ex. 9 kmeans 9 eller 12 9 4.4.5 Tätortsgrupper servicegrad När tätorterna klassificerades utifrån antal servicefunktioner per 1000 invånare valdes antal kluster till nio, och följande utskrift visar hur många tätorter som klassificerades till de olika grupperna när Wards metod tillämpades. 31

groups.9 1 2 3 4 5 6 7 8 9 12 1041 8 229 24 9 444 154 34 12 tätorter klassificerades alltså till klustergrupp 1, 1041 stycken klassificerades till klustergrupp 2, etc. Skriver man ut medelvärdena för respektive klustergrupp och respektive servicefunktion går det, precis som för klassificeringen utifrån servicebredd, att urskönja en hierarki. Grupp gymnasieskola apotek restaurang_bar 1 0,00 0,00 1,04 2 0,00 0,01 0,89 3 0,00 0,00 0,75 4 0,00 0,00 1,48 5 0,09 0,19 1,50 6 0,00 0,00 1,46 7 0,15 0,32 1,83 8 0,20 0,32 2,40 9 0,31 0,78 3,45 För 15 av de 25 servicefunktionerna gällde att grupp 9 hade högst medelvärde. Av platsskäl presenteras här bara dessa, det vill säga de tätorter med högst servicegrad. Samtliga tätortsgrupper återfinns i Bilaga 3. Grupp 9 Ullared, Österbymo, Högsby, Tanumshede, Färgelanda, Nossebro, Charlottenberg, Storfors, Idre, Sälen, Vansbro, Älvdalen, Bergsjö, Junsele, Bräcke, Funäsdalen, Gäddede, Hammarstrand, Hoting, Järpen, Krokom, Svenstavik, Bjurholm, Dorotea, Nordmaling, Norsjö, Sorsele, Storuman, Tärnaby, Vindeln, Åsele, Pajala, Överkalix, Övertorneå Figur 19 visar alla tätorter och vilken servicegrad de har (1 är lägst, 9 är högst). Figur 20 visar de tätorter med högst servicegrad, det vill säga de som nämndes ovan. 32

Figur 19. Tätorters olika servicegrad Figur 20. Tätorter med högst servicegrad Till skillnad från de tätorter med hög servicebredd är tätorterna med hög servicegrad inte kända för sina stora befolkningsmängder. Dock finns andra gemensamma nämnare för tätorterna med hög servicegrad, de är tätorter som många människor från andra ställen åker till av olika anledningar. Till exempel shoppingmeckat Ullared, och tätorten Charlottenberg på norska gränsen dit många norrmän åker och handlar därför att det är billigare i Sverige. På listan över tätorter med hög servicegrad fanns även skidorter som Idre, Sälen, Funäsdalen och Järpen. Andra tätorter som Pajala, Överkalix och Övertorneå är sådana som har ett stort omland där det inte finns så mycket service, och därför kan man tänka sig att många åker dit för att uträtta ärenden. På grund av nämnda upptäckter fanns det skäl att tro att det fanns ett samband mellan kvoten förvärvsarbetande och befolkningsmängd. Tabell 7 visar att det finns ett visst sådant samband. En stor majoritet av de tätorter med låg servicegrad har en kvot på under 0,5, vilket innebär att mer än dubbelt så många bor i dessa tätorter än som arbetar där (de pendlar förmodligen ut därifrån till en annan tätort). Av de tätorter som har högst servicegrad, servicegrad 9, har mer än två tredjedelar en kvot på över 0,5, det är alltså en större andel som arbetar i dessa tätorter jämfört med de tätorter som har låg servicegrad. 33