Bolåneräntor i Sverige

Transkript

1 DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL ECONOMICS, FIRST LEVEL STOCKHOLM, SWEDEN 2014 Bolåneräntor i Sverige EN ANALYS AV INDIVIDUELLA RÄNTOR MED MULTIPEL LINJÄR REGRESSION ANDRÉ BERGLUND, ERIK HELLGREN KTH ROYAL INSTITUTE OF TECHNOLOGY SCI SCHOOL OF ENGINEERING SCIENCES

2

3 Bolåneräntor i Sverige En analys av individuella räntor med multipel linjär regression A NDRÉ B ERGLUND E RIK H ELLGREN Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 credits) Civilingenjörsutbildning i industriell ekonomi (300 credits) Kungliga Tekniska Högskolan 2014 Handledare på KTH Tatjana Pavlenko Examinator Tatjana Pavlenko TRITA-MAT-K 2014:03 ISRN-KTH/MAT/K--14/03--SE Kungliga Tekniska Högskolan Skolan för Teknikvetenskap KTH SCI SE Stockholm, Schweden URL:

4

5 Sammanfattning I denna rapport undersöks hur ett antal kundspecifika faktorer som belåningrad, bank och inkomst påverkar svenska hushålls individuella bolåneräntor. Metoden som används är multipel linjär regression med transformeringar av förklarande variabler. Transformer som används är log-linjär, linjär-log, log-log samt styckvis linjär. Datan innehåller ett stickprov om ca rörliga bolån från juli 2013 insamlade av organisationen Villaägarna på frivillig basis. Variablerna belåningsgrad, lånets storlek och bank bidrar mest till att förklara räntan. Vår analys visar att stora lån i kombination med låg belåningsgrad tenderar till att ge lägst ränta samtidigt som det finns signifikanta skillnader i bolåneränta mellan bankerna även om deras listräntor är lika. Abstract This report investigates how a number of customer-specific factors affect individual interest rates for Swedish home mortgages. The method used is multiple linear regression with transformations of the explanatory variables. Transformations that we employ are log-linear, linear-log, log-log and piecewise linear. The dataset consists of approximately 7000 Swedish home mortgages with floating interest rates from July Loan to value ratio, loan size and the the choice of mortgage lender are identified as the most important factors that influence individual interest rates. We find that large loans in combination with low loan to value ratio tend to lead to lower interest rates. There are also significant differences in interest rates depending on the mortgage lender. 2

6

7 Innehåll 1 Inledning Bakgrund Problemformulering och frågeställning Syfte Rapportens disposition Statistisk analys Generell metod Avgränsningar Linjär regression: teori Modellspecifikation Skattning av β R 2 och R BIC Backward elimination Dummy-variabler Transformation av variabler Heteroskedasticitet Whites konsistenta variansskattning Endogenitet Multikollinearitet F-test och t-test Q-Q plot Data Allmänt om datan Befintliga Variabler Orimliga värden Rensning av orimliga värden Skapade Variabler Genomförande Allmänt om genomförandet Undvikande av multikollinearitet Modell 1 - linjär Modell Resultat Modell 2 - linjär med interaktioner Modell Resultat Modell 3 - logaritmerad beroende variabel Modell Resultat Modell 4 - transformerade förklarande variabler Modell Resultat Modell Modell Resultat

8 3.7 Modell Modell Resultat Modell Resultat Analys Val av modell Mätfel Diskussion Val av kovariater Individuell förhandling av räntan Modellspecifikation Internetrelaterade tjänster och deras påverkan på bolånemarknaden Metod Information och sökkostnader Industriell omvandling och strategier Förutsägelser kring den digitala revolutionen på bolånemarknaden Utvecklingen av den svenska marknaden för bolån Analys av befintliga tjänster Regressionsmodellens bidrag Diskussion Slutsats 34 8 Referenser 35

9 1 Inledning 1.1 Bakgrund De senaste årens stigande bostadspriser har bidragit till att öka svenska hushålls skuldsättningsgrad och därmed också deras känslighet mot räntor och ränteförändringar. Under fjärde kvartalet 2013 var hushållens skuldsättning 174.5% av den disponibla inkomsten (Finansinspektionen, 2014). Bankernas marginaler på bolån, individuella ränterabatter och de vinster svenskarnas bolån genererar har under en längre tid varit föremål för flitig debatt. Kunderna har uppmanats att informera sig och förhandla om villkoren för bolånen, vilket dock är lättare sagt än gjort. Den svenska bolånemarknaden domineras av ett fåtal banker och bolåneinstitut. Deras aktuella listräntor finns tillgängliga på internet och publiceras dagligen i tidningar. Listräntorna varierar inte i någon större utsträckning mellan bankerna utan ligger generellt väldigt nära varandra. Listräntan kan ses som ett riktmärke på vilken ränta som kunden kan förvänta sig men den slutliga räntan är i de flesta fall förhandlingsbar. Varje enskilt bolån ger upphov till en kreditrisk för bolåneinstitutet vilket gör att räntan måste anpassas. Det finns således ingen garanti för att man kan förvänta sig att få låna till listräntan. Finansinspektionen (2013b) har föreslagit att bankerna 1 ska bli skyldiga att redovisa vad som påverkar den individuella kundräntan som en åtgärd för att skapa ökad öppenhet kring bolåneräntan. I kölvattnet av diskussionen i media kring så kallade ränterabatter har flera internettjänster skapats för att bidra till mer öppenhet kring bolåneräntorna. Under 2012 lanserade SvD Räntekartan där användarna kan uppge sin ränta och jämföra med vilken ränta andra har uppgett att de har. Villaägarnas tjänst Räntekollen ger en indikation på det maximala förhandlingsutrymmet baserat på den personliga kreditrisken och bankens upplåningskostnad. 1.2 Problemformulering och frågeställning En bolånetagares slutgiltiga bolåneränta förhandlas i regel mellan banktjänstemannen och kunden och behöver som sagt inte nödvändigtvis vara samma som listräntan. Allmänhetens insyn i vad som påverkar den bolåneränta som kunden slutligen får är begränsad eftersom bankerna inte delger allmänheten den internprissättning de använder sig av vid utlåning och räntan förhandlas individuellt. Prisättningsmodellen betraktas som en affärshemlighet och ett konkurrensmedel. Genom Yellow-Belly som har utvecklat tjänsten Räntekollen har vi fått tillgång till ett dataset med svenska bolånekunder, deras ränta och andra uppgifter som inkomst och bostadsvärde. Då datan samlats in på frivillig basis och enbart innehåller uppgifter om bolånekunder som använt Räntekollen kan den inte antas vara representativ för hela befolkningen. Vår analys gäller därför enbart för den intresserade bolånekunden. I den kvantitativa delen av detta examensarbete söker vi med hjälp av statistiska metoder svar på frågan: (I) Vilka kundspecifika faktorer påverkar räntan för den intresserade bolånetagaren? Då listräntan bara kan ses som ett riktmärke för boräntan har prisjämförelser mellan banker varit svåra och kunden har fått vända sig till flera olika banker för att få ett perspektiv på vad som är en rimlig ränta givet densammes ekonomiska situation. Ett annat alternativ har varit att fråga vänner och bekanta om vilken ränta de har. Detta kan vara 1 I denna rapport används bank och bolåneinstitut synonymt 5

10 svårt i praktiken då även personernas privatekonomi behöver jämföras för att jämförelsen ska vara relevant. Under åren 2012 och 2013 har nya tjänster lanserats som använder sig av internet för bolånerådgivning och datainsamling, t.ex. Räntekartan och Räntekollen. Bolånetjänsters data över svenska bolån och tillhandahållande av relevant information till kunderna har potential att verka som omvandlingstryck på bolånebranschen. Detta leder till den andra frågeställningen som detta arbete besvarar: (II) På vilket sätt har marknaden för bolån påverkats av internetrelaterade tjänster och vilka utmaningar står bolånebranschen inför? 1.3 Syfte Syftet med denna rapport är tvådelat. Vi vill för det första undersöka vilka faktorer som påverkar bolåneräntan för konsumenten och bedöma om denna går att förklara med statistiska metoder. För det andra vill vi studera hur ökad digitalisering och informationsutbyte i allmänhet kan påverka marknaden för bolån. 1.4 Rapportens disposition I detta examensarbete utreds två frågeställningar. I kapitel 3 och 4 behandlas frågeställning I. I kapitel 5, Internetrelaterade tjänster och deras påverkan på bolånebranschen behandlas frågeställning II där även resultaten från den statistiska analysen i kapitel 3 och 4 integreras. 2 Statistisk analys 2.1 Generell metod För att söka svar på vår frågeställning om vilka kundspecifika faktorer som påverkar bolåneräntan ämnar vi använda multipel linjär regressionsanalys på ett dataset innehållande befintliga bolån. Datan kommer från befintliga bolånekunder som själva uppgett sin nuvarande ränta och andra personliga uppgifter såsom inkomst och lånebelopp i syfte att se hur mycket förhandlingsutrymme deras bank teoretiskt har. Datan fångar upp de kvantitativa aspekterna av en kunds risk och potentiella affär med banken men utelämnar mjuka uppgifter hos bolånetagaren som också kan vara relevanta men är svåra eller omöjliga att studera med vår metod (se avsnitt 5.1). Genom en regressionsmodell kan vi få ökad insikt i hur de kvantitativa variablerna påverkar bolåneräntan. 2.2 Avgränsningar De lån vi har valt att studera är existerande lån hos olika bolåneinstitut vilket medför att lån som inte blivit medgivna av bankerna inte heller är representerade i vår undersökning. Vidare har vi valt att begränsa oss till att undersöka rörliga bolån med 3-månadersränta. Ett befintlig lån med längre bindningstid, t. ex. tre år kan ha en ränta som bundits upp till tre år bakåt i tiden vilket gör att dessa inte är lämpliga för en undersökning då räntan varierar över tiden. Rörliga bolån däremot har en ränta som har bestämts tidigast tre månader bakåt i tiden. Vi har valt att utföra vår analys på data från juli 2013 eftersom listräntan då hade varit relativt stabil under föregående månader. Vi har även valt att begränsa undersökningen till de åtta största aktörerna som tillsammans har 95% av den svenska bolånemarknaden (Finansinspektionen, 2013a). 6

11 Datan innehåller uppenbara felinmatningar som sållas bort. Kriterierna som används för att göra detta är emellertid avgränsningar i sig (se avsnitt 2.4.3). 2.3 Linjär regression: teori Modellspecifikation Den multipla linjära regressionsmodellen är specificerad enligt följande: k y i = x ij β j + e i, i = 1,..., n (1) j=0 där y kallas för beroende variabel, x j för förklarande variabel, β j för regressionskoefficient eller kovariat och e i för felterm. I det här fallet finns n observationer med k förklarande variabler. Ekvation (1) kan skrivas om till formen där Skattning av β Y = Xβ + e, (2) Y = y., β = β., e = e. y n β k e n 1 x 11 x 1k X = x n1 x nk Ordinary Least Squares (OLS) skattningen av β, betecknat ˆβ, minimerar n i=1 ê i 2 genom att lösa normalekvationerna X t ê = 0, (3) där ê = Y X ˆβ. Då fås OLS-skattningen ˆβ = (X t X) 1 X t Y (4) av β. För en härledning se (Lang, 2013). Denna modell bygger emellertid på att vissa antaganden om feltermernas natur. Dessa är: 1. E[e X] = 0. Det betingade väntevärdet för feltermerna antas vara noll. 2. E[ee t X] = σ 2 I. Feltermerna antas ha samma varians (homoskedasticitet) och vara oberoende mellan observationer. Då minstakvadratproblemet lösts fås prediktionen av Y, Ŷ = X ˆβ. 7

12 2.3.3 R 2 och R 2 Vid en regressionsmodell är det önskvärt att anpassa en modell som med hjälp av kovariaterna förklarar den beroende variabeln så bra som möjligt. R 2 är ett mått på förklaringsgrad och är definierat enligt R 2 = ni=1 (ŷ i ȳ) 2 ni=1 (y i ȳ) 2 = 1 ni=1 ê i 2 ni=1 (y i ȳ) 2, (5) där n i=1 (ŷ i ȳ) 2 kallas för ESS (explained sum of squares) och n i=1 ê 2 i för RSS (residual sum of squares). R 2 mäter alltså hur bra modellen förklarar data. R 2 tar inte hänsyn till hur många förklarande variabler som finns med i modellen. Många förklarande variabler ökar förklaringsgraden men modellen kan då istället vara överspecificerad. R 2 är definierat enligt R 2 = 1 n 1 ni=1 2 ê i n k 1 ni=1 (y i ȳ) 2 (6) och är minskande i k, antalet förklarande variabler BIC Vid val av vilka förklarande variabler som ska tas med i ekvation (1) kan BIC (Bayesian Information Criterion) användas. Den modell som väljs med hjälp av BIC minimerar nln( ê 2 ) + kln(n). (7) BIC är ökande i k för att motverka överspecificerade modeller Backward elimination Vid val av linjär modell är det lätt att använda för många förklarande variabler, s.k.overfitting. Då finns en risk för att vissa variabler inte bär på någon egentlig information utan istället beskriver fluktuationer i feltermen. BIC kan då användas för val av modell. En metod för att göra detta kallas backward elimination och sker i följande steg: 1. Börja med samtliga variabler. 2. Ta bort den variabeln som förbättrar modellen mest enligt valt kriterium. I fallet med BIC är det variabeln som, om den tas bort, minskar BIC-värdet mest. 3. Fortsätt med ovanstående metod tills ingen förklarande variabel kan uteslutas. För att använda backward elimination är det viktigt att det inte råder multikollinearitet (se avsnitt för en definition av multikollinearitet). Då kan relevanta variabler uteslutas tidigt eftersom de är för starkt korrelerade med andra variabler i modellen Dummy-variabler Dummy-variabler används som förklarande variabler för att beskriva en binär egenskap, till exempel om man har a-kassa eller inte. Dummy-variabeln antar värdet 1 om personen i fråga är medlem i en a-kassa och 0 annars. Den tillhörande koefficienten beskriver hur mycket den beroende variabeln ökar eller minskar om dummy-variablen är 1. Då det kan existera interaktionseffekter mellan dummy-variabeln och andra förklarande variabler kan interaktioner av formen (a kassa) (lön) tas med. 8

13 2.3.7 Transformation av variabler OLS används för linjära samband, men med transformation av variabler kan vissa ickelinjära samband skrivas linjärt. Tre välkända transformationer kommer att användas i detta arbete 1. log-linjär: ln(y) = β 1 x 1 + e. I detta fall leder en absolut förändring av kovariaten x 1 till en procentuell förändring av y då y y x 1β linjär-log: y = β 1 ln(x 1 ) + e. En procentuell förändring av x 1 leder i detta fall till en absolut förändring av y då y β x x. 3. log-log: ln(y) = β 1 ln(x 1 )+e. En procentuell förändring av x i leder till en procentuell förändring av y eftersom y y β 1 x x. En närmare beskrivning återfinns i (Kennedy, 2008) Heteroskedasticitet Heteroskedasticitet uppstår när feltermernas varians skiljer sig mellan observationer, alltså att E[ee t X] σ 2 I. Ett typiskt fall av heteroskedasticitet är när feltermernas varians beror på kovariaternas värden. Heteroskedasticitet kan upptäckas genom att plotta residualerna mot varje kovariat och man kan då grafiskt urskilja om feltermerna beror på kovariaternas värden. När modellen inkluderar många kovariater blir den metoden snabbt oöverskådlig. Istället kan man plotta residualerna mot de predikterade värdena för att få en uppfattning om variansen är konstant över observationer. Heteroskedasticitet är ett tecken på att modellen kan vara felformulerad. Om heteroskedasticitet upptäcks är det första steget därför att omformulera modellen, t. ex. genom att transformera variabler. Kvarstår problemet kan man använda sig av White s korrigerade standardel (Lang, 2013) Whites konsistenta variansskattning Heteroskedastiska residualer ger felaktiga skattningar av regressionskoefficienternas standardfel. Ett första steg för att åtgärda detta är att transformera variabler. Om heteroskedastisitet återstår kan Halbert Whites metod användas. Whites konsistenta variansskattning är då Cov( ˆβ) = (X t X) 1 X t D(ê 2 )X(X t X) 1 n = (X t X) 1 ( ê 2 i x t ix i )(X t X) 1, i=0 (8) där D(ê) 2 är en n n diagonalmatris n n vilkens i:te diagonalelement är ê i 2.(Lang, 2013) Endogenitet Endogenitet uppstår då en eller flera kovariater är korrelerade med feltermen vilket strider mot ett av antagandena vid användningen av OLS som då inte kommer att ge konsistenta skattningar av β (Lang, 2013). Urvalsfel, selection bias, kan ge upphov till endogenitet. I vårt fall, då data samlats in från bolånetagare som själva uppgett vad de har för ränta, kan denna inte ses som representativ för hela populationen. Om vi istället inskränker undersökningen till att gälla den intresserade bolånekunden antar vi inte längre att vår data är representativ för alla bolånekunder och har således inget endogenitetsproblem. 9

14 När relevanta förklarande variabler inte är inkluderade i modellen hamnar de istället i feltermen. Om någon av våra kovariater är korrelerad med en variabel som inte tagits med i modellen är den då också korrelerad med feltermen vilket innebär endogenitet. Detta är inget problem vid prediktion men kan förändra tolkningen av regressionskoefficienterna Multikollinearitet Multikollinearitet uppstår när kovariaterna är linjärt beroende eller nästan linjärt beroende. Förenklat kan då sägas att effekten av en viss förklarande variabel blir svår att isolera vilket ger upphov till stora skattningar av regressionskoefficientens standardfel (Hill m.fl., 2008). Multikollinearitet kan till exempel uppstå vid användningen av dummy-variabler. Om till exempel variabeln (kvinna) tas med samtidigt som variabeln (man) är dessa uppenbarligen linjärt beroende då (kvinna)+(man) = 1. Istället väljer man att bara ta med en dummy-variabel och välja den andra som referenspunkt, en s.k. benchmark. Ett mått på multikollinearitet är Variance inflation factors (VIF) och är för kovariat i definierat enligt 1 V IF i = 1 Ri 2, (9) där Ri 2 fås genom att regressera kovariaten i mot resterande kovariater från modellen. Ett högt Ri 2 och indikerar att kovariaten i väl förklaras av de andra kovariaterna. En tumregel är att V IF i > 10 är skadligt för modellen (Kennedy, 2008, s. 199) F-test och t-test För att testa om regressionsmodellens skattade kovariater är statistiskt signifikanta används students t-test. För att testa en skattad koefficient ˆβ tas värdet av testvariablen t = ˆβ β 0 SE( ˆβ) (10) fram, där SE( ˆβ) är standardavvikelsen för skattningen ˆβ och β 0 är värdet det testas mot. Nollhypotesen β 0 = 0 används då den skattade kovariatens statistiska signifikans kontrolleras. Under nollhypotesen har t en students t-fördelning med n k 1 frihetsgrader där n = antal observationer och k = antal kovariater. Motsvarande p-värde är p = 2P r(t t ) (11) där T är t(n k 1)-fördelad. Nollhypotesen ˆβ = β 0 förkastas om p är mindre än en tidigare bestämd signifikansnivå α. (Lang, 2013) För att testa nollhypotesen att en eller flera β = 0 kan ett F-test användas. Testvariabeln för F-testet är F = n k 1 ( ê 2 ) r ê 2 1 (12) där r = antal restriktioner, ê 2 är RSS för en komplett modells regression och ê 2 är RSS för samma modell med önskade kovariaters koefficienter satta till noll. Motsvarande p-värde är p = P r(z F ) (13) där Z är F (r, n k 1)-fördelad. Nollhypotesen förkastas om p < α. F-testet och t-testet förutsätter att residualerna är normalfördelade. Om vi inte vet feltermernas fördelning förutom att de är oberoende och identiskt fördelade finns inget exakt test för nollhypoteserna. F-testet är däremot fortfarande assymptotiskt giltigt för stora n. (Lang, 2013) 10

15 Q-Q plot Q-Q plottar används för att jämföra sannolikhetsfördelningen av empirisk data mot en teoretisk fördelning, t.ex. normalfördelningen. Detta uppnås genom att plotta empiriska kvantiler mot teoretiska kvantiler för en jämförelsefördelning. De empiriska kvantilerna ges av n datapunkter z 1,n,... z n,n sorterade i storleksordning. En Q-Q plot är en plot av punkterna: {( F 1 ( n k + 1 n + 1 ) ) }, z k,n : k = 1,..., n, där F är fördelningsfunktionen för jämförelsefördelningen, t.ex. Φ vid normalfördelning. Stämmer fördelningarna överens ska punkterna ligga approximativt på en linje. (Hult m.fl., 2012) 2.4 Data Allmänt om datan Den statistiska analysen är baserad på bolånedata, erhållen av vår sammarbetspartner Yellow-Belly. Datan, innehållande bolånetagares ränta och annan information om bolånetagaren, är insamlad genom Villaägarnas tjänst Räntekollen som tillhandahåller en modell av bankens teoretiska marginalkostnad för bolån. Användaren ombeds fylla i ett formulär med uppgifter vilka vi har fått ta del av. De observationer för 3-månaderslån under juli 2013 vi har valt att avgränsa undersökningen till kan ses i figur 1. En delmängd bestående av observationer tillhörande bank 1 kan ses i figur 2 där listräntan vid tidpunkten är markerad som en röd linje. I båda figurer kan man se att observationerna ser ut att bilda linjer vilket betyder att räntan ofta antar diskreta värden. En ränta om 3.0% förekommer exempelvis ofta. Figur 1: Ränta observationer Figur 2: Ränta observationer bank Befintliga Variabler De variabler som finns tillgängliga i datan följer nedan. Ibland finns två låntagare, men vi har enbart datan för bolånetagare A. (ränta): Den erhållna 3-månadersräntan för respektive låntagare 11

16 (inkomst): Den viktade hushållsinkomsten. Viktat enligt (inkomst) = q(inkomst A ) + (1 q)(inkomst B ) där q = (ålder): Ålder låntagare A (inkomst A ) (inkomst A )+(inkomst B ). (skulder): Bolånetagarens skulder utöver bostadslånet (a-kassa): Dummy-variabel för om låntagare A är medlem i en a-kassa (postnummer): Bostadens postnummer (fasta kostnader): Fasta boendekostnader (t. ex. avgift) som inte är räntekostnader, i SEK. (lånebelopp): Lånets storlek i SEK (värde): Bostadens uppskattade marknadsvärde i SEK (belåningsgrad): (lånebelopp) (värde) (bank i ): Dummy-variabel som är 1 om kunden har bank i Orimliga värden Då datan är insamlad via ett formulär på internet förekommer felinmatningar. Enstaka orimliga felinmatningar kan påverka OLS-skattningen av β mycket och göra att modellen anpassas dåligt i intervallet där de flesta observationerna ligger. Ett exempel på detta i datan är exempelvis (ålder) = 999. Observationerna tas antingen bort eller konverteras till rätt format. Notera att de gränser vi har satt upp för de olika variablerna även utgör avgränsningar för detta arbete. Ålder Data för ålder är rapporterad som antingen ålder i antal år eller födelseår vilket vi konverterar till enbart ålder i antal år. Alla observationer med en ålder under 18 år eller över 100 år ses som felaktiga och tas bort ur vårt dataset. Bostadens värde Bostäder med ett uppskattat värde över SEK och under SEK inkluderar majoriteten av bostäderna på den svenska bostadsmarknaden och vi begränsar vårt dataset till detta intervall. Lånebelopp Justering för lånebelopp till följd av vår inskränkning av bostadens värde medför att endast observationer med lånebelopp i intervallet SEK tas med. Fasta kostnader Alla observationer med fasta kostnader över SEK anses orimliga med avseende på vår inskränking av bostadens värde och tas därmer bort ur vårt dataset. Ränta Observationer med en rörlig ränta under 1.5% och över 5% exkluderas ur vårt dataset. Den rörliga listräntan (3-mån) var under perioden för observationerna i intervallet 2-3%. 12

17 Under samma period var STIBOR % (Riksbanken) (relevant för bolåns upplåningskostnad) och rapporterade upplåningsräntor omkring 2% (SBAB; Swedbank). Bolån med rörlig ränta under cirka 1.5% är förmodligen inte lönsamma för bankerna under perioden. Därmed är dessa bolån förhandlade under andra vilkor än övriga observationer. För den övre begränsningen på 5% har vi använt oss av Yellow-Bellys uträknade kostnader för utlåning till en konsument med relativt hög risk och maximal belåningsgrad. De uppskattar att banken ska begära en ränta på minst 4% för denna kund (Villaägarna, 2013) och vi har begränsat vårt dataset att ta med observationer med 5% ränta. Belåningsgrad Kravet på en maximal belåningsgrad på 85% vid tecknande av bolån kombinerat med de senaste årens kraftiga prisuppgång på bostadsmarknaden medför att vi anser att belåningsgrader över 100% är orimliga. Vårt dataset begränsas därmed till observationer med en belåningsgrad mellan 0% och 100%. Inkomst Enbart observationer med inkomst i intervallet SEK inkluderas. En månadsinkomst under SEK anser vi orimligt låg och det finns möjligtvis en utomstående medlåntagare eller borgensman skriven på bolånet som hjälper till med betalning. Dessa observationer har inte samma förutsättningar som övriga. Den övre gränsen på SEK inkluderar de flesta bolånetagarna samt exkluderar majoriteten av potentiella observationer som missuppfattat månadsinkomst för årsinkomst Rensning av orimliga värden Datasetet för rörliga bolån insamlade under juli månad innan rensning innehåller 6944 observationer. Efter rensning som sammanfattas i tabell 1 återstår 6269 observationer. Tabell 1: Rensning av data observationer Ålder -5 Bostadens värde -62 Fasta kostnader -61 Ränta -63 Lånebelopp -74 Belåningsgrad -107 Inkomst -303 total Skapade Variabler (stockholm) Dummy-variabel som är 1 om bostaden finns i stockholmsområdet, dvs postnumret börjar på 1. I Stockholm finns många bankkontor vilket kan påverka konkurrensen och räntorna. 13

18 (belåningsgrad topp) Förhållandet mellan ränta och belåningsgrad är inte nödvändigtvis linjärt. SBAB:s modell för räntan i relation till belåningsgraden är inte linjär som figur 3 illustrerar. Vi ser att grafen ändrar stigning vid en belåningsgrad som är ca Låt oss därför införa variabeln (belåningsgrad topp) = max((belåningsgrad) 0.75, 0). (14) Linjärkombinationen a(belåningsgrad topp) + b(belåningsgrad) beskriver då alla möjliga kombinationer av stigningar på intervallen [0, 0.75) och (0.75, 1]. Ett annat alternativ är att göra två separata regressioner, även kallat piecewise linear regression, för de två linjestyckena. Grafen i figur tre skiftar uppåt och nedåt beroende på lånets storlek vilket motiverar att ha med variabeln (lånebelopp) separat. Figur 3: SBABs ränta för olika belåningsgrader , bostadsvärde 2Mkr 3 Genomförande 3.1 Allmänt om genomförandet För att svara på frågeställningen vilka kundspecifika faktorer som påverkar bolåneräntan kommer vi att anpassa olika linjära modeller till datan och utvärdera dessa. För varje linjär modell reducerar vi antalet förklarande variabler genom att använda oss av backward elimination och funktionen stepwise i den statistiska programvaran R. Med hjälp av den modell som bäst förklarar datan kan vi sedan dra slutsatser om vad som påverkar den slutgiltiga kundräntan Undvikande av multikollinearitet För att undvika multikollinearitet använder vi dummy-variabler för de åtta olika bankerna med en bank som benchmark. Banken som används som benchmark är en av de största 14

19 aktörerna vilket minskar risken för multikollinearitet. Variabeln (värde) tas inte heller med i någon modell eftersom VIF då blir för högt. Vid transformering av enskilda variabler, t. ex. genom logaritmering kan också multikollinearitet uppstå om ursprungsvariabeln finns kvar i modellen. 3.2 Modell 1 - linjär Modell Som ett första steg för att anpassa en modell till datan genomför vi en linjär regression utan transformerade variabler. Modellen är (ränta) = β 0 + β 1 (inkomst) + β 2 (ålder) + β 3 (fasta kostnader) + β 4 (lånebelopp) + β 5 (belåningsgrad) + β 6 (skulder) + β 7 (a-kassa) + β 8 (stockholm) + β 8 (bank 2 ) β 14 (bank 8 ) + e. (15) Resultat Efter backward elimination återstår kovariaterna i tabell 3. Bank 2 och 8 samt variablerna för a-kassa, skulder och inkomst faller bort. Modellen har en förklaringsgrad R 2 = och R 2 = Figur 4 och 6 visar att residualerna inte är normalfördelade utan snedvridna åt höger. Linjen i figur 4 är anpassad med minstakvadratmetoden och ger de normalfördelningsparametrarna som passar residualernas fördelning bäst. Figur 6 är ett histogram över residualerna och kurvan i figur 6 är en plot av den normalfördelning som resulterar från minstakvadratanpassningen. Figur 5 visar tecken på heteorskedasticitet; residualernas varians tycks bero på det predikterade värde ŷ i. I modell 3 (avsnitt 3.4) transformeras därför den beroende variabeln (ränta). Tabell 2 visar vilka kovariater som elimineras med BIC och hur mycket det förbättrar modellen med avseende på BIC. Tabell 3 redovisar hur mycket varje återstående kovariat höjer RSS om den tas bort. Ett högt SS betyder alltså att kovariaten bidrar till mycket av förklaringsgraden. Tabell 2: Uteslutna kovariater Kovariat BIC (bank 2 ) (a-kassa) (inkomst) (skulder) (bank 8 ) (stockholm) Tabell 3: Analys av varians Källa SS F (ålder) (fasta kostnader) (lånebelopp) (belåningsgrad) (bank 3 ) (bank 4 ) (bank 5 ) (bank 6 ) (bank 7 ) Residual

20 Tabell 4: Koefficienttabell modell 1 ˆβ standardfel t-värde p-värde (Intercept) e e e e+00 (ålder) e e e e-10 (fasta kostnader) e e e e-06 (lånebelopp) e e e e-65 (belåningsgrad) e e e e-20 (bank 3 ) e e e e-96 (bank 4 ) e e e e-08 (bank 5 ) e e e e-04 (bank 6 ) e e e e-03 (bank 7 ) e e e e-13 Figur 4: Q-Q plot för residualerna Figur 5: Plot över residualer 16

Visa mer