Rätt utvärdering ger rätt leverantör

Affärer MENINGSFULL UPPHANDLING Affärer Rätt utvärdering ger rätt leverantör Många upphandlingar leder till att fel leverantör vinner affären. En förklaring är hur utvärderingen hanteras. Anbudsutvärdering är en erkänt problematisk process och den kan präglas av orimlig precision och fel hantering av kvalitativa värden. Men det finns alternativ. Här presenteras en metod som ska ge säkrare beslut med högre kvalitet. TEXT: MATS DANIELSON, LOVE EKENBERG, ANITA KOLLERBAUR OCH HELENA SALBERG STRÖM ILLUSTRATIONER: KJELL THORSSON Upphandlingsprocesser i Sverige är långt ifrån tillfredställande. Särskilt problematiskt är processer relaterade till utvärdering av anbud. Många upphandlingar har lett till fel val av leverantör. Det är ekonomiskt och moraliskt oacceptabelt och dessutom onödigt. Ibland ger olika utvärderingsmodeller samma utfall, ibland inte. Ibland blir resultatet att äldre och barn, som är beroende av omsorg, får låg kvalitet på sin mat när upphandlaren använt en utvärderingsmodell som inte på ett rättvisande sätt hanterar anbudens relativt uppsatta kriterier. Besluten blir kort sagt ofta fel. Konkurrensverkets genomgång av många svenska upphandlingar visar på en olycklig flora av modeller. Många felaktiga beslut kan kopplas till sättet att utvärdera anbuden. Det brister i hanteringen på tre punkter: Upphandlaren inför orimlig precision. Upphandlaren hanterar kvalitativa poäng fel. Upphandlaren hanterar poängskalor utan att veta tillräckligt. Det finns metoder för utvärdering som leder till betydligt bättre beslutsunderlag. Antag att vi ska köpa en konsulttjänst i form av en inredningsarkitekt., kompetens, lyhördhet och gestaltningskoncept är de kriterier som har fastställts. Vi har fyra anbud från Arkitekt, Bildlärare, s Inredning och s Arkitektklubb. Samtliga anbud är väl genomarbetade. Kriterier och värdeskalor Vi vill alltså upphandla en konsult och har angett att priset inte är det enda viktiga. Vi har ytterligare tre kriterier som vi måste kunna väga samman. En vanlig ansats är att man sätter upp vikter. I vårt exempel antar vi det här: Vikten för kostnad är 40 procent kompetens är 30 procent lyhördhet är procent gestaltningskoncept är 10 procent. Det finns naturligtvis praxis även när det gäller kriterier och det är att beskriva kriterierna så att anbudsgivaren kan lämna ett så bra anbud som möjligt. I vårt exempel skulle det kunna innebära: en kostnad preciseras oftast i kronor, men den kan vara uppdelad i timarvoden och beräknad kostnad för hela uppdraget. Kompetens att ha kompetens betyder i allmänhet att vara utbildad inom området. Lyhördhet att genomföra intervjuer med anbudsgivare, som bedöms vid valet av vinnande anbud. att ge ett konkret förslag på hur uppdraget skulle kunna utföras, för att visa på kreativitet, helhetssyn och nyskapande. För att kunna väga samman bedömningarna av kriterierna använder man ofta en poängskala. Skalan kan se ut så här: 5. Mycket bättre än kriteriets basnivå 4. Bättre än kriteriets basnivå 3. Uppfyller kriteriets basnivå 2. Något sämre än kriteriets basnivå 1. Mycket sämre än kriteriets basnivå 0. Svarar ej mot kriteriets basnivå Vi fortsätter vårt exempel och tillämpar poängskalan när vi värderar anbuden. 44 UPPHANDLING24 NUMMER 5 13

Foto: Daniel Wadenius Hitta rätt leverantör. Love Ekenberg och Helena Salberg Ström, Stockholms universitet, är två av författarna bakom artikeln om en metod som ger säkrare beslut vid utvärdering av anbud. Bild 1 DIPLOM 0 0 2 2 Kompetens Lyhördhet Ingen tydlig vinnare. Ingen leverantör sticker ut som bättre än någon annan. Vi måste fortsätta analysen. Vi ser direkt i bild 1 ovan att ingen leverantör dominerar i den meningen att den har högst poäng under ett kriterium och samtidigt är minst lika bra på de andra kriterierna. Vi kan alltså inte utse någon vinnare utan måste fortsätta analysen. Vi väger samman poängen under respektive kriterium och summerar resultaten till ett vägt medelvärde. Vi multiplicerar vikten i procent med varje persons poäng under varje kriterium och får resultaten: : 3,40 : 3,70 : 2,80 : 2,80 Med det här sättet att utvärdera skulle vi välja. Nu inställer sig naturligtvis frågan om vi valde rätt. Fick vi fram vem av konsulterna som hade det mest ekonomiskt fördelaktiga anbudet? Och fick vi fram vilket anbud som var den bästa affären för beställaren? Det kan vi inte veta. Modellen är för dålig för att vi ska kunna avgöra det. Första misstaget: orimlig precision I början pekade vi på att det finns tre fundamentala problem i en sådan här situation. Det första är orimlig precision. Lagen gör en bra observation. Det går inte alltid, faktiskt mycket sällan, att ange exakta vikter och lagen tillåter därför intervalluppskattningar. En upphandlare kan alltså enligt LOU få sätta kriterievikterna 40 procent. I exemplet har vi fyra kriterier. Hur ska man på ett rimligt sätt ange att till exempel kompetens har precis 30 procent vikt? Eller 35 procent? Och hur ska man någorlunda vederhäftigt kunna säga att det är korrekt? De flesta människor brukar intuitivt inte kunna skilja på procentsatser mellan 30 procent och 70 procent vid uppskattningar. Ändå hanteras vikterna nästan alltid som precisa utsagor trots att det inte är ett lagkrav. Det är det första misstaget. Visst blir det lite svårare att hantera oprecisa utsagor då vi räknar, men det finns metoder för det. Man skulle alltså kunna tänka sig följande. Vikten för: kostnad är 30 45 procent kompetens är 25 35 procent lyhördhet är 15 25 procent gestaltningskoncept är 5 15 procent UPPHANDLING24 NUMMER 5 13 45

Affärer S MENINGSFULL UPPHANDLING Svårigheterna kring precision gäller troligtvis i än högre grad för poängen inom kriterierna. Det är svårt att sätta adekvata poäng på kvalitativa egenskaper med någon rimlig precision. På samma sätt som för viktningen av kriterierna kan man sätta lite mindre precisa poäng på alternativen inom respektive kriterium (se bild 2). För att få minimipoäng respektive maxpoäng för varje person så laborerar man med viktningen och respektive lägsta och högsta poäng inom intervallet. Den sammanlagda viktningen måste hela tiden bli 100 procent. Då får vi följande sammanvägning av poängen för leverantörerna. : mellan 2,10 och 4,05 : mellan 3,00 och 4,00 : mellan 1,80 och 3,80 : mellan 1,45 och 3,70 Situationen är inte lika tydlig längre. I själva verket avspeglar den att den inte alls var så tydlig från början, utan vi förde bara in en skenbar förenkling och precision genom att stoppa in precisa poäng. Vi har rimligtvis inte mer precision än så här. Snarare mindre. Sedan kan man fundera på om det räcker även om resultatet hade varit mer entydigt. Intervall är ofta svåra att uppskatta särskilt när det gäller bedömning av kvalitativa kriterier. Trots att vi inför intervall verkar det alltså inte helt räcka till, men nu får vi åtminstone en bättre bild över situationen och vad vi eventuellt bör titta vidare på. Andra misstaget: brister med skalor Att införa poängskalor är vanskligt. Om vi till exempel har femgradiga skalor, hur vet vi att de stämmer? Vad baserar vi det på? När man Bild 2 Verklig Bild 3 kostnad Poäng Bild 4 DIPLOM Kompetens Lyhördhet sammanväger det hela genom vårt medelvärde måste man förstå vad det är för poängskalor som hanteras. För att göra en längre historia kort måste man då förutsätta att avståndet mellan 2 och 3 är lika långt som mellan 4 och 5. Vi måste förutsätta att vi använder något som kallas värdedifferensskalor. Annars blir det helt fel som bild 3 nedan visar. Låt oss återvända till skalan och tabell 1 som vi hade. Man kan nu rimligen fråga sig Intervaller. Det går sällan att ange exakta vikter och lagen tillåter därför intervalluppskattningar. Intervall räcker inte helt till, men nu får vi en något bättre bild över anbuden och vad vi bör titta vidare på. Verklig kostnad Poäng om vi inte skulle kunna använda skalan i bild 4 nedan i stället. Den skulle fortfarande vara rimlig enligt våra föresatser. Då får vi följande resultat om värderingen av övriga kriterier är desamma som i tabell 1: : 3,40 : 2,90 : 2,40 : 2,40 Nu är alltså bäst. Det är dilemmat då man hanterar skalor utan att förstå vad man gör. Än mer osäkert blir det då vi hanterar kvalitativa aspekter som kompetens, lyhördhet eller gestaltningskoncept. Här är två delar av dilemmat. Vi kan sällan sätta precisa poäng, utom kanske på priset. Tredje misstaget: poäng för kvalitet Avgörande här är hur upphandlaren ska hantera poängskalor som mäter helt olika saker. Man är ju enligt LOU tvingad att ange kriterievikter på något sätt. Det intressanta här är att upphandlaren inte tvingas att redogöra för sina skalor. Genom att man inte tvingas till det blir viktangivelsen meningslös. Se här nedan på det lite enklare exemplet för att göra det tydligt. Bild 5 Kvalitet A 6 4 Fel. Den här bilden visar att poängskalan blir helt fel när avståndet mellan 1 och 2 är lika långt som mellan 4 och 5. Rimlig. Här har kostnaden fått en annan poängskala. Priset är kanske det enda som går att sätta precisa poäng på. B 4 6 Inget besked. Upphandlaren behöver inte redogöra för sina skalor. Därmed blir viktangivelsen meningslös. Här är skalan 1 10. 46 UPPHANDLING24 NUMMER 5 13

Vid en tänkt upphandling har vi bara två kriterier att ta hänsyn till. Enligt LOU så måste man ange vikter. Vi bestämmer att vikten för: kostnad är 50 procent kvalitet är 50 procent Vi får in två anbud från leverantör A respektive B. Vi gör en värdering på en tiogradig skala som vi har definierat i förfrågningsunderlaget. Vi multiplicerar de två kriterierna med 50 procent och får då samma poäng, 5, för både A och B. Så vill vi inte ha det. Vi vill att kvalitet ska vara viktigare och ändrar viktningen. Vikten för: kostnad ska vara 25 procent kvalitet ska vara 75 procent Vi vill alltså egentligen ha resultatet: A = 4,5 B = 5,5 Nu har vi ju redan angivit vikterna i förfrågningsunderlaget för att lagkravet ska vara uppfyllt. Så de kan vi inte ändra. Men här kommer detta med skalor in. Vi ändrar poängskalan för kostnad från 1 10 till 1 5 och för kvalitet från 1 10 till 1 15. Använder medelvärdet igen och behåller alltså de gamla vikterna. Vi får då som vi ville: A = 4,5 B = 5,5 Bild 6 Kvalitet A 3 6 B 2 9 Ändrad skala. Den här tabellen ska jämföras med bild 5. Vi har ändrat skalan för kvalitet från 1 10 till 1 15 och får fram önskat resultat. Vi har vårt önskade resultat utan att förändra vikterna. Vi justerade bara poängskalan så att vi får det önskade resultatet. LOU kräver alltså inte tillräckligt vad gäller hur värderingen ska gå till. Viktningen saknar alltså mening. Så här kan lösningen se ut Men vi kan använda samma idé för att skapa meningsfulla skalor. Så hör gör man för att åstadkomma en meningsfull upphandling. Vårt förslag baseras på tre insikter. Den första är att kriterievikter kan hanteras på olika sätt. Ofta är en ren rangordning rimlig. Vi behöver inte pressa in kriterievikter som ändå inte har någon betydelse utöver att faktiskt ange en ordning. Det innebär att vi inte viktar utan bara använder rangordning. Vi tar våra ursprungliga kriterier utan att försöka kvantifiera dem. Vi anser ju att kostnaden är avsevärt viktigare än de övriga, följt av kompetens, som är något viktigare än lyhördhet som i sin tur är klart viktigare än gestaltningskonceptet. Den andra insikten är att man sällan kan Poäng peta in precisa värden för alternativa leverantörer under olika kriterier helt utan systematik. Åtminstone inte utan att exakt veta vad man gör. Den tredje är att inse förhållandet mellan viktning och val av skalor. För att få fram vilket anbud som är den bästa affären behövs främst en noggrann behovsanalys och utvinningsprocedur. Det går till så här. 1. Rangordna alternativen i varje kriterium. Antingen är ett alternativ lika bra som ett annat eller så är det bättre eller sämre. Efter att ha betraktat alla alternativ får vi en rangordning från bäst till sämst, möjligen med flera alternativ som lika bra på ett eller flera ställen i rangordningen. Vi har nu fått en enkel rangordning. 2. Ange avstånd inom rangordningen. Börja med det bästa alternativet och jämför med det näst bästa. Ange för varje sådant par om skillnaden mellan dem är liten, normal eller stor genom att benämna skillnaden liten skillnad, klar skillnad eller avsevärd skillnad. När det är klart har vi fått en kvalificerad rangordning. Nu kan vi börja räkna för att få fram det bästa alternativet. Rent matematiskt är det lite komplicerat, men det finns datorprogram, till exempel Decideit från företaget Preference som enkelt beräknar allt det här. Hantering av rangordningar Vi antar att vi har situationen enligt bild 2. Vi utgår från den rangordningen och att den ger nedanstående kvalificerade rangordning inom kriterierna: Bild 7 är vinnaren. Något förenklat kan man säga att ju högre stapeln hamnar i bild 7, desto mer fördelaktigt är alternativet. Vi ser här att borde vinna kontraktet. Men vi kan läsa ut mycket mer ur detta. Vi använder de här beteckningarna: lite bättre klart bättre avsevärt bättre Kompetens Lyhördhet I nästa steg anger vi hur de olika kriterierna förhåller sig till varandra för att kalibrera skalorna. Vi jämför kriteriernas ändpunkter med varandra för att få grepp om hur de inverkar på slutresultatet. Tillvägagångssättet liknar det vi gjorde för att rangordna alternativen under varje kriterium I det här steget tittar vi på de poäng som angivits för alternativen under varje kriterium. Men här jämför vi hur stor förbättringen av ett alternativ är totalt sett om ett visst kriterium skulle förbättras från det sämsta värdet som något alternativ har till det bästa. Alltså vi jämför ändpunkterna på varje kriteriums skala. Hur mycket skulle ett alternativ förbättras om det för ett visst kriterium har det sämsta UPPHANDLING24 NUMMER 54 13 09 47

Affärer MENINGSFULL UPPHANDLING värdet men i stället förändras så att det hade det bästa värdet? Denna förbättring kallas potentialen hos ett kriterium. Förfarandet görs för att erhålla en rangordning för hur viktiga de olika kriterierna är i det nuvarande förfrågningsunderlaget. Man får även med ett slags styrkeförhållande som preciserar denna rangordning. 1. Jämför kriterierna med tanke på kriteriernas potential. Antingen har ett kriterium lika potential som ett annat eller så har det mindre eller större. Efter att ha tittat på alla kriterier får vi en rangordning från högst till lägst, möjligen med flera kriterier som har lika stor potential på ett eller flera ställen. Vi har nu fått en enkel rangordning av potentialerna. 2. Ange avstånd inom rangordningen. Börja med det bästa kriteriet och jämför med det näst bästa. Ange för varje sådant par om skillnaden i potential mellan dem är liten, normal eller stor genom att benämna skillnaden liten potentialskillnad, klar potentialskillnad eller avsevärd potentialskillnad. När det är klart har vi fått en kvalificerad rangordning av potentialerna. Potentialen ha kritererna jämförs I kalibreringen jämförs potentialen hos de fyra kriterierna, alltså hur mycket ett alternativ skulle förbättras om det från början hade det sämsta värdet inom kriteriet men i stället erhöll det bästa. I vårt exempel skulle det innebära att följande ska jämföras: Potentialen hos kriteriet kostnad: från till Potentialen hos kriteriet kompetens: från till Potentialen hos kriteriet lyhördhet: från till Potentialen hos kriteriet gestaltningskoncept: från till Vi använder beteckningarna: liten skillnad klar skillnad avsevärd skillnad Antag att vi genom proceduren fick följande kvalificerade rangordning mellan potentialerna för kriterierna: Kompetens Kompetens Lyhördhet Lyhördhet Ur dessa jämförelser beräknas kardinaltal för varje kriterium som motsvarar dess potential. Ett högre kardinaltal anger högre potential hos kriteriet. Beräkning av kardinaltal sker enkelt i till exempel datorprogrammet Decideit helt utan att några kriterier poängsätts. Sedan kalibreras skalorna för att motsvara det vi har kommit fram till genom jämförelserna: Resultatet är avsevärt svårare att räkna ut för hand, men det finns verktyg för detta i datorprogrammet Decideit. Nu har vi erhållit skalor som motsvarar vad vi kommit fram till under utvärderingen och har fått meningsfulla skalor. Skalorna är transparenta och kan stämmas av mot förfrågningsunderlaget. Resultatet av beräkningarna är intervall inom vilka våra värderingar av alternativen befinner sig. Dessa återfinns i bild 7 på förra sidan. Något förenklat kan man säga att ju högre stapeln hamnar i bild 7, desto mer fördelaktigt är alternativet. Vi ser här att borde vinna kontraktet, liksom då vi angav poäng i det första försöket. Men var det inte lika bra då att använda den första metoden som vi har kritiserat? Nej. Vi har ju visat att den metoden kan leda till helt olika resultat beroende på hur man hanterar skalorna. Till skillnad från i det ursprungliga exemplet görs här inte några översättningar av anbudens svar till skalor. Mer realistisk metod Vi utgår i stället från de faktiska svaren som rangordnas relativt kriterierna i de dokumenterade beslutsunderlagen. Dels bygger den här utvärderingsmetoden på en systematisk analys av de olika faktorerna som finns i värderingen. Dels bygger den inte på artificiella skattningar utan är helt transparent och svarar mer realistiskt mot verkliga uppskattningar. Vidare så ser vi mycket mer från grafen med staplar i förhållande till en traditionell utvärdering. I bild 7 ser vi att s maxvärde är bättre än s men överlappande, vilket borde rendera fortsatta analyser. Men s minsta värde är signifikant lägre, vilket stärker s position. De övriga alternativen kan inte konkurrera med i sammanhanget, men eventuellt med. Vi erhåller på det här sättet både en förbättrad och mer naturlig representation och betydligt mer information från resultatet. Metoden uppfyller LOUs krav Det här beskrivna sättet att hantera utvärderingen vid upphandling är helt förenlig med LOU förutsatt att upphandlaren anger sina kriterier och beskriver sin utvärderingsmetod på det här sättet. Trots att upphandlaren använder intuitivt mer naturliga bedömningar av leverantörernas förslag får man ett resultat som ger en mer fullvärdig analys av underlaget. Metoden pekar inte bara ut leverantören som bör vinna upphandlingen. Om det inte finns en kandidat som är bättre än de övriga så ger den en betydligt klarare bild av situationen och pekar ut var analysens kritiska punkter är, det vill säga var fortsatta utredningsresurser bör sättas in. Skriver om realistisk utvärderingsmetod. Helena Salberg Ström, jurist med fokus på upphandlingar och avtalshantering, och Love Ekenberg, professor i data- och systemvetenskap, båda Stockholms universitet, är två av artikelförfattarna. De övriga är Mats Danielsson, professor vid den samhällsvetenskapliga fakulteten vid Stockholms universitet med mångårig erfarenhet som it-konsult, och Anita Kollerbaur, tidigare universitetslektor och sedan pensioneringen senior rådgivare. Foto: Daniel Wadenius 48 UPPHANDLING24 NUMMER 5 13