Spammail En rapport om hur spammail är uppbyggda och hur dem motverkas i dagens samhälle Gustav Adamsson Johan Rothsberg Linköping universitet 2011-02-23 1
Sammanfattning Denna rapport är skriven för att öka förståelsen inom ämnet elektronisk spam. Rapporten behandlar olika typer av spamtekniker till exempel IM spam och mailspam. Det tas också upp några olika tekniker som spammare använder för att dölja sin identitet när dem skickar spammail och spammar över IM-applikationer. I takt med att fler spamtekniker utvecklas behövs det också fler anti-spamtekniker. För att motverka spammail finns det fler olika metoder som används. I denna rapport tas det upp metoder som analyserar innehållet i spammail men också metoder som utgår från sändarens ursprung för att avgöra om det är ett spammail 2
Innehåll Inledning... 4 Bakgrund... 4 Syfte... 4 Frågeställning... 4 Metoder och avgränsningar... 4 Begreppet spam... 5 Olika sätt att skicka spammail... 5 Öppna mail-relayer... 5 Proxyservrar... 5 Botnets... 6 Instant messenger spam... 6 Common gateway interface script... 6 Bekämpning av spam... 7 Metoder som utgår från innehållet i ett spammail... 7 Bayesiskt spamfilter... 7 Regelbaserade spamfilter... 7 SURBL... 8 Metoder som utgår från sändarens ursprung... 8 DNSBL... 8 Greylisting (Grålistning)... 8 Sender Policy Framework (SPF)... 9 Forward-confirmed reverse DNS... 9 Diskussion och slutsatser... 9 Egna tankar... 11 Källor... 12 Tryckta källor... 12 Elektroniska källor... 12 Figurförteckning... 13 3
Inledning Världens första spammail skickades år 1978. Detta var starten till ett nytt sätt att göra reklam, via spammail. Idag skickas det billioner spammail per dag och det kostar samhället väldigt mycket pengar. Ferris Research uppskattade att kostnaden för skadorna gjorda av världens spammail år 2009 var 130 billioner dollar(jennings, 2009). Bakgrund I kursen datornät och internetprotokoll fick vi uppgiften att göra ett projektarbete i ett valfritt ämne. Vi valde ämnet spammail då vi tycker det är ett stort problem som leder till stora och onödiga utgifter för många olika sorters företag världen över men också för att vi tycker att spammail är ett stort irritationsmoment i vardagen. Syfte Målet med detta projekt är att få en djupare kunskap i vilka spammail som förekommer ute på internet men också hur spammail är uppbyggda och hur processen för utskickning av spammail går till. Vi tänkte också titta närmare på olika anti-spamtekniker som finns för att motverka spam. Detta vill vi göra för att kunna förmedla det vidare till andra personer som läser kursen tdts09 på den kommande muntliga redovisningen. Frågeställning I denna projektrapport tänker vi besvara följande frågor då vi tycker att de här frågorna återspeglar det mest relevanta inom ämnet. Vilka olika metoder för att skicka spammail finns det? Vilka olika metoder för att motverka spammail finns det? Hur motverkas spammail i dagens samhälle? Metoder och avgränsningar För att förstå hur de olika spamteknikerna fungerade krävdes det mycket studier av litteratur. Det krävdes också litteraturstudier för att förstå skillnaderna mellan de olika sorterna spam som finns. Vi behövde också studera diverse RFCer för att se hur motverkandet av spammail ser ut i de olika protokollen. För att få en bättre förståelse för hur det går till när man skickar spam skulle det vara bra om det gick att testa olika sätt att skicka spammail. Då det är olagligt att skicka spam enligt svensk lag är det inte möjligt att göra detta (Sveriges lag, #19). 4
Begreppet spam Spam är ett samlingsbegrepp för oönskad e-post. Det som inkluderas i detta begrepp är bland annat störande marknadsföring men också mail som lockar användaren att ge ifrån sig känslig information såsom kontouppgifter. En annan typ av spam är mail som innehåller virus gjorda för att överta kontrollen av en annan dator(rådmark, 2008). Olika sätt att skicka spammail Det finns många sätt att skicka spammail på och det kommer att finnas fler i framtiden. Det utvecklas fler och fler sätt att skicka spammail på samtidigt som de gamla sätten att skicka spammail på slutar att fungera på grund av att det utvecklas nya protokoll och nya tekniker för att motverka spammail. Ett mål som en spammare strävar efter är att inte avslöja sin identitet.(spammer X, 2004) Därför används många spammetoder bara för att dölja spammarens egentliga identitet. I detta avsnitt kommer några tekniker på hur man skickar spammail att förklaras. Öppna mail-relayer Att använda öppna mail-relayer var ett av de första sätten att skicka spam på över internet.(spammer X, 2004) En mail-relay fungerar på så sätt att den skickar mail vidare till andra SMTP-servrar. Om den är öppen kan alla som har en internetuppkoppling komma åt den och skicka mail över den. Om en spammare bestämmer sig för att spamma genom användandet av en öppen mail relay behöver den personen bara skicka ett mail och en lista på vilka som ska ha mailet. Detta sätt att spamma på var mycket effektivt ur ett bandbreddsperspektiv då man bara behöver skicka ett mail istället för att skicka ett mail till var och en av dem som ska få spammeddelandet. (Indiana university, 2004) Proxyservrar Öppna proxyservrar används flitigt av spammare. En spammare kan använda en proxyserver till att dölja sin identitet. Spammaren får proxyservern att skicka mailet till mottagaren vilket gör att det i mailets huvud står proxyserverns IP-adress istället för spammarens. Detta gör att mottagaren inte kan se vad den egentliga spammarens IP-adress är. Detta är väldigt användbart för en spammare då de kan vara anonyma och inte behöver röja sin identitet(spammer X, 2004). 5
Botnets Ett problem för spammaren när han spammar via mail-relayer eller proxyservrar är att det är lätt att den mail-relayen eller proxyservern upptäcks och blir svartlistad som spamsändare i en Domain Name System Blacklist(DNSBL), DNSBL förklaras senare i rapporten. Detta gör att spammaren hela tiden måste hitta nya mail-relayer och proxyservrar som inte än är använda av spammare och inte svartlistade. Det finns sätt att spamma på där spammaren slipper tänka på detta. Ett av dem sätten är att använda botnets. Ett botnet är en samling av klienter som spammaren kan kontrollera genom att ha lyckats lägga in ett virus på dem. Dessa virus är oftast trojaner som är programmerade att starta upp ett IRC-program på datorn och gå in på en inprogrammerad kanal där spammaren kan styra alla sina spambots genom olika kommandon. Spammaren kan nu få klienterna som är infekterade av spambotarna att skicka spammail utan att ha direktkontakt med spambotarna. Detta gör att dessa spammail blir väldigt svåra att spåra för mottagaren. En spammare kan även dra andra fördelar genom att äga ett väl etablerat botnet. Spammaren har till exempel tillgång till mängder av mailkonton där han kan gå in och ta mailadresser för senare användning.(spammer X, 2004) Instant messenger spam Instant messenger(im spam, också kallat spim är en teknik som gör att man kan spamma över IMapplikationer. Spim fungerar på så sätt att spammaren skickar ett meddelande till andra användare som sedan dyker upp på användarnas skärm genom deras IM-applikationer. För att göra detta måste spammaren hitta användaradresser att skicka sitt spam till. Detta kan spammaren göra genom att lägga in ett virus på andra användares datorer som tar kontakterna från kontaktlistan och skickar dem till spammaren.(biever, 2004) Ett annat sätt att lyckas få tag på användare är att slumpa dem med en slags slumpgenerator. Det är inte säkert att alla användaradresser som slumpas fram existerar men det ökar mängden av användaradresser som spammaren kan spamma till.(spammer X, 2004). Common gateway interface script Common gateway interface, kallat CGI är ett slags protokoll eller en uppsättning regler. Datorprogram som använder sig av detta regelverk kallas CGI-interface. Ett CGI-script underlättar kommunikation mellan en användare och en webbsida. Ett exempel på vad ett CGI-script kan användas till är att användarna kan skicka meddelanden via CGI-scriptet till webbmastern. Detta drar 6
spammare nytta av då dem kan kapa ett CGI-script och göra det till sin egen mail-gateway som skickar spammail till alla som kommer i kontakt med det här CGI-scriptet. (Cousins m.fl., Okänt år) Bekämpning av spam Nya spamtekniker uppkommer hela tiden och spamattackerna blir alltmer komplexa. Detta får som följd att metoderna för att bekämpa spam också blir fler och alltmer avancerade. De olika metoderna för att bekämpa spam kan delas in i tre kategorier. 1. Metoder som utgår från innehållet i ett spammail. 2. Metoder som utgår från sändarens ursprung. 3. Strategier av samhället för att minska spam, t.ex. lagstiftning. Det finns väldigt många metoder för att bekämpa spam men i denna rapport kommer vi titta närmre på några metoder ur kategori 1 och 2. Metoder som utgår från innehållet i ett spammail Bayesiskt spamfilter Bayesiskt spamfilter är en teknik som använder sig av statistik och sannolikhet för att filtrera bort spammail. Statistiken bygger på att koppla användandet av tecken till spammail eller vanliga mail. Statistiken används sedan för att räkna ut sannolikheten att ett mail är ett spammail eller inte(zdziarski, 2005). När ett filter börjar användas vet det inte vilka egenskaper ett spammail har. Filtret behöver då tränas upp för att lära sig ett spammails egenskaper och innehåll. För att träna filtret behöver användaren manuellt ange om ett nytt mail är spam eller inte. Ett vältränat spamfilter kan sortera bort en stor del av spammail. Nackdelen med Bayesiskt spamfilter är att man inte kan vara absolut säker att legitima e-mail sorteras bort av misstag. Regelbaserade spamfilter Denna teknik använder sig av bestämda regler för att filtrera bort spammail. Dessa metoder behöver till skillnad från Bayesiskt spamfilter inte tränas upp utan den utgår från redan bestämda regler. Ett regelsystem kan till exempel vara en stoppordlista, där mailet sorteras ut beroende på förekomster av ord. Dessa system fungerar olika bra, system som är uppbyggda på väldigt enkla stoppordlistor utgör inget större hinder för spammare att ta sig förbi. Sedan finns det även mer avancerade system 7
som fungerar betydligt bättre. De bygger på samma princip men har fler och mer avancerade regeluppsättningar. Denna teknik har precis som Bayesiskt spamfilter nackdelen att den kan sortera bort legitima mail av misstag. SURBL SURBL är ett anti-spamsystem som inte begränsar filtreringen till bara avsändaradressen. Detta system undersöker eventuella länkar till webbplatser som finns i mail och kontrollerar dessa länkar mot en databas(surbl, 2010). Ofta byter spammare avsändaradress men länken till den webbplatsen som spammaren vill att man ska besöka är oftast samma. SURBL-system uppdateras 240 gånger om dagen vilket behövs då användare kan rapportera in webbplatser som funnits i spammail. Allt för att hålla systemet aktuellt och effektivt. Metoder som utgår från sändarens ursprung DNSBL Domain Name System Blacklist, också känd som DNSBL är listor för blockering av skräppost. Funktionen går ut på att när en klient ska ansluta sig till en SMTP-server för att sända e-post kan servern kolla upp klientens IP-adress mot en DNS Blacklist. DNS Blacklist tillhandahåller en lista med domännamn och IP-adresser som någon gång har skickat skräppost(al Iverson, 2007). Listan är baserad på internets Domain Name System som konverterar IP-adresser till domännamn. Vilket gör listorna enklare att läsa, använda och söka i. Om den ansvariga för en viss DNS Blacklist någon gång mottagit någon skräppost från ett specifikt domännamn blir den servern blacklisted och alla meddelande som sänds från den ska bli märkta eller raderade från alla sidor som använder den listan. En nackdel med DNS Blacklist är att det är omöjligt att hålla koll på alla servrar som skickar ut spammail och att listorna måste uppdateras ständigt för att vara så effektiva som möjligt. Greylisting (Grålistning) Grålistning är en metod som bygger på omsändning av mail om det kommer från en tidigare okänd sändare. Hur mail ska skickas från sändare till mottagare finns specificerat i RFC 5321. Enligt stycke 4.5.4.1 (Sending Strategy) måste en mail-server vänta och försöka igen om meddelandet inte kan skickas första gången. Om e-postmeddelandet kommer från en tidigare okänd sändare ska det avvisas med ett försök igen meddelande. Då lagras mailet för att kunna skickas vid en senare tidpunkt(evan Harris, 2003). 8
När en spammare inte lyckas skicka första gången ger spammaren oftast upp för att det är mer lönsamt att gå vidare till nästa mottagare i listan. Nackdelar med denna metod är att sändningen av mail kan bli fördröjd eller i vissa fall t.o.m. försvinna p.g.a. dåliga mail-system som inte kan lagra meddelande i kö. Sender Policy Framework (SPF) Den nuvarande SMTP-protokollet har egenskapen att när en klient skickar mail till en mailserver kan klienten identifiera sig som vilken domän som helst. Många spammare använder sig av detta för att inte kunna bli identifierade och spårade. Detta gör att många domäninnehavare är oroliga för att andra ska använda sig av deras domän. Vilket oftast sker med ett elakt syfte. För att undvika detta kan domäninnehavare publicera Sender Policy Framework (SPF), ett dokument som specificerar vilka klienter som får använda sig av dess namn och mailmottagare kan använda sig av det publicerade dokumentet för att kontrollera sändarens befogenhet(julian Mehnle, 2010). Kontrollen sker när mottagaren endast mottagit kommandona HELO och MAIL FROM och kan därför radera eller markera mailet som skräppost innan mottagaren har tagit emot e-mailets kropp. Forward-confirmed reverse DNS Den här tekniken används av de flesta mailservrar för att kontrollera att en given IP-adress stämmer överens med domännamnet och tvärtom, att domännamnet stämmer överens med IP-adressen. Denna kontroll görs genom att först göra en reverse DNS lookup på IP-adressen vilket resulterar i en lista med noll eller flera domännamn. Sedan görs en DNS lookup på alla domännamn i listan, vilket ger en IP-adress som resultat och om den IP-adressen stämmer överens med original IP-adressen är kontrollen klar och mailet klassificeras som ett legitimt mail. Många spammare använder som sagt falska domännamn för att inte kunna bli spårade, alltså kommer deras mail inte klara denna kontroll. Diskussion och slutsatser Det finns många anti-spamtekniker som används idag men alla har något gemensamt, de har sina för och nackdelar. Ingen anti-spamteknik fungerar tillräckligt bra för att kunna användas som ett spamskydd utan andra komplement. Spärrlistor såsom DNSBL är ett bra skydd mot spammail då mail från opålitliga användare inte blir avvisade eller markerade som skräppost. Nackdelen med dessa typer av skydd är att spammare kan 9
ta över pålitliga användares identiteter för att skicka spammail. Till exempel om en spammare lyckas spamma genom ett företags IP-adresser blir dem svartlistade. Detta skulle leda till att företaget inte kan kontakta utomstående kunder så länge dem är svartlistade trots att företaget inte har för avsikt att skicka spam. Anti-spammetoder som analyserar innehållet är en bra metod för att filtrera bort spam då de flesta spammail har liknande uppbyggnad. Det finns dock brister i dessa metoder. Ett exempel på ett kryphål i många av dessa metoder är att ifall spammaren utformat sitt budskap i spammailet med en bild kommer dessa metoder inte kunna filtrera bort mailet. Ett annat problem med dessa metoder är att en smart spammare kan ta sig runt regelverken då han kan testa sig fram hur de är uppbyggda och sedan utforma mailen så att dem inte upptäcks. Utifrån beskrivningarna av de olika anti-spamteknikerna behöver det vara en kombination av dessa för att uppnå ett bra resultat. Exempelvis använder sig gmail av till exempel SPF och högst troligt även spärrlistor. Trots detta fungerar inte gmails spamskydd till hundra procent. Detta för att det finns så många olika typer av spam och det utvecklas nya typer hela tiden. Idag finns det inget spamskydd som tar bort alla spammail men samtidigt inte tar bort något legitimt mail. Vi tror att elektronisk spam alltid kommer förekomma i någon form och mängd oberoende av hur effektiva motmedel som utvecklas. Detta därför det alltid finns människor som vill bestiga även de högsta bergen och det är alltid någon som lyckas. Utifrån att ha analyserat smtp-protokollet och hur olika anti-spamtekniker fungerar har vi dragit slutsatsen att bekämpningen av spam har varit för mycket inriktad på att motverka bieffekterna istället för att motverka källan till problemet. Vi tycker att en stor del i problemet med spam är smtpprotkollet då det protokollet inte kräver att den ursprungliga sändarens ip-adress finns i huvudet hela vägen fram till mottagaren. 10
Egna tankar Problemet med spam måste lösas då det går åt väldigt mycket resurser för bland annat företag till att röja upp efter spammarna. Detta är en onödig utgift i dagens samhället då knappt någon läser spammail. Avslutningsvis vill vi visa hur vi tror att människan ser på spam idag genom en bild. Fig1 En seriestrip från dorktower 11
Källor Tryckta källor Spammer X. Inside The Spam Cartel: Trade secrets from the dark side, 2004. J. Klensin. Simple mail transfer protocol: RFC 5321, 2008. M. Wong & W. Schlitt, Sender policy framework (SPF) for authorizing use of domains in e-mail: RFC 4408. 2006. J. Levine. DNS Blacklists and Whitelists: RFC 4408. 2010. J. Zdziarski. Ending Spam Bayesian content filtering and the art of statistical language classification, 2005 Elektroniska källor Richi Jennings(2009). The cost of spam, <http://www.ferris.com/research-library/industry-statistics>. Julian Mehnle(2010). SPF, <http://www.openspf.org>, Hämtat 2011-02-22. Al Iverson(2007). What is a DNSBL?, <http://www.dnsbl.com>, Hämtat 2011-02-21. E. Harris(2003). Greylisting, <http://projects.puremagic.com/greylisting/whitepaper.html> Hämtat 2011-02-21. M. Sars, H. Rådmark(2009). UPD-2, <http://www.upstream.se/pub/1763/upd2.pdf>, hämtat 2011-02-20. Okänd författare @ upstream(2008). Eliminera, klassificera och eliminera, <http://www.upstream.se/?page=513>, hämtat 2011-02-20. Okänd författare @ upstream(2008). Dags att stoppa spam, <http://www.upstream.se/?page=643>, hämtat 2011-02-20. Okänd författare. Marknadsföringslag, <https://lagen.nu/2008:486#19>, hämtat 2011-02-20. Okänd författare. Open relay, <http://web.archive.org/web/20070824005337/http://searchnetworking.techtarget.com/sdefinition /0,,sid7_gci782509,00.html>, hämtat 2011-02-20. 12
C. Biever. Spam being rapidly outplaced by spim, <http://www.newscientist.com/article/dn4822- spam-being-rapidly-outpaced-by-spim.html>, hämtat 2011-02-20. Figurförteckning Fig 1: John Kovalic. Classic dork tower277, < http://www.dorktower.com/2011/02/17/dork-towerclassic-thursday-february-17-2011> 13