In English

Implementing best practices for fraud detection on an online advertising platform

Martin Häger ; Torsten Landergren
Göteborg : Chalmers tekniska högskola, 2010. 60 s.
[Examensarbete på avancerad nivå]

Fraud against online advertisements, most notably click fraud, is a problem that in recent years has gained attention as a serious threat to the advertising industry. In 2007, Google Inc. estimated[3] that 10 percent of clicks on advertisements in their AdWords program were not legitimate user clicks, which translates into a one billion USD yearly revenue loss after filtering out these clicks. Click fraud detection is not an unaddressed problem, but could largely be considered a "secret art" as little open research exists on the topic.
In this thesis, the application of general outlier detection and classification methods to the problem of detecting fraudulent behavior in an online advertisement metrics platform will be explored. Furthermore, the development of a fraud detection system based on such methods will be described. In the process, several different data mining algorithms will be evaluated based on prediction accuracy and performance.
We empirically show that satisfactory detection accuracy can be achieved by introducing supervised machine learning into the detection process - given that an appropriate set of training data can be constructed. Such a solution would also be able to benefit from the extraction of training data across a large customer base. We design and implement a system based on a three-step feedback process and find that it scales well in a distributed setting.

Bedrägeri mot Internetreklam, i synnerhet klickbedrägeri (eng. click fraud), är ett problem som på senare år har uppmärksammats som ett allvarligt hot mot reklamindustrin. Under 2007 uppskattade[3] Google Inc. att klicktrafiken mot annonser i deras AdWords-program innehöll ungefärligen 10 procent falska klick, motsvarande en årlig intäktsförlust på en miljard USD efter att dessa klick filtrerats bort. Detektering av klickbedrägeri är ej ett obehandlat problem, men kan på många sätt ses som en "hemlig konst" då det existerar lite öppen forskning inom området.
I detta examensarbete utforskas hur generella metoder för avvikelsedetektering och klassificering kan användas för att detektera bedrägeri mot reklam i en plattform för mätning av nätbaserade reklamkampanjer. Examensarbetet beskriver även utvecklingen av ett system för detektering av bedrägligt beteende baserat på dessa metoder. Under arbetets gång har ett flertal data miningalgoritmer utvärderats utifrån deras precision och prestanda.
Vi visar empiriskt att fullgod detektionsnoggrannhet kan åstadkommas genom att introducera övervakad maskininlärning i detekteringsprocessen - givet att lämplig träningsdata kan konstrueras. En sådan lösning skulle även kunna dra nytta av att träningsdata kan extraheras över en stor kundbas. Vi designar och implementerar ett system i form av en trestegsprocess med återkoppling och finner att det skalar väl i en distribuerad miljö.

Nyckelord: data mining, machine learning, classification, click fraud, impression, data mining, maskininlärning, klassificering, klickbedrägeri, impression



Publikationen registrerades 2010-09-23. Den ändrades senast 2013-04-04

CPL ID: 126824

Detta är en tjänst från Chalmers bibliotek