In English

Distributed Document Processing - Search index optimization by data preprocessing and workload distribution

Johan P Sjöberg ; Sture Svensson
Göteborg : Chalmers tekniska högskola, 2009. 66 s.
[Examensarbete på avancerad nivå]

This thesis investigates the possible improvements to indexing files stored on servers in a local network; it is a known fact that the task of indexing is very time demanding and network consuming. At the same time the servers possess potentially unused processing capabilities. The proposed improvement given by this thesis is to distribute the tasks of text extraction and data processing to the idle processing capabilities of the servers. In addition to the theoretical basis of the improvement a working java prototype is also constructed. The prototype is designed to be capable of interoperability with virtually any existing indexing service via a unison adapter interface. It's also constructed to be able to handle any file type by an extractor interface. In addition the system also provides network synchronization and load distribution mechanisms. The result of the investigation indicates that the gains from the constructed system are substantial, especially regarding decreasing the magnitude of generated network traffic as well as reducing the overall time needed to perform the indexing operation. Relieving the index server of some work also implies that less powerful server configuration is necessary to effectively perform the indexing task. // Sammanfattning Denna uppsats undersöker möjlig förbättring av att samla in nätverkslagrade filer för indexering. Det är ett känt faktum att indexering är en mycket tidskrävande och nätverksbetungande uppgift, samtidigt som servrar som lagrar filer har potentiellt stora mängder outnyttjade resurser. De föreslagna förbättringarna i denna uppsats baseras på att fördela ut textutvinning och databehandling till ledig processeringskapacitet på servrarna. Utöver undersökningar av den teoretiska grunden för förbättringarna har även en applikation skrivits i java. Prototypen är utformad för att vara kapabel att samverka med i princip alla befintliga indexeringstjänster via ett adaptergränssnitt. Den är också byggd för att potentiellt kunna hantera samtliga filtyper via ett textextraheringsgränssnitt. Utöver distribuering så tillhandahåller systemet även nätverkssynkronisering och belastningsdelning. Resultatet av undersökningen visar att vinsten från distribuering är betydande, särskilt när det gäller att minska nätverkstrafiken men även på den totala tidsåtgången för indexeringen. Den minskade belastningen på indexservern leder även till att en mindre kraftfull server kan användas för att utföra indexeringen.



Publikationen registrerades 2010-02-12. Den ändrades senast 2013-04-04

CPL ID: 112070

Detta är en tjänst från Chalmers bibliotek