Diseño e Implementación de mecanismos de búsqueda contextualizada y anotado a través de la web semántica



Diseño e Implementación de mecanismos de búsqueda contextualizada y anotado a través de la web semántica

José Manuel Romero Chávez
 

Texto completo de la Tesis     

 



Resumen

Actualmente los motores de búsqueda más populares (Google por ejemplo) realizan recorridos a través de toda la Web, con el objetivo de indexar las páginas y documentos disponibles en la red, para proporcionar mejores resultados a las consultas del usuario; sin embargo, considerando el ritmo de crecimiento de la Web y la heterogeneidad de la misma, este recorrido resulta costoso en recursos como memoria, procesamiento, ancho de banda y almacenamiento. Los crawlers1 focalizados abordan de cierta manera esta problemática permitiendo hacer exploraciones enfocadas a un tema específico. En el presente proyecto de tesis se presenta el diseño y la implementación de un mecanismo de búsqueda que permite encontrar la información acorde al contexto semántico del usuario. Este mecanismo hace uso de dos crawlers específicos para llevar a cabo la extracción de ontologías y documentos de texto para su posterior organización de forma semántica. Se aborda el problema de la heterogeneidad de documentos existentes en la Web en la medida de lo posible. El caso de uso es la reorganización de la información científica (artículos, libros, etc.) a la que tiene acceso la comunidad del CINVESTAV con la finalidad de facilitar el manejo de la misma.

1Buscadores que rastrean las páginas web en busca de información (araña Web)

 

Abstract

In order to index the pages and files available on the network and provide better results for user queries, the most used search engines (Google for example) make explorations across the Web. However, considering the Web’s growth rate and its heterogeneity, these explorations are costly in resources like memory, processor, bandwidth and storage. Focused crawlers address these problems allowing to execute more focused explorations on the Web. In this thesis project we propose the implementation of a search mechanisms which allow us to find information according to the user’s semantic context. We propose the use of two focused crawlers for the extraction of ontologies and text documents, the information retrieved by the crawlers is organized in a semantic structure. With this proposal we pretend to adress the problem of heterogeneity of documents found on the Web. A use case is presented related with the reorganization of scientific information that is accessed by the community of CINVESTAV in order to facilitate the management of all that information.