Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.usfq.edu.ec/handle/23000/1345
Título : Módulo para Clasificación Automática y Temática de Páginas Web.
Autor : Vinicio, Enrique (dir)
García Muñoz, María del Cisne
Descriptores / Subjects : Sitios Web
Clasificación automática
Algoritmos
Fecha de Publicación : 2012
Ciudad: Editorial : Quito: USFQ, 2012
Cita Sugerida : Tesis (Ingeniera en Sistemas), Universidad San Francisco de Quito, Colegio Politécnico; Quito, Ecuador, 2012.
Resumen / Abstract: La web se ha transformado en uno de los medios de comunicación más utilizados en la actualidad, la mayoría de diseñadores, programadores y usuarios, trabajan con la información que se encuentra en la web. Por ello es de vital importancia la mejor utilización de los recursos disponibles que solamente se logra al contar con algoritmos que resuelvan las necesidades en el menor tiempo posible. Es aquí donde los algoritmos de clasificación juegan un papel muy importante, ya que no solo pueden mejorar la calidad de las búsquedas que se realizan, sino que también permiten optimizar los recursos que ahora se concentran en el tema adecuado. Por ello, el presente proyecto propone, mediante la utilización de coeficientes TFIDF y la técnica de embolsamiento, construir un prototipo de módulo de clasificación automática, temática, simple y eficiente de páginas web, para la integración con el sistema de búsquedas PSearch. Se busca un balance entre exactitud y tiempo de respuesta, para permitir que el sistema PSearch entregue mejores resultados a sus usuarios. Mediante la selección de técnicas de pre-procesamiento simples se quiere extraer información crítica de cada uno de los doc
Descripción : The web has become one of the most commonly used media today, most designers, programmers and users, work with the information found on the web. It is therefore vital to use the available resources in the best way that we can. This can only be achieved by having algorithms that solve the needs in the shortest time possible. This is where classification algorithms play an important role, because not only they can improve the quality of searches performed, but also to optimize the resources, that now are concentrated in the appropriate topic. This is the reason why, this project proposes to build a Simple and efficient prototype of automatic classification, using TFIDF coefficients and bagging techniques for integration with Psearch system. The objective is to find a balance between accuracy and response time to allow the system to deliver better results to the Psearch users. The module uses simple pre-processing techniques to extract vital information from each of the HTML document and then classify them with accuracy above 90%.
URI : http://repositorio.usfq.edu.ec/handle/23000/1345
Aparece en las colecciones: Tesis - Ingeniería en Sistemas

Archivos en este ítem:
Archivo Descripción Tamaño Formato  
103401.pdfTESIS A TEXTO COMPLETO1,28 MBAdobe PDFThumbnail
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons