Prototipo de sistema de filtrado por contenido para la diseminación de información contenida en la web

dc.contributor.advisorPérez Alcázar, José de Jesús
dc.contributor.authorAmaya Díaz, Javier Enrique
dc.contributor.authorCañate Celedón, Jair José
dc.contributor.authorCarvajal Pineda, Carlos Fernando
dc.contributor.cvlacAmaya Díaz, Javier Enrique [0000164326]spa
dc.coverage.campusUNAB Campus Bucaramangaspa
dc.coverage.spatialBucaramanga (Santander, Colombia)spa
dc.date.accessioned2024-10-21T14:36:13Z
dc.date.available2024-10-21T14:36:13Z
dc.date.issued2002-01-20
dc.degree.nameIngeniero de Sistemasspa
dc.description.abstractEl reciente y dramático crecimiento del Internet, es un claro signo de que la computación está entrando en una nueva era. Por esto es necesario empezar a reconocer nuevos conceptos como el filtrado y recuperación de información que nos permiten mostrar los documentos más relevantes de acuerdo con los perfiles de sus usuarios. Existen diversos modelos para dicha labor, entre los que se encuentran los modelos clásicos como el modelo Booleano y Vectorial, los cuales tiene un formalismo simple porque la relevancia de los documentos recuperados se basa simplemente en la igualación parcial de los términos indexados en los documentos y las consultas. Otros modelos como el LSI, (indexación semántico latente), toma un paso adelante y además de trabajar con términos indexados, trabaja con “conceptos”, es decir, recupera documentos cuyos términos indexados no se encuentran en la consulta del usuario pero que también son relevantes. El modelo de redes neuronales tiene una función similar pero trabaja algoritmos de aprendizaje.spa
dc.description.abstractenglishThe recent and dramatic growth of the Internet is a clear sign that computing is entering a new era. For this reason, it is necessary to begin to recognize new concepts such as filtering and information retrieval that allow us to display the most relevant documents according to the profiles of their users. There are various models for this task, among which are the classic models such as the Boolean and Vector models, which have a simple formalism because the relevance of the retrieved documents is based simply on the partial matching of the indexed terms in the documents and the queries. Other models such as LSI (latent semantic indexing) take a step forward and, in addition to working with indexed terms, work with “concepts”, that is, retrieve documents whose indexed terms are not found in the user’s query but are also relevant. The neural network model has a similar function but works with learning algorithms.spa
dc.description.degreelevelPregradospa
dc.description.learningmodalityModalidad Presencialspa
dc.description.tableofcontentsIntroducción 1. Generalidades 5 1.1. Diseminación selectiva de información 5 1.2. Filtrado de información 6 1.2.1. Filtrado social o colaborativo. 6 1.2.1.1. Usuarios de un sistema de filtrado. 7 1.2.2. Filtrado basado en eventos 7 1.2.3 filtrado basado en reputación 10 1.2.4. Técnica de filtrado cognitivo o basado en contenido 12 2. Filtrado y recuperación de información 2.1. Conceptos básicos18 2.1.1. La tarea del usuario 2.1.2. La vista lógica del documento 2.2. El perfil en filtrado por contenido 20 3. Representación del documento 22 3.1. Estructura de almacenamiento de datos 23 3.1.1. Listas o archivos invertidos 23 3.2. Indexación automática 3.2.1. Identificación de términos. 25 3.2.2. Remoción de “stopwords”. 26 3.2.3. Normalización morfológica. 27 3.2.4. Calculo de relevancia. 30 3.2.5. Selección de términos. 4. Modelos de recuperación 34 4.1. Modelos de recuperación 4.2. Características de los modelos clásicos 36 4.2.1. Modelo booleano 36 4.2.2. Modelo vectorial 37 4.2.3. Modelo probabilístico 38 4.3. Modelo vectorial en recuperación de Información 4.4. Modelos algebraicos alternativos 43 4.4.1. Modelo de indexación semántico latente 43 4.4.2. Modelo de redes neuronales 47 4.4.2.1. Definiciones de una red neuronal 49 4.4.2.2. Ventajas que ofrecen las redes neuronale 4.4.2.2.1. Aprendizaje adaptativo 51 4.4.2.2.2. Auto-organización 52 4.4.2.2.3. Tolerancia a fallos. 53 4.4.2.2.4. Operación en tiempo real. 54 4.4.2.2.5. Fácil inserción dentro de la tecnología existente 55 4.4.2.3. Niveles o capas de una red neuronal 57 4.4.2.4. Mecanismos de aprendizaje 58 4.4.2.4.1. Aprendizaje por corrección de error 4.4.2.4.2. Aprendizaje por refuerzo 63 4.4.2.4.3. Aprendizaje estocástico 64 4.4.2.4.4. Aprendizaje no supervisado 65 4.4.2.5. Modelo de redes neuronales para la recuperación de 66 Información 5. Comparación y evaluación de los modelos de 71 Filtrado por contenido 5.1. Pruebas en el modelo booleano 73 5.2. Pruebas en el modelo vectorial 76 5.3. Pruebas en el modelo de redes neuronales 78 5.4. Pruebas en el modelo de indexación 80 Semántico latente 6. Prototipo de sistema de filtrado de 83 Información basada en contenido 6.1. Preanálisis 83 6.1.1. Casos de uso descripción 83 6.1.1.1. Validar usuario 84 6.1.1.2. Suscribirse al sistema 85 6.1.1.3. Activar proceso de filtrado 86 6.1.1.4. Definir perfil 87 6.1.1.5. Consultar información 88 6.2. Análisis. 89 6.2.1. Diagramas de secuencia y colaboración 6.2.2. Diagrama de clases 99 6.2.3. Diccionario de datos para el diagrama de clases 100 6.2.4. Diagrama de actividades 102 6.2.4.1. Usuario 102 6.2.4.2. Método 103 6.2.4.3. Vector espacial 105 6.3. Diseño 106 6.3.1. Diagramas correspondientes a la ingeniería de casos de 106 Uso. 6.3.2 descripción procedimental de objetos. 109 6.3.3. Descripción de pantallas 113 6.3.4. Arquitectura del sistema 117 6.3.5 desarrollo del sistema 120 7. Conclusiones 123 8. Recomendaciones 125 9. Bibliografía 126spa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameinstname:Universidad Autónoma de Bucaramanga - UNABspa
dc.identifier.reponamereponame:Repositorio Institucional UNABspa
dc.identifier.repourlrepourl:https://repository.unab.edu.cospa
dc.identifier.urihttp://hdl.handle.net/20.500.12749/27025
dc.language.isospaspa
dc.publisher.facultyFacultad Ingenieríaspa
dc.publisher.grantorUniversidad Autónoma de Bucaramanga UNABspa
dc.publisher.programPregrado Ingeniería de Sistemasspa
dc.publisher.programidISI-1791
dc.relation.referencesARMSTRONG, R., FRIETAG, D., JOACHIMS, T. y MITCHELL, T„ WebWatcher: a learning apprentice for the world wide web. En Proceedings of the 1995 AAAI Spring Symposium of Information Gathering from Heterogeneous, Distributed Environments, Stanford, CA, 1995. AAAI Press. [spa
dc.relation.referencesBAEZA Yates, Ricardo A. String Searching Algorithms. En FRAKES, William B. y BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. UpperSaddle River, New Jersey: Prentice Hall PTR, 1992.spa
dc.relation.referencesBAEZA YATES, Ricardo y FRAKES, William B. Information Retrieval Data Structures & Algorithms. Prentice Hall PTR, Upper Saddle River, New Jersey. 1992.spa
dc.relation.referencesBAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addisson WesleyACM Press. 1992.spa
dc.relation.referencesBAKEL, Bas van. Modern classical document indexing: a linguistic contribution to knowledge-based IR. En Annual International ACM-SIGIR Conference on 12R research and Development in Information Retrieval (SIGIR’98) 1998. Melborne, AU. Proceedings. New York ACM Press, 1998. p.333-334.spa
dc.relation.referencesBELKIN Nicholas J. y CROFT W. Bruce. Information filtering and information retrieval: Two sides of the same coin? Communications of the ACM, 35(12):29-38. Diciembre 1992.spa
dc.relation.referencesBHARAT, K. y HENZINGER, M. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 104-111, August 1998.spa
dc.relation.referencesBOOCH, Grady, JACOBSON, Ivar Y RUMBAUGH, James. The Unified Modeling Languaje. Addison Wesley Longman Inc. Rational Software Corporation. 1999.spa
dc.relation.referencesCORTHOUST, Jan. The DSI Service of VUBIS-Antwerpen of Antwerp. 1996. http:/143.169.20.1/MAN/SDIE/# corp-auspa
dc.relation.referencesDELGADO, J.A. Agent - Based Information Filtering and Recommender Systems on the Internet. PhD. Thesis, Nagoya Institute of Technology. Marzo 2000.spa
dc.relation.referencesFOX, Christopher. Lexical analysis and stoplists. En: FRAKES, William B. y BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. UpperSaddle River, New Jersey: Prentice Hall PTR, 1992. p. 102-130.spa
dc.relation.referencesFRAKES, William B. Stemming Algorithms. En FRAKES, William B. BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. Upper Saddle River, New Jersey: Prentice Hall PTR, 1992.spa
dc.relation.referencesGILES, L„ BOLLACKER, K. y LAWRENCE, S. CiteSeer An Automatic Citation Indexing System. En Proceedings of the 3rd ACM Conference on Digital Librarles.spa
dc.relation.referencesKAUTZ, H., SELMAN, B. y SHAH, M. The Hidden Web. Al Magazine. Summer 1997. AAAI Press.spa
dc.relation.referencesKLEINBERG, J. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. To appear in Journal of the ACM. 1999. Also appears as IBM Research Report RJ 10076, May 1997. [spa
dc.relation.referencesKORFHAGE, Robert R. Information Retrieval and Storage. New York: John Wiley & Sons, 1997.spa
dc.relation.referencesKOWALSKI, Gerald. Information Retrieval Systems: Theory and Implementation. Boston: Kluwer Academic Publishers, 1997.spa
dc.relation.referencesKRAAIJ, Wessel y POHLMANN, Renée. Viewing stemming as recall enhancement. En Annual International ACM-SIGIR Conference on research and Development in Information Retrieval (SIGIR’96), 1996, Zurich, Switzerland. Proceedings. New York: ACM Press, 1996. p.40-48.spa
dc.relation.referencesMEADOW, Charles T. Text Information Retrieval Systems. Academic Press, 1992spa
dc.relation.referencesMLADENIC, Dunja y GROBELNIK, Marko. Feature Selection for Classification Based on Text Hierarchy. En: Conference on Automated Learning and Discovery (CONALD-98), 2000, Proceedings. Pittsburg: Carnegie Mellón University, 2000. p.6p. http://www.cs.cmu.edu/afs/cs/user/dunja/www/pww.htmlspa
dc.relation.referencesOARD W, Douglas. A conceptual Framework for Text Filtering. University of Maryland, College Park, Mayo, 1996. http://www.enee.umd.edu/medlab/filter/filter.htmlspa
dc.relation.referencesPAGE, L. Y BRIN, S.. The Anatomy of a Search Engine. The Seventh International VWVW Conference (WWW’98). Brisbane, Australia, April 14-18, 1998. 129 [23] Pérez, Claudia. Agentes Móviles en Bibliotecas Digitales, [online]. [citado 17 mar., 2001], Disponible de <http://ict.pue.udlap.mx/pubs/claudia/cap1.html>spa
dc.relation.referencesPERKOWITZ, M. y ETZIONI, O. Adaptive Web Sites: Automatically Synthesizing Web Pages. En Proceedings of the American National Conference on Artificial Intelligence AAAI-98.spa
dc.relation.referencesRILOFF, Ellen. Little words can make big difference for text classification. En Annual International ACM-SIGIR Conference on research and Development in Information Retrieval (SIGIR’95), 1995, Seattle, USA. Proceedings. New York: ACM Press, 1995.spa
dc.relation.referencesSALTON, Gerard y BUCKLEY, Chris. Improving Retrieval Performance by Relevance Feedback. Ithaca, New York. Department of computer science, Cornell University, 1987. (Technical Report).spa
dc.relation.referencesSALTON, Gerard. MACGILL, Michael J. Introduction to Modern Information Retrieval. New York: McGRAW-Híll, 1983.spa
dc.relation.referencesScott Deerwester, Susan T. Dumais, George W. Fumas, Thomas K. Laundauer, Richard Harshman. Indexing by Latent Semantic Analysis.spa
dc.relation.referencesWILBUR, J. W. y SIROTKIN, K. The Automatic Identification of Stop Words. Journal of Information Society, v.18, , p.45-55. 1992.spa
dc.relation.referencesVAN RIJSBERGEN, C. J. Information retrieval. Butterworthsspa
dc.relation.referencesYANG, Yiming y PEDERSEN, Jan O. A comparative study on features selection in text categorization. School of Computer Science, Carnegie Mellón University, 1997.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.subject.keywordsSystems engineerspa
dc.subject.keywordsTechnological innovationsspa
dc.subject.keywordsSelective disseminationspa
dc.subject.keywordsStorage systemsspa
dc.subject.keywordsInformation retrievalspa
dc.subject.keywordsInformation retrievalspa
dc.subject.keywordsArtificial intelligencespa
dc.subject.keywordsNeural networks (Computer science)spa
dc.subject.lembIngeniería de sistemasspa
dc.subject.lembInnovaciones tecnológicasspa
dc.subject.lembRecuperación de informaciónspa
dc.subject.lembInteligencia artificialspa
dc.subject.lembRedes neuronales (Computadores)spa
dc.subject.proposalDiseminación selectivaspa
dc.subject.proposalSistemas de almacenamientospa
dc.subject.proposalRecuperación de informaciónspa
dc.titlePrototipo de sistema de filtrado por contenido para la diseminación de información contenida en la webspa
dc.title.translatedPrototype of content filtering system for the dissemination of information contained on the webspa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersion
dc.type.localTrabajo de Gradospa
dc.type.redcolhttp://purl.org/redcol/resource_type/TP

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
2002_Amaya_Diaz_Javier.pdf
Tamaño:
22.48 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
829 B
Formato:
Item-specific license agreed upon to submission
Descripción: