Prototipo de sistema de filtrado por contenido para la diseminación de información contenida en la web
| dc.contributor.advisor | Pérez Alcázar, José de Jesús | |
| dc.contributor.author | Amaya Díaz, Javier Enrique | |
| dc.contributor.author | Cañate Celedón, Jair José | |
| dc.contributor.author | Carvajal Pineda, Carlos Fernando | |
| dc.contributor.cvlac | Amaya Díaz, Javier Enrique [0000164326] | spa |
| dc.coverage.campus | UNAB Campus Bucaramanga | spa |
| dc.coverage.spatial | Bucaramanga (Santander, Colombia) | spa |
| dc.date.accessioned | 2024-10-21T14:36:13Z | |
| dc.date.available | 2024-10-21T14:36:13Z | |
| dc.date.issued | 2002-01-20 | |
| dc.degree.name | Ingeniero de Sistemas | spa |
| dc.description.abstract | El reciente y dramático crecimiento del Internet, es un claro signo de que la computación está entrando en una nueva era. Por esto es necesario empezar a reconocer nuevos conceptos como el filtrado y recuperación de información que nos permiten mostrar los documentos más relevantes de acuerdo con los perfiles de sus usuarios. Existen diversos modelos para dicha labor, entre los que se encuentran los modelos clásicos como el modelo Booleano y Vectorial, los cuales tiene un formalismo simple porque la relevancia de los documentos recuperados se basa simplemente en la igualación parcial de los términos indexados en los documentos y las consultas. Otros modelos como el LSI, (indexación semántico latente), toma un paso adelante y además de trabajar con términos indexados, trabaja con “conceptos”, es decir, recupera documentos cuyos términos indexados no se encuentran en la consulta del usuario pero que también son relevantes. El modelo de redes neuronales tiene una función similar pero trabaja algoritmos de aprendizaje. | spa |
| dc.description.abstractenglish | The recent and dramatic growth of the Internet is a clear sign that computing is entering a new era. For this reason, it is necessary to begin to recognize new concepts such as filtering and information retrieval that allow us to display the most relevant documents according to the profiles of their users. There are various models for this task, among which are the classic models such as the Boolean and Vector models, which have a simple formalism because the relevance of the retrieved documents is based simply on the partial matching of the indexed terms in the documents and the queries. Other models such as LSI (latent semantic indexing) take a step forward and, in addition to working with indexed terms, work with “concepts”, that is, retrieve documents whose indexed terms are not found in the user’s query but are also relevant. The neural network model has a similar function but works with learning algorithms. | spa |
| dc.description.degreelevel | Pregrado | spa |
| dc.description.learningmodality | Modalidad Presencial | spa |
| dc.description.tableofcontents | Introducción 1. Generalidades 5 1.1. Diseminación selectiva de información 5 1.2. Filtrado de información 6 1.2.1. Filtrado social o colaborativo. 6 1.2.1.1. Usuarios de un sistema de filtrado. 7 1.2.2. Filtrado basado en eventos 7 1.2.3 filtrado basado en reputación 10 1.2.4. Técnica de filtrado cognitivo o basado en contenido 12 2. Filtrado y recuperación de información 2.1. Conceptos básicos18 2.1.1. La tarea del usuario 2.1.2. La vista lógica del documento 2.2. El perfil en filtrado por contenido 20 3. Representación del documento 22 3.1. Estructura de almacenamiento de datos 23 3.1.1. Listas o archivos invertidos 23 3.2. Indexación automática 3.2.1. Identificación de términos. 25 3.2.2. Remoción de “stopwords”. 26 3.2.3. Normalización morfológica. 27 3.2.4. Calculo de relevancia. 30 3.2.5. Selección de términos. 4. Modelos de recuperación 34 4.1. Modelos de recuperación 4.2. Características de los modelos clásicos 36 4.2.1. Modelo booleano 36 4.2.2. Modelo vectorial 37 4.2.3. Modelo probabilístico 38 4.3. Modelo vectorial en recuperación de Información 4.4. Modelos algebraicos alternativos 43 4.4.1. Modelo de indexación semántico latente 43 4.4.2. Modelo de redes neuronales 47 4.4.2.1. Definiciones de una red neuronal 49 4.4.2.2. Ventajas que ofrecen las redes neuronale 4.4.2.2.1. Aprendizaje adaptativo 51 4.4.2.2.2. Auto-organización 52 4.4.2.2.3. Tolerancia a fallos. 53 4.4.2.2.4. Operación en tiempo real. 54 4.4.2.2.5. Fácil inserción dentro de la tecnología existente 55 4.4.2.3. Niveles o capas de una red neuronal 57 4.4.2.4. Mecanismos de aprendizaje 58 4.4.2.4.1. Aprendizaje por corrección de error 4.4.2.4.2. Aprendizaje por refuerzo 63 4.4.2.4.3. Aprendizaje estocástico 64 4.4.2.4.4. Aprendizaje no supervisado 65 4.4.2.5. Modelo de redes neuronales para la recuperación de 66 Información 5. Comparación y evaluación de los modelos de 71 Filtrado por contenido 5.1. Pruebas en el modelo booleano 73 5.2. Pruebas en el modelo vectorial 76 5.3. Pruebas en el modelo de redes neuronales 78 5.4. Pruebas en el modelo de indexación 80 Semántico latente 6. Prototipo de sistema de filtrado de 83 Información basada en contenido 6.1. Preanálisis 83 6.1.1. Casos de uso descripción 83 6.1.1.1. Validar usuario 84 6.1.1.2. Suscribirse al sistema 85 6.1.1.3. Activar proceso de filtrado 86 6.1.1.4. Definir perfil 87 6.1.1.5. Consultar información 88 6.2. Análisis. 89 6.2.1. Diagramas de secuencia y colaboración 6.2.2. Diagrama de clases 99 6.2.3. Diccionario de datos para el diagrama de clases 100 6.2.4. Diagrama de actividades 102 6.2.4.1. Usuario 102 6.2.4.2. Método 103 6.2.4.3. Vector espacial 105 6.3. Diseño 106 6.3.1. Diagramas correspondientes a la ingeniería de casos de 106 Uso. 6.3.2 descripción procedimental de objetos. 109 6.3.3. Descripción de pantallas 113 6.3.4. Arquitectura del sistema 117 6.3.5 desarrollo del sistema 120 7. Conclusiones 123 8. Recomendaciones 125 9. Bibliografía 126 | spa |
| dc.format.mimetype | application/pdf | spa |
| dc.identifier.instname | instname:Universidad Autónoma de Bucaramanga - UNAB | spa |
| dc.identifier.reponame | reponame:Repositorio Institucional UNAB | spa |
| dc.identifier.repourl | repourl:https://repository.unab.edu.co | spa |
| dc.identifier.uri | http://hdl.handle.net/20.500.12749/27025 | |
| dc.language.iso | spa | spa |
| dc.publisher.faculty | Facultad Ingeniería | spa |
| dc.publisher.grantor | Universidad Autónoma de Bucaramanga UNAB | spa |
| dc.publisher.program | Pregrado Ingeniería de Sistemas | spa |
| dc.publisher.programid | ISI-1791 | |
| dc.relation.references | ARMSTRONG, R., FRIETAG, D., JOACHIMS, T. y MITCHELL, T„ WebWatcher: a learning apprentice for the world wide web. En Proceedings of the 1995 AAAI Spring Symposium of Information Gathering from Heterogeneous, Distributed Environments, Stanford, CA, 1995. AAAI Press. [ | spa |
| dc.relation.references | BAEZA Yates, Ricardo A. String Searching Algorithms. En FRAKES, William B. y BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. UpperSaddle River, New Jersey: Prentice Hall PTR, 1992. | spa |
| dc.relation.references | BAEZA YATES, Ricardo y FRAKES, William B. Information Retrieval Data Structures & Algorithms. Prentice Hall PTR, Upper Saddle River, New Jersey. 1992. | spa |
| dc.relation.references | BAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addisson WesleyACM Press. 1992. | spa |
| dc.relation.references | BAKEL, Bas van. Modern classical document indexing: a linguistic contribution to knowledge-based IR. En Annual International ACM-SIGIR Conference on 12R research and Development in Information Retrieval (SIGIR’98) 1998. Melborne, AU. Proceedings. New York ACM Press, 1998. p.333-334. | spa |
| dc.relation.references | BELKIN Nicholas J. y CROFT W. Bruce. Information filtering and information retrieval: Two sides of the same coin? Communications of the ACM, 35(12):29-38. Diciembre 1992. | spa |
| dc.relation.references | BHARAT, K. y HENZINGER, M. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 104-111, August 1998. | spa |
| dc.relation.references | BOOCH, Grady, JACOBSON, Ivar Y RUMBAUGH, James. The Unified Modeling Languaje. Addison Wesley Longman Inc. Rational Software Corporation. 1999. | spa |
| dc.relation.references | CORTHOUST, Jan. The DSI Service of VUBIS-Antwerpen of Antwerp. 1996. http:/143.169.20.1/MAN/SDIE/# corp-au | spa |
| dc.relation.references | DELGADO, J.A. Agent - Based Information Filtering and Recommender Systems on the Internet. PhD. Thesis, Nagoya Institute of Technology. Marzo 2000. | spa |
| dc.relation.references | FOX, Christopher. Lexical analysis and stoplists. En: FRAKES, William B. y BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. UpperSaddle River, New Jersey: Prentice Hall PTR, 1992. p. 102-130. | spa |
| dc.relation.references | FRAKES, William B. Stemming Algorithms. En FRAKES, William B. BAEZA Yates, Ricardo A. Information Retrieval: Data Structures & Algorithms. Upper Saddle River, New Jersey: Prentice Hall PTR, 1992. | spa |
| dc.relation.references | GILES, L„ BOLLACKER, K. y LAWRENCE, S. CiteSeer An Automatic Citation Indexing System. En Proceedings of the 3rd ACM Conference on Digital Librarles. | spa |
| dc.relation.references | KAUTZ, H., SELMAN, B. y SHAH, M. The Hidden Web. Al Magazine. Summer 1997. AAAI Press. | spa |
| dc.relation.references | KLEINBERG, J. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. To appear in Journal of the ACM. 1999. Also appears as IBM Research Report RJ 10076, May 1997. [ | spa |
| dc.relation.references | KORFHAGE, Robert R. Information Retrieval and Storage. New York: John Wiley & Sons, 1997. | spa |
| dc.relation.references | KOWALSKI, Gerald. Information Retrieval Systems: Theory and Implementation. Boston: Kluwer Academic Publishers, 1997. | spa |
| dc.relation.references | KRAAIJ, Wessel y POHLMANN, Renée. Viewing stemming as recall enhancement. En Annual International ACM-SIGIR Conference on research and Development in Information Retrieval (SIGIR’96), 1996, Zurich, Switzerland. Proceedings. New York: ACM Press, 1996. p.40-48. | spa |
| dc.relation.references | MEADOW, Charles T. Text Information Retrieval Systems. Academic Press, 1992 | spa |
| dc.relation.references | MLADENIC, Dunja y GROBELNIK, Marko. Feature Selection for Classification Based on Text Hierarchy. En: Conference on Automated Learning and Discovery (CONALD-98), 2000, Proceedings. Pittsburg: Carnegie Mellón University, 2000. p.6p. http://www.cs.cmu.edu/afs/cs/user/dunja/www/pww.html | spa |
| dc.relation.references | OARD W, Douglas. A conceptual Framework for Text Filtering. University of Maryland, College Park, Mayo, 1996. http://www.enee.umd.edu/medlab/filter/filter.html | spa |
| dc.relation.references | PAGE, L. Y BRIN, S.. The Anatomy of a Search Engine. The Seventh International VWVW Conference (WWW’98). Brisbane, Australia, April 14-18, 1998. 129 [23] Pérez, Claudia. Agentes Móviles en Bibliotecas Digitales, [online]. [citado 17 mar., 2001], Disponible de <http://ict.pue.udlap.mx/pubs/claudia/cap1.html> | spa |
| dc.relation.references | PERKOWITZ, M. y ETZIONI, O. Adaptive Web Sites: Automatically Synthesizing Web Pages. En Proceedings of the American National Conference on Artificial Intelligence AAAI-98. | spa |
| dc.relation.references | RILOFF, Ellen. Little words can make big difference for text classification. En Annual International ACM-SIGIR Conference on research and Development in Information Retrieval (SIGIR’95), 1995, Seattle, USA. Proceedings. New York: ACM Press, 1995. | spa |
| dc.relation.references | SALTON, Gerard y BUCKLEY, Chris. Improving Retrieval Performance by Relevance Feedback. Ithaca, New York. Department of computer science, Cornell University, 1987. (Technical Report). | spa |
| dc.relation.references | SALTON, Gerard. MACGILL, Michael J. Introduction to Modern Information Retrieval. New York: McGRAW-Híll, 1983. | spa |
| dc.relation.references | Scott Deerwester, Susan T. Dumais, George W. Fumas, Thomas K. Laundauer, Richard Harshman. Indexing by Latent Semantic Analysis. | spa |
| dc.relation.references | WILBUR, J. W. y SIROTKIN, K. The Automatic Identification of Stop Words. Journal of Information Society, v.18, , p.45-55. 1992. | spa |
| dc.relation.references | VAN RIJSBERGEN, C. J. Information retrieval. Butterworths | spa |
| dc.relation.references | YANG, Yiming y PEDERSEN, Jan O. A comparative study on features selection in text categorization. School of Computer Science, Carnegie Mellón University, 1997. | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 2.5 Colombia | * |
| dc.rights.local | Abierto (Texto Completo) | spa |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | * |
| dc.subject.keywords | Systems engineer | spa |
| dc.subject.keywords | Technological innovations | spa |
| dc.subject.keywords | Selective dissemination | spa |
| dc.subject.keywords | Storage systems | spa |
| dc.subject.keywords | Information retrieval | spa |
| dc.subject.keywords | Information retrieval | spa |
| dc.subject.keywords | Artificial intelligence | spa |
| dc.subject.keywords | Neural networks (Computer science) | spa |
| dc.subject.lemb | Ingeniería de sistemas | spa |
| dc.subject.lemb | Innovaciones tecnológicas | spa |
| dc.subject.lemb | Recuperación de información | spa |
| dc.subject.lemb | Inteligencia artificial | spa |
| dc.subject.lemb | Redes neuronales (Computadores) | spa |
| dc.subject.proposal | Diseminación selectiva | spa |
| dc.subject.proposal | Sistemas de almacenamiento | spa |
| dc.subject.proposal | Recuperación de información | spa |
| dc.title | Prototipo de sistema de filtrado por contenido para la diseminación de información contenida en la web | spa |
| dc.title.translated | Prototype of content filtering system for the dissemination of information contained on the web | spa |
| dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | spa |
| dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
| dc.type.hasversion | info:eu-repo/semantics/acceptedVersion | |
| dc.type.local | Trabajo de Grado | spa |
| dc.type.redcol | http://purl.org/redcol/resource_type/TP |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- 2002_Amaya_Diaz_Javier.pdf
- Tamaño:
- 22.48 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Tesis
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 829 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción:
