Extracción de datos semiestructurados en la web

dc.contributor.advisorPérez Alcázar, José de Jesús
dc.contributor.authorCorrea Trocha, Mayra Alejandra
dc.contributor.authorPeñuela Morales, Sarith Mayerly
dc.contributor.googlescholarPérez Alcázar, José de Jesús [es&oi=ao]spa
dc.contributor.orcidPérez Alcázar, José de Jesús [0000-0003-3389-0401]spa
dc.coverage.campusUNAB Campus Bucaramangaspa
dc.coverage.spatialColombiaspa
dc.date.accessioned2024-10-22T16:24:52Z
dc.date.available2024-10-22T16:24:52Z
dc.date.issued2001-07-31
dc.degree.nameIngeniero de Sistemasspa
dc.description.abstractLa gran proliferación de textos, sobre todo en el formato electrónico hace muy difícil que cualquier persona sea capaz de leer, comprender y sintetizar tal cantidad de información. Es esto lo que ha llevado a un gran número de investigadores a desarrollar una serie de estrategias para el manejo de esta información. Entre éstas se encuentra la Extracción de Información (IE). La IE pretende, a partir de estos textos, obtener información relevante que pueda ser utilizada electrónicamente, ° De esta manera, para hacer uso eficiente de la información contenida en un texto, es útil que la información sea almacenada en alguna clase de formato estructurado; por ejemplo, una base de datos relacional. Generalmente, el proceso de extracción de la información requerida de un documento hacia una Base de Datos es usualmente un proceso manual. Debido al enorme volumen de los textos que se encuentran en la Web, se crea la necesidad de tener métodos de procesamiento automático para extraer la información.spa
dc.description.abstractenglishThe great proliferation of texts, especially in electronic format, makes it very difficult for anyone to be able to read, understand and synthesize such a quantity of information. It is this that has led to a large number of researchers to develop a series of strategies for managing this information. Among these is Information Extraction (IE). The EI aims, from these texts, to obtain relevant information that can be used electronically. ° In this way, to make efficient use of the information contained in a text, it is useful that the information be stored in some kind of structured format; for example, a relational database. Generally, the process of extracting the required information from a document into a Database is usually a manual process. Due to the enormous volume of texts found on the Web, the need to have automatic processing methods to extract information.spa
dc.description.degreelevelPregradospa
dc.description.learningmodalityModalidad Presencialspa
dc.description.tableofcontentsINTRODUCCIÓN FUNDAMENTACION TEORICA 1.1 EXTRACCION DE DATOS SEMI-ESTRUCTURADOS 1,41 Visión de un dato semi-estructurado 1.1.1.1 Estructura de los datos 1.1.2 La web 1.1.3 Wrappers 1.1.4 Desarrollo del software de extracción 1.2 DATA EXTRACTION BY EXAMPLE (DEByE) 1.2.1 Propuesta DEByE 1.2:2-Conceptos básicos y notación 1.2.3 Herramienta DEByE 1.2.4 Interfaz Grafica de Usuarios (GUI) 1.2.5 Parámetros de extracción de objetos (OE) 1.2.6 Extractor de DEByE 1.2.6.1 Técnica de extracción bottorm_up 2 CUADRO COMPARATIVO DE LAS TRES TÉCNICAS DE EXTRACCIÓN DE DATOS SEMIESTRUCTURADOS EN LA WEB 3. METODOLOGÍA DE DESARROLLO 3.1 VISIÓN GENÉRICA DE LA INGENIERÍA DEL SOFTWARE 3.2 CICLO DE VIDA 3.3 VISIÓN GENERAL DE LA METODOLOGÍA 3.3.1 Metodología 3.3.1.1 Análisis de requerimientos 3.3.1.2 Diseño del sistema 3.3.1.2.1 Diseño detallado 3.3.1.3 Implementación 4. ANALISIS DE REQUERIMIENTOS 4.1 IDENTIFICACIÓN DE LOS CASOS DE USO DEL SISTEMA 5. DISEÑO DEL SISTEMA 5.1 DESCRIPCIÓN DE OBJETOS 5.2 ARQUITECTURA DEL SISTEMA 5.3 PLATAFORMA DEL SISTEMA 5.4 DEFINICIÓN INICIAL DE LA INTERFAZ DEL SISTEMA 5.4.1 Descripción textual del funcionamiento 5 5 DISEÑO DE LA INTERFAZ GRÁFICA DE USUARIO 5.5.1 Descripción pantalla menú 5.5.2 Descripción pantalla solicitud de página 6. IMPLEMENTACION 6.1 CARACTERÍSTICAS DEL EQUIPO 6.2 HERRAMIENTAS UTILIZADAS 6.3 DIFICULTADES EN LA IMPLEMENTACIÓN 6.4 EXPERIENCIAS EN LA REALIZACIÓN DE PRUEBA 7, DIRECTRICES PARA TRABAJOS EUTURO 8. CONCLUSIONES BIBLIOGRAFÍA ANEXOSspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameinstname:Universidad Autónoma de Bucaramanga - UNABspa
dc.identifier.reponamereponame:Repositorio Institucional UNABspa
dc.identifier.repourlrepourl:https://repository.unab.edu.cospa
dc.identifier.urihttp://hdl.handle.net/20.500.12749/27074
dc.language.isospaspa
dc.publisher.facultyFacultad Ingenieríaspa
dc.publisher.grantorUniversidad Autónoma de Bucaramanga UNABspa
dc.publisher.programPregrado Ingeniería de Sistemasspa
dc.publisher.programidISI-1791
dc.relation.referencesABITEBOUL, Serge; BUNEMAN, Peter and SUCIU, Dan. Data on the Web: A Syntax for Date. San francisco. California: Morgan Kaufmann, 2000. 254 p. !- 55860-622-X.spa
dc.relation.referencesA. Y. Aho and Gorasixk, Efficient string matching: An aid to pibliographic search. Communications of ACM, 18 (6): $554P, 1975.spa
dc.relation.referencesATZENI, P; MECCA, G. and MERIALDO, Pp. Semiestructured and structured data in the Web : Going back and forth. En : Universita di Roma Tre and Universita della Basilicata.spa
dc.relation.referencesBOOCH, Grady; RUMBAUGH, James y JACOBSON, Ivar, The Unified Modeling Languaje User Guide, 8.1. : Addigon Wesley, s.f, 431p.spa
dc.relation.referencesCATALÁ, N. y CASTELL, N. Construcción automática de diccionario de patrones de extracción de información.spa
dc.relation.referencesCOWIE, J. and LEHNERT, W. Information extraction. En : Communications of ACM, (2000).spa
dc.relation.referencesCRESCENZI, V. and MECGCA, G. Grammars have exceptions. En : Dipartimento di Informatica e Autornazione Universita di Roma Tre.spa
dc.relation.referencesCGROFT, W. B. NSF center for intelligent information retrieval. En Communications of ACM. (1985); 740p.spa
dc.relation.referencesEMBLEY, D. W. et al. A conceptual - modeling approach to extracting data from the Web. En : Brigham Young Universíty.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.subject.keywordsSystems engineerspa
dc.subject.keywordsTechnological innovationsspa
dc.subject.keywordsInformation systemsspa
dc.subject.keywordsData extractionspa
dc.subject.keywordsDatabasespa
dc.subject.keywordsInformation retrievalspa
dc.subject.keywordsInformation storage and retrieval systemsspa
dc.subject.keywordsSoftware architecturespa
dc.subject.lembIngeniería de sistemasspa
dc.subject.lembInnovaciones tecnológicasspa
dc.subject.lembRecuperación de informaciónspa
dc.subject.lembSistemas de almacenamiento y recuperación de informaciónspa
dc.subject.lembArquitectura de softwarespa
dc.subject.proposalSistemas de informaciónspa
dc.subject.proposalExtracción de datosspa
dc.subject.proposalBase de datosspa
dc.titleExtracción de datos semiestructurados en la webspa
dc.title.translatedSemi-structured data extraction on the webspa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersion
dc.type.localTrabajo de Gradospa
dc.type.redcolhttp://purl.org/redcol/resource_type/TP

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
2001_Correa_Trocha_Mayra (1).pdf
Tamaño:
37.42 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
829 B
Formato:
Item-specific license agreed upon to submission
Descripción: