Detección de duplicados: una guía metodológica

Cargando...
Miniatura

Autores

Amón Uribe, Iván
Jiménez, Claudia

Autores

Amón Uribe, Iván    logo-CVLAC   
Jiménez, Claudia    logo-GScholar    logo-ORCID   

Otros contribuidores

Director / Asesor

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Autónoma de Bucaramanga UNAB

Seguimiento al proceso del trabajo

Compartir

Seleccione un documento PDF para visualizar

Resumen

Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales detectan las cadenas de texto que son similares mas no idénticas. En este artículo se propone una guía metodológica para seleccionar entre nueve de estas funciones de similitud (Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando.

Descripción

Fuente del recurso

  • Revista Colombiana de Computación; Vol. 11 Núm. 2 (2010): Revista Colombiana de Computación; 7-23

Citación

Aprobación

Revisión

Complementado por

Referenciado por

Licencia Creative Commons

Excepto donde se indique lo contrario, la licencia de este ítem se describe como Attribution-NonCommercial-ShareAlike 4.0 International