Detección de duplicados: una guía metodológica
Fecha
Autores
Autores
Otros contribuidores
Director / Asesor
Título de la revista
ISSN de la revista
Título del volumen
Editor
Seguimiento al proceso del trabajo
Compartir
Seleccione un documento PDF para visualizar
Resumen
Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales detectan las cadenas de texto que son similares mas no idénticas. En este artículo se propone una guía metodológica para seleccionar entre nueve de estas funciones de similitud (Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando.
Descripción
Enlace al recurso
Fuente del recurso
- Revista Colombiana de Computación; Vol. 11 Núm. 2 (2010): Revista Colombiana de Computación; 7-23




