Найти и слить дубликаты

Находим и объединяем одинаковых клиентов, а также адреса и телефоны.

Когда контактные данные клиентов «размазаны» по нескольким Excel-файлам или базам данных, с ними тяжело работать.

Мы помогаем заказчику собрать разнородные источники о клиентах компаний (excel-файлы, записные книжки в outlook, несколько разрозненных баз и т.д.), сделать единую базу, интегрировав всю информацию о каждом клиенте. Результат — табличка вида (ID1, ID2, Score), где перечислены все пары кандидатов в дубликаты и некоторый показатель степени их дубликатности, который варьируется от 0 (абсолютно разные) до 100 (бинарно идентичные). На практике — от 70 до 100. 

Идентификации дубликатов обязательно должна предшествовать очистка и стандартизация, чтобы гарантировать одинаковое написание одинаковых данных.

Идентификация дубликатов происходит по согласованным с заказчиком сценариям. Каждый сценарий описывает поля-участники и способы их участия. Например: "Имя — с точностью до синонимов, Отчество — точно, но может и отсутствовать, Фамилия - с похожестью выше 80%, телефон — точно, но может и отсутствовать". Таких сценариев может быть много, обычно от 10 до 30.

Следующий процесс — слияние дубликатов, в ходе которого дубли объединяются по согласованным с заказчиком правилам. 

Попробовать идентификацию и слияние дубликатов на DaData.ru.

Узнать больше о «Едином клиенте» — сбор и поддержка эталонной клиентской базы для маркетинга, продаж, аналитики и отчетности.