Коды качества

Операция приведения данных из слабоструктурированного текстового формата к установленному стандарту всегда содержит некоторую погрешность. ФАКТОР реализует полностью детерминированный процесс, основанный на правилах, и не содержит слабоуправляемых компонентов, таких как нейронные сети, вероятностные модели или нечеткую логику в обычном ее понимании.

В то же время, количество правил, эвристик, объемных справочников сложной структуры и других механизмов, воздействующих на процесс преобразования данных, достаточно велико. Для того, чтобы обеспечить полную управляемость процессом, а также с наименьшими затратами получать результаты, представляющие наибольший практический интерес, была разработана система кодов качества.

 

Заказать консультацию

 

Задачи, решаемые с помощью кодов качества

  • Возможность организации процесса, близкого к оптимальному, имеющего своим результатом данные 100% исходных данных, обработанные с достоверностью 99,9%. Это принципиальное преимущество технологии кодов качества.
  • Быстрое и полностью автоматическое получение подмножества данных, приведенных к показателям качества, близким к ста процентам (на практике около 99,99%, или одна ошибка на 10 тысяч записей). Эта группа обычно составляет порядка 85-95% от исходного объема записей. Здесь и далее процентные соотношения получаемых групп данных усреднены по результатам обработки различных компонентов из 50 миллионов записей из различных источников. Показатели для каждой конкретной базы данных могут отличаться, хотя и незначительно.
  • Возможность привязки бизнес-процессов к показателям качества данных. Это позволяет использовать параметры качества, правдоподобия и непротиворечивости данных.
  • Возможность классификации данных по параметру их качества и типам содержащихся в них проблем. Это позволяет эффективно организовать процессы  сбора, актуализации, ручной доработки данных и их использования. Например, не отправлять письма по городским адресам, не содержащим номер дома.
  • Возможность получения количественных характеристик типичных проблем в первичных источниках данных, и на основании статистики оптимизировать процессы получения данных.

Коды проверки и коды качества результата

В зависимости от типа данных (адреса, ФИО, телефоны и т.д.) возможны две степени классификации кодов качества:

Код проверки — является характеристикой процесса преобразования. Отвечает на вопрос о том, насколько результат обработки соответствует исходным данным, какие изменения были произведены, и, если были какие-то сложности с интерпретацией исходных данных, то какие именно.

Код качества результата — является характеристикой полученного результата. Отвечает на вопрос о том, насколько результирующие данные пригодны для целевого использования.

Например, исходный адрес «Москва, ул. Тверская» будет иметь хороший код проверки, поскольку он может быть однозначно распознан, и плохой код качества результата, поскольку по этому адресу нельзя отправить почту. А в случае адреса «Москва Тверская рядом с макдональдсом дом 3 вход в арку», код качества проверки будет плохим, поскольку не все компоненты адреса («рядом с макдональдсом» и «вход в арку») будут распознаны как адресные.

 

Заказать консультацию