Транслитерация и трансграфика

Программный продукт ФАКТОР обрабатывает данные (адреса, ФИО, названия компаний и т.д.), при написании которых использована транслитерация и/или трансграфика.

Транслитерация — это русские слова, написанные английскими bukvami. Существует множество употребимых транслитерационных схем — на базе английского языка, французского, немецкого или их смеси. Например, фамилия «Журавлев» может быть транслитерирована как Zhuravlev, Jouravlyouv, Guravleff или смешанными вариантами.

Трансграфика — использование идентичных по написанию 6ykв другого алфавита, например, английская «p» вместо русской «р» или цифры «6» вместо буквы «б». Основная опасность трансграфики в том, что ее очень сложно заметить глазами, при этом, написанное трансграфикой слово не будет находиться поиском.

ФАКТОР не делает изначальных предположений относительно схемы, а восстанавливает ее «на лету» — также, как это делает человек. Для обучения системы использовалась выборка данных из нескольких миллионов единиц данных и самообучающиеся алгоритмы, которые пытаются найти наиболее вероятные способы интерпретации транслитерированного или трансграфированного слова. В случае, если попадается случай, который должен быть преобразован другим способом, он может быть добавлен в обучающую выборку. Система при переобучение запомнит не само слово, а «основную идею» нового для нее способа транслитерации.

 

Заказать консультацию