Как вылечить справочник НСИ закупаемой продукции

09.06.17

Когда говорят о низкой эффективности закупок государственных и частных компаний, то на ум приходят закупки золотых вилок, распил контрактов, откаты и другие виды коррупции. Хотя в реальности это лишь вершина айсберга. В большинстве случаев проводить закупки эффективно компаниям мешают вовсе не алчный менеджмент, а технические проблемы с учетом продукции. Из-за них компании тратят в разы больше, чем нужно, хранят на складах лишнюю продукцию и не знают, что и по какой цене закупают в действительности. Решить эти проблемы могут современные онлайн-сервисы, опытом разработки которых поделилась команда системы управления корпоративными справочниками НСИ из B2B-Center.

К чему приводит фантазия

Каждая крупная компания ведет справочник продукции, которую закупает и хранит на складах. Позиции в такой справочник добавляют представители разных подразделений. А так как у каждого человека есть фантазия, то один и тот же предмет может называться десятками разных способов. Типичный пример – электрический выключатель, который встречается в справочниках как «выключатель», «автоматический выключатель», «автомат», «авт. выкл.» и т.д. Это реальный кейс нашего клиента – в его справочнике мы обнаружили 20 различных наименований для одинаковых выключателей.

Если не остановить дублирование позиций, то справочник компании быстро разрастается и порождает настоящий хаос. Сотрудники не могут понять есть ли подходящий товар на складе, не знают какую позицию справочника надо покупать, поэтому добавляют еще одну и вновь проводят закупку. Компания несет убытки, продукция лежит на складах, люди тратят время на лишние операции.

B2B-Center разработал и внедрил для ряда промышленных компаний комплексное облачное решение в сфере управления нормативно-справочной информацией (НСИ) о закупках. Система объединяет в одно целое управление справочником закупаемой продукции и торговыми процедурами в электронной форме. Одна из основных функций сервиса – «лечение и профилактика» справочников от дубликатов, которые мы должны находить в процессе дополнения базы данных о закупаемой продукции. Фантазия людей безгранична, поэтому создание такой функциональности стало для нас нетривиальной задачей.

Поиск дубликатов 1.0

Самое первое, что мы должны были сделать – это привести строки справочников в понятный для машинного анализа вид. Поэтому наш сервис убирает из текста знаки препинания и приводит символы к одному регистру. Затем заменяет синонимы, расшифровывает аббревиатуры и разворачивает наиболее популярные сокращения.

Из-за специфики справочной информации промышленных компаний мы не можем использовать существующие базы данных. Словари синонимов, аббревиатур и сокращений мы создавали на основе реальных справочников наших клиентов. Сейчас они пополняются таким же образом. После этого сервис приводит строку справочника в единственное число именительного падежа. Она становится не очень читабельной, но гораздо понятнее для машины.

На втором этапе система начинает сравнивать каждую позицию с другими строками справочника. В первой версии системы для поиска дубликатов мы использовали три критерия. Самый простой и очевидный – количество совпавших слов. Одновременно это наиболее надежный критерий, который позволяет найти большинство простых и самых распространённых дубликатов. Например, когда в названиях различается только порядок слов или одно название полностью входит в другое.

Второй критерий, который касается цифр, сложнее. Если в названиях совпадают все слова, а одна цифра нет, то перед нами не дубликаты, а разные модели одного и того же оборудования. Кроме того, это может быть номенклатурный номер, номер в каталоге или маркировка. Поэтому также унифицируем все числовые значения в соответствии с ГОСТ. Заменяем любые разделители – «х», «*», «/», «\» — на дефисы. Затем при автоматическом анализе повышаем весомость всех слов, содержащих цифры. Чаще всего, расхождение в одну цифру значит гораздо больше, чем расхождение в несколько слов. Добавив этот критерий, мы повысили достоверность результатов анализа.

Третий критерий – это поиск дубликатов, которые написаны с опечатками. В первой версии продукта мы использовали триграммный поиск. В нашем случае он не давал качественного результата, поэтому во второй версии продукта мы планируем отказаться от него и вычислять опечатки с помощью сервисов проверки слов.

Первую версию системы мы разрабатывали под справочник конкретной компании, содержащий 400-500 тысяч позиций. Затем тестировали его на других справочниках, дорабатывали и получили неплохой результат. Однако фантазия людей победила. В каждом справочнике были свои уникальные искажения, распознать которые наш алгоритм не мог.

Поиск дубликатов 2.0

Для второй версии нашего поисковика дубликатов вместо трех мы разработали десять критериев, которые сделали его более точным инструментом.

Среди наиболее существенных новых правил:

— первое существительное в строке имеет большее значение, чем, например, прилагательное в конце;

— длинные числа важнее коротких;

— если строки почти совпадают, но содержат антонимы, то это, скорее всего, разные позиции;

— если строки почти совпадают, но одна из них имеет «исключительное» слово, то это не дубликаты. Например, «болт с левой резьбой» — это не тоже самое, что «болт». Правая резьба является стандартной, поэтому ее, как правило, не указывают.

Такой подход повысил эффективность поиска дубликатов. Сейчас клиент загружает в облако справочник компании, который начинает обрабатываться. Все найденные дубликаты попадают в специальный раздел, а пользователь уже самостоятельно решает удалить их, связать между собой или оставить схожие позиции.

На рынке есть решения с аналогичными функциями, но они не гарантируют качество поиска. Наш поиск не требует от клиента дополнительных ресурсов: он работает в облаке, запускается раз в несколько минут и постепенно обрабатывает справочник. Пока система требует настройки для каждого справочника — мы обучаем ее на новых данных. Однако в перспективе планируем сделать сервис полностью автоматическим.

Это позволит множеству компаний поддерживать здоровье справочников, а значит быстро и качественно анализировать закупки различных товаров и услуг, оценивать оптимальность выбора поставщика, а также создавать отчеты о закупках за любой период времени. Использование такого инструмента выводит систему закупок на новый уровень эффективности за счет автоматизации всех этапов процесса, оптимизации рисков, издержек и работы сотрудников закупочного подразделения.

Кроме того, алгоритм поиска дубликатов крайне востребован в других сферах и может применяться не только для «лечения» справочников. В будущем он трансформируется в самостоятельный сервис, который можно использовать для поиска по базе промышленного оборудования или подбора подходящих тендеров на электронной торговой площадке. Пользователю достаточно набрать в поиске на ЭТП лишь один запрос, а система сможет найти все закупки данной продукции вне зависимости от того, как они называются. Для сотрудников компаний-заказчиков сервис сможет подсказывать подходящие категории классификатора при объявлении закупки на основе уже проведенных торгов. Это существенно облегчит их работу и ускорит старт новых закупок. Основное преимущество поискового и рекомендательного сервиса — изначальные настройки под нужды участников и организаторов электронных закупок.

Узнать подробнее о системе управления корпоративными справочниками НСИ от B2B-Center.

Теги: 223-ФЗ, B2B, автоматизация, Закупки, НСИ, ЭТП