ISSN 2541-8637
Язык: ru

Статья: КЛАССИФИКАЦИЯ НОРМАТИВНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРИЗАЦИИ ЭМБЕДДИНГОВ: МЕТОДИКА И ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ (2025)

Читать онлайн

В данной работе представлена методика автоматизированной классификации нормативной документации на основе кластеризации эмбеддингов. Актуальность исследования обусловлена значительным объемом нормативных документов в промышленности и информационных технологиях, что затрудняет их систематизацию и анализ. Предложенный подход включает этапы предобработки текстов, извлечения эмбеддингов, кластеризации с использованием агломеративного метода и интерпретации результатов с помощью генеративных языковых моделей. В ходе экспериментов проведена оценка различных моделей для векторизации текстов, а также выполнена кластеризация с применением косинусной метрики. Результаты показали, что метод обеспечивает высокую точность выделения тематических групп, превосходя традиционные алгоритмы на основе частотного анализа (BoW, TF-IDF).

Ключевые фразы: КЛАССИФИКАЦИЯ ДОКУМЕНТОВ, КЛАСТЕРИЗАЦИЯ, эмбеддинги, большие языковые модели, агломеративная кластеризация, машинное обучение
Автор (ы): Теремов Иван Алексеевич
Журнал: МЕХАТРОНИКА, АВТОМАТИКА И РОБОТОТЕХНИКА

Предпросмотр статьи

Идентификаторы и классификаторы

УДК
006. Стандартизация и стандарты
Для цитирования:
ТЕРЕМОВ И. А. КЛАССИФИКАЦИЯ НОРМАТИВНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРИЗАЦИИ ЭМБЕДДИНГОВ: МЕТОДИКА И ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ // МЕХАТРОНИКА, АВТОМАТИКА И РОБОТОТЕХНИКА. 2025. № 15
Текстовый фрагмент статьи