SCI Библиотека
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
В работе рассматриваются общие методы пространственной регистрации изображений. Для улучшения качества добавляются границы на изображение. С помощью алгоритма масштабно-инвариантного преобразования объектов выделяются ключевые точки на изображениях. Путем гомографических преобразований получается совмещенное изображение. Приведены примеры работы алгоритма на медицинских данных. Производится сравнение базового алгоритма и алгоритма с добавлением границ на изображение.
Задача извлечения структурированных данных из слабоструктурированного текстового представления информации является трудоёмкой, но актуальной. В статье рассмотрена задача структурирования данных для формирования дескрипторной модели студента с его компетенциями. Разработано решение, которое показывает хорошие результаты при условии, что в наличии есть большое количество данных для обучения. Данное решение можно переработать и распространить на другие области, например, проектную деятельность.
Объектом исследования является технология федеративного обучения, которая позволяет осуществлять коллективное машинное обучение на распределенных обучающих наборах данных без их передачи в единое хранилище. Актуальность данной технологии обусловлена, с одной стороны, давно растущим трендом на использование машинного обучения для решения множества прикладных задач, а с другой - ростом запросов, в том числе законодательных, на приватность и обработку данных ближе к источнику или непосредственно на нем. Основными проблемами при создании систем федеративного обучения являются отсутствие гибких фреймворков для различных сценариев федеративного обучения: большинство существующих решений сосредоточено на обучении искусственных нейронных сетей в централизованной вычислительной среде. Предмет исследования - универсальная архитектура фреймворка для разработки прикладных систем федеративного обучения, позволяющая строить системы для разных сценариев, различных параметров и топологий вычислительной среды, моделей и алгоритмов машинного обучения. В статье рассмотрена предметная область федеративного обучения, даны основные определения и описан процесс федеративного обучения, приведены и разобраны различные сценарии возможных прикладных задач. Проведен анализ наиболее известных на данный момент фреймворков федеративного обучения, а также их применения для возможных сценариев использования. В качестве результата описана архитектура универсального фреймворка, который, в отличие от существующих, может быть использован для разработки прикладных систем федеративного обучения разного типа и разных сценариев использования.
Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков.
Семантический парсинг – это задача перевода выражения на естественном языке в логическое выражение на формальном языке. Примером практического применения семантического парсинга является преобразование текста в запрос к базе знаний. Наиболее популярными задачами преобразования текста в запрос являются задачи преобразования выражения в SQL и в SPARQL. Сдвиг распределения обучающей выборки – одна из главных проблем устойчивости семантических парсеров. Наиболее частым сдвигом в семантическом парсинге является композиционный сдвиг – необходимость генерации новых композиций кода из известных элементов синтаксиса целевого языка. В этой работе исследуется возможность использования предобученных языковых моделей (PLM) вместе с многозадачным обучением. Предлагаются специально разработанные разбиения наборов данных SPARQL и SQL, исходных датасетов LC-QuAD и WikiSQL для имитации сдвига распределения и сравнения оригинального подхода обучения генерации запроса с многозадачным подходом. В работе проведен углубленный анализ разбиений данных и предсказаний модели и показаны преимущества многозадачного подхода над оригинальным для задачи семантического парсинга.