SCI Библиотека
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
SciNetwork библиотека — это централизованное хранилище научных материалов всего сообщества... ещё…
Статья посвящена анализу тональности текста (sentiment analysis) - области компьютерной лингвистики и интеллектуального анализа текста, направленной на извлечение субъективных мнений и эмоций из текстов. Целью исследования является выявление возможностей стандартных методов компьютерной лингвистики для определения тональности отзывов о работе торговых сетей. Основной задачей анализа тональности текста служит определение того, является ли данный текст позитивным, негативным или нейтральным. Рассматриваются различные названия и подходы к данной технологии, такие как мониторинг брендов и анализ социальных медиа, которые получили значительное развитие в последние годы благодаря росту популярности Интернета. В исследовании акцентируется внимание на методах классификации, включая подходы на основе правил и машинного обучения, где последняя категория охватывает современные методы глубокого обучения. Также представлено описание объекта исследования - массива отзывов о торговых сетях - с указанием на методику обработки и анализа данных. Одним из основных результатов является вывод, что необходима тщательная предварительная обработка данных с целью отсеивания дубликатов отзывов. В результате этого с помощью классических методов можно получить правильную классификацию отдельных предложений отзывов с точностью до 72%. Использованный в публикации метод группировки отзывов по соотношению положительных, отрицательных и нейтральных предложений позволяет довести точности определения тональности отзывов до 90%.
Задача выделения зданий в контексте семантической сегментации геополей представляет собой задачу перехода от множества геополей собственного и отраженного элементами суши, океана и атмосферы Земли электромагнитного излучения ко множеству геополей пространственного распределения собственного и отраженного объектами класса «Здания» электромагнитного излучения.
Проблематика выделения зданий включает в себя следующие основные проблемы: ложноположительные и ложноотрицательные срабатывания при выделении зданий, выделение отдельных зданий как одного объекта и распознавание объектов класса «Здания» на снимках, имеющих разные яркостные характеристики.
Данные проблемы, в рамках семантической сегментации геополей, рассматриваются с точки зрения снижения точности перехода от исходного множества геополей к результирующему множеству и относятся главным образом к исходному множеству.
Посредством анализа указанных проблем определены основные концептуальные решения в архитектурах нейронных сетей, позволяющие уменьшить их влияние: механизмы внимания и обработка глобальных признаков.
В результате эксперимента с архитектурами нейронных сетей STT, STEB-UNet, U-Net, MF-CNN и MSCFF, реализующими данные концептуальные решения, определены зависимости между временными затратами и конкретной реализацией концептуальных решений и наиболее эффективное с точки зрения обеспечиваемой точности решение — обработка глобальных признаков посредством мультимасштабного слияния признаков, реализуемое MSCFF.
В работе рассматривается один из этапов определения кода товарной номенклатуры внешнеэкономической деятельности для товаров, входящих в целевую группу «обувь», состоящий в анализе изображений товарных позиций, присутствующих в сопроводительных документах. Приведено обоснование применения сверточных нейронных сетей для классификации изображений. Рассмотрены возможные подходы к построению специализированных нейросетевых классификаторов. Проведен сравнительный анализ эффективности подходов, основанных на дообучении существующих классификаторов (transfer learning) и на построении сверточных сетей, обученных только на размеченных данных выбранного товарного ассортимента. Исследованы вопросы получения обучающей выборки путем парсинга специализированных сайтов и получения элементов выборки с помощью систем искусственного интеллекта, специализирующихся на генерации изображений по запросу.
В статье рассматриваются методы прогнозирования сложности учебных курсов на основе логистической регрессии с использованием оценок по обеспечивающим дисциплинам. Основной объект исследования - курс «Программирование на Python», для которого ключевыми обеспечивающими дисциплинами выбраны математика, информатика и английский язык. Целью исследования является разработка модели, позволяющей адаптировать учебные задания к индивидуальным потребностям студентов, повышая эффективность образовательного процесса. Для реализации модели использованы синтетические данные, что обусловлено ограничениями доступа к реальным образовательным данным. Применение методов машинного обучения, в частности логистической регрессии, позволяет получить не только классификацию курсов по сложности (легкий, средний, сложный), но и вероятностные оценки, отражающие степень уверенности модели в своих предсказаниях. Авторы рассматривают весовые коэффициенты признаков, что позволяет понять вклад каждой обеспечивающей дисциплины в прогнозирование сложности. Прогнозирование сложности курсов и заданий способствует более точному подбору учебных материалов, что улучшает качество образования и способствует развитию персонализированных образовательных траекторий. Таким образом, статья вносит вклад в развитие методов образовательной аналитики и подчеркивает необходимость перехода от прогнозирования успеваемости студентов к прогнозированию сложности курсов, что открывает новые перспективы для персонализации образовательного процесса и повышения его эффективности.
В работе проведен анализ текстов описаний товарных позиций ТН ВЭД для обуви, определены признаки, влияющие на классификацию. Предложена систематизация признаков, доступных для визуального распознавания и формализации из документации. Приведены возможности использования методов искусственного интеллекта для решения задач классификации, приведен опыт построения экспертной системы.
В работе проведен анализ существующих методов извлечения именованных сущностей из текстов на русском языке. Сформулированы эквивалентная задача классификации и правила разметки именованных сущностей. Предложены подходы, позволяющие повысить эксплуатационные качества классификаторов. Проведен численный эксперимент, в ходе которого обучено несколько моделей. Продемонстрированы преимущества использования предложенных подходов по отдельности и в совокупности.
В работе исследуются методы анализа данных для оптимизации учебных процессов, представлены правила построения моделей анализа данных. Проводится предварительная обработка входящих данных для последующей подстановки в модель. Выполнена программная реализация алгоритма анализа данных и отображения данных на графике. Полученная модель анализа данных встроена в приложение для оптимизации составления расписания и повышения эффективности учебного процесса.
Проблема распределения и эксплуатации парковочных мест является важной частью исследований в области интеллектуального транспорта. В последние годы в связи с резким увеличением числа автомобилей выразилась проблема ограниченности ресурсов парковочных мест. Эффективное управление парковками требует анализа огромного массива данных и проведения моделирования для оптимизации использования парковочных мест. Внедрение и функционирование умного платного парковочного пространства в г. Владивостоке создает интересную прикладную область для интеллектуального анализа данных и машинного обучения. В исследовании используются масштабный набор данных об исторических транзакциях по парковке во Владивостоке, включая тип транспортного средства, время, местоположение, продолжительность сессии и другие критерии для создания модели данных, отражающей взаимосвязь между ценами на парковку, спросом и доходами. В статье описывается механизм создания модели данных, включающей в себя все важные аспекты функционирования платных парковок и факторы, влияющие на заполняемость. Использование этой модели позволит проводить машинное обучение, применять модели и оценивать эффективность их применения. Исследование также определяет ключевые факторы, влияющие на спрос на парковку, такие как время суток, день недели, местоположение и др. Модель данных и идеи, полученные в результате этого исследования, могут быть использованы правительствами и собственниками для оптимизации использования платных парковок и улучшения управления дорожным движением в умных городах. Подход, представленный в этой статье, можно применить к другим городам для создания систем ценообразования на основе данных, отвечающих конкретным потребностям и характеристикам каждого города.
В настоящее время в широком спектре предметных областей актуальной является задача восстановления пропущенных точек или блоков значений временных рядов. В статье представлен метод SAETI (Snippet-based Autoencoder for Time-series Imputation) для восстановления пропусков в многомерных временных рядах, который основан на совместном применении нейросетевых моделей-автоэнкодеров и аналитического поиска во временном ряде поведенческих шаблонов (сниппетов). Восстановление многомерной подпоследовательности, содержащей пропуски, выполняется посредством двух следующих нейросетевых моделей. Распознаватель получает на вход подпоследовательность, в которой пропуски предварительно заменены на нули, и для каждого измерения определяет соответствующий сниппет. Реконструктор принимает на вход подпоследовательность и набор сниппетов, полученных Распознавателем, и заменяет пропуски на правдоподобные синтетические значения. Реконструктор реализован как совокупность двух следующих моделей: Энкодер, формирующий скрытое состояние для совокупности входной подпоследовательности и распознанных сниппетов; Декодер, получающий на вход скрытое состояние, который восстанавливает исходную подпоследовательность. Представлено детальное описание архитектур вышеперечисленных моделей. Результаты экспериментов над реальными временными рядами из различных предметных областей показывают, что SAETI в среднем опережает передовые аналоги по точности восстановления и показывает лучшие результаты в случае, когда восстанавливаются данные, отражающие активность некоего субъекта.