Элементы искусственного интеллекта на портале BelNET - наши планы

2026-01-14 00:00:00

Продолжение ....

Для организации текстов в структуру используются методы классификации [1] и кластерного анализа. Это требует подбора подходящих метрик сравнения текстов по похожести с учетом особенностей контента документов предметной области. Необхо-димо отметить, что подходы классификации и кластерного анализа значительно отли-чаются между собой. Классификация оперирует заранее заданной структурой для орга-низации текстов – глоссарием. И соответствующий алгоритм должен соотнести текст с этой структурой и определить место текста в структуре: к какому классу (или классам) следует отнести исследуемый текст.

Кластерный анализ (или кластеризация) – это метод анализа данных, который разделяет объекты на группы (кластеры) на основе их сходства [7]. Цель состоит в том, чтобы объекты внутри одного кластера были как можно более похожими, а объекты из разных кластеров – как можно более разными. Это задача обучения без учителя, по-скольку нет заранее заданных меток для объектов. Другими словами, кластерный ана-лиз основан на алгоритмах, которые формируют перечень классов в процессе работы с конкретным множеством документов, автоматически группируя документы по степени похожести. При этом перечень групп заранее не известен.

В качестве примера можно привести перспективную идею группировать результаты полнотекстового поиска при большом числе документов. Это позволит пользователю исключать из рассмотрения группы документов и обращать внимание на интересующие группы. При этом оба подхода используют векторизацию.

На основе указанных алгоритмов формируются интеллектуальные инструменты для автоматического семантического анализа содержания текстов и классификации научных публикаций по различным категориям (дисциплинам, типам исследований, уровням значимости) с целью обеспечения качественной навигации по ресурсам портала, извлечение ключевых терминов и концептов, анализа цитирований и установления авторского вклада, помощи в принятии этических решений, предварительной обработки материалов портала на предмет выявления генерации материала с помощью того или иного инструмента ИИ, контроль уникальности и оригинальности публикуемых материалов. Это в совокупности является реализацией принципов комплексной методологии цифровой интеграции ядерных знаний с использованием искусственного интеллекта и семантических технологий.

Отметим, что разработанные за 10 лет функционирования портала BelNET ориги-нальные материалы контента портала (корпус текстов) (препринты, рукописи, специально созданные для контента портала научные, новостные и учебные материалы, включая лекции и лабораторные работы с тестами к ним) являются хорошей основой, на которой будет обучаться создаваемая большая языковая модель.

Рисунок с сайта Pixabay

1. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // Proc. Int. Conf. on Learning Representations, 2013. – Mode of access: https://arxiv.org/abs/1301.3781v3. – Date of access 11.07.2025. – 12 p.