Конференция Ассоциации компьютерной лингвистики ACL 2025 — самая востребованная, но и самая требовательная конференция по NLP на текущий момент. Не обрабатывали с утречка естественный язык? Вы не проходите! И это не шутки, на ACL один из самых низких уровней принятия ИИ-статей: всего 20% на основной трек. Что не помешало дать зелёный свет 1700 работам, а довеском — 1400 результатам исследований (findings), и 28 воркшопам. Ранее от Института проблем искусственного интеллекта на неё удавалось пробиться лишь Ивану Смирнову, Даниилу Ларионову и, разумеется, Елене Чистовой. Вот, кстати, новость от 2023 года о её выступлении в Торонто, а вот — доклад от 2024 года из Таиланда.
В этом году конференция переехала в Вену, тогда как статус Елены позволял ей уже не входить в раж, нервно перелопачивая миллиарды корпусов для установления связей между частями текстов, а спокойно выбрать занятие по вкусу. В итоге она возглавила комитет 12-го Воркшопа по автоматическому извлечению и идентификации аргументативных структур из текста 12th Argument Mining Workshop. Общим решением программу ещё и расширили за счёт смежных дисциплин. В итоге в основной трек вписались 22 из 68 работ, не считая постерной сессии и приглашённых спикеров. Вышло здорово. С самим воркшопом вы можете ознакомиться по ссылке.
Казалось бы, куда больше? Но тут на мероприятие ворвались Александр Панов и Григорий Горбов с командой Центра когнитивного моделирования МФТИ и коллегами по AIRI. Их совместный с Зоей Воловиковой, Петром Кудером и Александром Скрынником бенчмарк CrafText Benchmark: Advancing Language Grounding in Complex Multimodal Open-Ended World (ссылка) предложил набор данных для оценки способности агента следовать инструкциям на естественном языке в интерактивном мультимодальном открытом мире выполнения инструкций с дообучением и выполнять задачи в динамических условиях.

Среди особенностей CrafText авторы особо выделили библиотеку сценариев, зависимую от типов и сложности задач, большой словарный запас, автоматизированную проверку инструкций, поддержку стохастичности и динамики, динамической среды, а также 3,924 инструкций и 3,423 слов. Всё это отвечает четырём ключевым задачам, обозначенным создателями как Localization, Conditional, Building и Achievement. Или, грубо говоря, способность агента интерпретировать указания и следовать им, его пространственное мышление (3D-структуры за счёт устных или текстовых инструкций), а также понимание достижений, объяснение задачи и определение необходимых действий.
Ещё одним консолидирующим трудом для Александра Панова, Анастасии Ивановой, Евы Бакаевой, Зои Воловиковой и Алексея Ковалёва стал крупнейший открытый набор данных AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment (ссылка) для тестирования систем, которым предстоит понимать бытовые команды от людей. Впрочем, о нём и так немало сказано: например, в материале «Новый бенчмарк проверяет, как роботы понимают человека» (ссылка) портала «Хайтек», где скрупулезно описана технология AmbiK — открытого набора из 2000 текстовых задач, в которых агент сталкивается с расплывчатыми или многозначными указаниями, либо «улавливает контекст, здравый смысл и меру допустимой неопределённости». Лучше и не скажешь.
Хотя нет, врём, конечно, скажешь. Лучший обзор докладов и постеров с ACL читайте в Телеграм-канале Александра Панова. Там и фото, и куча дополнительных материалов, и АТМОСФЕРА. Но и мы не промах (подписывайтесь на канал RAIRI)!
Cсылки по теме: