MIT довів: LLM-рейтинги можуть змінитися через лічені голоси – новий метод виявляє вразливі платформи

Чи можна довіряти LLM-рейтингам? Дослідження MIT демонструє залежність від кількох голосів

Кілька кліків можуть вирішити долю лідера в таблиці LLM. Дослідження Массачусетського технологічного інституту показало, що навіть кілька користувацьких взаємодій здатні підмінити картину «найкращої» моделі. Ідеться не про поодинокі випадки, а про системну вразливість рейтингових платформ.

Як формувався попит на LLM-рейтинги

Раніше компанії, які хотіли застосувати великі мовні моделі для підсумовування звітів чи сортування звернень, стикалися з надлишком вибору: сотні LLM і десятки варіацій кожної з різною поведінкою. Задля скорочення поля пошуку з’явилися LLM-рейтинги, що агрегують зворотний зв’язок користувачів: платформи порівнюють відповіді двох моделей на один запит, а користувачі обирають кращу. Очікування бізнесу були прості – якщо модель очолює рейтинг у близькому завданні, її перевага має узагальнюватися на схожі кейси. Раніше команда MIT вже досліджувала узагальнюваність у статистиці та економіці, виявивши, що вилучення малої частки даних інколи суттєво змінює висновки. Ця передісторія підштовхнула науковців перевірити, чи не працює подібний ефект і в платформах оцінювання LLM.

Що саме виявили: експеримент і метод

На поточному етапі дослідження в MIT сфокусувалися на практичному питанні: чи може незначне видалення голосів змінити лідера у рейтингу. Ручна перевірка неможлива: на одній платформі було понад 57 000 голосів; тест навіть 0,1 відсотка вимагає перебрати всі підмножини з 57 голосів, а їх більше ніж 10194. Тому команда розробила швидкий метод перевірки платформ, який ефективно наближує результат і ідентифікує найвпливовіші голоси. Далі користувач може видалити ці точки даних і повторно перерахувати рейтинг, щоб перевірити, чи змінюється лідер.

“Ми були здивовані, наскільки чутливими можуть бути такі рейтинги. Якщо вершина списку залежить від двох-трьох голосів серед десятків тисяч, не можна припускати, що ця модель стабільно обходитиме інші під час реального застосування,” – зазначає Тамара Бродерік, доцентка EECS в MIT і старша авторка роботи.

Як відреагували й що кажуть експерти

Під час застосування методики до популярних платформ науковці побачили несподівану чутливість до окремих голосів. На одній із платформ вилучення лише 2 голосів із понад 57 000 – це приблизно 0,0035 відсотка – змінило модель-лідерку. Інша платформа, де працювали експертні анотатори та якісніші підказки, виявилася стійкішою: там потрібно було прибрати 83 з 2 575 оцінок (близько 3 відсотків), щоб лідери помінялися місцями. Дослідники помітили, що значна частина «впливових» голосів може пояснюватися помилками користувачів – від хибного кліку до невпевненості у виборі.

“Робота показує, що навіть кілька уподобань можуть суттєво змінити поведінку систем, які покладаються на людські оцінки. Це має спонукати до обдуманіших підходів до збирання таких даних,” – прокоментувала Джессіка Галлман з Northwestern University.

Що вже змінилося для розробників і бізнесу

Найближчим результатом стало публічне попередження спільноти: бізнес-ризики від помилкового вибору LLM реальні, якщо рішення спираються на вразливі агреговані рейтинги. Автори не фокусувалися на повній стратегії пом’якшення, однак запропонували практичні кроки – від збору детальнішого фідбеку до модерації оцінок. Роботу буде представлено на Міжнародній конференції з представлення навчання (ICLR), а серед авторів – Тамара Бродерік (MIT EECS; LIDS; IDSS; афілійована з CSAIL), провідні автори Дженні Хуанг і Юній Шень, а також Деніс Вей з IBM Research. Дослідження частково профінансували Office of Naval Research, MIT‑IBM Watson AI Lab, National Science Foundation, Amazon та грант CSAIL.

  • З’явився прозорий спосіб перевіряти стійкість рейтингів: метод визначає голоси, що найбільше впливають на результат, для їхнього подальшого аналізу.
  • Показано конкретні пороги: на одній платформі достатньо прибрати 2 з понад 57 000 голосів (0,0035 відсотка), аби змінити лідера; на іншій – 83 з 2 575 (близько 3 відсотків).
  • Підкреслено роль якості аннотацій: платформи з експертними оцінками та кращими промптами демонструють вищу робастність.

Що далі: як зміцнити довіру до оцінок LLM

У перспективі команди дослідників працюватимуть над глибшим вивченням узагальнюваності та вдосконаленням наближених методів, аби охопити ширший спектр нестійких сценаріїв. Платформи можуть підвищити надійність завдяки збору детальнішого фідбеку – наприклад, рівню впевненості користувачів – та використанню медіаторів для перевірки спірних відповідей. Для компаній висновок простий: перед впровадженням варто тестувати обрані LLM на власних даних і застосовувати методи стрес‑перевірки рейтингів. Саме так таблиці лідерів перетворяться з рекламного аргументу на інструмент усвідомленого вибору.

+ posts

Serg Kulyk is the most experienced member of our team and a graduate of the Kyiv University of Culture. As a private journalist, he has worked with many media outlets, developing his skills as an OSINT researcher. Using the latest technologies, Sergcreates deeply analytical materials, always relying on verified facts and truthful information.