Чи може модель зі «зразковою» точністю підвести, щойно ви перенесете її в інше місце? Команда MIT відповіла ствердно – і з цифрами. Нове дослідження розкриває, як середні показники успішності здатні приховувати масштабні провали, небезпечні для медицини й онлайн-платформ.
Передумови: віра у «середню точність» та невидимі кореляції
Раніше індустрія машинного навчання виходила з припущення, що якщо модель добре працює на вихідних даних, то її рейтинг «краща–гірша» збережеться і в новому середовищі – підхід відомий як accuracy-on-the-line. Водночас у прикладних задачах накопичувалися докази спуріозних кореляцій – коли система підхоплює несуттєві ознаки замість справжніх причинно-наслідкових зв’язків. Попередні роботи групи Марзіє Хассемі з MIT показували, що моделі можуть несвідомо прив’язувати діагнози до таких факторів, як вік, стать чи раса. Якщо, скажімо, у вибірці більше знімків літніх пацієнтів із пневмонією, модель починає «вважати» пневмонію ознакою саме старшого віку. У підсумку при зміні середовища – іншій лікарні чи платформі – такі хибні залежності руйнуються, а прогнози стають ненадійними. Саме цей розрив між «середньою» ефективністю та якістю для конкретних груп і вирішили системно дослідити в MIT.
Подія: на NeurIPS 2025 MIT виявляє системні провали «кращих» моделей
У грудні на конференції NeurIPS 2025 команда MIT показала масштабні приклади, коли моделі машинного навчання, обрані як найкращі за середніми метриками, у новому середовищі ставали найгіршими для 6-75 відсотків даних. На практиці це проявлялося, зокрема, у задачах діагностики за рентгенограмами грудної клітки між різними лікарнями: модель, що в одній установі працювала відмінно, в іншій провалювалася для більшості пацієнтів у певних підгрупах. Дослідники також охопили зображення гістопатології раку та виявлення мови ненависті – у всіх цих сферах агреговані показники ховали збої на рівні підпопуляцій. У медицині причиною може бути те, що модель «вивчила» не анатомічні патерни, а, наприклад, службові позначки на знімках однієї лікарні – і тоді в іншій лікарні ці підказки зникають. Особливо тривожно, що покращення загальної точності інколи супроводжувалося гіршими результатами для пацієнтів із плевральними станами або збільшеним кардіомедіастинумом.
«Навіть якщо ви навчаєте моделі на великих масивах даних і обираєте найкращу за середнім показником, у новому середовищі ця “найкраща” модель може виявитися найгіршою для 6-75 відсотків даних», – наголосила Марзіє Хассемі з MIT.
Реакція: як відповіли дослідники й чому це важливо
Щоб системно виявляти такі «приховані» провали, постдок Olawale Salaudeen запропонував алгоритм OODSelect. Він навчає тисячі моделей на даних першого середовища та порівнює їхню точність із результатами в новому, виокремлюючи ті підмножини прикладів, де порядок «краща–гірша» руйнується. Команда також підкреслила небезпеку агрегованої статистики, здатної маскувати критичні збої на рівні підгруп, і відмежувала «найпомилковіші приклади», щоб не плутати спуріозні кореляції із завданнями, які самі по собі є складними для класифікації.
Наслідки: що змінилося вже зараз
Робота показала, що оцінювання моделей повинно виходити за межі «середньої» метрики і включати цільові перевірки в нових середовищах. Для спільноти це практичний сигнал: виявлені підгрупи з поганою якістю можна використати, щоб донавчити моделі під конкретні задачі та контексти застосування.
- Представлено OODSelect – підхід, що через навчання тисяч моделей та їх перевірку у новому середовищі виявляє підпопуляції, де «найкращі» моделі стають найгіршими.
- Задокументовано деградацію на конкретних групах пацієнтів, зокрема з плевральними станами та збільшеним кардіомедіастинумом, попри зростання загальної точності.
- Оприлюднено код і частину підмножин даних із дослідження, що відкриває шлях для незалежної перевірки та подальшого розвитку методів.
Що далі: нові бенчмарки і перевірки перед кожним розгортанням
Дослідники рекомендують спільноті впроваджувати OODSelect для виявлення «вразливих» підгруп та проектувати підходи, які стабільніше тримаються у змінених умовах. Команда очікує, що оприлюднений код і підмножини стануть кроком до нових бенчмарків, що прямо протистоять впливу спуріозних кореляцій. Раніше питання тестування перед кожним новим розгортанням звучало як порада – тепер, у світлі результатів MIT, це виглядає як необхідність. Наступним етапом стане перевірка моделей не лише на «середніх» метриках, а й на конкретних підпопуляціях, де на кону – реальні рішення та безпека користувачів.
Serg Kulyk is the most experienced member of our team and a graduate of the Kyiv University of Culture. As a private journalist, he has worked with many media outlets, developing his skills as an OSINT researcher. Using the latest technologies, Sergcreates deeply analytical materials, always relying on verified facts and truthful information.
uk
