Нова китайська ШІ-модель вважає себе ChatGPT. Ось чому це відбувається

Кадр з фільму «Я, робот» / 20th Century Fox

Минулого тижня китайська лабораторія штучного інтелекту випустила нову «відкриту» модель штучного інтелекту під назвою DeepSeek, яка перевершує багатьох конкурентів за популярними тестами (зокрема в програмуванні й написанні есе), однак має одну цікаву особливість — вважає, що вона ChatGPT.

Низку дописів з подібними заявами DeepSeek поширили в X та Reddit. Модель також уточнює, до якого саме випуску належить — версії GPT-4, випущеної у 2023 році.

This actually reproduces as of today. In 5 out of 8 generations, DeepSeekV3 claims to be ChatGPT (v4), while claiming to be DeepSeekV3 only 3 times.

Gives you a rough idea of some of their training data distribution. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv

— Lucas Beyer (bl16) (@giffmana) December 27, 2024

Чому це відбувається? Видання TechCrunch пише, що обидві моделі — ChatGPT і DeepSeek V3 — статичні системи, які навчаються на мільярдах прикладів із шаблонами, щоб робити прогнози по тексту (навіть в таких елементарних речах, як визначити, де поставити кому в реченні). Китайці не розкрили навчальних даних свої моделі, однак загальнодоступних наборів із текстом, створеним GPT-4 через ChatGPT, нині вдосталь — тож цілком можливо, що DeepSeek ними скористалася і просто відтворює вихідні дані дослівно.

«Очевидно, що в якийсь момент модель отримує необроблені відповіді від ChatGPT, але незрозуміло, звідки саме», — сказав у коментарів виданню Майк Кук, науковий співробітник Королівського коледжу Лондона, який спеціалізується на ШІ. «Це може бути “випадковістю”… але, на жаль, ми вже бачили випадки, коли люди навчали свої моделі на даних інших моделей, щоб спробувати використати ці знання».

Кук зазначив, що практика навчання моделей на результатах конкурентних систем штучного інтелекту може бути «дуже поганою» для якості моделі, оскільки це може призвести до галюцинацій і оманливих відповідей, подібних до наведених вище.

СпецпроєктиВ реабілітації постраждалих внаслідок війни допомагатиме AR. Як працює український застосунок VidnovaЧи варто починати накопичувати на пенсію у 30? Розповідаємо, що таке недержавні пенсійні фонди

«Подібно до фотокопії, ми втрачаємо все більше інформації та зв’язку з реальністю», — додає Кук.

Це також може суперечити умовам обслуговування цих систем. Правила OpenAI, до прикладу, забороняють користувачам ChatGPT використовувати результати для розробки моделей, які конкурують із власними системами OpenAI.

Жодна з компаній не відповіла на запит журналістів, однак бос стартапу Сем Альтман у ті самі дні, коли поширились дописи з DeepSeek, написав:

«Відносно легко скопіювати те, що, як ви знаєте, вже працює. Надзвичайно важко робити щось нове та ризиковане, коли ти не знаєш, яким буде результат».

Насправді, DeepSeek V3 далеко не перша модель, яка помилково ідентифікувала себе. Google Gemini на запит китайською мовою відповідала, що вона є чатботом Wenxinyiyan китайської компанії Baidu.