Про аномалію вперше повідомив Джейсон Пакер, засновник аналітичної фірми Quantable, який опублікував розслідування в блозі своєї компанії. Працюючи з консультантом з вебоптимізації Слободаном Манічем, Пакер витратив тижні на відтворення проблеми, тестування різних вхідних даних та дослідження того, як функції пошуку ChatGPT взаємодіяли з системами індексації Google. Те, що вони виявили, призвело до висновку, який порушив питання конфіденційності, що виходили далеко за рамки простого збою, пише TechSpot.
Згідно з тестуванням Пакера та Маніча, ненавмисно спрямовували запити користувачів до пошукової системи Google. Дослідники простежили, що така поведінка була спричинена специфічним шаблоном URL-адреси — https://openai.com/index/chatgpt/ — який постійно з’являвся на початку витоку запитів. Коли Google токенізував цю адресу, він розділив її на окремі пошукові терміни («openai,» «index,» «chatgpt»), і сайти з високим рейтингом за цими термінами бачили отримані дані на своїх інформаційних панелях Search Console.
Іншими словами, якщо ChatGPT відправляв промпт, який ініціював зовнішній пошук, Google іноді сприймав частини самого цього промпта як пошуковий запит і реєстрував його відповідним чином. Для будь-якого адміністратора вебсайту, якого це торкнулося, цей «злитий» промпт з’являвся серед їхніх даних про трафік.
OpenAI визнала проблему, але описала її як збій маршрутизації, який ненадовго вплинув на невелику кількість пошукових запитів. Компанія заявила про усунення несправності, але від коментарів відмовились. Проте Пакер звернув увагу на те, що компанія ухилилася від відповіді на ширше питання — чи підтверджує інцидент гіпотезу про постійний скрейпінг результатів Google Search для навчання відповідей ChatGPT.
Проблема, ймовірно, була пов’язана з поведінкою ChatGPT під час «перегляду веб-сторінок», що з’явилася в новіших моделях GPT-5. Зазвичай чат-бот виконує веб-пошук, коли визначає, що запит вимагає свіжої або зовнішньої інформації. Однак Пакер і Маніч виявили, що одна версія інтерфейсу чат-бота містила параметр — «hints=search» — який змушував його шукати майже щоразу.
Помилка у вікні запиту, очевидно, додавала URL-адресу посилання до кожного запиту. Коли ChatGPT виконував цей пошук, Google записував як додану URL-адресу, так і запит користувача. Оскільки Search Console відстежує повні пошукові запити, які вводять користувачі, ці текстові рядки ставали видимими для власників сайтів, які відстежували дані трафіку за цими токенами.
Пакер дійшов висновку, що система, мабуть, взаємодіяла безпосередньо з інфраструктурою індексування Google, а не через приватний API. «Якби це був API або приватний канал даних, він би не з’являвся в Search Console», — написав він. Випадкова видимість чітко натякала на те, що ChatGPT виконував пошук у Google у реальному часі, фактично обмінюючись текстом, надісланим користувачами, як з Google, так і з будь-якими вебсайтами, які з’являлися в цих результатах.
OpenAI стверджує, що витік торкнувся лише невеликої кількості пошукових запитів. Компанія не надала конкретної цифри, тому незрозуміло, скільки користувачів серед приблизно 700 млн щотижня могли стати жертвами перенаправлення їхніх текстів у Search Console.
Цей інцидент стався після попередніх проблем із конфіденційністю, які спливли, коли користувачі виявили публічні посилання на свої діалоги ChatGPT, проіндексовані пошуковими системами Google.
«Не було задіяно жодного механізму згоди», — каже Пакер. «Ніхто не натискав „поділитися“. Ці запити були просто неправильно спрямовані.» На відміну від публічних сторінок, записи Search Console не можуть бути просто видалені постраждалими користувачами, залишаючи відкритий текст видимим для будь-якого власника сайту, чия сторінка рейтингувалася за відповідними пошуковими термінами.
Дослідники підозрюють, що цей збій може бути пов’язаний з іншим феноменом, який аналітики пошукових систем називають «пащею крокодила» — це розширення проміжку на графіках Search Console, де кількість показів стрімко зростає, але кількість кліків падає. Якщо системи OpenAI повторно зверталися до Google із довгими синтетичними запитами, вони могли спотворити ці аналітичні патерни.
Пакер і Маніч стверджують, що досі не знають, чи виправлення, впроваджене OpenAI, запобігає всім видам витоків промптів, чи лише зупиняє специфічну маршрутизацію, пов’язану з проблемною URL-адресою. Наразі вони зберігають обережність. «Ми не знаємо, чи це стосувалося лише одного інтерфейсу, чи вплинуло на ширше коло сесій», — сказав Пакер. — «У будь-якому разі, це ознака того, що системи, які живлять ці інструменти, досі обробляють дані користувачів непередбачувано».