
Egy nyílt forráskódú webarchívumban fedezték fel az érzékeny adatokat: egy friss kutatás szerint csaknem 12 000 érvényes API-kulcsot és jelszót találtak a Common Crawl adathalmazában, amelyet számos mesterséges intelligencia (AI) modell tanítására használnak. A Common Crawl egy non-profit szervezet, amely 2008 óta hatalmas, nyílt forráskódú webadat-gyűjteményt tart fenn. Az archívum petabájtnyi adatot tartalmaz, és bárki számára szabadon hozzáférhető.
Mivel az adatbázis rendkívül nagy, több mesterséges intelligencia projekt is legalább részben erre támaszkodhat nagy nyelvi modellek (LLM – Large Language Model) tanításához. Az érintett AI-fejlesztők között megtalálhatók az OpenAI, a DeepSeek, a Google, a Meta, az Anthropic és a Stability is.
AWS root kulcsok és MailChimp API-kulcsok kerültek elő
A Truffle Security kutatói – akik a TruffleHog nevű nyílt forráskódú biztonsági szkenner fejlesztői – 400 terabájtnyi adatot vizsgáltak át a Common Crawl 2024 decemberi archívumából. Összesen 2,67 milliárd weboldalt ellenőriztek, és az eredmény megdöbbentő:
11 908 olyan hitelesítő adatot találtak, amelyek valóban működnek. Ezeket fejlesztők hardkódolták (azaz közvetlenül a forráskódba írták), ami komoly biztonsági kockázatot jelent, hiszen az LLM-ek így bizalmas információkat tartalmazó kódokon is tanulhatnak.
Fontos megjegyezni, hogy a mesterséges intelligencia modellek tanításához felhasznált adatok nem nyers formában kerülnek feldolgozásra. Az adatokat előzetesen tisztítják és szűrik, hogy eltávolítsák a felesleges, duplikált, káros vagy érzékeny információkat. Azonban egy ilyen óriási adathalmaz esetében szinte lehetetlen garantálni, hogy minden bizalmas adatot sikerül eltávolítani.
A kutatás során a Truffle Security szakértői érvényes API-kulcsokat találtak az Amazon Web Services (AWS), a MailChimp és a WalkScore szolgáltatásaihoz.
Fejlesztői hibák és a kockázatok
A TruffleHog összesen 219 különböző típusú hitelesítő adatot azonosított a Common Crawl adathalmazában. A leggyakrabban előforduló titkos kulcsok a MailChimp API-kulcsai voltak.
A kutatók szerint a problémát az okozta, hogy a fejlesztők ahelyett, hogy szerveroldali környezeti változókat használtak volna, egyszerűen HTML- és JavaScript-kódba írták be az API-kulcsokat.
Ez azt jelenti, hogy rosszindulatú szereplők könnyedén hozzáférhetnek ezekhez az adatokhoz, amelyeket például adathalász kampányokhoz vagy márkák hamisításához használhatnak fel. Emellett az ilyen típusú adatszivárgás adatlopásokhoz és egyéb biztonsági incidensekhez is vezethet.
A kutatás egyik legmegdöbbentőbb eredménye az volt, hogy a felfedezett hitelesítő adatok 63%-a több különböző weboldalon is megtalálható volt. Egy WalkScore API-kulcs például 57 029 alkalommal fordult elő, összesen 1 871 aldomainen.
A kutatók egy olyan weboldalt is találtak, amely 17 egyedi, élő Slack-webhookot tartalmazott. Ezek az URL-ek titkosak kellene hogy legyenek, mivel lehetővé teszik külső alkalmazások számára, hogy üzeneteket küldjenek a Slack platformjára. A Slack erre külön figyelmezteti a fejlesztőket:
„Tartsd titokban, tartsd biztonságban. A webhook URL-ed egy titkos azonosítót tartalmaz. Ne oszd meg online, beleértve a nyilvános verziókezelő rendszereket is.”
Megoldások és tanulságok
A Truffle Security a kutatás után értesítette az érintett szolgáltatókat, és együttműködött velük az API-kulcsok visszavonásában. Több ezer API-kulcsot sikerült letiltani vagy újragenerálni a bejelentést követően.
Bár az AI modellek sok esetben régebbi adathalmazokat is felhasználhatnak, ez az eset rávilágít arra, hogy a nem biztonságos kódolási gyakorlatok milyen hatással lehetnek az AI-modellek működésére is.
Ez a felfedezés arra figyelmeztet, hogy a fejlesztőknek nagyobb figyelmet kell fordítaniuk a titkos kulcsok és egyéb hitelesítő adatok biztonságos kezelésére, különösen egy olyan korban, amikor a mesterséges intelligencia egyre szélesebb körben használja fel az interneten található nyilvános adatokat.
Forrás: Nearly 12,000 API keys and passwords found in AI training dataset
