Zespół ekspertów z firmy Truffle Security, twórców narzędzia TruffleHog, przeprowadził gruntowną analizę archiwum danych zarządzanego przez organizację non-profit Common Crawl. To obszerne repozytorium, gromadzące informacje z internetu od 2008 roku, stanowi ważne źródło wiedzy dla zaawansowanych modeli językowych rozwijanych przez liderów branży, takich jak OpenAI, Google czy Meta. Badania, których wyniki ogłoszono w grudniu 2024 roku, ujawniły niepokojący fakt: w 400 terabajtach danych pochodzących z 2,67 miliarda stron internetowych zidentyfikowano niemal 12 tysięcy aktywnych kluczy API oraz haseł. Te wrażliwe informacje zostały nieumyślnie utrwalone w kodzie źródłowym stron przez programistów. Wśród odnalezionych danych znalazły się klucze dostępowe do renomowanych usług, takich jak Amazon Web Services (AWS), MailChimp oraz WalkScore. Najliczniej reprezentowane były klucze API MailChimp – blisko półtora tysiąca z nich zlokalizowano w formularzach HTML i fragmentach kodu JavaScript. Specjaliści wskazują, że źródłem problemu jest brak stosowania bezpiecznych praktyk, takich jak przechowywanie danych w zmiennych środowiskowych po stronie serwera. Zamiast tego, informacje te były umieszczane bezpośrednio w kodzie, co czyniło je dostępnymi dla każdego, kto przeanalizuje strukturę strony.
Skala zjawiska budzi poważne obawy. Jeden z kluczy do usługi WalkScore odnaleziono w ponad 57 tysiącach przypadków, rozproszonych po ponad tysiącu subdomen, co świadczy o powszechnym powielaniu tych samych danych. Z kolei na jednej ze stron eksperci natrafili na 17 aktywnych webhooków Slacka – mechanizmów umożliwiających wysyłanie wiadomości w tej platformie komunikacyjnej. Producent Slacka wyraźnie podkreśla konieczność ochrony takich danych i zakazuje ich ujawniania w publicznie dostępnych zasobach. Mimo to, informacje te znalazły się w otwartym archiwum.
Ryzyko w strukturze danych
Dlaczego odkrycie to ma tak duże znaczenie? Dostęp do takich kluczy może umożliwić osobom nieuprawnionym przeprowadzenie zaawansowanych ataków, takich jak kampanie phishingowe czy kradzież danych. W przypadku MailChimp ujawnienie kluczy API stwarza możliwość ingerencji w kampanie mailingowe, co może prowadzić do strat finansowych i reputacyjnych dla przedsiębiorstw. Archiwum Common Crawl, choć jest nieocenionym zasobem dla twórców AI, nie jest wolne od niedoskonałości. Przed wykorzystaniem w procesie treningu, modele językowe poddawane są wstępnemu przetwarzaniu, które ma na celu eliminację zbędnych lub wrażliwych treści. Jednak, jak pokazują wyniki analizy, pełne oczyszczenie tak rozległego zbioru danych z informacji poufnych pozostaje zadaniem niewykonalnym. W efekcie technologie stosowane przez największe firmy mogą nieświadomie opierać się na kodach zawierających aktywne klucze i hasła, co rodzi pytania o bezpieczeństwo produktów finalnych. Po zakończeniu badania Truffle Security nawiązało współpracę z dostawcami usług, których dane zostały narażone, wspierając ich w unieważnieniu kilku tysięcy ataków. Dzięki temu zredukowano ryzyko ich nieautoryzowanego wykorzystania, choć problem wymaga dalszych działań.
Wnioski dla branży technologicznej
Wyniki analizy stanowią istotne ostrzeżenie dla sektora technologicznego. Nawet jeśli modele AI korzystają z wcześniejszych wersji archiwum Common Crawl, zagrożenie związane z niefrasobliwymi praktykami programistycznymi pozostaje aktualne. W kontekście coraz większej roli sztucznej inteligencji w codziennym życiu, dbałość o bezpieczeństwo danych staje się imperatywem. Utrwalanie poufnych informacji bezpośrednio w kodzie źródłowym może generować konsekwencje wykraczające poza pojedyncze aplikacje, wpływając na całe ekosystemy technologiczne. Współpraca z dostawcami usług i szybkie reagowanie na ujawnione luki to krok w dobrym kierunku, jednak kluczowa jest zmiana podejścia na poziomie standardów kodowania i świadomości twórców oprogramowania.