Jak zapobiec wykorzystywaniu danych do szkolenia sztucznej inteligencji?

Jeśli coś napisałeś w 2009 roku w sieci, to...

Jeśli kiedykolwiek opublikowałeś coś w Internecie – zwięzły tweet, post na blogu z 2009 roku, pogardliwą recenzję lub selfie na Instagramie – najprawdopodobniej zostało to przełknięte i wykorzystane do szkolenia obecnej fali generatywnej sztucznej inteligencji. Duże modele językowe, takie jak ChatGPT, i twórcy obrazów korzystają z ogromnych ilości naszych danych. Nawet jeśli nie zasila to chatbota, dane można wykorzystać do innych funkcji uczenia maszynowego.

Firmy technologiczne przeszukały ogromne obszary Internetu, aby zebrać dane, które ich zdaniem są potrzebne do stworzenia generatywnej sztucznej inteligencji – nie zważając na twórców treści, prawa autorskie ani prywatność. Co więcej, firmy dysponujące mnóstwem postów ludzkich chcą wziąć udział w gorączce złota związanej ze sztuczną inteligencją, sprzedając lub licencjonowając te informacje. Patrzę na ciebie, Reddicie.

Jednak w miarę narastania liczby procesów sądowych i dochodzeń dotyczących generatywnej sztucznej inteligencji i jej praktyk związanych z nieprzejrzystymi danymi, podjęto niewielkie kroki, aby zapewnić ludziom większą kontrolę nad tym, co dzieje się z tym, co publikują w Internecie. Niektóre firmy pozwalają obecnie klientom indywidualnym i biznesowym zrezygnować z wykorzystywania ich treści w szkoleniach dotyczących sztucznej inteligencji lub sprzedaży do celów szkoleniowych. Oto, co możesz — i czego nie możesz — zrobić.

Istnieje granica

Zanim przejdziemy do sposobu rezygnacji, warto ustalić pewne oczekiwania. Wiele firm tworzących sztuczną inteligencję przeszukało już sieć, więc wszystko, co opublikowałeś, prawdopodobnie znajduje się już w ich systemach. Firmy również nie ujawniają, co faktycznie zeskrobały, kupiły lub wykorzystały do szkolenia swoich systemów. „Szczerze mówiąc, nie wiemy zbyt wiele” – mówi Niloofar Mireshghallah, badacz zajmujący się prywatnością sztucznej inteligencji na Uniwersytecie Waszyngtońskim. „Ogólnie rzecz biorąc, wszystko jest bardzo czarno-skrzynkowe”.

Mireshghallah wyjaśnia, że rezygnacja z wykorzystywania danych do szkolenia AI może być skomplikowana dla firm, a nawet tam, gdzie jest to możliwe, wiele osób nie ma „jasnego pojęcia” na temat zezwoleń, na które się zgodzili, lub w jaki sposób dane są wykorzystywane używany. Dzieje się tak zanim zostaną wzięte pod uwagę różne przepisy, takie jak ochrona praw autorskich i rygorystyczne europejskie przepisy dotyczące prywatności. Facebook, Google, X i inne firmy zapisały w swoich politykach prywatności, że mogą wykorzystywać Twoje dane do szkolenia sztucznej inteligencji.

Chociaż istnieją różne techniczne sposoby, w jakie systemy AI mogą usunąć z nich dane lub „oduczyć się” – mówi Mireshghallah, niewiele wiadomo na temat istniejących procesów. Opcje mogą być zakopane lub pracochłonne. Usunięcie postów z danych szkoleniowych AI prawdopodobnie będzie żmudną walką. Tam, gdzie firmy zaczynają umożliwiać rezygnację z przyszłego pobierania lub udostępniania danych, prawie zawsze domyślnie zmuszają użytkowników do wyrażenia takiej zgody.

„Większość firm powoduje dodatkowe tarcia, ponieważ wiedzą, że ludzie nie będą tego szukać” – mówi Thorin Klosowski, działacz na rzecz bezpieczeństwa i prywatności w Electronic Frontier Foundation. „Wyrażenie zgody byłoby działaniem celowym, w przeciwieństwie do rezygnacji, w przypadku której trzeba mieć pewność, że taka opcja istnieje”.

Chociaż jest to mniej powszechne, niektóre firmy tworzące narzędzia AI i modele uczenia maszynowego nie rejestrują automatycznie klientów. „Domyślnie nie szkolimy naszych modeli na danych przesłanych przez użytkowników. Możemy używać podpowiedzi i wyników użytkownika do szkolenia Claude’a, jeśli użytkownik wyrazi na to wyraźną zgodę, na przykład klikając sygnał kciuka w górę lub w dół na konkretnym wyjściu Claude’a, aby przekazać nam swoją opinię” – mówi Jennifer Martinez, rzeczniczka Anthropic. W tej sytuacji najnowsza wersja chatbota Claude firmy Claude opiera się na informacjach publicznych dostępnych w Internecie i danych pochodzących od osób trzecich – treściach publikowanych przez osoby w innym miejscu online – ale nie na informacjach o użytkownikach.

Większość tego przewodnika dotyczy rezygnacji z tekstu, ale artyści również korzystają z informacji „Czy zostałem przeszkolony? ”, aby zasygnalizować, że ich obrazy nie powinny być wykorzystywane do celów szkoleniowych. Usługa prowadzona przez startup Spawning pozwala ludziom sprawdzić, czy ich dzieła zostały zeskrobane, a następnie zrezygnować z jakichkolwiek przyszłych szkoleń. „Wszystko, co ma adres URL, można zrezygnować. Nasza wyszukiwarka wyszukuje tylko obrazy, ale nasze rozszerzenie przeglądarki pozwala zrezygnować z dowolnego rodzaju multimediów” – mówi Jordan Meyer, współzałożyciel i dyrektor generalny Spawning. Stability AI, startup stojący za narzędziem do konwersji tekstu na obraz o nazwie Stable Diffusion, należy do firm, które twierdzą, że honorują ten system.

Poniższa lista obejmuje tylko firmy objęte obecnie procesem rezygnacji. Na przykład Copilot firmy Microsoft nie oferuje użytkownikom posiadającym konta osobiste opcji, aby ich monity nie były wykorzystywane do ulepszania oprogramowania. „Część całkowitej liczby monitów użytkowników w odpowiedziach Copilot i Copilot Pro jest wykorzystywana do udoskonalenia doświadczenia” – mówi Donny Turnbaugh, rzecznik Copilot. „Microsoft podejmuje kroki w celu deidentyfikacji danych przed ich użyciem, pomagając chronić tożsamość konsumentów”. Nawet jeśli dane nie zostaną zidentyfikowane, użytkownicy dbający o prywatność mogą chcieć większej potencjalnej kontroli nad swoimi informacjami.

Jak zrezygnować ze szkolenia AI?

Jeśli przechowujesz pliki w usłudze Creative Cloud firmy Adobe, firma może wykorzystać je do szkolenia swojego algorytmu uczenia maszynowego. „Kiedy analizujemy Twoje treści w celu ulepszenia i rozwoju produktów, najpierw łączymy je z innymi treściami, a następnie wykorzystujemy zagregowaną treść do szkolenia naszych algorytmów, a tym samym ulepszania naszych produktów i usług” – czytamy w często zadawanych pytaniach firmy. Nie dotyczy to plików przechowywanych wyłącznie na Twoim urządzeniu.

Jeśli korzystasz z osobistego konta Adobe, możesz łatwo z niego zrezygnować. Otwórz stronę prywatności Adobe, przewiń w dół do sekcji Analiza treści i kliknij przełącznik, aby ją wyłączyć. W przypadku kont firmowych lub szkolnych proces rezygnacji nie jest dostępny na poziomie indywidualnym i konieczne będzie skontaktowanie się z administratorem.

Amazon: AWS

Usługi AI oferowane przez Amazon Web Services, takie jak Amazon Rekognition czy Amazon CodeWhisperer, mogą zapisywać dane klientów w celu udoskonalania narzędzi firmy. Uwaga, jest to najbardziej skomplikowany proces rezygnacji uwzględniony w podsumowaniu, więc prawdopodobnie będziesz potrzebować pomocy specjalisty IT w swojej firmie lub przedstawiciela AWS, aby go pomyślnie przeprowadzić. Proces ten, opisany na tej stronie pomocy technicznej firmy Amazon, obejmuje włączenie tej opcji dla Twojej organizacji, utworzenie polityki i dołączenie jej, jeśli to konieczne.

Google

W przypadku użytkowników chatbota Google Gemini rozmowy mogą czasami zostać wybrane do sprawdzenia przez człowieka w celu ulepszenia modelu sztucznej inteligencji. Rezygnacja jest jednak prosta. Otwórz Gemini w przeglądarce, kliknij Aktywność i wybierz menu rozwijane Wyłącz. Tutaj możesz po prostu wyłączyć Aktywność w aplikacjach Gemini lub możesz z niej zrezygnować i usunąć dane rozmów. Chociaż w większości przypadków oznacza to, że przyszłe czaty nie będą sprawdzane przez człowieka, już wybrane dane nie zostaną usunięte w ramach tego procesu. Według centrum prywatności Google dotyczącego Gemini takie czaty mogą trwać trzy lata.

Grammarly

Grammarly nie oferuje obecnie procesu rezygnacji dla kont osobistych, ale samoobsługowe konta firmowe mogą zrezygnować z wykorzystywania ich danych do szkolenia modelu uczenia maszynowego Grammarly. Wyłącz tę opcję, otwierając Ustawienia konta, klikając kartę Ustawienia danych i wyłączając opcję Udoskonalanie produktów i szkolenia. Jeśli posiadasz zarządzane konto firmowe, które obejmuje konta do edukacji klasowej oraz konta zakupione u przedstawiciela handlowego Grammarly, automatycznie rezygnujesz ze szkoleń z modelu AI.

HubSpot

HubSpot, popularne oprogramowanie marketingowe, automatycznie wykorzystuje dane od klientów, aby ulepszyć swój model uczenia maszynowego. Niestety nie ma przycisku, który można by wyłączyć wykorzystanie danych do treningu AI. Musisz wysłać wiadomość e-mail na adres [email protected] z prośbą o rezygnację z danych powiązanych z Twoim kontem.

OpenAI: ChatGPT i Dall-E

Ludzie ujawniają wszelkiego rodzaju dane osobowe podczas korzystania z chatbota. OpenAI zapewnia pewne opcje tego, co stanie się z tym, co powiesz ChatGPT – w tym pozwala na to, aby przyszłe modele AI nie były szkolone w zakresie treści. „Udostępniamy użytkownikom wiele łatwo dostępnych sposobów kontrolowania swoich danych, w tym narzędzia samoobsługowe umożliwiające dostęp, eksportowanie i usuwanie danych osobowych za pośrednictwem ChatGPT. Obejmuje to łatwo dostępne opcje rezygnacji z wykorzystywania ich treści do uczenia modeli” – mówi Taya Christianson, rzecznik OpenAI. (Opcje różnią się nieznacznie w zależności od typu konta, a dane od klientów korporacyjnych nie są używane do uczenia modeli ).

Na swoich stronach pomocy OpenAI podaje, że użytkownicy sieci ChatGPT bez konta powinni przejść do Ustawień i odznaczyć opcję Ulepsz model dla wszystkich. Jeśli masz konto i jesteś zalogowany przez przeglądarkę internetową, wybierz CzatGPT, Ustawienia, Kontrola danych, a następnie wyłącz Historię czatu i szkolenie. Jeśli korzystasz z aplikacji mobilnych ChatGPT, przejdź do Ustawień, wybierz Kontrola danych i wyłącz Historię czatów i szkolenia. Zmiany tych ustawień, jak mówią strony pomocy technicznej OpenAI, nie będą synchronizowane w różnych przeglądarkach i urządzeniach, więc musisz wprowadzić zmiany wszędzie tam, gdzie korzystasz z ChatGPT.

OpenAI to znacznie więcej niż ChatGPT. Startup posiada formularz umożliwiający przesyłanie obrazów do usunięcia z „przyszłych zbiorów danych szkoleniowych” dla generatora obrazów Dall-E 3. Prosi o podanie imienia i nazwiska, adresu e-mail, informacji o tym, czy posiadasz prawa do obrazu lub kontaktujesz się w imieniu firmy, szczegółów obrazu oraz wszelkich przesłanych obrazów. OpenAI mówi również, że jeśli masz „dużą liczbę” obrazów hostowanych online i chcesz je usunąć z danych szkoleniowych, „bardziej efektywne” może być dodanie GPTBota do pliku robots.txt witryny, na której hostowane są obrazy.

Tradycyjnie plik robots.txt witryny internetowej — prosty plik tekstowy, który zwykle znajduje się pod adresem nazwa_witryny.com/robots.txt — jest używany do informowania wyszukiwarek i innych osób, czy mogą uwzględniać Twoje strony w swoich wynikach. Można go teraz używać także do informowania robotów AI, aby nie usuwały opublikowanych przez Ciebie treści, a firmy zajmujące się sztuczną inteligencją oświadczyły, że będą honorować to postanowienie.

Perplexity

Perplexity to startup, który wykorzystuje sztuczną inteligencję do pomocy w przeszukiwaniu sieci i znajdowaniu odpowiedzi na pytania. Podobnie jak w przypadku wszystkich innych programów na tej liście, automatycznie wyrażasz zgodę na wykorzystywanie Twoich interakcji i danych do dalszego szkolenia sztucznej inteligencji Perplexity. Wyłącz tę opcję, klikając nazwę swojego konta, przewijając w dół do sekcji Konto i wyłączając przełącznik Przechowywanie danych AI.

Quora

Quora twierdzi, że „obecnie” nie wykorzystuje odpowiedzi na pytania, posty ani komentarze ludzi do szkolenia sztucznej inteligencji. Rzecznik twierdzi, że nie sprzedała również żadnych danych użytkowników do celów szkolenia w zakresie sztucznej inteligencji. Oferuje jednak możliwość rezygnacji w przypadku, gdyby sytuacja uległa zmianie w przyszłości. Aby to zrobić, odwiedź stronę Ustawienia, kliknij opcję Prywatność i wyłącz opcję „ Zezwalaj na trenowanie dużych modeli językowych w zakresie Twoich treści ”. Pomimo tego wyboru istnieje kilka postów Quora, które można wykorzystać do szkolenia LLM. Jeśli odpowiesz na odpowiedź wygenerowaną maszynowo, zgodnie ze stronami pomocy firmy, odpowiedzi te mogą zostać wykorzystane do szkolenia sztucznej inteligencji. Wskazuje, że osoby trzecie i tak mogą po prostu zeskrobać jego zawartość.

Rev

Rev, usługa transkrypcji głosu, która do transkrypcji dźwięku wykorzystuje zarówno freelancerów, jak i sztuczną inteligencję, twierdzi, że wykorzystuje dane „bez przerwy” i „anonimowo” do szkolenia swoich systemów sztucznej inteligencji. Nawet jeśli usuniesz swoje konto, nadal będzie ono szkolić swoją sztuczną inteligencję na podstawie tych informacji.

Kendell Kelton, dyrektor ds. komunikacji marki i korporacyjnej w Rev, twierdzi, że dysponuje „największym i najbardziej zróżnicowanym zbiorem danych dotyczących głosów”, na który składa się ponad 6,5 miliona godzin nagrań głosowych. Kelton twierdzi, że Rev nie sprzedaje danych użytkowników żadnym osobom trzecim. Warunki świadczenia usług firmy mówią, że dane będą wykorzystywane do celów szkoleniowych, a klienci mogą z nich zrezygnować. Użytkownicy mogą zrezygnować z wykorzystywania ich danych, wysyłając wiadomość e-mail na adres [email protected], jak mówią strony pomocy.

Slack

Wszystkie te losowe wiadomości Slack w pracy mogą zostać wykorzystane przez firmę do szkolenia swoich modeli. „Slack od wielu lat wykorzystuje w swoim produkcie uczenie maszynowe. Obejmuje to modele uczenia maszynowego na poziomie platformy, takie jak rekomendacje kanałów i emoji” – mówi Jackie Rocca, wiceprezes ds. produktu w Slack, który specjalizuje się w sztucznej inteligencji.

Mimo że firma nie wykorzystuje danych klientów do uczenia dużego modelu językowego dla swojego produktu Slack AI, Slack może wykorzystywać Twoje interakcje do ulepszania możliwości uczenia maszynowego oprogramowania. „Aby opracować modele AI/ML, nasze systemy analizują Dane klientów (np. wiadomości, treści i pliki) przesłane do Slack” – czytamy na stronie poświęconej prywatności Slack. Podobnie jak w przypadku Adobe, na poziomie indywidualnym niewiele można zrobić, aby zrezygnować, jeśli korzystasz z konta korporacyjnego.

Logowanie

Zarejestruj się

Jak zapobiec wykorzystywaniu danych do szkolenia sztucznej inteligencji?

Niektóre firmy umożliwiają rezygnację z wykorzystywania treści na potrzeby generatywnej sztucznej inteligencji. Oto jak odzyskać (przynajmniej trochę) kontrolę od ChatGPT, Google Gemini i nie tylko.

Jeśli coś napisałeś w 2009 roku w sieci, to...

Istnieje granica

Jak zrezygnować ze szkolenia AI?

OpenAI: ChatGPT i Dall-E

Sprawdź się!

Powiązane materiały

Zapisz się do newslettera