Tak – w przypadku braku precyzyjnego modelu uprawnień, moderacji treści i audytowalnych logów, chatbot może ujawniać dane osobowe lub informacje firmowe; ochrona wymaga architektury opartej na RBAC/ABAC, separacji kontekstów, filtracji wejść/wyjść oraz szyfrowanym dzienniku WORM.
Chatbot AI, który działa bez ograniczeń kontekstowych i kontroli dostępu, może stać się narzędziem przypadkowego lub celowego ujawnienia danych. Incydent „SalesForce Bot 2024” pokazał, że jedno zapytanie zawierające złośliwy prompt injection wystarczyło, by uzyskać dostęp do numerów polis 1 200 klientów – co wskazuje na niedostateczną separację kontekstu i brak filtracji odpowiedzi.
Model uprawnień powinien opierać się na zasadzie najmniejszych uprawnień – każda aplikacja, agent lub integracja API otrzymuje token read-only do zdefiniowanej kolekcji wiedzy. W modelu ABAC (Attribute-Based Access Control), odpowiedzi są ograniczane także przez atrybuty zapytania – np. rolę użytkownika, kraj zamieszkania, poziom SLA.
Separacja kontekstów zapewnia izolację między zapytaniami użytkownika, systemowymi promptami i firmową bazą wiedzy. Dane są przechowywane w osobnych buforach, a każda sesja działa w sandboxie z osobnym kluczem – eliminując ryzyko odziedziczenia kontekstu z poprzednich interakcji.
Moderacja wejścia i wyjścia odbywa się warstwowo: NLP analizuje treść zapytania pod kątem obecności żądań PII, próśb jailbreakowych i wzorców ataków. Odpowiedzi generowane przez LLM przechodzą przez filtr redakcyjny (kombinacja RegEx + klasyfikator), który automatycznie redaguje odpowiedzi zawierające identyfikatory osobowe, dane kontraktowe lub tajemnice handlowe.
Logowanie i audyt są prowadzone w formacie WORM – każde zapytanie i odpowiedź (hash, timestamp, identyfikator użytkownika) zapisywane są w dzienniku odpornym na modyfikację, szyfrowanym algorytmem AES-256. Pozwala to spełnić wymóg rozliczalności (accountability) i umożliwia analizę post-incidentową.
Testy ciągłe (red-team) z zestawem adversarial prompts przeprowadzane kwartalnie weryfikują wskaźnik wycieków – akceptowalny poziom to < 0,5%. Jego przekroczenie uruchamia obowiązkowy przegląd promptów, filtrów oraz tokenów dostępowych.