27 nëntor 2025 · 4 min lexim
LLM dhe privatësia: mbro të dhënat e përdoruesve kur përdor AI-n
Ke integruar një LLM në softuerin tënd, ose je duke e bërë, dhe në një moment vjen pyetja e sikletshme: ku përfundojnë të dhënat e përdoruesve që kalojnë nëpër ato prompt-e? Është pyetja e duhur, sepse mes LLM-ve dhe privatësisë kufiri mes një përdorimi korrekt dhe një shkeljeje të GDPR-së kalon nëpër zgjedhje teknike të sakta, jo nëpër deklarata parimore. Le t'i shohim.
Parimi bazë: minimizo çfarë i dërgon modelit
Rregulli më efikas është edhe më i thjeshti: modeli duhet të marrë vetëm të dhënat e nevojshme për detyrën. Para se të ndërtosh prompt-in, pyet veten çfarë i duhet modelit për t'u përgjigjur mirë. Në shumicën e rasteve përgjigjja nuk përfshin emrin, email-in, telefonin apo numrin fiskal të përdoruesit.
Në praktikë, në softuerët që zhvillojmë zbatojmë disa masa të përsëritura:
- pseudonimizim para thirrjes: të dhënat identifikuese zëvendësohen me vendmbajtës ("KLIENTI_1") para se teksti t'i dërgohet modelit, dhe rifuten në përgjigje;
- filtra mbi fushat: nga konteksti që i kalohet modelit përjashtohen që në ndërtim fushat sensitive të bazës së të dhënave, kështu gabimi njerëzor nuk mjafton për t'i nxjerrë jashtë;
- kujdes me tekstet e lira: shënimet, email-et dhe mesazhet e përdoruesve mund të përmbajnë të dhëna personale kudo; nëse rasti i përdorimit i kërkon, duhen filtra zbulimi ose paralajmërime eksplicite për atë që shkruan.
Minimizimi të leverdis dy herë: ul rrezikun ligjor dhe ul token-ët, pra kostot.
Cloud apo on-premise: kriteret për të zgjedhur
Zgjedhja mes API-ve cloud dhe modelit të instaluar në serverët e tu nuk është ideologjike, varet nga të dhënat që trajton dhe nga burimet në dispozicion.
API-të e provider-ëve të mëdhenj janë rruga më e shpejtë dhe japin akses te modelet më të mira. Në anën e privatësisë, pikat për t'u verifikuar para se të firmosësh janë konkrete: nëse të dhënat e tua përdoren për të trajnuar modelet (planet serioze biznesi e përjashtojnë, por kontrata duhet lexuar), ku përpunohen dhe ruhen, sa kohë provider-i i mban log-et e kërkesave, dhe disponueshmëria e një marrëveshjeje për përpunimin e të dhënave (DPA) për t'ia bashkëngjitur detyrimeve të tua.
Një model open i ekzekutuar në infrastrukturën tënde të jep kontroll të plotë: të dhënat nuk i lënë sistemet e tua. Çmimi është kompleksiteti: serverë me GPU të përshtatshme, kompetenca për t'i menaxhuar, cilësi e modelit shpesh më e ulët se shërbimet më të mira cloud. Ka kuptim kur trajton të dhëna veçanërisht delikate, si ato shëndetësore apo gjyqësore, kur volumet e justifikojnë investimin ose kur policy të brendshme a sektoriale e ndalojnë daljen e të dhënave.
Ekziston edhe rruga e mesme: përdor cloud-in për detyrat mbi të dhëna jo sensitive dhe mbaj brenda vetëm përpunimin që prek të dhëna kritike. Shpesh është kompromisi më i mirë për një NVM.
Pëlqime, informativa dhe baza ligjore
Integrimi i një LLM-je që trajton të dhëna personale duhet kuadruar edhe në planin dokumental, në bashkëpunim me atë që ndjek compliance-in tënd. Pikat për t'u rreshtuar:
- informativë e përditësuar: nëse të dhënat e përdoruesve kalojnë nga një furnitor AI, furnitori duhet treguar mes marrësve ose përpunuesve të të dhënave;
- baza ligjore: qartëso mbi çfarë baze i trajton të dhënat për funksionin AI, dhe nëse duhet një pëlqim specifik, mblidhe veçmas, pa e fshehur në kushtet e përgjithshme;
- vendime të automatizuara: nëse output-i i modelit ndikon në vendime të rëndësishme për personin, GDPR-ja parashikon mbrojtje specifike, duke nisur nga mundësia e një ndërhyrjeje njerëzore;
- regjistri i përpunimeve: funksioni AI është një përpunim si të tjerët dhe duhet regjistruar.
Një këshillë nga praktika: shkruaj zi mbi të bardhë, qoftë edhe në një faqe të brendshme, cilat të dhëna hyjnë në model, me cilin furnitor dhe me cilët filtra. Kur një klient ose autoriteti i mbrojtjes së të dhënave bën pyetje, ta kesh përgjigjen gati e ndryshon tonin e bisedës.
Log-et, retention-i dhe ana e errët e debug-ut
Ka një pikë që i shpëton pothuajse gjithmonë vëmendjes: log-et. Për të bërë debug është e natyrshme të ruash prompt-e dhe përgjigje, por ato log-e përmbajnë pikërisht të dhënat që po përpiqesh të mbrosh. Përcakto që në fillim çfarë loggon (më mirë metadata dhe identifikues kërkese sesa tekste të plota), sa kohë i ruan log-et dhe kush mund t'i lexojë. E njëjta gjë vlen për mjetet e monitorimit të palëve të treta: çdo shërbim që i sheh prompt-et është një marrës të dhënash më shumë për t'u regjistruar.
Në fund, testoje sistemin edhe nga këndvështrimi i sulmuesit: prompt injection mund ta çojë një model të zbulojë të dhëna konteksti që nuk duhej t'i ekspozonte. Kufizo çfarë modeli mund të shohë që në ndërtim, sepse udhëzimet mbrojtëse në prompt nuk mjaftojnë.
Integro AI-n pa shkurtore të rrezikshme
Zhvillojmë softuer me porosi me funksione AI të integruara, dhe mbrojtja e të dhënave është pjesë e projektit që nga arkitektura: minimizim, zgjedhja e infrastrukturës, menaxhimi i log-eve dhe pëlqimeve. Nëse do të sjellësh një LLM brenda produktit apo sistemit tënd të menaxhimit pa ekspozuar të dhënat e përdoruesve të tu, rezervo një telefonatë falas: analizojmë rastin tënd dhe të propozojmë një arkitekturë të qëndrueshme.
