Vilken är datamaskeringstekniken och lösningen i Network Packet Broker?

1. Konceptet med datamaskering

Datamaskering är även känt som datamaskering. Det är en teknisk metod för att konvertera, modifiera eller täcka känsliga uppgifter såsom mobiltelefonnummer, bankkortsnummer och annan information när vi har angivna maskeringsregler och policyer. Denna teknik används främst för att förhindra att känsliga uppgifter används direkt i otillförlitliga miljöer.

Principen för datamaskering: Datamaskering bör bibehålla de ursprungliga dataegenskaperna, affärsreglerna och datarelevansen för att säkerställa att efterföljande utveckling, testning och dataanalys inte påverkas av maskering. Säkerställ datakonsistens och validitet före och efter maskering.

2. Klassificering av datamaskering

Datamaskering kan delas in i statisk datamaskering (SDM) och dynamisk datamaskering (DDM).

Statisk datamaskering (SDM)Statisk datamaskering kräver att en ny databas i icke-produktionsmiljön upprättas för isolering från produktionsmiljön. Känsliga data extraheras från produktionsdatabasen och lagras sedan i icke-produktionsdatabasen. På så sätt isoleras de okänsliggjorda uppgifterna från produktionsmiljön, vilket uppfyller affärsbehov och säkerställer säkerheten för produktionsdata.

SDM

Dynamisk datamaskering (DDM)Det används vanligtvis i produktionsmiljön för att avkänsliggöra känsliga data i realtid. Ibland krävs olika maskeringsnivåer för att läsa samma känsliga data i olika situationer. Till exempel kan olika roller och behörigheter implementera olika maskeringsscheman.

DDM

Applikation för datarapportering och maskering av dataprodukter

Sådana scenarier inkluderar huvudsakligen interna dataövervakningsprodukter eller skyltar, externa tjänstedataprodukter och rapporter baserade på dataanalys, såsom affärsrapporter och projektgranskning.

produktmaskering för datarapportering

3. Datamaskeringslösning

Vanliga datamaskeringsscheman inkluderar: ogiltigförklaring, slumpmässigt värde, dataersättning, symmetrisk kryptering, medelvärde, offset och avrundning, etc.

AnnulleringOgiltigförklaring avser kryptering, trunkering eller döljning av känsliga data. Detta schema ersätter vanligtvis verkliga data med specialtecken (t.ex. *). Operationen är enkel, men användarna kan inte veta formatet på originaldata, vilket kan påverka efterföljande dataapplikationer.

Slumpmässigt värdeDet slumpmässiga värdet avser slumpmässig ersättning av känsliga data (siffror ersätter siffror, bokstäver ersätter bokstäver och tecken ersätter tecken). Denna maskeringsmetod säkerställer formatet för känsliga data i viss mån och underlättar efterföljande dataanvändning. Maskeringsordböcker kan behövas för vissa betydelsefulla ord, såsom namn på personer och platser.

DatautbyteDataersättning liknar maskering av null- och slumpmässiga värden, förutom att istället för att använda specialtecken eller slumpmässiga värden ersätts maskeringsdata med ett specifikt värde.

Symmetrisk krypteringSymmetrisk kryptering är en speciell reversibel maskeringsmetod. Den krypterar känsliga data med hjälp av krypteringsnycklar och algoritmer. Chiffertextformatet överensstämmer med originaldata i logiska regler.

GenomsnittMedelvärdesschemat används ofta i statistiska scenarier. För numeriska data beräknar vi först deras medelvärde och fördelar sedan slumpmässigt de okänsliggjorda värdena runt medelvärdet, vilket håller summan av data konstant.

Offset och avrundningDenna metod ändrar digitala data genom slumpmässig förskjutning. Offset-rundningen säkerställer intervallets ungefärliga autenticitet samtidigt som datasäkerheten bibehålls, vilket är närmare verkliga data än tidigare scheman, och har stor betydelse i scenariot med stordataanalys.

ML-NPB-5660-数据脱敏

Den rekommenderade modellenML-NPB-5660"för datamaskeringen

4. Vanligt förekommande datamaskeringstekniker

(1). Statistiska tekniker

Dataprovtagning och dataaggregering

- Dataurval: Analys och utvärdering av den ursprungliga datamängden genom att välja en representativ delmängd av datamängden är en viktig metod för att förbättra effektiviteten hos avidentifieringstekniker.

- Dataaggregering: Som en samling statistiska tekniker (såsom summering, räkning, medelvärdesberäkning, maximum och minimum) tillämpade på attribut i mikrodata, är resultatet representativt för alla poster i den ursprungliga datamängden.

(2). Kryptografi

Kryptografi är en vanlig metod för att desensibilisera eller förbättra effektiviteten av desensibilisering. Olika typer av krypteringsalgoritmer kan uppnå olika desensibiliseringseffekter.

- Deterministisk kryptering: En icke-slumpmässig symmetrisk kryptering. Den bearbetar vanligtvis ID-data och kan dekryptera och återställa chiffertexten till det ursprungliga ID:t vid behov, men nyckeln måste skyddas ordentligt.

- Irreversibel kryptering: Hashfunktionen används för att bearbeta data, vilket vanligtvis används för ID-data. Den kan inte dekrypteras direkt och mappningsrelationen måste sparas. Dessutom kan datakollisioner uppstå på grund av hashfunktionens funktion.

- Homomorf kryptering: Den homomorfa krypteringsalgoritmen för chiffertext används. Dess kännetecken är att resultatet av chiffertextoperationen är detsamma som för klartextoperationen efter dekryptering. Därför används den ofta för att bearbeta numeriska fält, men den används inte i stor utsträckning av prestandaskäl.

(3). Systemteknik

Tekniken för att skydda data raderar eller skyddar data som inte uppfyller integritetskraven, men publicerar dem inte.

- Maskering: det hänvisar till den vanligaste desensibiliseringsmetoden för att maskera attributvärden, såsom motståndarens nummer, ID-kort markerat med en asterisk eller adressen avkortad.

- Lokal undertryckning: avser processen att ta bort specifika attributvärden (kolumner), ta bort icke-väsentliga datafält;

- Undertryckning av poster: avser processen att radera specifika poster (rader), vilket innebär att onödiga dataposter raderas.

(4). Pseudonymteknik

Pseudomanning är en avidentifieringsteknik som använder en pseudonym för att ersätta en direkt identifierare (eller annan känslig identifierare). Pseudonymtekniker skapar unika identifierare för varje enskild informationssubjekt, istället för direkta eller känsliga identifierare.

- Den kan generera slumpmässiga värden oberoende av varandra för att motsvara det ursprungliga ID:t, spara mappningstabellen och strikt kontrollera åtkomsten till mappningstabellen.

- Du kan också använda kryptering för att skapa pseudonymer, men du måste spara dekrypteringsnyckeln ordentligt;

Denna teknik används ofta när det gäller ett stort antal oberoende dataanvändare, såsom OpenID i scenariot med öppna plattformar, där olika utvecklare erhåller olika OpenID:er för samma användare.

(5). Generaliseringstekniker

Generaliseringsteknik avser en avidentifieringsteknik som minskar granulariteten hos valda attribut i en datamängd och ger en mer generell och abstrakt beskrivning av informationen. Generaliseringsteknik är enkel att implementera och kan skydda äktheten hos data på postnivå. Den används ofta i dataprodukter eller datarapporter.

- Avrundning: innebär att man väljer en avrundningsbas för det valda attributet, såsom uppåtgående eller nedåtgående forensisk analys, vilket ger resultat 100, 500, 1K och 10K

- Kodningstekniker för topp- och bottennivå: Ersätt värden över (eller under) tröskeln med en tröskel som representerar toppnivån (eller bottennivån), vilket ger resultatet "över X" eller "under X".

(6). Randomiseringstekniker

Som en typ av avidentifieringsteknik avser randomiseringsteknik att modifiera värdet på ett attribut genom randomisering, så att värdet efter randomisering skiljer sig från det ursprungliga verkliga värdet. Denna process minskar en angripares möjlighet att härleda ett attributvärde från andra attributvärden i samma datapost, men påverkar äktheten hos den resulterande datan, vilket är vanligt med produktionstestdata.


Publiceringstid: 27 sep-2022