1. Konceptet med datamaskering
Datamaskering är också känd som datamaskering. Det är en teknisk metod att konvertera, modifiera eller täcka känsliga uppgifter som mobiltelefonnummer, bankkortsnummer och annan information när vi har gett maskeringsregler och policyer. Denna teknik används främst för att förhindra att känslig data används direkt i opålitliga miljöer.
Datamaskeringsprincip: Datamaskering bör behålla de ursprungliga dataegenskaperna, affärsreglerna och datarelevansen för att säkerställa att efterföljande utveckling, testning och dataanalys inte kommer att påverkas av maskering. Säkerställ datakonsistens och giltighet före och efter maskering.
2. Datamaskeringsklassificering
Datamaskering kan delas in i statisk datamaskering (SDM) och dynamisk datamaskering (DDM).
Statisk datamaskering (SDM): Statisk datamaskering kräver etablering av en ny databas för icke-produktionsmiljöer för isolering från produktionsmiljön. Känsliga data extraheras från produktionsdatabasen och lagras sedan i icke-produktionsdatabasen. På så sätt isoleras de sensibiliserade data från produktionsmiljön, vilket möter affärsbehov och säkerställer säkerheten för produktionsdata.
Dynamisk datamaskering (DDM): Det används vanligtvis i produktionsmiljön för att desensibilisera känslig data i realtid. Ibland krävs olika nivåer av maskering för att läsa samma känsliga data i olika situationer. Till exempel kan olika roller och behörigheter implementera olika maskeringsscheman.
Datarapportering och maskeringsapplikation för dataprodukter
Sådana scenarier inkluderar främst interna dataövervakningsprodukter eller skyltar, externa tjänstedataprodukter och rapporter baserade på dataanalys, såsom affärsrapporter och projektgranskning.
3. Datamaskeringslösning
Vanliga datamaskeringsscheman inkluderar: ogiltigförklaring, slumpmässigt värde, dataersättning, symmetrisk kryptering, medelvärde, offset och avrundning, etc.
Annullering: Ogiltigförklaring avser kryptering, trunkering eller döljning av känsliga data. Detta schema ersätter vanligtvis riktiga data med speciella symboler (som *). Operationen är enkel, men användarna kan inte känna till formatet på originaldata, vilket kan påverka efterföljande dataapplikationer.
Slumpmässigt värde: Det slumpmässiga värdet hänvisar till slumpmässig ersättning av känsliga data (siffror ersätter siffror, bokstäver ersätter bokstäver och tecken ersätter tecken). Denna maskeringsmetod kommer att säkerställa formatet av känsliga uppgifter i viss utsträckning och underlätta efterföljande dataapplikation. Maskeringsordböcker kan behövas för vissa meningsfulla ord, som namn på personer och platser.
Dataersättning: Dataersättning liknar maskeringen av null- och slumpvärden, förutom att istället för att använda specialtecken eller slumpmässiga värden, ersätts maskeringsdata med ett specifikt värde.
Symmetrisk kryptering: Symmetrisk kryptering är en speciell reversibel maskeringsmetod. Den krypterar känslig data genom krypteringsnycklar och algoritmer. Chiffertextformatet överensstämmer med originaldata i logiska regler.
Genomsnitt: Genomsnittsschemat används ofta i statistiska scenarier. För numeriska data beräknar vi först deras medelvärde och fördelar sedan de desensibiliserade värdena slumpmässigt runt medelvärdet, vilket håller summan av data konstant.
Offset och avrundning: Denna metod ändrar digitala data genom slumpmässig skiftning. Offsetavrundningen säkerställer den ungefärliga äktheten av intervallet samtidigt som säkerheten för data bibehålls, som ligger närmare den verkliga datan än de tidigare schemana och har stor betydelse i scenariot med big data-analys.
Den rekommenderade modellen"ML-NPB-5660" för datamaskeringen
4. Vanligt använda datamaskeringstekniker
(1). Statistiska tekniker
Datasampling och dataaggregation
- Datasampling: Analysen och utvärderingen av den ursprungliga datamängden genom att välja en representativ delmängd av datamängden är en viktig metod för att förbättra effektiviteten hos avidentifieringstekniker.
- Dataaggregation: Som en samling statistiska tekniker (som summering, räkning, medelvärde, maximum och minimum) som tillämpas på attribut i mikrodata, är resultatet representativt för alla poster i den ursprungliga datamängden.
(2). Kryptografi
Kryptografi är en vanlig metod för att desensibilisera eller förbättra effektiviteten av desensibilisering. Olika typer av krypteringsalgoritmer kan uppnå olika desensibiliseringseffekter.
- Deterministisk kryptering: En icke-slumpmässig symmetrisk kryptering. Den bearbetar vanligtvis ID-data och kan dekryptera och återställa chiffertexten till original-ID vid behov, men nyckeln måste skyddas ordentligt.
- Irreversibel kryptering: Hashfunktionen används för att bearbeta data, vilket vanligtvis används för ID-data. Den kan inte dekrypteras direkt och mappningsrelationen måste sparas. Dessutom, på grund av hashfunktionens funktion, kan datakollision inträffa.
- Homomorf kryptering: Chiffertexten homomorfisk algoritm används. Dess kännetecken är att resultatet av chiffertextoperation är detsamma som klartextoperation efter dekryptering. Därför används det ofta för att bearbeta numeriska fält, men det används inte i stor utsträckning av prestandaskäl.
(3). Systemteknik
Undertryckningstekniken tar bort eller skyddar dataobjekt som inte uppfyller integritetsskyddet, men publicerar dem inte.
- Maskering: det hänvisar till den vanligaste desensibiliseringsmetoden för att maskera attributvärdet, såsom motståndarens nummer, ID-kortet är markerat med en asterisk eller adressen är trunkerad.
- Lokal undertryckning: hänvisar till processen att ta bort specifika attributvärden (kolumner), ta bort icke-väsentliga datafält;
- Record undertryckning: hänvisar till processen att radera specifika poster (rader), radering av icke väsentliga dataposter.
(4). Pseudonym Teknik
Pseudomanning är en avidentifieringsteknik som använder en pseudonym för att ersätta en direkt identifierare (eller annan känslig identifierare). Pseudonymtekniker skapar unika identifierare för varje enskild informationssubjekt, istället för direkta eller känsliga identifierare.
- Den kan generera slumpmässiga värden oberoende för att motsvara det ursprungliga ID:t, spara mappningstabellen och strikt kontrollera åtkomsten till mappningstabellen.
- Du kan också använda kryptering för att producera pseudonymer, men måste behålla dekrypteringsnyckeln ordentligt;
Denna teknik används i stor utsträckning när det gäller ett stort antal oberoende dataanvändare, såsom OpenID i scenariot med öppen plattform, där olika utvecklare skaffar olika Openider för samma användare.
(5). Generaliseringstekniker
Generaliseringsteknik hänvisar till en avidentifieringsteknik som minskar granulariteten hos valda attribut i en datamängd och ger en mer allmän och abstrakt beskrivning av datan. Generaliseringsteknik är lätt att implementera och kan skydda äktheten hos data på rekordnivå. Det används ofta i dataprodukter eller datarapporter.
- Avrundning: innebär att välja en avrundningsbas för det valda attributet, som kriminalteknik uppåt eller nedåt, vilket ger resultat 100, 500, 1K och 10K
- Topp- och bottenkodningstekniker: Ersätt värden över (eller under) tröskeln med en tröskel som representerar den övre (eller botten) nivån, vilket ger resultatet "över X" eller "under X"
(6). Randomiseringstekniker
Som en slags avidentifieringsteknik avser randomiseringsteknik att modifiera värdet på ett attribut genom randomisering, så att värdet efter randomiseringen skiljer sig från det ursprungliga verkliga värdet. Denna process minskar förmågan för en angripare att härleda ett attributvärde från andra attributvärden i samma datapost, men påverkar äktheten hos de resulterande data, vilket är vanligt med produktionstestdata.
Posttid: 2022-09-27