1. Begreppet datasmaskering
Datamaskering är också känd som datasmaskering. Det är en teknisk metod att konvertera, ändra eller täcka känslig data som mobilnummer, bankkortsnummer och annan information när vi har gett maskeringsregler och policyer. Denna teknik används främst för att förhindra att känsliga data används direkt i opålitliga miljöer.
Princip för datamaskering: Datamaskering bör upprätthålla de ursprungliga datakarakteristiken, affärsreglerna och datalevansen för att säkerställa att den efterföljande utvecklingen, testningen och dataanalysen inte påverkas av maskering. Se till att datakonsistens och giltighet före och efter maskering.
2. Datasmaskeringsklassificering
Datamaskering kan delas upp i statisk datamaskering (SDM) och dynamisk datamaskering (DDM).
Statisk datamaskering (SDM): Statisk datamaskering kräver inrättande av en ny databas för icke-produktionsmiljö för isolering från produktionsmiljön. Känsliga data extraheras från produktionsdatabasen och lagras sedan i icke-produktionsdatabasen. På detta sätt isoleras de desensibiliserade uppgifterna från produktionsmiljön, som uppfyller affärsbehovet och säkerställer säkerheten för produktionsdata.
Dynamisk datasmaskering (DDM): Det används vanligtvis i produktionsmiljön för att desensibilisera känsliga data i realtid. Ibland krävs olika nivåer av maskering för att läsa samma känsliga data i olika situationer. Till exempel kan olika roller och behörigheter implementera olika maskeringsscheman.
Datarapportering och dataprodukter Maskeringsapplikation
Sådana scenarier inkluderar främst interna dataövervakningsprodukter eller skylt, externa servicedataprodukter och rapporter baserade på dataanalys, till exempel affärsrapporter och projektgranskning.
3. Datamaskeringslösning
Vanliga datamaskeringsscheman inkluderar: ogiltigförklaring, slumpmässigt värde, utbyte av data, symmetrisk kryptering, medelvärde, offset och avrundning, etc.
Annullering: Ogiltighet hänvisar till kryptering, trunkering eller gömning av känslig data. Detta schema ersätter vanligtvis verkliga data med speciella symboler (som *). Operationen är enkel, men användare kan inte känna till formatet för originaldata, vilket kan påverka efterföljande datatillämpningar.
Slumpmässig värde: Det slumpmässiga värdet hänvisar till slumpmässig ersättning av känsliga data (siffror ersätter siffror, bokstäver ersätter bokstäver och tecken ersätter tecken). Denna maskeringsmetod kommer att säkerställa formatet för känslig data i viss utsträckning och underlätta efterföljande dataapplikation. Maskeringsordböcker kan behövas för några meningsfulla ord, till exempel namn på människor och platser.
Utbyte av data: Datersättningen liknar maskeringen av noll och slumpmässiga värden, förutom att istället för att använda specialtecken eller slumpmässiga värden ersätts maskeringsdata med ett specifikt värde.
Symmetrisk kryptering: Symmetrisk kryptering är en speciell reversibel maskeringsmetod. Den krypterar känsliga data genom krypteringsnycklar och algoritmer. Ciffertextformatet överensstämmer med de ursprungliga uppgifterna i logiska regler.
Genomsnitt: Det genomsnittliga schemat används ofta i statistiska scenarier. För numeriska data beräknar vi först deras medelvärde och distribuerar sedan slumpmässigt de desensibiliserade värdena runt medelvärdet och därmed håller summan av data konstant.
Offset och avrundning: Denna metod ändrar digitala data genom slumpmässig skift. Offsetavrundningen säkerställer den ungefärliga äktheten för intervallet samtidigt som data upprätthåller säkerheten, som är närmare de verkliga uppgifterna än de tidigare scheman, och har stor betydelse i scenariot med Big Data -analys.
Rekommendationsmodellen "ML-NPB-5660"För datamaskeringen
4. Vanligt använda datasmaskeringstekniker
(1). Statistiska tekniker
Dataprovtagning och dataaggregering
- Dataprovtagning: Analys och utvärdering av den ursprungliga datauppsättningen genom att välja en representativ delmängd av datamängden är en viktig metod för att förbättra effektiviteten hos deidentifieringstekniker.
- Dataaggregering: Som en samling statistiska tekniker (såsom summering, räkning, medelvärde, maximum och minimum) som tillämpas på attribut i mikrodata är resultatet representativt för alla poster i den ursprungliga datamängden.
(2). Kryptografi
Kryptografi är en vanlig metod för att desensibilisera eller förbättra effektiviteten i desensibilisering. Olika typer av krypteringsalgoritmer kan uppnå olika desensibiliseringseffekter.
- Deterministisk kryptering: En icke-slumpmässig symmetrisk kryptering. Den bearbetar vanligtvis ID -data och kan dekryptera och återställa chiffertexten till det ursprungliga ID vid behov, men nyckeln måste skyddas korrekt.
- Irreversibel kryptering: Hash -funktionen används för att behandla data, som vanligtvis används för ID -data. Det kan inte dekrypteras direkt och kartläggningsförhållandet måste sparas. På grund av funktionen i hash -funktionen kan dessutom datakollision uppstå.
- Homomorfisk kryptering: Den chiffertexthomomorfiska algoritmen används. Dess karakteristik är att resultatet av chiffertextoperation är detsamma som för klartextoperation efter dekryptering. Därför används det ofta för att bearbeta numeriska fält, men det används inte i stor utsträckning av prestationsskäl.
(3). Systemteknologi
Undertryckstekniken tar bort eller sköldar dataobjekt som inte uppfyller integritetsskyddet, men inte publicerar dem.
- Maskering: Den hänvisar till den vanligaste desensibiliseringsmetoden för att maskera attributvärdet, såsom motståndarnas nummer, ID -kort är markerat med en asterisk eller att adressen är trunkerad.
- Lokal undertryckning: hänvisar till processen för att ta bort specifika attributvärden (kolumner), ta bort icke-väsentliga datafält;
- Registreringsundertryckning: hänvisar till processen för att ta bort specifika poster (rader), ta bort icke-väsentliga dataposter.
(4). Pseudonym teknik
Pseudomanning är en deidentifieringsteknik som använder en pseudonym för att ersätta en direkt identifierare (eller annan känslig identifierare). Pseudonymtekniker skapar unika identifierare för varje enskild informationsämne istället för direkta eller känsliga identifierare.
- Det kan generera slumpmässiga värden oberoende för att motsvara det ursprungliga ID, spara mappningstabellen och strikt kontrollera åtkomsten till kartläggningstabellen.
- Du kan också använda kryptering för att producera pseudonymer, men måste hålla dekrypteringsnyckeln ordentligt;
Denna teknik används allmänt för ett stort antal oberoende dataanvändare, till exempel OpenID i det öppna plattformsscenariot, där olika utvecklare får olika OpenID för samma användare.
(5). Generaliseringstekniker
Generaliseringsteknik hänvisar till en deidentifieringsteknik som minskar granulariteten hos utvalda attribut i en datauppsättning och ger en mer allmän och abstrakt beskrivning av data. Generaliseringsteknik är lätt att implementera och kan skydda äktheten av data om rekordnivå. Det används vanligtvis i dataprodukter eller datarapporter.
- Avrundning: innebär att du väljer en avrundningsbas för det valda attributet, till exempel uppåt eller nedåt kriminaltekniker, vilket ger resultat 100, 500, 1k och 10k
- Topp- och bottenkodningstekniker: Byt ut värden ovan (eller under) tröskeln med en tröskel som representerar toppen (eller botten), vilket ger ett resultat av "ovanför x" eller "under x"
(6). Randomiseringstekniker
Som en slags deidentifieringsteknik hänvisar randomiseringstekniken till att modifiera värdet på ett attribut genom randomisering, så att värdet efter randomisering skiljer sig från det ursprungliga verkliga värdet. Denna process minskar förmågan hos en angripare att härleda ett attributvärde från andra attributvärden i samma datapost, men påverkar äktheten av de resulterande data, vilket är vanligt med produktionstestdata.
Posttid: september-27-2022