Veilige data-analyse met Data Shuffling
De Technology Business Assessment Group van Oklahoma State University (OSU) heeft onlangs aangekondigd dat het onderzoek wil gaan financieren naar een methode voor informatiebescherming die ‘data shuffling’ wordt genoemd. Het project wordt geleid door professor Rathindra Sarathy van het Department of Management Science and Information Systems van OSU. Hij legt ons uit wat ‘data shuffling’ inhoudt en waarom u het binnenkort op uw netwerk zou kunnen aantreffen.
Kunt u een korte uitleg geven over ‘data shuffling’ voor de leken onder ons, en dan een iets technischere uitleg voor onze lezers van de ICT-beveiliging? Bovendien, hoe verschilt het van encryptie?
‘Data shuffling’ (U.S. patent: 7200757) behoort tot een klasse van datamaskingtechnieken die proberen vertrouwelijke numerieke gegevens te beschermen en tevens de analytische waarde ervan te behouden. Stel dat je vertrouwelijke salarisgegevens aan een analist beschikbaar wilt stellen. Het doel is een antwoord te krijgen op vragen als “Gelet op ervaring, opleiding en andere factoren, is er een verschil aanwezig tussen mannelijke en vrouwelijke managers?” of “Wat zijn de beste voorspellers voor het salaris als men moet kiezen uit variabelen als Leeftijd, Sekse, Ervaring, Opleiding, Etniciteit, et cetera?”
Je wilt niet de oorspronkelijke salarisgegevens doorgeven vanwege de vertrouwelijke aard ervan. Zelfs al zou je de persoonlijk identificeerbare informatie verwijderen alvorens de gegevens door te geven, dan nog is de veiligheid niet gegarandeerd, aangezien het over het algemeen vrij eenvoudig is een idividu te identificeren wanneer je diens eigenschappen kent. Conventionele encryptietechnieken zouden in zo’n geval geen zin hebben, omdat de niet ge-encrypte oorspronkelijke salarisinformatie nodig is voor het uitvoeren van de analyse. Dus één benadering is te proberen de getallen aan te passen (masking) voordat je deze doorgeeft aan de analist. ‘Data shuffling’ zou dan op een intelligente manier de originele salarisgetallen opnieuw toekennen, zodat de uitkomsten van de analyse toch correct zijn, terwijl het voorkomt dat de originele salarisgegevens geassocieerd kunnen worden met de juiste individuen. De echte kracht van ‘data shuffling’ wordt zichtbaar wanneer je gecompliceerde relaties wilt behouden tussen zowel vertrouwelijke als niet-vertrouwelijke variabelen, zoals in de tweede bovenstaande vraag.
Buitenlands nieuws
- 03 september 15:00 – The state of the scripting universe
- 11 juni 17:04 – Mobile operators claim falling data roaming prices in Europe
- 10 juni 23:56 – Microsoft hires anti-phishing crusader
- 09 juni 11:18 – Samsung launches iPhone-like Omnia handset
- 06 juni 11:56 – Do geeks make good jurors in tech cases? Not always


Artikelfilter