Syntetiske datasæt i testprocessen: En ren udgift eller en smart investering?

Skal du bruge reelle eller syntetiske data i udviklingsprocesser? For det meste er det et omkostningsspørgsmål, da reelle data ofte anses for billigere. Preben Gustavsen argumenterer i dette indlæg, at du alligevel bør overveje at oprette syntetiske datasæt.

Sparer du penge ved at benytte reelle data i test- og udviklingsprocesser? Et stadigt tilbagevendende tema i krydset mellem test- og udviklingsprocesser og informationssikkerhed, er spørgsmålet om omkostninger.

En almindelig påstand man kan møde i projekter er, at etablering af syntetiske data til test kræver for mange ressourcer i form af tid og kapacitet, til at det kan prioriteres. Det er derfor nødvendigt at kopiere data fra produktionsmiljøet for at komme videre. Samtidig præges påstanden om, at det er nødvendigt at teste op mod reelle data for at sikre god kvalitet i testimplementeringen.

Tag hånd om informationssikkerheden

At det koster at oprette syntetiske data til test er indlysende, men er det nødvendigvis billigere at kopiere data fra produktionsmiljøet? Oplysninger, der behandles i et produktionsmiljø, skal normalt sikres mod tab, utilsigtet forandring og ikke mindst mod adgang fra uautoriserede personer. Kopiering af disse oplysninger til testformål sker normalt under radaren af dem, der skal beskytte den, men behovet for informationssikkerhed bortfalder ikke.

Derfor, når oplysninger kopieres fra produktionsmiljøet, følger kravene til informationssikkerhed altså med, også selvom en sikkerhedsansvarlig eller anden person ikke minder dig om det. Så ved vurderingen af, hvad der har den mindste omkostning, skal omkostninger til sikkerheds- og kontrolprocedurer indgå i beregningen.

Hvis oplysningerne fra produktionsmiljøet indeholder personoplysninger, vil personoplysningsloven gælde for test- og udviklingsprocesserne. Det vil sige alle tekniske miljøer, hvor oplysningerne behandles. Ved sådan brug af personoplysninger kræves det selvsagt også, at test og softwareudvikling ligger inden for det, der udgør retsgrundlaget for behandlingen.

Så, sparer du stadig penge, når du inkluderer mekanismer som stærk godkendelse, logging, netværkssegmentering, sikker opbevaring eller DLP? Og hvad hvis vi også ser på dele af den interne kontrol som risikovurdering, opfølgning af informationsanvendelse, oplæring og bevidstgørelse, etablering og opfølgning af databehandlingsaftaler og ikke mindst håndtering af afvigelser? Har du overblik over, hvem der kopierer datasættet, hvor det gemmes, og om det slettes, når behovet er væk? Er din softwareudbyder en databehandler? Dette er alle spørgsmål, som du må have et bevidst og afklaret forhold til, før datasæt kopieres.

Læs også: Tid til at samarbejde! Om brugen af designmetoder og co-creation i IT-projekter

At sikre tærskelværdierne med syntetiske data

Udover spørgsmålet om omkostninger, så skal det vurderes, om testningen er af samme kvalitet, når der ikke testes med reelle data – oplysninger, der afspejler en virkelighed. I nogle tilfælde er det et godt argument, at software skal verificeres op mod et gyldigt datasæt, men det bør ske hen imod slutningen af udviklingsprocessen, når tiden til at tage softwaren i brug i produktionsmiljøet nærmer sig. Generelt bør der i testaktiviteter også testes mod syntetiske data for at sikre god kvalitet, herunder at sikre at tærskelværdierne på de forskellige datatyper er i overensstemmelse på tværs af grænseflader, at datatyping er konsekvent, og at uventede værdier ikke fører til fejl.

I nogle tilfælde vil det være af interesse, at software testes op mod reelle data, men det kræver som sagt, at kravene til informationssikkerhed og intern kontrol er opfyldt. På den anden side er det en forudsætning, at denne vurdering er foretaget, at afgørelsen er forankret hos den behandlingsansvarlige, og at oplysninger om behandlingen dækker dette emne, så den registrerede ved, at oplysninger om en selv også bruges til støttefunktioner såsom kvalitetssikring. At det kan være af interesse at anvende personoplysninger i test indebærer, at ulemper i forhold til håndtering af personfølsomme data tydeligt opvejes af den fordel, det giver.

Når man ser på den nye persondataforordning (GDPR), får den behandlingsansvarlige større handlefrihed til selv at vurdere, hvad der er i overensstemmelse med det oprindelige formål med behandlingen, men samtidig stilles der større krav til kvaliteten af de vurderinger, der skal laves. Den behandlingsansvarlige skal i højere grad end før være ansvarlig for vurderinger og beslutninger vedrørende beskyttelse af personlige oplysninger.

Gode beslutningsanalyser for at tage det bedste valg

For at være sikker på at vælge den mest omkostningseffektive tilgang til test- og udvikling samtidig med at kvaliteten og behovet for informationssikkerhed opretholdes, bør ejeren af oplysningerne sørge for, at der foretages gode beslutningsanalyser.

Omkostninger til oprettelse af et syntetisk datasæt, der kan genbruges på tværs af projekter over tid, skal sættes op mod omkostningerne for etablering af tilfredsstillende informationssikkerhed. I datasæt med personoplysninger skal konsekvenserne for privatlivet også vurderes. I tilfælde hvor data, der skal behandles, ikke eksisterer, skal det alligevel oprettes. Hvis man har etableret et syntetisk sæt, så har man ressourcerne, viden og metoderne til at gøre dette, når man skal skabe betingelser, der ikke allerede findes. Dette bidrager til at holde omkostningerne nede over tiden. Min påstand er, at mange vil blive overrasket over, hvor billigt det er at etablere syntetiske datasæt, samtidig med at kvaliteten af testprocessen øges.

Samtidig benytter jeg muligheden til at opfordre ejere og forvaltere af nationale registre til at etablere syntetiske datasæt til test- og udviklingsformål, så andre virksomheder let kan teste op mod dine ydelser og for at bidrage til bedre forudsigelighed og lavere omkostninger for alle fremtidige udviklingsprojekter. Ved at hjælpe andre med at udvikle ydelser baseret på dine data, hjælper du med at digitalisere Danmark!

 

Skrevet af:

Preben Gustavsen er ansat i Sopra Steria som rådgiver inden for informationssikkerhed, intern kontrol og personlige oplysninger. Han er teamleder i afdelingen for informationssikkerhed og har ca. 15 års erfaring i krydset mellem teknologi og forretning. Preben har været ansat i Sopra Steria siden 2014.

Sopra Steria is an European leader in digital transformation. Combining high quality and performance services, added value and innovation, Sopra Steria enables its clients to make the best use of digital technology.

Skriv et svar