Debatindlæg

Hvis sagsbehandleren stoler blindt på algoritmerne, risikerer han at stemple de forkerte

Digitale afklarings- og profileringsværktøjer vinder stadig større indpas i den offentlige sagsbehandling som påstået mirakelmetode til at forudse, hvilke mennesker, der er i en eller anden risikogruppe. Men der mangler videnskabeligt belæg for, at værktøjerne overhovedet hjælper, eller om de faktisk gør det modsatte, skriver Verner Sand Kirk, direktør i Danske A-kasser, i Politiken den 21. december

Grønne digitale koder på sort baggrund

Majid er netop færdiguddannet som ingeniør og har meldt sig ledig. Han er født og opvokset i Danmark, har dansk statsborgerskab og fik flotte karakterer på studiet.

Alligevel kan han allerede være bagud på point i den ’score’ som jobcenterets digitale afklarings- og profileringsværktøj giver ham på baggrund af samkøring af en række statistiske data.

Fx kan oplysningen om, at Majid er efterkommer af ikke-vestlige forældre tælle på minussiden i den algoritme, som bruges til at beregne Majids risiko for langtidsledighed.

Majid har jeg opfundet til lejligheden, men det omtalte digitale værktøj er til gengæld ikke min opfindelse. Langt fra. Sådanne værktøjer vinder stadig større indpas i den offentlige sagsbehandling som påstået mirakelmetode til at forudse, hvilke mennesker, der er i en eller anden risikogruppe for fx at få en bestemt sygdom, få sociale problemer eller klare sig dårligt i skolen. Ligesom værktøjerne også har haft sit indtog med kontanthjælpsreformen og beskæftigelsesreformen for tidligt at spotte de personer, der er i risikogruppen for langtidsledighed.

Og filosofien er jo intuitivt helt rigtig. Nemlig den, at hvis man kan forudse den enkeltes risiko for at ende som fx langtidsledig, så kan man sætte tidligt ind med skræddersyede tiltag, der kan forebygge dette. Men sagen er bare den, at redskaberne er taget i brug, uden at vi har videnskabeligt belæg for, at det er en fordel at bruge dem. Ja, faktisk uden at vi aner, om de gør mere skade end gavn. I dette indlæg vil jeg gennemgå nogle af de forhold, der gør, at jeg mener, vi skal være varsomme med brugen af såkaldt ’profiling’, inden redskaberne er videnskabeligt belyst.

Et helt overordnet spørgsmål er, hvor brugbare svar eller scorer disse algoritmer overhovedet kan give os. Og her går min skepsis tilbage til studietiden, hvor vi i metode- og statistikundervisningen blev kraftigt belært om at undgå risikoen for såkaldte ’økologiske fejlslutninger’.

Det går i korthed ud på, at man hverken kan slutte fra individ-niveau til gruppe-niveau eller omvendt. Det er nemlig vigtigt at være helt skarp på, at de resultater, man får ved at måle på en gruppe, kun siger noget om gruppens gennemsnitlige situation og ikke om hvert individs situation. Resultaterne kan fx sige, at fire ud af 10 i gennemsnit får en bestemt sygdom. Men for ethvert individ gælder der jo et ’enten-eller’. Enten er du blandt de fire syge, eller også er du blandt de seks raske. Du bliver ikke halvt syg.

Eller sagt på en anden måde: De fleste ved godt, at man ikke kan konkludere, at alle unge stjæler, fordi man kender et par unge tyveknægte. Men det er ligeså vigtigt at huske på, at man heller ikke kan konkludere den anden vej. Så fordi en person tilhører en statistisk gruppe, hvor relativt mange bliver syge, kriminelle eller langtidsledige, så kan man ikke sige, at en bestemt person med de samme statistiske karakteristika også bliver det.

I sociologiske studier mv. er det helt gængs og godt for forståelsen af diverse sammenhænge og mekanismer, hvis man kan forudse eller konstatere, at f.eks. 60 personer ud af 100 med kort uddannelse, anden etnicitet, forudgående ledighedsperioder, studieskift mv. ender som langtidsledige eller helt uden for arbejdsmarkedet. Men en overhyppighed må ikke – som det desværre ofte sker – fejlfortolkes som en lovmæssighed for alle. For i så fald giver man et forkert stempel til de 40 ud af de 100, som ikke er i risiko.

Og derudover opstår der også et par andre vigtige spørgsmål her. For jeg synes, det er en diskussion værd, om de 60, der reelt er i risiko her, overhovedet bliver hjulpet eller i stedet mister modet, når en sagsbehandler ud fra en algoritme meget tidligt i et ledighedsforløb fortæller dem, at de med stor sandsynlighed bliver langtidsledige. Og endnu mere problematisk er det, hvis de 40, som i virkeligheden havde gode chancer for hurtigt at komme i job, får at vide, at de nok bliver langtidsledige, fordi de ’boner ud’ på de ovennævnte faktorer. Hvad gør den oplysning mon ved de 40 og deres videre vej ud på arbejdsmarkedet? Er det motiverende eller demotiverende at få at vide, at man nok ikke kommer hurtigt i job?

Det er vigtige spørgsmål, som det kræver grundig research og videnskabelige forsøg at få svar på. Jeg er desværre bange for, at Styrelsen for Arbejdsmarked og Rekruttering (STAR) ikke har lavet denne research, før de udviklede deres profileringsværktøj, som det dog er frivilligt for a-kasserne og de ledige, om de vil bruge.

På trods af at det som udgangspunkt er et frivilligt værktøj, så er det obligatorisk at anvende det i det a-kasseforsøg, hvor ni a-kasser fra årsskiftet skal stå for hele kontaktforløbet med de ledige i de første tre måneder. Hvis a-kasserne ikke vil bruge STAR’s værktøj, skal de udvikle et tilsvarende selv, som de skal bruge i forsøget.

STAR udviklede oprindeligt modellen alene med anvendelse af en række objektive data fra diverse registre om f.eks. alder, herkomst og ledighedshistorik. Da det viste sig, at træfsikkerheden var ’beskeden’, supplerende man med et frivilligt spørgeskema med 10 spørgsmål om den lediges jobsøgning og dem selv.

Det viste sig, at en af de stærkeste indikatorer er den enkeltes egen tro på/ vurdering af, hvor lang tid, der vil gå, før vedkommende igen er i arbejde. Det er jo i sig selv bemærkelsesværdigt, at den tro som den enkelte har på sig selv, er den stærkeste indikator på, hvor hurtigt man kommer i arbejde. Det får mig til at gentage spørgsmålet om, hvad det mon gør ved en ledig at få at vide, at vedkommende er i stor risiko for at blive langtidsledig. Det supplerende skema forbedrede modellen, men resultaterne er fortsat ikke imponerende. En test af modellen har siden vist, at syv ud af hver 100 ledige ukorrekt fik en ’risikodiagnose’, mens 31 fejlagtigt fik at vide, at de ikke var i fare.

Derfor er det helt afgørende, at den ledige som minimum får at vide, hvad modellen gør, og hvor stor usikkerheden er. Og at det bliver slået fast, at hele formålet med indsatsen i a-kasse og jobcenter er at gøre en evt. negativ prognose til skamme.

Derfor er det også vigtigt, at den enkelte sagsbehandler har evnen og viljen til at ’overrule’ modellens forudsigelse, både for dem, der fejlagtigt er vurderet i risiko, og for dem, der fejlagtigt er vurderet uden for risiko. Og jeg beklager, men her har jeg svært ved at undertrykke en vis skepsis og undren.

For det siger sig selv, at det mindste, man bør kunne forlange, når man som ledig kommer til samtale er, at sagsbehandleren har sat sig ind i ens uddannelses- og beskæftigelseshistorik, og med sit kendskab til behovene på arbejdsmarkedet kan vurdere, om der er brug for noget uddannelse eller andet. Eller om man bare skal holde modet oppe og søge alle relevante job.

Og hvis en sagsbehandler kan sætte sig ind i dette, hvad er det så, de datadrevne og algoritmebaserede oplysninger skal bruges til? Hvordan kan de hjælpe Majid? Og hvordan kan det egentlig hjælpe hans sagsbehandler at vide, at Majid kan være blandt de – lad os sige - 30 procent, der er i risiko for at blive langtidsledige, når han lige så godt kan være blandt de 70 procent, der ikke bliver det. Lige meget hvilken af grupperne han egentlig tilhører, risikerer han at få ’forkert label’ på, hvis ikke sagsbehandleren ’overruler’ i sådan en situation.

Så det overordnede og rigtig gode spørgsmål, som der mig bekendt ikke er givet et evidensbaseret svar på, er, om datadrevne og algoritmebaserede profileringsværktøjer er til gavn eller det modsatte som grundlag for sagsbehandlernes arbejde.

Derfor vil mit forslag være, at der laves et ordentligt videnskabeligt forsøg med ægte kontrolgrupper, så vi kan få vished for om anvendelsen af disse værktøjer resulterer i flere eller færre langtidsledige. Om værktøjerne rent faktisk hjælper Majid og alle de andre ledige, eller om de bare er det, som alt tyder på lige nu: en blind tro på, at algoritmer kan hjælpe os. Endda selv om de få test, der trods alt er gennemført, viser at algoritmerne langt fra er ’træfsikre’.