Klassekampen.no
Torsdag 24. mai 2018
FORVIRRET? Vårens Facebook-skandaler har gjort mange obs på hvor mye informasjon som deles om oss. Noen nettsteder bruker blant annet digitale «dobbeltgjengere» for å forutsi dine preferanser. Men kan «big data» også brukes til noe bra? FOTO: SAUL LOEB, AFP/NTB SCANPIX
Vi kan hente ut massive mengder data. Men skal vi bruke dem til noe fornuftig, må vi vite hva vi ser etter.
Storebror ser – hva, egentlig?
Google-forsker Seth Stephens-Davidowitz viser hvor fort man kan gå seg vill i stordatajungelen.

Data­teknologi

Som forsker hos Google i flere år og dataskribent i New York Times har Seth Stephens-Davidowitz vært en av de fremste forkjemperne for bruk av stordata (Big data) for å forstå atferd og samfunn. I boken «Everybody Lies: What the Internet can tell us about who we really are» argumenterer han for at bruk av stordata kan fortelle oss mye som tradisjonell samfunnsvitenskap – som i USA inkluderer psykologi – ikke har kunnet gjøre. Han nevner også en del begrensninger og problematiske sider ved bruken av stordata. Selv om disse delene av boka er bra, viser han også hvor lett det er for eksperter som ham selv å overse svakheter i sin stordata-tilnærming.

Fakta:

Stordata:

• «Big data» (stordata på norsk) betegner både store mengder informasjon samlet inn gjennom datateknologi, og måter denne kan bearbeides på.

• I boka «Everybody Lies: What the Internet can tell us about who we really are» ser forsker og skribent Seth Stephens-Davidowitz på stordataens muligheter og risikofaktorer.

• Det er ikke bare selskapersom vil selge oss noe; også myndigheter vil kunne hjelpe oss bedre hvis de tar i bruk stordata, mener han.

• Han mener også at bruk av stordata kan revolusjonere samfunnsforskningen.

Såkalt kunnskapsgrunnlag

Slik blir «Everybody Lies» både en god beskrivelse av hvordan stordata kan være et uhyre viktig hjelpemiddel – ikke bare for de som skal tjene penger på oss, men også de som skal hjelpe oss (myndigheter, politikere) – men med et stort men: Om ikke sbitordata brukes på en fornuftig måte, der man drar inn relevant kunnskap om hvor kompleks menneskelig atferd er, kan det bære galt av sted.

Denne advarselen er spesielt viktig i en tid der vi opplever at myndighetene altfor ofte bruker «kunnskap» på en overflatisk og hastig måte, gjerne for å legitimere beslutninger som er tatt på annet grunnlag. Det vi også står i fare for å gjøre nå når det skal satses stort på stordata, er å utdanne folk med en skjev kunnskap om temaet, slik at de ikke er stand til å anvende denne teknologien på en fornuftig måte.

Det derre der

«Big data» er ett av mange nye uttrykk som mange snakker om, men som få egentlig vet hva er. De bare «vet» at det er fremtiden. Noen tror det handler om massiv bruk av datateknologi. Men slik som Stephens-Davidowitz og andre fagfolk på området bruker begrepet, viser det til noe mer spesifikt.

Han skriver: «Vi gjennomlever en eksplosjon i mengden og kvaliteten på all slags tilgjengelig informasjon. Mye av den nye informasjonen flyter fra Google og sosiale media. Noe er et produkt av digitaliseringen av informasjon som tidligere var gjemt vekk i skuffer og mapper. Noe av det kommer fra en økt satsing på markedsforskning.»

Stordata er altså en mengde ny informasjon, fra flere kilder. Men det viser også til hvordan man nå kan behandle denne datamengden, gjerne med algoritmer som er lagd for å finne mønstre og sammenhenger. Målet er å få «et nytt syn på mennesker – deres atferd, deres ønsker, deres natur.» Altså aggregert (oppsamlet) kunnskap om mennesker. For det meste i flertall, sier man, men vi vet jo at det også produseres kunnskap om den enkelte, ikke minst som kunde. Amazon kan fortelle deg hva de tror du vil like, ut fra dine tidligere kjøp – og ut fra aggregert kunnskap om hva andre som har kjøpt de samme bøkene som deg har valgt.

Din digitale dobbeltgjenger

En av teknikkene som brukes, er å bruke dine data til å finne en «dobbeltgjenger»: en person som kjøper og liker stort de samme tingene som du selv. Så kan man, ut fra data om hvordan denne dobbeltgjengeren din har handlet videre, komme med skreddersydde tilbud til deg. Amazon bruker denne teknikken, det samme gjør Netflix og Pandora. I tillegg brukes mer statistiske algoritmer, som informerer om at av dem som kjøpte den og den filmen, vil et flertall også like denne.

Så stordata kan brukes til å skreddersy reklame. Er det så farlig? Kanskje ikke dersom du også leter litt på egen hånd.

Men kan stordata brukes på mer tvilsomme måter?

Potensielle terrorister

Overvåking, fra myndigheter, kommersielle interesser og kriminelle, er en åpenbar trussel. Bortsett fra dette diskuteres for eksempel også hvordan stordata kan brukes til å finne personer som er i faresonen for å begå kriminalitet eller terrorisme.

Ut fra data om tidligere kriminelle og terrorister kan man si mye om risikofaktorer, som bosted, livssituasjon, hva slags miljø slike rekrutteres fra, ogsåvidere. Man kan kanskje også si noe i hvilke situasjoner risikofaktorer kan oppstå. Og ikke minst kan det spores opp hvilke internettsteder man har vært innom, for eksempel sider der man kan lære å lage en bombe. Men kan dette brukes til å gripe inn overfor potensielle gjerningsmenn, før de gjør noe?

Det blir i hvert fall vanskelig, skriver Stevens-Davidowitz. I 2015, skriver han, var det for eksempel rundt 12.000 søk på nettet i USA på ordene «kill Muslims». Men «bare» tolv mord i kategorien «hat-mord». Så det er en lang vei fra hva man gjør på nettet – og tenker – til hva man gjør.

Det han derimot ser mer potensial i, er hvordan stordata kan revolusjonære samfunnsforskningen. I stedet for å basere seg på tvilsomme spørreundersøkelser, som man vet gir svært usikre svar (folk lyver både for seg selv og andre), kan man se hva de faktisk gjør, ved å bruke data fra nettet. Her kan man også analysere «naturlige eksperimenter», se hva folk gjorde i ulike situasjoner, og utføre nye eksperimenter – noe Google og Facebook gjør kontinuerlig.

Men i hans eksempler på stordata i forskningens tjeneste, viser han selv hvilke fallgruver man kan gå i, fordi det er forskjell på nettatferd og «normal» atferd. Han betviler for eksempel statistikkene som sier at andelen homofile menn i USA ligger på to-tre prosent, som også stemmer med tall fra Facebook.

Hvorfor han tviler? Fordi han selv har brukt en stordata-test, basert på andelen av mannlige pornobrukere som går inn på pornosider for homofile – cirka fem prosent. Men hvordan kan han vite at homofile menn ikke er overrepresenterte blant pornobrukerne? Også noen av hans andre eksempler kan diskuteres.

Lett å gå i fella

Så selv om Stevens-Davidowitz advarer mot feilaktig bruk av stordata, viser han selv hvor lett det er å gå i fellen. Det er lett å la seg forblinde av mengden data man kan få ut. Og dette gjør at det er desto viktigere å komplettere denne nye – til dels overveldende – datakilden, med kunnskap om hvordan menneskelig atferd varierer ut fra kontekst og kultur. Derfor kan man ikke satse på stordata kun med datakunnskap, man må også ha menneskekunnskap. Uten dette kan stordata – som brukt riktig kan være et fantastisk hjelpemiddel (ikke minst for helsevesenet, planleggere og økonomer) – bli en farlig feilkilde.

viten@klassekampen.no

Artikkelen er oppdatert: 11. juni 2018 kl. 15.07

Klassekampen benytter informasjons­kapsler (cookies) så vi kan gi deg bedre service, og for å holde styr på om du er logget inn på våre tjenester. Du kan lese mer om vår bruk av informasjons­kapsler her.

Lukk