Van opschoning tot voorspelling
Data science houdt zich bezig met dataverwerking, -analyse, -programmering en het bouwen van voorspellingsmodellen. Het doel is om snel en efficiënt inzicht te krijgen in omvangrijke databases, relaties tussen variabelen zichtbaar te maken en voorspellingen te doen die betekenisvol kunnen zijn voor bedrijven.

Orde aanbrengen
Grofweg zijn er vier stappen binnen data science:

  1. Orde aanbrengen;
  2. Analyseren;
  3. Voorspellen;
  4. Weergeven.

De eerste stap waar een data scientist bij kan helpen, is orde aanbrengen in ongestructureerde data. Voordat dat “telefoonboek” geanalyseerd kan worden, dient de data opgeschoond en gestructureerd te worden.  Eerst wordt de grote poule met daarin zowel relevante als irrelevante data teruggebracht naar een relationele database met geordende, compacte tabellen. Dit kan gezien worden als een inhoudsopgave die de relatie tussen hoofdstukken en logisch ingedeelde paragrafen weergeeft. Informatie over de medische geschiedenis van patiënten komt in een andere paragraaf dan stafgegevens, maar is wel aan elkaar gelinkt vanwege een overeenkomstig ziekenhuis.
Na het analyseren worden er ook voorspellingen gemaakt over mogelijke uitkomsten. Tot slot worden alle uitkomsten grafisch weergeven (bijvoorbeeld in tabellen of grafieken) zodat de resultaten te begrijpen zijn voor andere partijen.

(On)gestructureerde, grote databases
Wanneer een bedrijf jarenlang data heeft verzameld d.m.v. bijvoorbeeld vragenlijsten, scans en bloedwaarden, kan dat resulteren in een dataset (van bijvoorbeeld Microsoft Excel) van 50.000 rijen en 200 kolommen. Stel het voor als een telefoonboek vol met potentieel waardevolle informatie, alleen is het boek ongeordend en bevat het tevens informatie over hormonale waarden, geboortecijfers in Oost-Timor en financiële jaaruitgaven die eigenlijk in één kolom hadden moeten staan i.p.v. verdeeld over vijftien rijen. Hoe kan dan nog die gouden speld in de hooiberg gevonden worden?

Snelheid en efficiëntie
Data scientists streven ernaar om met minimale moeite maximale uitkomsten te creëren. Geprogrammeerde functies maken het verkrijgen van informatie sneller en makkelijker voor andere partijen die met dezelfde data werken. Met machine learning kan een voorspellend algoritme gemaakt worden, waarbij de computer logische patronen ontdekt in data: een menselijke taak minder!

Het metaforische telefoonboek kan informatie bevatten die ons helpt vroegtijdige voorspellingen over kanker te maken, of een verborgen bedrijfsformule die uiterst winstgevend zou kunnen zijn. De uitdaging in data science is om die initieel onzichtbare parels op te vissen en te wassen opdat er iets bijzonder waardevols uitkomt.