KennisBite #6 broodje BI

KennisBite #6 | 11 mei 2020 – 13.30 tot 14.15 uur
Road to Data Science: Voorspellen van Leegstand Presentatie: Ruud van Cruchten (PWCo) en Baktas Olomi (Woonpunt)

In deze KennisBite krijgen we te maken met BI oftewel Business Intelligence. Grofweg gezegd zorgt BI voor inzicht in de organisatie. Denk aan de dashboards die mooie visualisaties laten zien van wat er in je bedrijf speelt. Data Science is een onderdeel van BI, daar waar rapportages (wat gebeurde er) en dashboards (waarom gebeurde het) de pubers van de BI zijn, komen we bij voorspellende analyses of zelfs voorschrijvende analyses tot het volwassendom van de BI, de laatste trede in het BI maturity model is voor de Action Engines. Slimme systemen die naast het voorspellen van ‘dit gaat er gebeuren’ ook zelf de beste actie hierop uitvoeren (cognitief). Natuurlijk zijn er al wel dergelijke systemen, maar die staan nog in de kinderschoenen.

Aan de hand van het weer (waar zullen we het eens over hebben) maakt Ruud snel inzichtelijk hoe dat nu werkt met descriptive analytics (beschrijvend), diagnostic analytics (diagnostiserend) en de predictive analytics (voorspellend). Vervolgens legt Ruud uit hoe je met het CRISP-DM een data-science project kan opzetten/inrichten.

Dan komen we dichter het onderwerp van vandaag, waar we erg nieuwsgierig naar zijn: het voorspellen van leegstand. Ideaal zou zijn als je kan voorspellen wanneer iemand de huur gaat opzeggen, maar met de data die beschikbaar is binnen woningcorporaties is die doelstelling niet haalbaar. Enerzijds is dat jammer, maar als je bedenkt welke data je nodig hebt om zulks te voorspellen dan begrijp je al snel dat je dat als woningcorporatie gewoonweg niet moet willen. Dus richtte het team van Ruud hun pijlen op het voorspellen hoe lang een pand leegstaat (frictieleegstand) na de huuropzegging. Zo’n voorspelling helpt bij het bepalen van risicopanden en preventieve acties om de leegstand te beperken: stel je model voorspelt dat een pand 60 dagen leeg zal staan, dan ga je vervolgens achterhalen waarom dat zo is en onderneem je actie daar waar kan om de leegstand te verkorten. De doelstelling is dus: Voorspel de duur van de leegstand.
De volgende stap, Data verzamelen en opschonen, kost een hoop tijd.

Even een inkoppertje: als we allemaal dezelfde definities gebruiken (werken met een standaard, bijvoorbeeld VERA) dan gaat het sneller in deze fase.

Want Ruud vertelt vier verschillende woningcorporaties = vier verschillende manieren van registreren en verschillende definities. De kwaliteit van de data is belangrijker dan de kwantiteit. Dat kunnen we dus oplossen, waarna Ruud of andere data scientists sneller naar de stap Data bewerken kunnen.
In dit geval zijn er leegstandsduur klassen aangemaakt. Het precieze aantal dagen dat een pand leegstaat is namelijk moeilijker te voorspellen dan een bandbreedte van aantal dagen. Overigens is het een misvatting dat veel data automatisch leidt tot adequate voorspellingen. Het tegenovergestelde lijkt eerder waar. Het algoritme wordt hierdoor te precies en verliest zijn voorspellende waarde. Selecteer daarom de meest relevante kenmerken en verwijder de kenmerken met dubbele informatie. In het voorbeeld zie je: max, streef, bruto en netto huur. Het getoonde lijstje met gebruikte kenmerken (selectie van 25 van de 150) op deze sheet is specifiek voor deze situatie. Een andere corporatie met een andere dataset levert een andere lijst met kenmerken op. Met de geselecteerde kenmerken gaat de data scientist aan de slag om een model te maken wat de gewenste voorspelling kan opleveren. Dat is, zo legt Ruud ons uit, vaak een kwestie van trial-and-error, oftewel proberen, testen, opnieuw proberen en testen enzovoort, tot je uiteindelijk een model hebt wat goed werkt. Hierbij gebruikt de data scientist diverse tools, Ruud gaat kort in op Machine learning en vervolgens het trainen en de evaluatie van een model.
Zo train je een model: door de historische waarde met de voorspellende waarde te vergelijken. Een model kan nooit 100% correct zijn (als dat het geval is moet je het model zeker wantrouwen) want wie kan met 100% zekerheid de toekomst voorspellen? Dat willen we allemaal wel … ‘men’ wil ons ook af en toe laten geloven dat dat kan, maar denk even na!
De interpretatie van de resultaten leverden in dit geval een opmerkelijk verschil in voorspellende waarde per corporatie; de randstad (0.97 AUC) lijkt beter te voorspellen dan de krimpregio (0,58-0,73 AUC). Het waarom moet nog nader onderzocht worden. Overigens is het doel van predictive modelling ‘voorspellen’ van een waarde, niet het uitleggen van de achterliggende oorzaak daarvan.
Tot slot de hamvraag: hoe gebruik je dit nu in de organisatie? Dat kan via een dashboard of een API, afhankelijk van wat in de corporatie wenselijk is. Is dat eenmaal geïmplementeerd dan is het belangrijk om het model blijvend te monitoren op zowel de resultaten in gelijkblijvende omstandigheden, alsook die bij veranderende omstandigheden. De wereld verandert nu eenmaal continue (we weten er alles van, nietwaar!). Het model in dit voorbeeld is gebaseerd op de afgelopen vijf jaar huur opzeggingen. De komende jaren zullen andere situaties opleveren. Het model moet hierop aangepast worden.

Heb je dashboards nodig voor Data Science? In principe niet, de meeste tijd gaat zitten in data; welke data heb ik nodig, waar vind ik deze data, welke kwaliteit heeft de data, welke patronen herken ik daar in. Deze fase levert, als je de juiste vragen stelt, al veel inzichten op. Wel is het zo dat als je eenmaal zo met de data bezig bent de stap naar dashboard en rapportages niet zo heel groot meer is en dat kan een data scientist zeker helpen.

Dan krijgen we het verhaal van Baktash te horen, waarom en hoe hij bij Woonpunt aan de slag ging met BI. Aanleiding voor Baktash was de behoefte meer te willen sturen, dit naar aanleiding van zijn ervaring tijdens de maandelijkse kpi bespreking.
Hij is begonnen met Power BI (Microsoft) een heeft twee type dashboards ontwikkeld. Eén voor het management – kpi’s (maandelijks overleg komt nu steeds meer overeen met de strategie) en er zijn een aantal analytische dashboards ontwikkelt (leegstand, onderhoudslasten). Door het inzicht wat de dashboards geven worden problemen sneller gesignaleerd, waar vervolgens tijdig bijgestuurd kan worden. Bij Woonpunt zijn ze inmiddels dol op de dashboards, er zullen op dat gebied dus meerdere projecten uitgerold worden. Maar ook Baktash wil in de toekomst kunnen kijken; nu is het veelal nog achterom kijken, waar zeker veel van geleerd wordt. De volgende logische stap is om met deze kennis pro actief te handelen. Blijvend bij leegstand: als het model voorspelt dat een pand 60 dagen leeg zal staan, wat kun je dan doen om dat te verkorten? Op het gebied van onderhoud zou je kunnen bedenken dat het veel waarde oplevert als je kunt voorspellen wanneer er welk onderhoud aan een woning nodig is. Ook op het gebied van personeel is voorspellen waardevol, als je weet welke functie vrijkomt kun je eerder actie ondernemen. Dat is de stip die Baktash en zijn team voor Woonpunt op de horizon hebben gezet en waar ze over pakweg vijf jaar willen zijn.

Maar hoe begin je nou? Waar wil ik beginnen en hoe moet het eruit zien, zijn goede startvragen. Maak het hier echter niet te complex, denk (nog) niet 100%, want gaandeweg het project kom je nieuwe zaken tegen en moet je toch wel bijsturen. Kortom begin met iets overzichtelijks, iets kleins waar je bekend mee bent, één kpi: bijvoorbeeld leegstand of onderhoudslasten, doe ervaring op en bouw dan verder.
Power BI of Qlik? Er is geen goed of fout, maak een keuze en begin.
Belangrijk punt wat Baktash aanstipt: het technisch beheer van je datawarehouse (dwh), denk hier goed over na. Niet direct bij de start, maar als gaandeweg de data meer omvang krijgt en je zou het willen uitbesteden is het goed om nu al te weten volgens welke architectuur/structuur je de data vastlegt. Het zou jammer zijn als je na een paar jaar bouwen jullie dwh extern wilt laten beheren en dan blijkt dat de structuur niet matcht met de externe partij. Denk daar dus over na.
Tot slot roept Baktash ons op en daar is CorpoNet vooral voor: ga het wiel niet zelf uitvinden, dat is namelijk al gedaan! Vraag bij collega woningcorporaties, die al projecten hebben lopen op dit gebied, hoe zij het hebben aangepakt. Zulke kijkjes in andermans keuken zijn enorm inspirerend en maken de materie snel inzichtelijk. Baktash raadt ons aan vooral gisteren te beginnen!

Voor de enthousiastelingen: Tools die Ruud gebruikt heeft voor dit project zijn R (data science programmeertaal) en Weka (machine learning). En Excel om de data in te laden en te bewerken.

Interessant inzicht, naar aanleiding van een vraag:
Als je nu al je vhe’s in het model stopt, dan levert dat waardevolle informatie over de leegstandsduur op. Die informatie kun je vervolgens strategisch gebruiken. Denk aan risicogebieden (een wijk) die je zo in zicht kunt krijgen en waar je op kunt acteren. Nogmaals het model voorspelt de leegstand, de interpretatie doe je zelf. Overigens is de informatie die je in dit voorbeeld wilt verkrijgen (doelstelling) anders dus zal ook het model anders opgezet moeten worden. Denk dus altijd na waarvoor je informatie wilt gebruiken, welke doel wil je bereiken, welke vraag wil je beantwoord zien.
Al met al een hele leerzame KennisBite, dank Ruud en Baktash voor de kennis die jullie met ons hebben gedeeld.

Vind je het lastig om zelf op zoek te gaan naar een woningcorporatie bij jou in de buurt die ervaring heeft op dit gebied, gebruik je CorpoNet-netwerk en mail ons je vraag, dan helpen we je mee zoeken. Je bereikt ons via de mail

Tot zover, tot de volgende KennisBite. Bekijk de agenda voor de volgende sessies.