Met Dataframe.merge kan je dataframes combineren, waarbij een nieuwe dataframe ontstaat met alle kolommen.
Rijen selecteren uit een dataframe met .loc. Kies of je alle kolommen of een specifieke lijst als resultaat wilt zien.
Snel een draaitabel omzetten naar staafdiagram? Dat kan met DataFrame.plot.bar.
Datatype ‘category’ komt overeen met de statistische meetniveaus nominaal en ordinaal. Denk aan genre en review rating.
Kruistabellen, ook wel draaitabellen genoemd, gebruik je voor het zoeken naar verbanden tussen variabelen en het weergeven van het verloop van numerieke waarden binnen een bepaalde periode.
Uit een frequentietabel kun je aflezen hoe vaak een bepaalde waarneming voorkomt.
Bij het inlezen van CSV bestanden worden datums standaard als datatype object ingelezen. Na converteren van het datatype kan je eenvoudig de kalenderkenmerken van een datum afleiden.
Met correlatie toon je een statisch verband aan. De correlatie coëfficiënt drukt de sterkte van dit verband aan.
Exploratieve data analyse, afgekort met EDA, is een aanpak om data te onderzoeken op inhoudelijke kenmerken, samenhang en voorspellende (of verklarende) eigenschappen.
Voorspelmodel voor lopende bijstand uitkeringen met een forecast horizon van 6 maanden. Het resultaat beoordelen we via steekproeven op historische data. In vakjargon noemen we deze methode cross-validation.
Een verkennende data analyse naar correlatie tussen bijstand en werkloosheidscijfers. Dit artikel start met data wrangling nodig voor downloaden, package cbsodata, en combineren tot een dataset met kerncijfers.
De kerncijfers gaan we in andere artikelen om in Python forecasting algoritmes uit te proberen.
Datavisualisatie met Seaborn combineert uitstekend met bevers. Voor statistische toetsen gebruiken we SciPy en statsmodels.
In de ranglijst open data inventory (ODIN) van Open Data Watch staat Nederlands sinds 2018 wereldwijd op de derde plek, ruim boven onze buurlanden België, Duitsland en Frankrijk. We scoren dus goed met het aanbod van open data!
Kunnen we de verschillende soorten bloemen onderscheiden met clusteren? We gaan hiervoor het K-means algorithme gebruiken.
Beschrijvende statistiek wordt aan het begin van de data analyse gebruikt om de kenmerken van een populatie of onderwerp te beschrijven.