pandas blog | Exploratieve data analyse

Dataframe sorteren

Meerdere kolommen sorteren? Dat kan met DataFrame.sort_values.

Lees verder »

Dataframes combineren met merge

Met Dataframe.merge kan je dataframes combineren, waarbij een nieuwe dataframe ontstaat met alle kolommen.

Lees verder »

Dataframe filteren met loc

Rijen selecteren uit een dataframe met .loc. Kies of je alle kolommen of een specifieke lijst als resultaat wilt zien.

Lees verder »

Snel van dataframe naar staafdiagram

Snel een draaitabel omzetten naar staafdiagram? Dat kan met DataFrame.plot.bar.

Lees verder »

Pandas category datatype

Datatype ‘category’ komt overeen met de statistische meetniveaus nominaal en ordinaal. Denk aan genre en review rating.

Lees verder »

kruistabel maken

Kruistabellen, ook wel draaitabellen genoemd, gebruik je voor het zoeken naar verbanden tussen variabelen en het weergeven van het verloop van numerieke waarden binnen een bepaalde periode.

Lees verder »

Frequentietabellen berekenen

Uit een frequentietabel kun je aflezen hoe vaak een bepaalde waarneming voorkomt.

Lees verder »

Datum formaat en kenmerken

Bij het inlezen van CSV bestanden worden datums standaard als datatype object ingelezen. Na converteren van het datatype kan je eenvoudig de kalenderkenmerken van een datum afleiden.

Lees verder »

Omgaan met dubbele rijen

Dubbelen opsporen, ontdubbelen of volledig verwijderen.

Lees verder »

Controleren op ontbrekende waarden

Welke kolommen bevatten ontbrekende waarden?

Lees verder »

Populair

Correlatie, samenhang van variabelen in R

Met correlatie toon je een statisch verband aan. De correlatie coëfficiënt drukt de sterkte van dit verband aan.

Lees verder »

Exploratieve data analyse (EDA), wat is dat?

Exploratieve data analyse, afgekort met EDA, is een aanpak om data te onderzoeken op inhoudelijke kenmerken, samenhang en voorspellende (of verklarende) eigenschappen.

Lees verder »

Forecasting in Python met Prophet

Voorspelmodel voor lopende bijstand uitkeringen met een forecast horizon van 6 maanden. Het resultaat beoordelen we via steekproeven op historische data. In vakjargon noemen we deze methode cross-validation.

Lees verder »

CBS open data gebruiken voor data analyse met Python

Een verkennende data analyse naar correlatie tussen bijstand en werkloosheidscijfers. Dit artikel start met data wrangling nodig voor downloaden, package cbsodata, en combineren tot een dataset met kerncijfers.

De kerncijfers gaan we in andere artikelen om in Python forecasting algoritmes uit te proberen.

Lees verder »

Python package: pandas

Dataframe sorteren

Dataframes combineren met merge

Dataframe filteren met loc

Snel van dataframe naar staafdiagram

Pandas category datatype

kruistabel maken

Frequentietabellen berekenen

Datum formaat en kenmerken

Omgaan met dubbele rijen

Controleren op ontbrekende waarden

Populair

Correlatie, samenhang van variabelen in R

Exploratieve data analyse (EDA), wat is dat?

Forecasting in Python met Prophet

CBS open data gebruiken voor data analyse met Python

Kunnen bevers ons helpen met statistiek in Python?

CBS Open data downloaden voor data analyse in R

Bloemsoorten onderscheiden met K-means in R

Beschrijvende statistiek