Typisk er det første skridt at importere dataene fra kilderne til ét centralt sted - det, man kalder en landing zone. Det kræver de nødvendige adgangsoplysninger og rettigheder. Dataimport foretages ofte periodisk, hvilket kan kræve orkestrering via pipelines. Til dette bruger vi typisk værktøjer som Microsoft Azure Data Factory eller - i stigende grad - Microsoft Fabric Data Factory.
Data ankommer sjældent i perfekt stand. Ofte indeholder de dubletter, manglende værdier eller inkonsekvente formater. Datarensning er et afgørende skridt for at sikre, at dataene er brugbare. Vi udfører typisk denne proces i Python, men tilpasser os gerne dine krav.
I sidste ende skal dataene understøtte dine forretningsbehov. Det kræver som regel, at data fra flere kilder sammenflettes, og at der anvendes forretningslogik, som afspejler dine KPI'er. For maksimal fleksibilitet udfører vi også dette trin i Python, medmindre andet ønskes. Denne del af data engineering-processen er typisk dér, hvor tæt samarbejde med dit team er afgørende.
Afhængigt af rapporteringsbehovene eksporteres dataene her i et egnet format. Uanset om prioriteten er hyppige opdateringer, nem adgang (f.eks. via OneLake) eller direkte integration med et dashboardværktøj - det er her, vi håndterer det. På dette tidspunkt er det vigtigt, at rapporteringsbehovene er tydelige, så vi kan skræddersy løsningen derefter.