Webinar
ITGLOBAL.COM events

Data Lake

Glossary

Data lakes zijn een relatief nieuw concept dat is ontstaan vanwege de noodzaak om de snelle groei van het gegevensvolume aan te kunnen. Traditionele gegevensopslagmethoden zoals datawarehouses kunnen vaak niet omgaan met het enorme volume, de verscheidenheid en de snelheid van moderne gegevens.

Hoe verschilt een data lake van een datawarehouse?
Ondanks het feit dat lakes en datawarehouses worden gebruikt voor dataopslag, hebben ze fundamentele verschillen met elkaar. In het Data lake kan een verscheidenheid aan gegevens worden opgeslagen, en in de opslag voornamelijk alleen gestructureerde gegevens, die bestemd zijn voor analytische doeleinden en de uitvoering van complexe query ‘ s en BI-rapporten. Soms gebruikt data architecture beide benaderingen om de voordelen van beide oplossingen te combineren en een flexibelere en uitgebreidere data-analyse te bereiken.

De structuur van het Data lake

  • Data-inname is het data-invoerpunt in het meer. Het kan gegevens uit verschillende bronnen en in verschillende formaten verwerken.
  • Gegevensopslag is de plaats waar gegevens worden opgeslagen. Hier kunnen enorme hoeveelheden gestructureerde en ongestructureerde gegevens worden opgeslagen.
  • Verwerking. Deze component verwerkt de gegevens en converteert deze van een “ruwe” toestand naar een gebruiksvriendelijkere vorm.
  • Gegevensbeheer zorgt voor gegevenskwaliteit, beveiliging en naleving van wettelijke vereisten.
  • Met gegevenstoegang kunnen gebruikers toegang krijgen tot gegevens en deze gebruiken.

Voordelen van Data lakes
Het data lake is een populaire benadering geworden voor het opslaan en verwerken van gegevens vanwege de voordelen ervan.

  • Flexibiliteit en schaalbaarheid. Het schaalt gemakkelijk om grote hoeveelheden gegevens op te slaan en te verwerken. U kunt nieuwe gegevensbronnen toevoegen zonder het schema te wijzigen of de gegevens vooraf te verwerken.
  • Een verscheidenheid aan gegevens. Ondersteunt verschillende soorten gegevens uit verschillende bronnen: gestructureerd, semi-gestructureerd en ongestructureerd. Tegelijkertijd hoeven ze niet naar één formaat te worden gebracht.
  • Ondersteuning voor real-time analyse zonder dat gegevens vooraf moeten worden verwerkt.
  • Een verscheidenheid aan analytische mogelijkheden. Ondersteunt een verscheidenheid aan analytische scenario ‘ s: machine learning, AI, business analytics en big data-analyse.
  • De onmogelijkheid van gegevensverlies. De ruwe gegevens worden onveranderd in het meer opgeslagen, zodat de informatie niet verloren gaat of vervormd wordt tijdens het voorverwerkingsproces. Hiermee kunt u terugkeren naar de oorspronkelijke gegevens en analyses uitvoeren met behulp van andere methoden of algoritmen.
  • Integratie met cloud oplossingen. Het kan werken met clouddiensten, omdat het het downloaden en opslaan van gegevens in de cloud vergemakkelijkt. Dit maakt het eenvoudiger om cloudgebaseerde tools te gebruiken voor gegevensanalyse en-verwerking.

Over het algemeen is het data lake een flexibele en krachtige architectuur waarmee u diverse en omvangrijke gegevens efficiënt kunt opslaan en verwerken, verschillende analytische scenario ‘ s ondersteunt en de mogelijkheid biedt om gegevens in realtime te analyseren. Het is echter de moeite waard eraan te denken dat het succesvolle gebruik van een data lake een goede dataplanning en-beheer vereist om potentiële problemen met gegevensbeveiliging en-kwaliteit te voorkomen.

Problemen met betrekking tot het Data lake
Ondanks hun voordelen zijn “data lakes” niet zonder problemen. Ze vereisen betrouwbaar gegevensbeheer om niet te veranderen in een “gegevensmoeras” gevuld met gegevens van lage kwaliteit of irrelevante gegevens. Bovendien vereist de implementatie van een “data lake” aanzienlijke technische kennis en middelen.

Wij gebruiken cookies om de functionaliteit van de website te optimaliseren en onze diensten te verbeteren. Lees voor meer informatie ons Privacybeleid.
Instellingen cookies
Strikt noodzakelijke cookies
Analytics-cookies