Hadoop is een open source softwareplatform dat is ontworpen om grote hoeveelheden gegevens op computerclusters op te slaan en te verwerken. De inspiratie voor de creatie van het platform was Google ‘ s MapReduce, een software framework dat applicaties verdeelt in vele kleine onderdelen, die elk kunnen worden gelanceerd of opnieuw gelanceerd op elk knooppunt in het cluster.
Het platform stelt u in staat om van één server naar duizenden machines te schalen, die elk lokale computer-en gegevensopslag bieden. Hadoop gebruikt gegevensreplicatie om meerdere kopieën van gegevensblokken op verschillende knooppunten op te slaan, waardoor gegevens automatisch kunnen worden hersteld in geval van storingen of verlies van beschikbaarheid van knooppunten.
De belangrijkste onderdelen van Hadoop
- Hadoop Distributed File System (HDFS) is een onderdeel van Hadoop ontworpen om grote hoeveelheden gegevens op te slaan en toegang tot hen te bieden. HDFS verdeelt gegevens in blokken en distribueert ze naar knooppunten in het cluster, waardoor fouttolerantie en parallelle gegevensverwerking worden geboden.
- MapReduce is een model van programmeren en gegevensverwerking in Hadoop. Hiermee kunt u de gegevensverwerkingstaak splitsen in kleine delen (map) en vervolgens de resultaten verzamelen (reduce) op elk knooppunt van het cluster.
- Hadoop YARN is een onderdeel van Hadoop dat de middelen beheert van systemen die gegevens opslaan en analyses uitvoeren. Met YARN kunt u computerbronnen in een cluster beheren en taken op beschikbare knooppunten plaatsen.
- Hadoop Common is een Hadoop-module die verschillende hulpprogramma ‘ s en bibliotheken bevat die nodig zijn om de werking van andere Hadoop-componenten te ondersteunen. Hadoop Common biedt gemeenschappelijke functionaliteit voor het hele platform.
- Hadoop Streaming is een aanpak in Hadoop waarmee je elke programmeertaal kunt gebruiken om MapReduce-taken te schrijven. Het biedt flexibiliteit in de keuze van de programmeertaal en vereenvoudigt de integratie van bestaande code en de uitbreiding van Hadoop-mogelijkheden.
Hadoop vergelijken met traditionele databases
Hadoop kan elk type gegevens opslaan, gestructureerd en ongestructureerd, en schalen naar petabytes aan gegevens. Traditionele databases daarentegen vereisen gestructureerde gegevens en hebben opslagbeperkingen.
Voorbeelden van het gebruik van Hadoop
Hadoop wordt in verschillende industrieën gebruikt. Social media platforms zoals Facebook en Twitter kunnen bijvoorbeeld Hadoop gebruiken om enorme hoeveelheden gegevens op te slaan en te verwerken. E-commerce giganten zoals Amazon en Alibaba gebruiken het platform om productaanbevelingssystemen, fraudedetectie en klantonderzoek te maken.