Po čemu se razlikuju Hadoop, Hive i AWS RedShift?


Odgovor 1:

Hadoop je raspodijeljeni računalni (Npr. MapReduce) i skladišni (HDFS) okvir.

Košnica je dio ekosustava hadoop i pruža sql-sučelje za hadoop.

Redshift je Amazon vlasnički sustav baze podataka. Njegova je funkcionalnost usporediva s košnicom na vrhu Hadoopa: ali nedostaje joj puno mogućnosti. Iako se čini da je značajno brži, opisano je u prvim mjerilima.


Odgovor 2:

Nije više točno reći da Hadoop nije dobar za SQL. Uz dramatična poboljšanja u usluzi Hive, Impala i Lingual, sve više i novijih alata za pristup podacima u Hadoopu dolazi putem SQL-a. Kako Spark postaje dominantniji, alati poput Hive on Spark i Spark SQL smanjuju sve prednosti koje Redshift ima u pogledu performansi.


Odgovor 3:

Sva tri pojma pripadaju Data Science. Hadoop: Hadoop je okvir koji definira način pohranjivanja i obrade velikih podataka. U početku je imao samo dvije komponente: HDFS (sloj za pohranu) i MapReduce (sloj za obradu), ali sada je Hadoop postao veliki eko-sustav u kojem postoje mnogi drugi napredni okviri za obradu serija i tokova kao što su Spark, Storm, Kafka, itd. Glavni je cilj Hadoopa izvršiti obradu podataka koristeći snagu distribuirane računalne arhitekture.

Košnica: Hive je alat sličan SQL-u, koji analitičari podataka koriste za stvaranje jednostavnih upita o podacima koji se pohranjuju u HDFS. Ovaj je alat razvio Facebook. Hive je uveden kako bi smanjio količinu napora potrebnog za pisanje Java programa temeljenih na pronalaženju obrađenih podataka pohranjenih u HDFS.

AWS RedShift: AWS RedShift je Cloud usluga na AWS platformi koja pomaže organizaciji da razvije sustav za pohranu podataka koji koristi Cloud. AWS RedShift može obraditi petabajte podataka bez potrebe za upravljanjem infrastrukturom, softverom ili platformom. To je PaaS, koristan za poslovnu analizu podataka.