It’s the Data, stupid!

Es gibt kein eindeutiges Modell davon was Big Data ist. Weit verbreitete Formen verlassen sich dafür auf sogenannte Data Lakes oder ein Data Warehouse. In beiden werden unterschiedliche Daten aus verschiedensten Quellen abgelegt, die sowohl historische als auch Echtzeitdaten liefern können. Scharfe Definitionen gibt es für beide Konzepte nicht wirklich, aber anhand mancher Eigenschaften lassen sich beide Konzepte unterscheiden.

Matthias Kübert ist Master of Science der Physik und Teil des interdisziplinären Teams der „Wolkenmacher“. Sein Schwerpunkt liegt in der Analyse von großen Datenmengen im Kontext von Industrie 4.0, IoT und Big Data. Matthias Kübert beschäftigt sich dabei insbesondere mit der Nutzung innovativer Cloud Services, die es auch mittelständischen Unternehmen schon heute ermöglichen, schnell und kostengünstig erste Digital-Projekte zu starten.

Data Warehouse:

• Dort abgelegte Daten sind hochgradig transformiert und strukturiert
• Nur Daten für die es auch einen vorher definierten Nutzen gibt, werden dort abgelegt

 

 

Data Lake:
• Alle Daten aus jeden erdenklichen System werden dort abgelegt
• Diese sind in der Regel komplett untransformiert oder höchstens nur leicht transformiert

 

 

Beide Konzepte und Vorgehensweisen existieren nicht ohne Grund: die beiden Strukturen ermöglichen je eine unterschiedliche Nutzung. Während die relationale Struktur des Datawarehouse es erlaubt, schnelle Reports zu erstellen und generell einem Standard entsprechende Anfragen zu verarbeiten, lässt die offene Struktur des Data Lakes andere Spielarten zu. Da Daten in einem Data Lake nicht zweckgebunden liegen, ermöglicht es ein Data Lake den Nutzern, neue Strukturen zu erkennen. Dafür können Frameworks wie Hadoop Distributed File System (HDFS) verwendet werden, um nach diesen Strukturen zu suchen. Ein System, das ähnlich wie HDFS funktioniert und dabei die Vorteile der Cloudarchitektur nutzt, ist der Dienst AWS Elastic Map Reduce (EMR). Somit eignet sich ein Data Lake hervorragend zu Datenanalysen, welche nach neuen Wegen suchen, die Daten zu monetarisieren oder bestehende Prozesse zu optimieren. Ein Data Warehouse hat hingegen für das operative Geschäft die meisten Vorteile. Es bietet weder die Flexibilität, noch die gleiche Vielfalt an Daten, ist dafür aber schneller und effizienter.

 

Schnell, günstig und immer verfügbar: Wir nutzen die AWS Cloud

In der AWS Cloud können wir durch ein Zusammenspiel verschiedener Dienste das Grundgerüst eines Data Lakes aufbauen. Als Grundlage, um alle Daten jedes Typs anzulegen, wird S3 genutzt. Nehmen wir das Beispiel eines Data Lakes, in dem Wetteraufzeichungen von verschiedenen Stationen in Europa gesammelt werden. Die Datenablage erfolgt dort von allen Stationen komplett gleichberechtigt und unstrukturiert in S3. Um eine Zuordnung vornehmen zu können, markieren wir die Daten noch mit ausreichenden Tags. Denkbar wäre je ein Tag für das Land, die Region, die Urzeit und das Datum.

 

Um einen Überblick über alle Daten zu haben, werden die Metadaten in einer NoSQL Datenbankinstanz DynamoDB abgelegt. Das stellt das Grundgerüst für einen Data Lake dar. Um Zugangskontrollen für die jeweiligen User zu schaffen, können wir mit dem AWS Identity and Access Management (IAM) Rollen verteilen, die Usern granularen Zugang erlauben. Die Nutzung des Data Lakes kann durch CloudWatch überwacht und der Nutzer getrackt werden.

 

Microservices erleichtern das Cloud-Leben

Für das reibungslose Zusammenspiel der Dienste schreiben wir Microservices mit AWS Lambda. Ist damit die Struktur des Data Lakes erst einmal geformt, kann mit Kinesis der Zustrom neuer Daten geregelt werden und die Ablage der Daten nach den gesetzten Standards geschehen.

 

Die Cloud der unbegrenzten Möglichkeiten

Was schließlich mit den Daten geschieht, hängt ganz von der Nutzung ab. Mit EMR oder HDFS können Strukturen in den Daten gesucht werden. Viele Daten möchten unsere Kunden zum Beispiel dafür verwenden, Machine Learning Modelle zu trainieren und Aufgrund dessen Vorhersagen in Echtzeit zu treffen. Bereits gefundene Strukturen können weiter genutzt und nach Transformation in ein Data Warehouse wie Amazon Redshift geladen werden. Die beiden Prinzipien schließen einander nicht gegenseitig aus.

 

Wir können Ihnen dabei helfen einen Data Lake zu errichten, der nicht zu einem unzugänglichen Data Swamp wird oder Sie unterstützen, ein skalierbares performantes Data Warehouse einzurichten. Gemeinsam mit Ihnen werden wir Ihre Big Data Infrastruktur aufbauen, erkunden und erweitern, sodass Sie das den größten Nutzen aus ihren Daten und den Möglichkeiten der Cloud ziehen.

Nehmen Sie mit unserem Wolkenmacher Team Kontakt auf:

 

Christoph Waschkau

kontakt@vintin.de

www.wolkenmacher.rocks

+49 (0)9721 67594 10

Abonnieren Sie die Beiträge unseres VINTIN IT-Journals! In Zukunft werden Sie bei neuen Inhalten per Email kurz und bündig informiert.



Spread the Word!Email this to someoneShare on FacebookShare on Google+Tweet about this on TwitterShare on LinkedInPrint this page


T: +49 (0) 9721 / 67594-10

VINTIN GROUP Löwe

HABEN SIE NOCH FRAGEN?