Was Ist AWS Leim, und Wie Verwenden Sie Es?

AWS-Kleber ist ein managed extrahieren, transformieren und laden (ETL) – Dienst, der in der Lage ist zu verarbeiten Daten, die in S3 oder DynamoDB und konvertieren Sie Sie in verschiedene Formate oder Schemata für eine einfachere Nutzung in anderen Diensten wie Athena.

Warum Verwenden Sie AWS-Kleber?

AWS-Kleber ist für Menschen bestimmt, die haben zu viel Daten zu verarbeiten. Vielleicht haben Sie ja eine ganze Flotte von Servern, und jeder von Ihnen spuckte log-Dateien. Nehmen Sie diese Daten in S3 für einfache Lagerung, aber es gibt eine Menge davon, und es muss zuerst verarbeitet, bevor Sie analysiert mit Athena. Vielleicht sind Sie nur daran interessiert, ein paar Spalten aus den Daten und verwerfen den rest.

AWS-Kleber verarbeiten kann; es sitzt zwischen Ihrem S3-Daten und Athena, und verarbeitet die Daten, ähnlich wie Sie ein Dienstprogramm wie sed oder awk wäre auf der Kommandozeile. Durch die Einrichtung eines Crawlers, können Sie importieren Daten, die in S3 in Ihre Daten-Katalog, die gleichen verwendeten Katalog von Athena zum ausführen von Abfragen. Sie können dann ändern Sie diese Daten entfernen Sie die unnötigen Spalten oder umwandeln zwischen den Formaten.

AWS-Kleber können auch das automatische konvertieren von CSV-und anderen getrennte Formate in die Apache-Parkett-columnar-format, was sehr empfehlenswert ist für alle, die mit Athene, wie Sie können, senken Sie Ihre Kosten um ein Vielfaches und benötigt weit weniger Daten verarbeitet werden.

Wie, um loszulegen

Den Kopf über die AWS-Kleber-Konsole, und wählen Sie “Get Started.” Von der “Crawler” – Registerkarte, wählen Sie “Erstellen-Crawler”, und geben Sie ihm einen Namen. Wählen Sie “datenspeicher”, wie die import-Art, und konfigurieren Sie den import von Daten aus dem S3-bucket, in denen Ihre Daten gehalten werden.

Als Nächstes erstellen Sie eine neue IAM-Benutzer für den crawler zu betreiben. Erstellen Sie aus diesem dialog, und wählen Sie es in der Liste aus (Sie müssen möglicherweise auf den refresh button neben der Liste).

Sie können Ihren crawler einen Zeitplan mithilfe des standard-cron-syntax, oder durch Auswahl einer der vordefinierten Optionen. Sie kann auch manuell von der Konsole aus, wenn Sie möchten.

Wählen Sie eine Ausgabe-Datenbank aus den Daten Katalog. Wenn Sie verwendet haben, Athena, bevor, können Sie eine benutzerdefinierte Datenbank, aber wenn nicht, ist das standardmäßig funktionieren sollte. Der crawler erstellt eine Tabelle für sich selbst, um Daten zu speichern in.

Konvertieren Von Daten

Sobald Ihre Daten importiert Ihre Daten Katalog-Datenbank, können Sie es in andere AWS-Glue-Funktionen. Zum Beispiel, wenn Sie möchten, um Ihre Daten zu verarbeiten, können Sie einen neuen Auftrag erstellen, aus dem “Jobs” – Registerkarte, um Daten zu behandeln-Konvertierung.

Geben Sie dem job einen Namen und wählen Sie Ihre IAM-Rolle. Wählen Sie “Vorgeschlagene Skript Generiert, die Durch AWS-Kleber” als das Skript der Auftrag ausgeführt wird, es sei denn, Sie manuell zu schreiben.

Von der nächsten Registerkarte, wählen Sie die Tabelle, die Ihre Daten importiert wurde und durch die crawler. Klicken Sie auf weiter, und wählen Sie dann “Change Schema” als transform-Typs.

Sie können wählen, neue Dateien erstellen oder aktualisieren Sie die bestehenden mit dem neuen schema statt. Wenn Sie konvertieren, auch für Parkett oder andere Formate, müssen Sie eine neue Datei erstellen.

Auf der nächsten Seite können Sie konfigurieren, wo alle die Magie passiert. Jede Spalte in der Quelldatei zugeordnet ist, um eine Spalte in der output-Datei. Sie können Spalten löschen und neue hinzufügen, wenn Sie möchten. Standardmäßig, es ist eine eins-zu-eins-Zuordnung, wenn du also nur die Konvertierung zwischen den Formaten, können Sie diese Seite ignorieren.

Sie sind dann brachte Sie den Skript-editor, in dem AWS hat die vorinstallierten eine script, der ausgeführt wird, die richtige Transformation für Sie. Sie können führen Sie es manuell aus dieser Registerkarte in die Konsole, oder legen Sie es mit einem Auslöser ausgeführt wird, auf einem festen Zeitplan.

Athena kann auch konfiguriert werden, um Daten zu laden, die von einer AWS-Kleber Raupen, eher als von einem festen Pfad in S3. Sie können es auch verwenden, um mehr fein Steuern, welche Daten importiert.