Wat Is AWS Lijm en Hoe Gebruik Je Het?

AWS Lijm is een beheerde extraheren, transformeren en laden (ETL) service die in staat is om de gegevens opgeslagen in de S3 of DynamoDB en te converteren naar verschillende formaten of schema ‘ s voor gemakkelijker gebruik in andere diensten, zoals het Athena.

Waarom Gebruik maken van AWS Lijm?

AWS Lijm is bedoeld voor mensen die te veel data te verwerken. Misschien heb je een hele vloot van servers, en elke één van hen is spugen log bestanden. Je binnenkrijgt deze gegevens in de S3 voor gemakkelijke opslag, maar er is ook heel veel van, en het moet eerste worden verwerkt voordat ze worden geanalyseerd met Athena. Misschien bent u alleen geïnteresseerd bent in een paar kolommen van de gegevens en wilt negeren de rest.

AWS Lijm kan dat wel; het zit tussen uw S3 gegevens en Athena, en verwerkt de gegevens die veel lijkt op hoe een hulpprogramma zoals sed-of awk zou op de commando-regel. Door het opzetten van een crawler, kunt u gegevens importeren die zijn opgeslagen in S3 in uw data catalog, dezelfde catalogus gebruikt door Athena query ‘ s uitvoeren. Vervolgens kunt u de te wijzigen gegevens te verwijderen van de overbodige kolommen of te converteren tussen formaten.

AWS Lijm kan ook automatisch converteren CSV en andere gescheiden formaten in de Apache Parket kolomvorm, die sterk wordt aanbevolen voor iedereen die werkt met Athena, als het kan afgesneden uw kosten door een orde van grootte te wijten aan het wat veel minder gegevens te worden verwerkt.

Hoe te beginnen

Hoofd op over aan de AWS Lijm-Console, en selecteer “aan de Slag.” Van de “Crawlers” tab, selecteer dan “Crawler” en geef het een naam. Kies “opgeslagen Gegevens”, zoals de invoer van het type en het configureren om gegevens te importeren uit de S3 emmer, waar uw gegevens wordt gehouden.

Maak vervolgens een nieuwe IAM gebruiker voor de crawler te functioneren. Het maken van dit dialoogvenster, en klik vervolgens in de lijst te selecteren (u kunt op de knop vernieuwen naast de lijst).

U kunt uw crawler een schema met behulp van de standaard cron syntaxis, of door het selecteren van één van de vooraf ingestelde opties. U kunt ook het handmatig uitvoeren van de console als je wilt.

Kies een output database van uw Gegevens in de Catalogus. Als u hebt gebruikt voordat Athena, kunt u een aangepaste database, maar als het niet, de standaard zou moeten werken. De crawler wordt een tabel voor zichzelf om gegevens op te slaan in.

Het Omzetten Van Gegevens

Zodra uw gegevens worden geïmporteerd in uw data catalog database, kunt u deze gebruiken in andere AWS Lijm-functies. Bijvoorbeeld, als u wilt om uw gegevens te verwerken, kunt u een nieuwe taak van de “Jobs” tab te hanteren conversie van gegevens.

Geef de taak een naam en selecteer uw IAM rol. Selecteer “Een Voorgestelde Script Gegenereerd Door AWS Lijm” als het script van de taak, tenzij u handmatig wilt schrijven.

Uit het volgende tabblad, selecteer de tabel waarvoor uw gegevens zijn geïmporteerd door de crawler. Klik op volgende en selecteer “Wijzigen Schema” als het type transformatie.

U kunt ervoor kiezen om nieuwe bestanden te maken, of een update van de huidige met de nieuwe schema voor in de plaats. Als u wilt converteren naar Parket of andere formaten, moet u nieuwe bestanden te maken.

Vanaf de volgende pagina, kunt u instellen waar de magie gebeurt. Elke kolom in het brondocument toegewezen aan een kolom in het output-bestand. U kunt kolommen verwijderen en nieuwe toevoegen als u wilt. Standaard is een één-op-één mapping, dus als je alleen het omzetten tussen verschillende formaten, kunt u het negeren van deze pagina.

Volgende, je bracht naar de script editor, waar AWS is voorgeladen met een script dat wordt uitgevoerd met de juiste transformatie voor u. Kunt u deze handmatig starten vanuit dit tabblad op de console, of stel deze in met een trigger om te draaien op een vast schema.

Athena kan ook worden geconfigureerd om gegevens te laden van een AWS Lijm crawler, in plaats van een vast pad in de S3. U kunt het ook gebruiken om meer fijn bepalen welke data wordt geïmporteerd.