Ralf Hohoff

Filter rows mit Regex im String

Über den Baustein Filter rows kann der Datenstrom in in Pentaho Data Integration sehr fein gesteuert werden. Neben den üblichen Vergleichsoperatoren ist auch die Suche mit einem regulären Ausdruck möglich. Wenn man innerhalb eines Strings sucht, ist hierbei ein kleines Detail zu beachten.

Weiterlesen

Geräteinformationen von Dell automatisch auslesen

Die Informationen über auslaufende Service-Verträge gelangten recht schwach strukturiert in unser Unternehmen und dies war seitens Dell auch nicht einfach änderbar. Der Abruf dieser und weiterer Informationen wie Gerätedaten über den Dell-Kundenbereich gestaltete sich auch als schwierig, weil das Dateiformat geändert wurde und Datumsangaben mal im deutschen und mal im amerikanischen Format angegeben wurden (in einer Spalte!).

Eine zentrale Verwaltung der Informationen in einer Datenbank und das automatische Aktualisieren der Gerätedaten musste her. Nach einiger Suche habe ich herausgefunden, dass es eine API gibt, die aber Probleme bereitet.

Hilfreich waren PHP: Querying Dell AssetService webservice to retrieve asset information und Get Dell System Warranty with PowerShell.

Ich habe erst versucht, die Daten mit Pentaho Data Integration direkt über den Webservice-Aufruf die Daten auszulesen. Das scheiterte, weil die im WSDL-File angegebene Adresse http://support.dell.com/WebServices/GetAssetInformation für die Funktion „GetAssetInformation“ nicht verfügbar war. Wenn man diese Adresse durch http://xserv.dell.com/services/AssetService.asmx überschreibt, erhält man die Daten. Das „Überschreiben“ ging nicht in Pentaho Data Integration und deshalb habe ich das mit PHP gemacht. Das PHP-Skript wird mit dem Service-Tag aufgerufen und gibt die Informationen im JSON-Format zurück.

$DELL_URL = "http://xserv.dell.com/services/assetservice.asmx?WSDL";
$soap = new SoapClient($DELL_URL, array('soap_version' => SOAP_1_2));
 
// Location muss überschrieben werden, weil die Url (die im WSDL angegeben wird!) nicht mehr korrekt ist!
// http://www.scconfigmgr.com/2013/06/23/get-dell-system-warranty-with-powershell/
$soap->__setLocation('http://xserv.dell.com/services/AssetService.asmx');
 
$tag = $_GET['ServiceTag'];
$response = $soap->GetAssetInformation(
	array(
	"guid" => "11111111-1111-1111-1111-111111111111",
	"applicationName" => "AssetService",
	"serviceTags" => $tag
	)
);
echo json_encode($response, JSON_PRETTY_PRINT);

Das Pentaho-Skript liest alle Service-Tags aus der Datenbank, ruft die PHP-Seite parametrisiert mit dem Service-Tag auf, verarbeitet das zurückgegebene JSON-Format und speichert die Informationen in der Datenbank.

Dell Servive-Tags auslesen

 

JSON-Beispiel für Service-Tag „4FL45W1“

{
    "GetAssetInformationResult": {
        "Asset": {
            "AssetHeaderData": {
                "ServiceTag": "4FL45W1",
                "SystemID": "optiplex-9010-aio",
                "Buid": "8270",
                "Region": "Asia \/ Pacific",
                "SystemType": "OptiPlex",
                "SystemModel": "OptiPlex 9010 All In One (Mid 2012)",
                "SystemShipDate": "2012-12-12T13:00:00-06:00"
            },
            "Entitlements": {
                "EntitlementData": [
                    {
                        "ServiceLevelCode": "HDD",
                        "ServiceLevelDescription": "For Non Returnable HDD",
                        "Provider": "",
                        "StartDate": "2012-12-12T00:00:00",
                        "EndDate": "2015-12-13T00:00:00",
                        "DaysLeft": 88,
                        "EntitlementType": "Active"
                    },
                    {
                        "ServiceLevelCode": "AD",
                        "ServiceLevelDescription": "Accidental Damage Service",
                        "Provider": "",
                        "StartDate": "2012-12-12T00:00:00",
                        "EndDate": "2015-12-13T00:00:00",
                        "DaysLeft": 88,
                        "EntitlementType": "Active"
                    },
                    {
                        "ServiceLevelCode": "NBD",
                        "ServiceLevelDescription": "Next Business Day response",
                        "Provider": "",
                        "StartDate": "2013-12-13T00:00:00",
                        "EndDate": "2015-12-13T00:00:00",
                        "DaysLeft": 88,
                        "EntitlementType": "Active"
                    },
                    {
                        "ServiceLevelCode": "POW",
                        "ServiceLevelDescription": "Parts Only Warranty",
                        "Provider": "",
                        "StartDate": "2013-12-13T00:00:00",
                        "EndDate": "2015-12-13T00:00:00",
                        "DaysLeft": 88,
                        "EntitlementType": "Active"
                    },
                    {
                        "ServiceLevelCode": "NBD",
                        "ServiceLevelDescription": "Next Business Day response",
                        "Provider": "",
                        "StartDate": "2012-12-12T00:00:00",
                        "EndDate": "2013-12-13T00:00:00",
                        "DaysLeft": 0,
                        "EntitlementType": "Expired"
                    },
                    {
                        "ServiceLevelCode": "POW",
                        "ServiceLevelDescription": "Parts Only Warranty",
                        "Provider": "",
                        "StartDate": "2012-12-12T00:00:00",
                        "EndDate": "2013-12-13T00:00:00",
                        "DaysLeft": 0,
                        "EntitlementType": "Expired"
                    }
                ]
            }
        }
    }
}

Es geht so einfach: mehrere Excel-Dateien auf einmal einlesen!

Für einen Import musste ich auf Excel als Datenquelle zurückgreifen und das mache ich nicht gerne 😉 Aber die Daten lagen nun mal nicht in einer Datenbank vor.

Da beim täglichen Import nicht nur eine sondern auch mehrere Dateien bereitliegen konnten, wollte ich – recht umständlich – eine Schleife bauen, die die Dateien nacheinander einliest und den Datenstrom aufbaut.

Das ist aber nicht notwendig, das kann der „Microsoft Excel Input“ auch ganz alleine schon!

Ich habe nur noch das Verzeichnis und einen regulären Ausdruck „.*\.xlsx$“ angegeben, dann werden alle Excel-Dateien eingelen und in einen Datenstrom überführt. Die Excel-Dateien können unterschiedlich benannt sein, die Datenstruktur (Spalten) muss natürlich identisch sein.

Excel_Input_Regex

Regular Expression für Wildcards in pdi

In einigen Transformations- und Jobschritten, insbesondere die die Handhabung von Dateien umsetzen, gibt es die Möglichkeit, Wildcards anzugeben. Aber natürlich gleich in der mächtigen Variante: Wildcard als Regulärer Ausdruck (Regular Expression)!

Wie es geht wird auf How to process a Kettle transformation once per filename beschrieben

The correct regex to get all files whose extension is .xml is ”.*\.xml”. This isn’t a regex tutorial, go look that up on the web.

Bitte die Anführungszeichen nicht mit angeben, für Excel-Dokumente lautet das z.B.  „.*\.xlsx“ oder „.*\.xlsx$“, wenn man das konkret auf das Zeilen- oder Stringende prüfen will.

Hilfreich bei der Erstellung von Regulären Ausdrücken ist auch der Online Regular Expression Builder

Einlesen von Verzeichnissen

Auch dasEinlesen von Verzeichnissen nutzt reguläre Ausdrücke, nachfolgend ein Beispiel mit der Transformation Get File Names

 

How to process a Kettle transformation once per filename

Küche unter Strom – ETL-Prozesse à la carte mit Pentaho Data Integration (Open Source)

Auch in Zeiten der IT-Konsolidierung und SOA stehen Entwickler und Administratoren täglich vor der Herausforderung, Daten direkt von einem in das andere System zu überführen oder strukturierte Im- und Exporte in verschiedenen Formaten bereitzustellen. Doch wie entwickelt man kostengünstig eine fexible und dauerhaft wartbare Lösung für diese Aufgaben?

Erschienen im Entwickler Magazin 3/2010 und steht hier zum Download zur Verfügung.

Unter Strom – Pentaho verknüpft ERP- und CRM-System

Wer Kundendaten in zwei Systemen speichert, braucht Mechanismen zum Abgleichen zwischen ihnen. Kostengünstig lässt sich unter anderem das freie Werkzeug Pentaho Data Integration dafür verwenden.

Mein Artikel beschreibt exemplarisch den Datenabgleich zwischen dem freien SugarCRM und einem ERP-System wie SAP R3, Baan/Infor oder Navision. Er wurde in der iX 12/2009 und online unter http://www.heise.de/ix/artikel/Unter-Strom-856727.html veröffentlicht.