Description:
In foreign trade statistics, the Federal Statistical Office compiles data on Germany's trade in goods with other countries from the export and import declarations submitted by businesses that are required to report data. Complex edit checks are employed to detect and correct erroneous data to the greatest possible extent. An important part of this data editing process involves checking for unusually high or low values, known as outliers. This article describes the evaluation of various non-parametric clustering models to detect outliers, and assesses their effectiveness using different quality criDer Warenverkehr Deutschlands mit dem Ausland ist Gegenstand der vom Statistischen Bundesamt durchgeführten Außenhandelsstatistik, für die die auskunftspflichtigen Unternehmen ihre Exporte und Importe melden. Mithilfe aufwendiger Prüfschritte werden fehlerhafte Angaben weitestgehend identifiziert und bereinigt. Ein wichtiger Teil dieses Plausibilisierungsprozesses besteht darin, ungewöhnlich hohe oder niedrige Werte zu kontrollieren. Der Beitrag beschreibt die Erprobung verschiedener nichtparametrischer Clustering-Modelle, um auffällige Werte aufzudecken und nach verschiedenen Gütekriterien deren Wirkung zu bewerten. Als geeignet erweisen sich die Modelle Isolation Forest und Kerneldichteschätzung.
In foreign trade statistics, the Federal Statistical Office compiles data on Germany's trade in goods with other countries from the export and import declarations submitted by businesses that are required to report data. Complex edit checks are employed to detect and correct erroneous data to the greatest possible extent. An important part of this data editing process involves checking for unusually high or low values, known as outliers. This article describes the evaluation of various non-parametric clustering models to detect outliers, and assesses their effectiveness using different quality criteria. Isolation Forest and kernel density estimation are found to be suitable models.