Zum Hauptinhalt springen

Einsatz von Kassenscannerdaten und Webscraping in der Preisstatistik

Projektziel und Realisierung

Die Berechnung von Preisindizes haben bei Statistik Austria eine über hundertjährige Tradition, Zeitreihen des Verbraucherpreisindex reichen bis 1958 zurück. Die zentrale, primärstatistische Datenerhebung dafür wird von Statistik Austria durchgeführt und findet persönlich in Geschäften, telefonisch, per Mail und mittels Internet­recherche statt. Um die Datenbeschaffung stetig zu verbessern, werden regelmäßig neue Datenquellen zur Ergänzung der Indizes evaluiert. Zwei Datenquellen konnten bereits erfolgreich in den statistischen Produktionsprozess integriert werden:

Für erste Warengruppen wurde die Implementierung von Scannerdaten in die Indexberechnung mit Jänner 2022 umgesetzt. Ab diesem Zeitpunkt wurde die Vor-Ort-Erhebung von Nahrungsmitteln und Drogeriewaren abgelöst durch die Nutzung von Scannerdaten. Aufgrund der Covid-bedingten Erhebungsausfälle im Frühling und Winter 2020 war es erforderlich, bereits vorab auf Scannerdaten zurückzugreifen, um fehlende Preismeldungen zu kompensieren. In den kommenden Jahren werden weitere Produktgruppen folgen, angedacht sind z.B. die Bekleidung, Elektrogeräte oder Möbel.

Eine wichtige Rolle spielen folgende rechtliche Rahmenbedingungen, die die Nutzung der Daten ermöglichen:

Rechtliche Rahmenbedingungen:

Scannerdaten:

Seit 2019 regelt eine neue VPI-Verordnung die Bereitstellung von Scannerdaten der großen Supermarktketten an Statistik Austria. Darin werden u. a. die Erhebungseinheiten, die Periodizität der Datenlieferung, der Erhebungszeitraum bzw. die Erhebungsmerkmale gesetzlich festgelegt.

Webscraping:

Folgende Rahmenbedingungen sollten bei Webscraping eingehalten werden:

Um diesen Ansprüchen gerecht zu werden, entsprechen unsere Webscraping-Aktivitäten den von Eurostat entwickelten Guidelines.

Innovation im Rahmen des Projekts

Die Innovation des Projekts liegt in der Verwendung neuer Datenquellen und der damit verbundenen Verbesserung der Qualität der Preisindizes: Die Datenbeschaffung ist effizienter, aktueller (u.a. keine verspäteten Preismeldungen) und kann höhere Datenmengen abdecken. Mit Scannerdaten kann langfristig anstelle eines stichprobenartigen ein vollständiges Warensortiment abgedeckt werden (vorerst beschränkt auf Lebensmittel- und Drogeriewarenhandel).

Interpretation der Ergebnisse

Die Datenquellen bzw. hohe Datenmenge lassen verschiedene Preisindexberechnungsmethoden zu, die zu verschiedenen Indexeigenschaften führen können und deren Vor- und Nachteile vor einer Entscheidung über die letztliche Verwendung für die Preisstatistik abgewogen werden müssen.

Die kann zu höherer Preisindexvolatilität führen. Ob und inwiefern es Abweichungen zu bereits als amtliche Statistik publizierten Ergebnissen gibt, ist zum derzeitigen Status noch unklar.

Weitere Informationen und Ergebnisse

Die ersten Preisindizes, die auf automatisch mittels Webscraping erhobenen Preisen basieren, wurden im Laufe des Jahres 2021 in den offiziellen Index aufgenommen. Als erster Anwendungsbereich für diese Zwecke wurden Neuvermietungen ausgewählt. Danach wurde die Erfassung von Webscraping-Daten kontinuierlich ausgeweitet, zuletzt auf Strom und Gas, Gemeindegebühren, Mobilfunktarife und Bekleidung. Teilweise werden diese Daten nicht nur zur Indexberechnung, sondern auch zur Plausibilisierung von Preisdaten herangezogen.

Diese Seite wurde zuletzt am 08.09.2022 aktualisiert.