DIY-Marktforschung(2): Datenkontrolle und -bereinigung bei CAWI
Kennen Sie die Versuchung, einfach mal schnell einen Blick in die Daten zu werfen – insbesondere dann, wenn die Umfrageergebnisse die Grundlage für eine schon dringend zu treffende Entscheidung bilden sollen?
„Garbage in, garbage out“ (GIGO)
Ein großer Vorteil der Do-it-yourself-Marktforschung (DIY-Marktforschung) ist, dass Ihnen die Rohdaten einer Online-Befragung (CAWI – computer assisted web interview) sofort nach dem Abschluss der Datenerhebung – oder auch schon zwischendurch – zur Verfügung stehen. Die meisten Online-Umfrageprogramme bieten einfach handzuhabende Möglichkeiten des Datenexports, erlauben einen Blick auf die einzelnen ausgefüllten Fragebögen oder zeigen sogar Online-Dashboards mit den aktuell vorliegenden aggregierten, deskriptiven Ergebnissen. Da ist die Versuchung groß, sich nicht lange mit der zeitintensiven (!) Datenkontrolle sowie Datenbereinigung aufzuhalten und rasch mit ersten Ergebnissen aufzuwarten. Das ist aber keine gute Idee! Was, wenn jemandem beim Ausfüllen des Fragebogens ein offensichtlicher Fehler unterlaufen ist? Oder wenn der Datensatz gar komplette Fake- oder von künstlicher Intelligenz produzierte Fragebögen enthält (ja, das gibt es!)? Oder wenn beim Programmieren des Fragebogens etwas schiefgegangen ist? Oder wenn das Umfrageprogramm unterschiedliche Werte für fehlende Angaben abspeichert und natürlich auch mitexportiert?
Datenkontrolle und Datenbereinigung
An einer konzentrierten Datenkontrolle und -bereinigung führt also kein Weg vorbei. Nicht umsonst nennt man die Daten vor diesem Bearbeitungsschritt „Rohdaten“. Auf der Ebene der einzelnen erhobenen Informationen (Variablen) bekommen Sie mit Häufigkeitsauszählungen einen ersten Überblick über die Datenqualität. So sehen Sie gleich, ob hier eigentlich „unmögliche“ Einträge vorliegen. Diese können Sie dann als fehlende Werte (user-defined missing value) kennzeichnen oder aus dem Datensatz löschen (system missing value), damit sie bei der Analyse unberücksichtigt bleiben. Durch ein geschicktes Sortieren des Datensatzes und/oder durch entsprechende Analysen (zum Beispiel Kreuztabellen) können Fehler in der Programmierung (wenn zum Beispiel Einträge von Personen enthalten sind, die diese Frage gar nicht hätten bekommen sollen) oder unplausible Angaben sichtbar gemacht werden. Auch in diesen Fällen sollten die fehlerhaften Einträge aus der Analyse ausgeschlossen werden – im Extremfall sogar, indem ganze Fragebögen gelöscht werden.
Einfach zum Nachdenken
Was könnte eine Ursache für das folgende, bei der Ergebnissen der Datenanalyse einer DIY-Marktforschung zu beobachtende „Phänomen“ sein?
Eine Restaurantkette befragt 800 zufällig ausgewählte Gäste online (CAWI) dazu, ob sie auch nach dem Auslaufen der Corona-Maßnahmen Interesse an ihrem Click & Collect – Angebot haben. Eine Analyse zeigt, dass diejenigen, die angeben „Ja, das Angebot ist interessant für mich“, signifikant älter sind (77 Jahre) als jene, die ankreuzen „Nein, das Angebot ist für mich nicht interessant“ (49 Jahre). Das passt einerseits zu einer der für das Projekt zentralen Hypothesen, nämlich dass die Interessenten älter sein könnten. Andererseits erscheint das Durchschnittsalter der Interessierten doch sehr hoch – es gibt ja auch die Hypothese, dass das Interesse mit der Internetkompetenz zusammenhängen könnte.
Nach einigem Überlegen, wie dieses auffällige Ergebnis in der Gestaltung des Click & Collect – Angebotes berücksichtigt werden könnte, werden doch noch weitere Analysen durchgeführt. Hier ist dann zu sehen, dass die Männer deutlich älter sind als die Frauen, dass eine Bildungsgruppe (die Maturanten) signifikant älter ist als die anderen, dass die Gäste des Restaurantstandorts D signifikant älter sind als die der anderen Standorte usw.
Hinweise
Dieser Beitrag ist der zweite aus einer Reihe von Fallbeispielen zu den Tücken der DIY-Marktforschung, die in unregelmäßigen Abständen in einem Blog zum Thema erscheinen. Dort finden Sie auch Hinweise auf die bei den „Einfach zum Nachdenken“ angesprochenen methodischen Fallstricke.
Kommentieren