Räumliche Verortung von textbasierten Social-Media-Einträgen am Beispiel von Polizei-Tweets (fossgis2020)


Mar 12 2020 23 mins   2
Ziel der Forschungsinitiative ist die Untersuchung der räumlichen Verortung deutscher Tweets auf Basis von verfügbaren Standardwerkzeugen. Zunächst werden die spezifischen Herausforderungen im Kontext der Sprache und der Eigenschaften von Tweets betrachtet. Die darauffolgende Entwicklung eines grundlegenden, algorithmischen Ablaufs schließt mit der Implementierung eines Prototyps ab. Dieser bildet die Basis für die Evaluation der Genauigkeit und führt zur Betrachtung des Verbesserungspotentials. Die Forschungsinitiative untersucht Möglichkeiten zur Verortung von textbasierten Social-Media-Einträgen mit verfügbaren Bibliotheken und Diensten. Der Fokus liegt hierbei auf deutschen Kurznachrichten (Tweets) des Mikrobloggingdienstes Twitter. Die Bedeutung der Verarbeitung speziell deutscher Sprache wird seit der steigenden Nutzung von Twitter in der öffentlichen Verwaltung zunehmend relevanter. Allein die Polizei verwaltet im Jahr 2017 schon mehr als 200 Accounts auf Twitter und Facebook (Anzlinger, 2019). In diesem Zusammenhang werden die Kurznachrichten häufig von Büropersonal verfasst, sodass die in Tweets optional enthaltene Standortangabe keine Information im Zusammenhang mit dem textlichen Inhalt liefert. Der methodische Ansatz für das Vorhaben ist wie folgt: Zunächst werden die Herausforderungen durch eine Literaturrecherche sowie durch einen vorverarbeitenden Schritt zur Identifizierung besonderer charakteristischer Merkmale in einem Tweet adressiert. Anschließend folgt die Definition eines algorithmischen Ablaufes aus den gewonnenen Erkenntnissen. Die Auswahl geeigneter und verfügbarer Werkzeuge liefert die Basis für die prototypische Umsetzung. Eine Evaluation der Ergebnisse bewertet die Untersuchung. Als spezielle Herausforderung bei der Verortung von deutschen Tweets zeigt sich insbesondere die maximale Zeichenlänge jener von 280 Zeichen. Eine im November 2018 veröffentlichte Studie benennt die durchschnittliche Länge eines Tweets mit lediglich 33 Zeichen (AFP, 2018). Um mit dieser Einschränkung eine Vielzahl an Informationen zu teilen, ist es üblich in den verfassten Kurznachrichten die Grammatik des Textes zu vernachlässigen. Zusätzlich werden auch Emoticons und Abkürzungen verwendet, um die Kurznachrichten mit der gewünschten Information anzureichern. Eine weitere Schwierigkeit besteht darin, dass häufig auch Wörter der englischen Sprache in eine deutsche Struktur eingebettet werden. Zudem sind die Ortsangaben oft unkonkret formuliert. Problematisch wird es v. a. dann, wenn ein in Deutschland mehrfach existierender Stadtname erwähnt wird. Des Weiteren werden Städtenamen teilweise nicht vollends ausgeschrieben, sondern als Abkürzung angegeben – bspw. in Anlehnung an die deutschen KFZ-Kennzeichen. Der entwickelte algorithmische Ablauf lässt sich wie folgt gliedern: In einem vorverarbeitenden Schritt werden Umlaute ersetzt sowie Sonderzeichen, Emoticons und Links entfernt. Für die Ermittlung der Ortsnamen unterteilt der Natural Language Prozessor spaCy (Explosion AI, 2019) die Tweets in Entitäten. Um zu überprüfen, ob eine Abkürzung eines KFZ-Kennzeichens enthalten ist, werden alle Eigennamen mit einer Datenbank abgeglichen und ggf. im Tweet ersetzt. Anschließend wird der Geocoder HERE (HERE Global B.V., 2019) eingesetzt, um die Koordinaten zu generieren. Alle ohne Ortsbezug bestehenden Eigennamen werden ergebnislos zurückgegeben und nicht weiterverfolgt. Im Rahmen der Auswahl geeigneter Werkzeuge wurden Alternativen gegenübergestellt. Bei einem Vergleich verschiedener Natural Language Prozessoren wurden kommerzielle Anbieter ausgeschlossen, da diese keinen Einblick in den Ablauf gewähren und zudem nicht konfiguriert werden können. Eine zentrale Anforderung für die Sprachanalyse ist der sichere Umgang mit der deutschen Sprache sowie der Umgang mit den speziellen Eigenschaften von Tweets. Bei einem zu verwendenden Geocoder galt die Untersuchung sowohl kommerzieller Produ [...]