Telefonbuch
Die Deutsche Telekom bringt seit 1992 im praktischen CD- und später DVD-Format das Verzeichnis aller Fernsprechteilnehmer heraus. Über die Genese des Projekts, diese Daten zu exportieren, gibt es einen Blogpost und zu den Innerein der vier verschiedenen Datenformate auf den CDs ein wenig technische Dokumentation.
Die Software findet sich im git-Repository, kann mit git clone git://erdgeist.org/Telefonbuch
ausgecheckt werden und braucht mein Tool el in einem Verzeichnis, das im PATH
steht, um effizient in den riesigen Textfiles Zeilen zu extrahieren.
Für alle aktuelleren CDs reicht es, das script makecolumns.sh
auszuführen, das als einzigen Parameter den Pfad auf das white/
-Verzeichnis direkt unter dem Mountpoint des Telefonbuchs. Danach sollte unterhalb des neu erzeugten Verzeichnis work
ein Verzeichnis mit dem Dump der aktuellen Ausgabe liegen. Hierbei fallen einige recht selbsterklärend benannte Textfiles raus, deren Zeilen jeweils mit der selben Zeile in allen anderen Dateien korrespondieren. Im Datenformat können mehrere aufeinanderfolgende Zeilen semantisch zusammengehören. Die sind dann im File 01_Flags mit dem lower nibble 1 (Start) oder 2 (dazugehörige Zeile) markiert. Das higher nibble bedeutet 0x80 für gewerbliche Einträge, 0x40 für "hat der Inverssuche widersprochen".
Die Ausgaben mit dem Merkmal "Map&Route" ergeben beim Exportieren hausnummerngenaue Geokoordinaten, die einfachen Ausgaben nur Koordinaten mit Straßenzug-Genauigkeit.