updates/2018/debakel-am-suedkreuz.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230

title: Biometrische Videoüberwachung: Der Südkreuz-Versuch war kein Erfolg
date: 2018-10-13 08:46:09 
updated: 2018-10-13 08:59:09 
author: erdgeist
tags: update, pressemitteilung

Die Ergebnisse im Abschlussbericht nach dem monatelangen Test der biometrischen Gesichtserkennung sind nicht überzeugend und absichtlich geschönt worden. Solche Testergebnisse können nicht als Grund dafür herhalten, Biometrietechnik nun flächendeckend einführen zu wollen. Risiken und rechtliche Probleme werden im Bericht gar nicht erst angesprochen.

<!-- TEASER_END -->

Diese Woche hat die Bundespolizei den bereits im September erstellten
Abschlussbericht \[1\] zur biometrischen Gesichtserkennung am Berliner
Bahnhof Südkreuz veröffentlicht. Zu den Kosten des monatelangen Versuchs
sind keine Angaben enthalten. Eine zeitgleich bekanntgegebene Meldung
preist die Ergebnisse der drei erprobten Systeme als „erfolgreich“ und
spricht von einem „enormen Mehrwert“ der Biometriesoftware für die
Polizei.

Jedoch zeigen die wenigen Zahlen aus dem Bericht, dass die getesteten
Systeme – anders als behauptet – keine akzeptablen Ergebnisse
erbrachten. Zudem erweist sich, dass die Ergebnisse manipuliert wurden,
um sie nicht ganz so desaströs aussehen zu lassen.

Der Chaos Computer Club (CCC) fordert im Lichte dieses Debakels, das
unnütze und teure Sicherheitstheater unverzüglich einzustellen. Die
Gesichter aller Passanten sind keine biometrische Ressource zum Scannen
nach Belieben.

Die biometrische Videoüberwachung ist mit zahlreichen technischen
Problemen behaftet und erweist sich erneut als untauglich. Aber das weit
größere Problem für jeden Passanten, dessen Gesicht gescannt wird, liegt
in der Technologie selbst: Menschen werden nicht wie mit anderen
Videosystemen einfach nur beobachtet, sondern während der Überwachung
durch ihre Körpermerkmale identifiziert. Werden solche Systeme
ausgebaut, stehen wir vor einer anlasslosen biometrischen
Personenüberwachung im öffentlichen Raum, die mit der heutigen
Videoüberwachung technisch nicht vergleichbar ist.

 

### 

### Angaben zu durchschnittlichen Ergebnissen

Das Innenministerium betont die angeblich hohe Anzahl an Treffern: Die
Trefferrate gibt laut dem Bericht die Wahrscheinlichkeit an, mit der
eine Person von einem getesteten System korrekt identifiziert wird. Über
die angegebene Trefferrate von durchschnittlich achtzig Prozent zeigen
sich das Innenministerium und die Autoren des Abschlussberichts
hocherfreut. Faktisch werden bei einer solchen Rate allerdings von zehn
gesuchten Personen eben nur acht korrekt identifiziert.

Doch selbst die in der Pressemitteilung besonders hervorgehobene
durchschnittliche Erkennungsrate von achtzig Prozent hat in Wahrheit
keines der getesteten Systeme erreicht, sondern ist eine absichtlich
positiv verfälschende Zahl. Sie berechnet sich laut dem Abschlussbericht
aus den Erkennungsraten aller drei erprobten Systeme.

Praktisch hieße das für die Situation am Bahnhof, dass nicht der beste
Anbieter für die biometrische Erkennung zum Einsatz käme, sondern alle
drei Systeme zusammen eingesetzt werden müssten, um diesen
durchschnittlichen Wert zu erreichen. Eine solche Trefferrate des
„logischen Gesamtsystems“ existiert nämlich nur, wenn alle drei
getesteten Systeme die vorbeilaufenden Menschen erfassen und jeweils
softwareseitig auswerten. Bei keinem der getesteten Anbieter wurde diese
imaginäre durchschnittliche Zahl in Wahrheit gemessen. Tatsächlich ist
das durchschnittliche Ergebnis des Versuchs für das beste der drei
Testsysteme die peinliche Zahl von 68,5 Prozent, die in der ersten
Testphase erreicht wurde. Damit ist die biometrische Technik zu
unausgereift für den praktischen Einsatz.

Erwartungsgemäß ändert auch die Positionierung der Kamera das Ergebnis
für die Trefferquoten: Am schlechtesten schnitt dabei die Eingangskamera
am Bahnhof ab, bei der die schwächsten Trefferleistungen gemessen
wurden. Selbst das beste der drei getesteten Systeme kommt hier nur auf
eine Trefferquote von 65,8 Prozent. Tagsüber konnte wegen Gegenlichts
sogar auch beim besten der Systeme nur sechzig Prozent erreicht werden.
Der schlechteste der drei Biometrieanbieter wies am Eingang des Bahnhofs
sogar nur eine Trefferrate von 18,9 Prozent (tagsüber zwölf Prozent) aus
und ist damit glatt durchgefallen.

Für den geplanten Abgleich mit polizeilichen Datenbanken sind solche
Erkennungsraten völlig unbrauchbar. Sie als Erfolg verkaufen zu wollen,
ist schlicht unredlich. Insgesamt hält die Bundespolizei dennoch zwei
der getesteten Systeme für den „praktischen polizeilichen Einsatz“
geeignet und sieht selbst für das überdurchschnittlich schlechte dritte
Testsystem noch ein „hohes Potenzial“.

 

### 

### Wissenschaftliche Standards missachtet

Die zugrundeliegenden Bilder der Gesichter waren in der Phase zu Beginn
des Tests von ausgesprochen hoher Qualität, was die Ergebnisse zugunsten
der getesteten Systeme verzerrt. Denn die freiwilligen Probanden wurden
in hoher Auflösung und mit guter Beleuchtung fotographiert, so dass die
erfassten Gesichter in der ersten Testphase optimal für den Vergleich
mit den Livebildern vorlagen.

Der Abschlussbericht weist solche Verzerrungen nicht etwa aus, sondern
beschönigt das Vorgehen noch. Generell kann die gesamte Auswertung nicht
als wissenschaftlich angesehen, sondern muss als PR-Bericht verstanden
werden. Vielleicht dauerte es deshalb so lange, die bereits am 31. Juli
beendeten Tests herauszuputzen, um sie erst im Oktober im
Abschlussbericht darzustellen.

Die Wissenschaftlichkeit des Versuchs steht aber auch aus anderen
Gründen bereits konzeptuell in Zweifel: Die Repräsentativität der
Probanden war nicht gegeben, so dass kein aussagekräftiges Abbild der
Bevölkerung (Alter, Geschlecht, Ethnie) oder des gesuchten
Personenkreises getestet wurde. Zudem war die Anzahl der freiwilligen
Tester mit 312 Menschen zu gering bemessen, sie nahm in der zweiten
Testphase außerdem noch signifikant ab und verringerte sich auf nur 201
Personen.

*„Eine gründliche Untersuchung der realen Erkennungsleistungen der
biometrischen Systeme hat mit dem Test am Bahnhof Südkreuz wenig
gemeinsam. Wenn ein System der biometrischen Personenüberwachung aber
tatsächlich eingesetzt werden sollte, genügen solche Versuche ohnehin
nicht. Dann müsste man besser vorher darüber sprechen, ob es
gesellschaftlich wünschenswert und überhaupt rechtlich möglich ist, von
jedem Vorbeilaufenden biometrische Merkmale zu verarbeiten“*, sagte Dirk
Engling, Sprecher des CCC.

 

### 

### Die zweite Versuchsphase

Besonders dreist ist das Vorgehen, mit der zweiten Testphase die
Ergebnisse nochmals absichtlich zu schönen. Der damalige Innenminister
Thomas de Maizière hatte bei einem Besuch seines Vorzeigeprojektes noch
angekündigt, dass in einer zweiten Phase des ursprünglich auf sechs
Monate angelegten Versuchs realitätsnähere Bilder benutzt werden würden.
In Wahrheit wurden in dem dann verlängerten Test unter dem Vorwand,
angeblich Fahndungsfotos zu verwenden, tatsächlich von den getesteten
Systemen selbst aufgezeichnete Gesichtsbilder benutzt. Diese Bilder
hatten im ersten Versuchsteil bereits zu guten Ergebnissen geführt.
Zudem wurde nunmehr nicht nur ein Referenzbild in den Datenbanken
hinterlegt, sondern gleich mehrere der zuvor aufgezeichneten Fotos der
Probanden aus den Überwachungskameras verwendet.

Damit wurden nicht nur absichtlich und unzulässig die Erkennungraten
manipuliert, vielmehr sind mit einem solchen Testvorgehen Rückschlüsse
auf reale Szenarien in einem Bahnhof gar nicht mehr möglich. Schließlich
hat es nichts mehr mit der Wirklichkeit zu tun, wenn die biometrischen
Systeme Vergleiche von vorher als gut klassifizierten Gesichtsbildern
vornehmen, die am gleichen Ort entstanden sind. So müssten in der
Realität Fotos der Verdächtigen an allen Bahnhöfen mit allen dort
verbauten Kameras angefertigt werden – eine vollkommmen unsinnige und
erneut die Ergebnisse verfälschende Testannahme. Wenn solche
Versuchsmethoden als Begründung für eine künftige Gesetzgebung zum
flächendeckenden Einsatz herhalten sollten, sind sie nicht
aussagekräftig für eine reale Verwendung.

 

### 

### Die Falscherkennungsrate

Weiterhin sind die Zahlen zur Falscherkennungsrate (FAR) deutlich
geschönt. So werden hier nicht etwa alle durch die Kamera erfassten
Gesichter der Menschen analysiert, sondern ausweislich des Berichtes nur
diejenigen, die zufälligerweise zu dem Zeitpunkt aufgenommen wurden,
wenn eine der Testpersonen neben ihnen auf der Rolltreppe stand oder im
Bahnhof ging und damit das System durch den Transponder aktivierte. Die
realen Zahlen der fälschlichen Erkennung liegen also nochmals um ein
Vielfaches höher als der in dem Bericht ausgegebene Wert. Zugleich
bleibt auch diese Verzerrung des Ergebnisses im Bericht selbst
unkommentiert.

Für das „logische Gesamtsystem“ liegt die so ausgewiesene FAR
durchschnittlich bei 0,67 Prozent. Bei einer durchschnittlichen Anzahl
von etwa 90.000 Reisenden pro Tag am Bahnhof Südkreuz hieße ein solcher
Wert, dass täglich 600 Passanten und mehr fälschlich ins Visier der
biometrischen Installation gerieten.

Weiterhin werfen die im Versuch verwendeten Verfahren Fragen auf, die in
dem Bericht nicht adressiert werden. Wieso wurden beispielsweise aus den
41.000 gespeicherten Transponder-Events nur 6.000 ausgewählt? Was waren
die Kriterien? Und warum werden nicht in allen Diagrammen im
Abschlussbericht die gleichen Datenpunkte verwendet? So gibt es
beispielsweise für den November nur einen Punkt im Diagramm für die
Falscherkennungsrate, aber ganze neun für die Trefferrate. Hier liegt
der Verdacht nahe, dass durch die Auswahl bestimmter Ereignisse
Fehlerkennungen unter den Tisch gekehrt werden sollten. Auch Differenzen
in den Erkennungsraten zwischen aufeinanderfolgenden Tagen von im
Schnitt zehn Prozent (maximal fünfzig Prozent) sollten die Herausgeber
und die Leser der Studien stutzig machen.

 

### 

### Bedeutung der Zahlen in der Praxis

Würde dieses System tatsächlich so in Betrieb genommen, würde die FAR
noch weiter darunter leiden, dass die Zahl der Fahndungen mehr als nur
die 200 gespeicherten Vergleichsbilder wie in Testphase 2 erzeugt. Laut
Beispiel aus dem Bericht soll in der Praxis mit mindestens 600 Bildern
verglichen werden. Entsprechend stiege die FAR nochmals.

Doch selbst wenn die Systeme nur vier unbescholtene Bürger pro Kamera
und Stunde fälschlich als Verbrecher erkennen und die Beamten diese dann
von Hand aussondern müssen, kann man sich leicht vorstellen, was
passiert, wenn nach monatelangem händischen Aussieben dann doch mal ein
einzelner Verbrecher durchs Bild huscht und erkannt wird. Wie aufmerksam
ein durchschnittlicher PC-Anwender die hunderste Sicherheitswarnung für
Webseiten wegklickt, dürfte ein Gefühl für die Auswirkungen einer
solchen Flut von Falscherkennungsmeldungen geben.

Der einzige Lichtblick im Bericht ist die Beschreibung, wie man sich am
besten gegen die biometrische Rasterfahndung schützen kann: Man drehe
einfach das eigene Gesicht um mehr als 15 Grad von der Kamera weg. Damit
ist eigentlich alles gesagt, was die Sinnhaftigkeit und
Einsatztauglichkeit solcher Systeme angeht.

 

### 

### Links

\[1\] [Abschlussbericht der
Bundespolizei](https://www.bundespolizei.de/Web/DE/04Aktuelles/01Meldungen/2018/10/181011_abschlussbericht_gesichtserkennung_down.pdf;jsessionid=B00C5E4B9341D9F8733EF8508A6D9C46.2_cid324?__blob=publicationFile&v=1)
(pdf)