Seeing AI im Test: Microsofts Geniestreich
Eigentlich kennt das jeder Blinde: man unterhält sich mit jemandem auf WhatsApp, Twitter, Facebook, Signal oder wo auch immer… Und plötzlich kriegt man ein Bild gesendet.
Meine klassische Reaktion auf sowas war früher: Äh. Was soll ich denn damit anfangen???
Hier kommt Seeing AI ins Spiel
Seeing AI (Englisch) ist eine kostenlose, werbungsfreie App für iOS, welche von Microsoft entwickelt wird. Der Name steht für “sehende künstliche Intelligenz” und sagt bereits aus, was Seeing AI im wesentlichen ist: Eine künstliche Intelligenz, welche diverse Bilderkennungsdienste anbietet. Die App ist derzeit nur in englischer Sprache verfügbar, die aktuelle Version ist 3.0.
Welche Features hat Seeing AI?
Die Benutzeroberfläche von Seeing AI ist ziemlich einfach aufgebaut: Es gibt immer einen Schalter, um das Menü zu öffnen (dort kann man Einstellungen vornehmen, den Support kontaktieren, Rückmeldungen senden und Infos über die App lesen). Es folgt ein Schalter, der eine kurze Info über den aktuellen Channel (Kanal) einblendet. Je nach dem, welcher Channel ausgewählt ist, bietet Seeing AI unterschiedliche Funktionen an:
Channel | Beschreibung |
---|---|
Short text | wenn man die Kamera über einen text hält, wird dieser vorgelesen, ohne, dass ein Bild gemacht werden muss. |
Document | Hat man einen längeren Text, den man einscannen möchte, kann man zum Document-Channel wechseln. Hier muss man das iPhone so über den Text halten, dass alle Ecken sichtbar sind (Seeing AI hilft durch ensprechende Hinweise dabei). Wenn alles stimmt, macht Seeing AI automatisce ein Foto und verarbeitet dieses. Alternativ kann man die Kamera auch manuell auslösen. |
Product | Wenn man eine Tüte, eine Dose oder eine sonstige Verpackung mit unbekanntem Inhalt vor sich hat, welche einen strichcode aufwist, kann Seeing AI Informationen über dieses Produkt ausgeben. Hierzu muss man mit der Kamera den Strichcode scannen (Seeing AI hilft durch akustische Hinweise, wenn man sich einem Strichcode nähert) und anschließend gibt Seeing AI den Produktnamen und ddf. das Gewicht aus, falls diese Informationen in der Datenbank vorhanden sind. |
Person | In diesem Channel kann man ein Selfie von einer oder mehreren Personen machen. Die Gesichter müssen dabei erfasst werden. Nach der verarbeitung gibt Seeing AI eine Einschätzung über das Alter, Geschlecht und die Stimmung der abgebildeten Person(en) aus. |
Currency | Hält man einen Geldschein auf der offenen Handfläche (die zu erkennende Währung muss vorher eingestellt werden) und führt das iPhone in etwa 10 cm Abstand über die Hand, so verkündet Seeing AI, um welchen Geldschein es sich handelt. Münzen werden nicht erkannt. |
Scene | Hier macht man ein Foto von einer Szene und Seeing AI versucht diese dann zu beschreiben. |
Color | Das iPhone verwandelt sich in ein Farberkennungsgerät: Halte es über die zu erkennende Oberfläche und Seeing AI meldet die Farben dieser Oberfläche zurück. |
Handwriting | Seeing AI kann auch Handschrift erkennen, der Channel funktioniert wie “Document”. |
Light | Die App kann auch die Lichtverhältnisse beurteilen: Durch ein akustisches Signal vermittelt Seeing AI wie intensiv das licht ist. Je höher und lauter der Ton, desto intensiver das Licht. |
Wie gut funktionieren die Channels?
Das kommt sehr auf den Channel an. “Short text” und “Document” funktionieren meist recht zuverlässig – auch, wenn es um die Erfassung von speziellen Umlauten und Sonderzeichen geht. Bei ungewöhnlicher Schriftart kann es jedoch passieren, dass Seeing AI keine Schrift erkennt. Je nach Kameraposition erkennt die App auch nicht allen Text. Dafür ist sie gut darin, tabellen zu erkennen und logisch aufzuschlüsseln. Die Produkterkennung (channel “Product”) ist relativ zuverlässig, allerdings nicht unfehlbar: Manchmal fehlt das Produkt schlicht in der Datenbank. Die Alterserkennung bei “Person” ist oft sehr inkorrekt – mich schätzt die App meist zwischen 26 und 35 ein, also gut zehn Jahre älter, als ich tatsächlich bin. Die Qualität im “Scene” channel hängt sehr stark von der Bildqualität und der Szene ab: Wenn die Szene sehr ungewöhnlich ist, kriegt Seeing AI Probleme. “Currency” hat stets gut funktioniert, selbst mit sehr zerknitterten scheinen. Ein beiläufiges Schwenken der Kamera über den Geldschein – und schon weiß ich, um welchen es sich handelt. “Color” ist meines Erachtens sehr stark vom Licht abhängig. Wirklich verlassen würde ich mich auf die Angaben eher nicht. “Handwriting” funktioniert mal besser, mal schlechter – je nach Handschrift. “Light” hingegen ist sehr zuverlässig, aber nicht unbedingt nützlich für mich. Andere mögen da anderer Meinung sein.
Weitere Features
Bilder aus anderen Apps analysieren
In der Regel werden Bilder natürlich nicht ausschließlich in der Seeing AI-App gemacht. dies ist jedoch kein Problem: Ist die App erstmal installiert, findet sich im Teilen-Menü ein Punkt namens “recognize with Seeing AI”. Sobald dieser Punkt aktiviert ist, können Fotos einfach zur Verarbeitung an Seeing AI weitergeleitet werden. Dabei werden alle Channels berücksichtigt – z.B. werden Informationen über Text, Personen und die Szene auf dem Bild analysiert.
Fotomediathek durchsuchen
Um das ganze noch einfacher zu machen findet man unter “Menu > Browse photos” die Inhalte der Fotomediathek. Klickt man auf ein Foto, wird dieses analysiert. Die entstehende Beschreibung wird anschließend dem Bild in der Mediathek (in Seeing AI) vorangestellt.
Gesichtserkennung
Es gibt die Option, Gesichter von Personen, die man gut kennt, mit Namen zu versehen. Dazu muss man drei Fotos von dem Gesicht machen, damit Seeing AI es wieder erkennt und anschließend der Person einen Namen zuordnen. Dies hat dann die Konsequenz, dass Seeing AI die Person auf Bildern erkennt (falls das Gesicht sichtbar ist), und im Channel Person wird die Person bei der Selfie-Erstellung auch erkannt.
Unterstützung bei Selfies
Im Channel “Person” kann man gut Bilder oder Selfies von Personen aufnehmen. Seeing AI meldet wie viele Gesichter erkannt wurden, und wo sich diese Gesichter etwa auf dem Bild befinden. Außerdem wird die ungefähre Distanz angegeben. Z.B.: “One face near left edge, 2 feet away” (Ein Gesicht am linken Rand, 2 Fuß entfernt).
Bilder erkunden
Seit Version 3.0 gibt es noch ein tolles Feature: Man kann Bilder erkunden. Dazu muss man ein Bild analysieren, dann auf “Explore picture” klicken; anschließend erscheint ein Informationstext über das Feature. Wenn man auf “Back” klickt, wird das Foto erneut analysiert – diesmal versucht Seeing AI, alle Objekte und deren Position zu erkennen. Fährt man nun mit dem Finger über den Bildschirm und trifft dabei auf ein Objekt, werden die Informationen über dieses Objekt gesprochen. Seeing AI interpretiert dabei Personen, Gegenstände, sowie Text als Objekte.
Einige Beispiele von Bildern und der Bewertung durch Seeing AI…
Fazit
Seeing AI ist eine sehr nützliche App. Zwar darf man die Angaben der App nicht immer für voll nehmen – wie gut Seeing AI funktioniert, hängt auch stark von den Lichtverhältnissen ab, ungewöhnliche Szenen werden oft falsch interpretiert und außerdem sind die Alterseinschätzungen der App meist bloß für Lacher geeignet; da die App außerdem bisher nur in englischer Sprache verfügbar ist, muss man dieser Sprache mächtig sein. Dennoch gilt: Für eine kostenlose, werbungsfreie App ist Seeing AI sehr gut und macht Bilder zumindest weniger ärgerlich.
Und was hat Microsoft von dem Ganzen? Gute Frage! Natürlich kann es sich Microsoft technisch gesehen leisten, Apps ohne monetären Profit anzubieten. trotzdem ist das natürlich kein Wohlfahrtsunternehmen. Also, was hat Microsoft konkret von Seeing AI?
Dies ist für die meisten vermutlich etwas abstrakt. Microsoft nutzt Seeing AI, um die künstlichen Intelligenzen zu trainieren. Damit eine künstliche Intelligenz “lernen” kann, also “intelligent” wird, muss sie Daten zur Verfügung haben. Indem Microsoft uns hilft (mit einer vielseitigen Bilderkennungssoftware), helfen wir also Microsoft, indem wir ihre künstliche Intelligenz trainieren.
Erwähnenswert ist noch, dass Seeing AI nur mit Internetverbindung funktioniert – die Bilder müssen zur Verarbeitung an einen Server gesendet werden.