Was ist eine Computervision?
Computer Vision ist eine Technologie, mit der Maschinen Bilder automatisch erkennen und sie genau und effizient beschreiben. Heute haben Computersysteme Zugriff auf eine große Menge an Bildern und Videodaten, die von Smartphones, Verkehrskameras, Sicherheitssystemen und anderen Geräten stammen oder von diesen erstellt wurden. Computer-Vision-Anwendungen nutzen künstliche Intelligenz und Machine Learning (KI/ML), um diese Daten zur Objektidentifikation und Gesichtserkennung sowie zur Klassifizierung, Empfehlung, Überwachung und Erkennung präzise zu verarbeiten.
Warum ist Computer Vision wichtig?
Technologien zur visuellen Informationsverarbeitung gibt es zwar schon seit geraumer Zeit, aber ein Großteil des Prozesses erforderte menschliches Eingreifen und war zeitaufwändig und fehleranfällig. Bei der Implementierung eines Gesichtserkennungssystems in der Vergangenheit mussten Entwickler beispielsweise Tausende von Bildern manuell mit wichtigen Datenpunkten wie der Breite des Nasenrückens und dem Abstand zwischen den Augen versehen. Die Automatisierung dieser Aufgaben erforderte umfangreiche Datenverarbeitungsleistung, da Bilddaten unstrukturiert und für Computer komplex zu organisieren sind. Bildverarbeitungsanwendungen waren daher teuer und für die meisten Unternehmen unerschwinglich.
Heute haben Fortschritte auf diesem Gebiet in Kombination mit einer erheblichen Erhöhung der Datenverarbeitungsleistung sowohl den Umfang als auch die Genauigkeit der Bilddatenverarbeitung verbessert. Computer-Vision-Systeme, die auf Cloud-Computing-Ressourcen basieren, sind jetzt für jeden erschwinglich. Jedes Unternehmen kann die Technologie für die Identitätsprüfung, Inhaltsmoderation, Streaming-Videoanalyse, Fehlererkennung und mehr verwenden.
Was sind die Anwendungsfälle von Computer Vision?
Zahlreiche Computer-Vision-Anwendungen werden in den Bereichen Unterhaltung, Wirtschaft, Gesundheitswesen, Transport und Alltag eingesetzt. Im Folgenden sehen wir uns einige Anwendungsfälle an:
Sicherheit und Schutz
Behörden und Unternehmen nutzen Computer Vision, um die Sicherheit von Vermögenswerten, Standorten und Einrichtungen zu verbessern. Kameras und Sensoren überwachen beispielsweise öffentliche Räume, Industriestandorte und Hochsicherheitsumgebungen. Sie senden automatische Benachrichtigungen, wenn etwas Ungewöhnliches passiert, z. B. wenn eine unbefugte Person einen Sperrbereich betritt.
In ähnlicher Weise kann Computer Vision die persönliche Sicherheit sowohl zu Hause als auch am Arbeitsplatz verbessern. Beispielsweise kann die Erkennungstechnologie eine Vielzahl sicherheitsrelevanter Probleme überwachen. Dazu gehören Echtzeit-Streams zu Hause, die Haustiere erkennen, oder Live-Kameras vor der Haustür, die Besucher oder zugestellte Pakete erkennen. Am Arbeitsplatz umfasst eine solche Überwachung das Tragen geeigneter persönlicher Schutzausrüstung durch die Arbeitnehmer, die Information von Warnsystemen oder die Erstellung von Berichten.
Operative Effizienz
Computer Vision kann Bilder analysieren und Metadaten für Business Intelligence extrahieren, wodurch neue Umsatzmöglichkeiten und betriebliche Effizienz geschaffen werden. Zum Beispiel kann es:
- Qualitätsmängel automatisch identifizieren, bevor Produkte das Werk verlassen
- Wartungs- und Sicherheitsprobleme von Maschinen erkennen
- Bilder aus sozialen Medien analysieren, um Trends und Muster im Kundenverhalten zu entdecken
- Mitarbeiter mit automatischer Gesichtserkennung authentifizieren
Gesundheitswesen
Das Gesundheitswesen ist eine der führenden Branchen, die Computer-Vision-Technologie einsetzen. Insbesondere die medizinische Bildanalyse ermöglicht eine Visualisierung von Organen und Geweben, um medizinischen Fachkräften zu helfen, schnelle und genaue Diagnosen zu stellen, was zu besseren Behandlungsergebnissen und einer höheren Lebenserwartung führt. Beispiel:
- Erkennung von Tumoren durch Analyse von Muttermalen und Hautläsionen
- Automatische Röntgenanalyse
- Entdeckung von Symptomen anhand von MRT-Untersuchungen
Autonome Fahrzeuge
Die Technologie für autonome Fahrzeuge nutzt Computer Vision, um Bilder in Echtzeit zu erkennen und 3D-Karten aus mehreren Kameras zu erstellen, die für den autonomen Verkehr vorgesehen sind. Sie kann Bilder analysieren und andere Verkehrsteilnehmer, Verkehrszeichen, Fußgänger oder Hindernisse identifizieren.
In teilautonomen Fahrzeugen nutzt Computer Vision Machine Learning (ML), um das Fahrerverhalten zu überwachen. Beispielsweise sucht es anhand der Kopfposition des Fahrers, der Blickverfolgung und der Bewegung des Oberkörpers nach Anzeichen von Ablenkung, Müdigkeit und Schläfrigkeit. Wenn die Technologie bestimmte Warnzeichen erkennt, warnt sie den Fahrer und verringert die Wahrscheinlichkeit eines Verkehrsunfalls.
Landwirtschaft
Von der Steigerung der Produktivität bis hin zur Kostensenkung durch intelligente Automatisierung verbessern Computer-Vision-Anwendungen die allgemeine Funktionsweise des Agrarsektors. Satellitenbilder sowie UAV-Aufnahmen helfen dabei, riesige Landstriche zu analysieren und die landwirtschaftlichen Praktiken zu verbessern. Computer-Vision-Anwendungen automatisieren Aufgaben wie die Überwachung der Feldbedingungen, die Identifizierung von Pflanzenkrankheiten, die Überprüfung der Bodenfeuchte und die Vorhersage von Wetter und Ernteerträgen. Tierüberwachung mit Computer Vision ist eine weitere wichtige Strategie der intelligenten Landwirtschaft.
Wie funktioniert Computer Vision?
Computer-Vision-Systeme nutzen die Technologie der künstlichen Intelligenz (KI), um die Fähigkeiten des menschlichen Gehirns nachzuahmen, die für die Objekterkennung und Objektklassifizierung verantwortlich sind. Informatiker trainieren Computer darin, visuelle Daten zu erkennen, indem sie riesige Informationsmengen eingeben. Algorithmen für Machine Learning (ML) identifizieren häufig auftretende Muster in diesen Bildern oder Videos und wenden dieses Wissen an, um unbekannte Bilder genau zu identifizieren. Wenn Computer beispielsweise Millionen von Bildern von Autos verarbeiten, beginnen sie, Identitätsmuster aufzubauen, mit denen ein Fahrzeug in einem Bild genau erkannt werden kann. Computer Vision verwendet Technologien wie die unten angegebenen.
Deep Learning
Deep Learning ist eine Art von ML, die neuronale Netzwerke verwendet. Neuronale Deep-Learning-Netzwerke bestehen aus vielen Schichten künstlicher Neuronen, die im Computer zusammenarbeiten. Sie verwenden mathematische Berechnungen, um verschiedene Aspekte von Bilddaten automatisch zu verarbeiten und nach und nach ein kombiniertes Verständnis des Bildes zu entwickeln.
Konvolutionale neuronale Netzwerke
Convolutional Neural Networks (CNNs) verwenden ein Kennzeichnungssystem, um visuelle Daten zu kategorisieren und das gesamte Bild zu verstehen. Sie analysieren Bilder als Pixel und geben jedem Pixel einen Kennzeichnungswert. Der Wert wird eingegeben, um eine mathematische Operation namens Konvolution durchzuführen und Vorhersagen über das Bild zu treffen. Wie ein Mensch, der versucht, ein Objekt aus der Ferne zu erkennen, identifiziert ein CNN zunächst Konturen und einfache Formen, bevor er zusätzliche Details wie Farbe, innere Formen und Textur einfügt. Schließlich wiederholt es den Vorhersageprozess über mehrere Iterationen, um die Genauigkeit zu verbessern.
Wiederkehrende neuronale Netzwerke
Wiederkehrende neuronale Netzwerke (RNNs) ähneln CNNs, können jedoch eine Reihe von Bildern verarbeiten, um Verbindungen zwischen ihnen zu finden. Während CNNs für die Einzelbildanalyse verwendet werden, können RNNs Videos analysieren und die Beziehungen zwischen Bildern verstehen.
Was sind gängige Aufgaben, die Computer Vision ausführen kann?
Sehen wir uns im Folgenden einige Beispiele für Computer-Vision-Aufgaben an, die Unternehmen implementieren können.
Bildklassifizierung
Die Bildklassifizierung ermöglicht es Computern, ein Bild zu sehen und genau zu klassifizieren, in welche Klasse es fällt. Computer Vision versteht Klassen und kennzeichnet sie, zum Beispiel Bäume, Flugzeuge oder Gebäude. Ein Beispiel ist, dass eine Kamera Gesichter auf einem Foto erkennen und den Fokus auf sie richten kann.
Objekterkennung
Die Objekterkennung ist eine Computer-Vision-Aufgabe zum Erkennen und Lokalisieren von Bildern. Sie verwendet Klassifizierungen, um Bilder zu identifizieren, zu sortieren und zu organisieren. Die Objekterkennung wird in Industrie- und Fertigungsprozessen zur Steuerung autonomer Anwendungen und zur Überwachung von Produktionslinien eingesetzt. Hersteller und Dienstanbieter von vernetzten Heimkameras verlassen sich auch auf Objekterkennung, um Live-Videostreams von Kameras zu verarbeiten, Personen und Objekte in Echtzeit zu erkennen und ihren Endbenutzern umsetzbare Warnmeldungen zu geben.
Objektverfolgung
Die Objektverfolgung verwendet Deep-Learning-Modelle, um Elemente zu identifizieren und zu verfolgen, die zu Kategorien gehören. Sie hat mehrere reale Anwendungen in verschiedenen Branchen. Das erste Element der Objektverfolgung ist die Objekterkennung. Das Objekt wird von einem Begrenzungsrahmen umgeben, erhält eine Objekt-ID und kann über Frames verfolgt werden. Objektverfolgung kann beispielsweise für die Verkehrsüberwachung in städtischen Umgebungen, die Überwachung von Menschen und die medizinische Bildgebung verwendet werden.
Segmentierung
Die Segmentierung ist ein Algorithmus für Computer Vision, der ein Objekt identifiziert, indem er Bilder davon basierend auf den gesehenen Pixeln in verschiedene Bereiche aufteilt. Die Segmentierung vereinfacht auch ein Bild, indem sie beispielsweise eine Form oder einen Umriss eines Elements platziert, um festzustellen, um was es sich handelt. Auf diese Weise erkennt die Segmentierung auch, ob sich in einem Bild oder Rahmen mehr als ein Objekt befindet.
Befinden sich in einem Bild beispielsweise eine Katze und ein Hund, kann die Segmentierung verwendet werden, um die beiden Tiere zu erkennen. Im Gegensatz zur Objekterkennung, bei der ein Objekt in einem Rahmen angeordnet wird, werden bei der Segmentierung Pixel verfolgt, um die Form eines Objekts zu bestimmen, was die Analyse und Kennzeichnung erleichtert.
Inhaltsbasierter Bildabruf
Inhaltsbasierter Bildabruf ist eine Anwendung von Computer-Vision-Techniken, mit denen in großen Datenbanken nach bestimmten digitalen Bildern gesucht werden kann. Dabei werden Metadaten wie Tags, Beschreibungen, Kennzeichnungen und Schlüsselwörter analysiert. Beim semantischen Abruf werden Befehle wie „Bilder von Gebäuden suchen“ verwendet, um entsprechende Inhalte abzurufen.
Was ist der Unterschied zwischen Computer Vision und Bildverarbeitung?
Bei der Bildverarbeitung werden Algorithmen verwendet, um Bilder zu verändern, z. B. um Bilder zu schärfen, zu glätten, zu filtern oder zu verbessern. Computer Vision ist anders, da es kein Bild verändert, sondern stattdessen das Gesehenen sinnvoll einordnet und eine Aufgabe ausführt, z. B. das Kennzeichnen. In einigen Fällen kann man Bildverarbeitung verwenden, um ein Bild zu modifizieren, sodass ein Computer-Vision-System es besser verstehen kann. In anderen Fällen verwendet man Computer Vision, um Bilder oder Teile eines Bildes zu identifizieren, und verwendet dann die Bildverarbeitung, um das Bild weiter zu modifizieren.
Wie hilft Ihnen AWS bei Ihren Computer-Vision-Aufgaben?
AWS bietet das breiteste und vollständigste Angebot an Services für künstliche Intelligenz und Machine Learning (KI/ML) in Verbindung mit einem umfassenden Satz von Datenquellen für Kunden aller Fachkenntnisse.
Für Kunden, die auf Frameworks aufbauen und ihre eigene Infrastruktur verwalten, optimieren wir Versionen der beliebtesten Deep-Learning-Frameworks, darunter PyTorch, MXNet und TensorFlow. AWS bietet ein breites und umfassendes Portfolio an ML-Services für die Datenverarbeitungs-, Netzwerk- und Speicherinfrastruktur mit einer Auswahl an Prozessoren und Beschleunigern, um individuellen Leistungs- und Budgetanforderungen gerecht zu werden.
Für Kunden, die eine Standard-Computer-Vision-Lösung in ihrem gesamten Unternehmen erstellen möchten, erleichtert Amazon SageMaker die Vorbereitung von Daten und das Erstellen, Trainieren und Bereitstellen von ML-Modellen für jeden Anwendungsfall mit vollständig verwalteter Infrastruktur, Tools und Workflows, einschließlich No-Code-Angeboten für Unternehmen Analysten.
Für Kunden, denen es an ML-Kenntnissen mangelt und die eine schnellere Markteinführung benötigen oder einem bestehenden Prozess oder einer Anwendung Intelligenz hinzufügen möchten, bietet AWS eine Reihe von ML-basierten Computer-Vision-Services an. Mit diesen Services können KI-Anwendungen mithilfe vortrainierter APIs auf einfache Weise um Intelligenz erweitert werden. Amazon Rekognition automatisiert Ihre Bild- und Videoanalyse mit ML und analysiert Millionen von Bildern, Live-Streams und gespeicherten Videos in Sekunden. Amazon Deep Lens ist die weltweit erste Deep-Learning-fähige Videokamera, mit der Entwickler die Grundlagen von Deep Learning mithilfe von Computer-Vision-Projekten, Tutorials und realen, praktischen Erkundungen mit einem physischen Gerät erlernen können.
Beginnen Sie mit Computer Vision, indem Sie noch heute ein kostenloses AWS-Konto erstellen.
Nächste Schritte auf AWS
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Beginnen Sie mit der Entwicklung mit AWS in der AWS-Managementkonsole.