Wie reagieren wir darauf, wenn Maschinen mittels Algorithmen anspruchsvolle Aufgaben verrichten, die typischerweise von Menschen verrichtet werden? Ergebnisse offenbaren eine grundlegende Skepsis gegenüber einer computerisierten Leistungserstellung, selbst wenn diese identisch oder besser ist. Ausnahmen existieren. Auf Grundlage von experimentellen Studien wird nachfolgend eine erste Einordnung abgegeben, die das geringe Zutrauen in die maschinelle Arbeit differenziert beleuchtet.

NicoElNino/Shutterstock

Überlegen Sie bitte einmal. Ihre Abteilung soll verstärkt werden und Sie haben die Aufgabe, den Auswahlprozess bis zur Einstellung verantwortlich zu managen.  Sie sichten die Unterlagen und wählen fünf Personen aus. Eine Ihnen probeweise zur Verfügung gestellte Software wählt ebenfalls fünf Personen aus. Die Ergebnisse überschneiden sich nur teilweise. Wie entscheiden Sie? Vermutlich bleiben Sie bei Ihrer Auswahl, denn wir mögen es zwar, wenn Maschinen uns die Arbeit erleichtern, mögen es hingegen gar nicht, wenn Maschinen uns in Bereichen ersetzen wollen, für die wir eine genuin menschliche Zuständigkeit reklamieren. Je höherwertig die computerisierte Substitution sein soll, desto eher wird dies abgelehnt. Studien zeigen allerdings nun ein differenzierteres Bild. Leadership Insiders liefert Wissen und Stoff für die betriebliche und gesellschaftliche Diskussion.

Der Algorithmus an sich hat ein Beliebtheitsproblem

Algorithmen stehen in dem Teil der Bevölkerung, der sich damit auseinandersetzt, erst einmal unter Generalverdacht, gegen den Menschen zu entscheiden, ihn womöglich zu bedrohen oder per se „schlechtere“  (unethischere, weniger kontextsensitive, hartherzigere, einsamere) Entscheidungen als der Mensch zu treffen. Dort, wo Menschen wählen können, entweder auf eine algorithmische Entscheidung zu setzen, oder auf die eines anderen Menschen zu vertrauen, wird der gesichtslose Algorithmus leicht aus dem Feld gedrängt – obwohl er bei kluger Modellierung in einem für ihn passenden Bereich (z.B. Vorhersagen unter bestimmten Bedingungen) in der Regel die akkuratere Entscheidung vorschlägt, so ein Forscherteam um Berkeley J. Dietvorst von der University of Chicago nach Auswertung der Studienlage bereits im Jahre 2015:

“Research shows that evidence-based algorithms more accurately predict the future than do human forecasters”

Existiert also eine (un)bewusste Algorithmusaversion?

Leistungsfähigkeit von Algorithmen wächst

Wir alle wissen, dass Maschinen zunehmend automatisiert Produktionsprozesse lenken, die Bewegung von Flugzeugen sichern, Autos ohne unseren Einfluss fahren lassen, Prognosen vornehmen und unsere Entscheidungen auch sonst in vielfältigster Weise unterstützen oder ersetzen. Am 31. Mai 2019 berichtete SPON, dass im Multiplayer-Computerspiel „Quake III Arena“ ein sich selbst optimierender Algorithmus (KI) den am besten auf diesem Feld agierenden Menschen nach 200.000 Spielen gegen sich selbst und gegen menschliche Spieler erkennbar und nach 450.000 Spielen deutlich überlegen war, auch weil er bessere Taktiken in diesem, Achtung, Teamspiel entwickelte.

So erstaunlich diese Leistungsfähigkeit im Einzelnen ist; es erzeugt Diskussionsbedarf, wenn Maschinen Entscheidungen treffen sollen, die als zutiefst menschlich empfunden werden. Denken wir an die angesprochene Entscheidung über die Einstellung oder Ablehnung einer Person im Bewerbungsprozess, aber auch an die Entscheidung über die Zuteilung eines Spenderorgans oder aber an die Aufforderung, eine militärische Aktion auszuführen oder zu unterlassen.

Forscherteams beschäftigen sich vor diesem Hintergrund mit der zunehmenden Verbreitung von Algorithmen, insbesondere lernenden Algorithmen, und möchten wissen, wie sich Menschen ihnen bzw. ihren Leistungen und Vorschlägen gegenüber verhalten. Fragen der Mensch-Maschinen-Interaktion sind aufgrund einer bislang nicht gekannten Anwendungsbreite und Anwendungstiefe en vogue.

Algorithmen bei differenzierter Betrachtung

Sicherlich kann man aufgrund der vorliegenden Befundlage ganz allgemein sagen, dass Individuen dazu neigen, die von Menschen geleistete Arbeit gegenüber der von Maschinen geleisteten vorzuziehen. Allerdings ist zu berücksichtigen, dass länger zurückliegende Studien weder die gestiegene Leistungsfähigkeit algorithmischer Lösungen noch die öffentliche Kommunikation und Diskussion hierüber haben einbeziehen können.

Deshalb ist es nicht ganz so überraschend, dass neuere Studien eine differenziertere Betrachtung nahelegen. So zeigt die bereits zitierte Studie um Berkeley Dietvorst durchaus auch Zutrauen in maschinelle Lösungen. Allerdings zeigt sie vor allem, dass ein vom Algorithmus produzierter und kommunizierter Fehler das Vertrauen in eine zukünftige korrekte Lösung signifikant tiefer erschüttert als eine einem Menschen zugeschriebene identische Fehlleistung – und das selbst dann, wenn bekannt ist (!), dass die absolute Vorhersageleistung maschinenseitig wesentlich besser ist.

In einer mehrere Experimente umfassenden Studie aus 2019 von Arthur Jago, Doktorand an der Stanford University, ging es um die Frage, ob Menschen Unterschiede in der Zuschreibung von der Authentizität einer Leistung oder Entscheidung davon abhängig machen, ob es eine Maschine oder ein Mensch war, die bzw. der die beobachtete Leistung, z.B. ein Produktentwurf, eine Songkomposition, ein gemaltes Bild, die „Lösung“ eines ethischen Dilemmas (angeblich) erbracht hat.

Authentizität wurde in zwei Ausformungen unterteilt:

Die typenbezogene Authentizität erfasst, inwieweit ein Objekt oder eine Verhaltensweise die Kriterien des Rezipienten an eine Klassifikation in eine spezifische Kategorie erfüllt. Beispiel: Ist das, was mir als ein Bild, nehmen wir ein Portrait, präsentiert wird, für mich in der Tat ein Bild? Und ist es das Gesicht einer Person? Und es wird eine Technik verwandt, die ich der Malerei zuordne? Die moralische Authentizität erfasst hingegen, inwieweit jemand glaubt, dass eine werthaltige Absicht bei der Leistungserstellung eine Rolle gespielt hat oder haben müsste und/oder eine solche als zum Ausdruck gebracht erschlossen wird. Oder sie steht ganz allgemein für die Annahme einer Ernsthaftigkeit oder einer Aufrichtigkeit bei dem beobachteten Verhalten oder der vorliegenden Leistung (Produkt, Service etc.). So stellen wir uns möglicherweise bei einem Song (unbewusst) die Frage, ob er aus Freude heraus geschrieben wurde oder mehr oder minder das Produkt einer automatisierten Samplearbeit ist.

In seinen Experimenten zeigte sich nun, dass im Prinzip eine Leistung, die einem Menschen zugeordnet wird, eine höhere Authentizitätszuschreibung erhält. Verantwortlich dafür ist fast immer die Zuschreibung einer höheren moralischen Authentizität. Und dabei muss man wissen, dass immer eine identische Leistung bewertet wurde (z.B. Bilderstellung mit demselben Bild als Bewertungsgrundlage), bei der kein Mensch tatsächlich beteiligt war (z.B. bei der Erstellung des Bildes). Die typenbezogeneAuthentizität differierte oft nicht. Allerdings „half“ das der Maschine nicht, denn die Zuschreibung von Authentizität wurde durch die moralische Komponente am Ende determiniert.

Übertragen auf den Arbeitskontext kann man damit sagen, dass die Akzeptanz der Anwendung künstlicher Intelligenz von der (stets) mitlaufenden Bewertung der moralischen Authentizität der gesehenen maschinellen Leistung oder der beobachteten maschinellen Entscheidung abhängt und – zurzeit noch – im Zweifel deshalb downgegradet wird.

Allerdings ist die Zuschreibung der Höhe von Authentizität immer abhängig von dem, was überhaupt bewertet werden soll. Es kann also sein, dass ein Bild grundsätzlich eine höhere Authentizitätszuschreibung erhält als ein Song. Verschiedene Einsatzfelder eignen sich von deshalb von vornherein weniger oder mehr für computerisierte Entscheidungen oder automatisiert erstellte Leistungen, sofern es auf die Authentizität ankommt. Es bleibt aber dabei, dass am Ende entscheidend ist, ob ich eher erwarte, dass ein Mensch oder eine Maschine die Leistung erbringen kann und/oder sollte. Diese Erwartung ist im Zeitablauf im Fluss.

Also: Wird bei einer Aufgabe vor allem Wert auf die moralische Dimension gelegt und erwartet man hier eine menschliche Komponente (wie etwa die Kreativität bei dem Bild), wird die identische menschliche Leistung deutlich authentischer bewertet. Die Maschine holt zumindest in der Authentizitätswahrnehmung auf, wenn es darum geht, eine technische Leistung, die möglichst ähnlich zu anderen Objekten (wie bspw. Produkten) der Kategorie ist, zu vollbringen. Beispielsweise besteht kein Problem, den Einbau eines Sicherheitssystems in ein Auto durch einen Roboter als authentisch anzusehen; ganz anders sieht es jedoch bei der Entscheidung darüber aus, ob dieses Sicherheitssystem notwendig ist.

Halten wir fest: Zusatzannahmen über die Tiefenqualität der Leistung (z.B. ein Rezept ausstellen, dass ja nur aufgrund einer vorherigen mitgedachten Diagnose ausgestellt werden kann) oder Zusatzinformation über wertgetriebenen Beweggründe einer Leistung („Die Professorin legte ihr ganzes Herz und ihre Seele in das Training dieser Person“) provozieren eine höhere Wahrnehmung von Authentizität gegenüber der von einer Maschine erbrachten Leistung.

Interessanterweise konnte Arthur Jago aus seinen Experimenten auch eine ganz praktische Empfehlung für Organisationen ableiten: Maschinelle Leistungen werden dann besser im Sinne von authentischer bewertet, wenn kommuniziert bzw. sichtbar wird, dass der Algorithmus menschliche Werte integriert hat oder aber vom Menschen mit einer Werthaltung oder einer menschlichen Regung trainiert und programmiert wurde („…berücksichtigte ethische Standards bei der Programmierung“). Hinzukommen sollte dann nach Möglichkeit eine erkennbar technisch akkurate Umsetzung. Für die Zukunft steht damit die grundsätzliche Frage im Raum, ob und inwiefern Algorithmen vor ihrer Anwendung im Unternehmen wertebasiert aufgeladen werden sollten, z.B. in Form der Offenlegung von Vorentscheidungen durch Menschen, sofern Akzeptanz entscheidend ist. Dies kann und muss man instrumentell wie moralisch diskutieren.

In einer aktuellen Studie eines Forscherteams um Jennifer M. Logg, das aus sechs Experimenten besteht, schneiden Algorithmen sogar noch besser ab. So schenkten Laien einem Rat, der von einem Algorithmus gegeben wurde, mehr Vertrauen, als dem von einer Person oder einer Gruppe von Personen. Dieses Mehr an Vertrauen war allerdings nicht proportional zu dem Unterschied in der bekannten Gütegenauigkeit der Vorhersagen von Maschine und Person, sondern geringer. Inhaltlich ging es um die Abschätzung des Gewichtes einer Person, um die zukünftige Positionierung eines Liedes in einer Rankingliste und um die Abschätzung der Attraktivität einer gegengeschlechtlichen Person, worüber jeweils Informationen vorlagen.

Allerdings wurde dem Algorithmus weniger vertraut, wenn er mit der eigenen Meinung anstatt der zugespielten Einschätzung dritter Personen konkurrierte. Paradoxerweise werteten im weiteren Verlauf Experten, die sich in ihrem Beruf öfter mit Voraussagen beschäftigten, den computerisierten Ratschlag zur Formulierung von geopolitischen Prognosen und Geschäftsprognosen gegenüber ihrer eigenen Einschätzung deutlich ab – dies obwohl diese Gruppe ansonsten durch Algorithmen bewirkte Einschätzungen in ihrem eigentlichen Arbeitsfeld nutzten. Laien nahmen in dieser Situation den maschinellen Rat häufiger an und erzielten damit bessere Ergebnisse.

Menschen und (intelligente) Algorithmen wachsen enger zusammen

Sicherlich sind die vorliegenden Studien im Rahmen einer Gesamtschau nicht ganz leicht zu interpretieren. Sie sind allesamt experimenteller Natur und haben selbstredend nur bestimmte Anwendungsbereiche vor Augen. Sie zeigen aber schon, dass weiterhin eine Grundskepsis des Einsatzes von Künstlicher Intelligenz gerade bei höherwertigen Leistungen oder zentralen Entscheidungen, die mit dem Menschen verbunden werden, begegnet. Vermutlich wird sich dies zukünftig in Abhängigkeit vom wahrgenommenen Nutzen und gesehener Gefahren noch differenzierter nach Bereichen entfalten. Wie stark die Veränderung ausfällt, welche Bereiche sich im Besonderen und welche sich weniger dafür eignen und wie weit das gehen wird, ist forschungsseitig noch nicht genau abzusehen. Im Zweifel gilt aber, dass es umfassender sein wird, als wir uns das jetzt vorstellen können.

Es wird in vielen Anwendungsfeldern nicht zuletzt extrem davon abhängen, inwieweit es gelingt, Maschinen mit menschlichem Geist zu beleben und sie in der Wahrnehmung damit und darüber hinaus menschenähnlicher aussehen oder sein zu lassen. Unbedacht gemacht, schleppt man allerdings von Menschen gemachte Probleme dann weiter mich sich herum.

Aus anderen Forschungen wissen wir beispielsweise, dass Menschen zwar dazu neigen, Maschinen mit der Zeit zu vermenschlichen. Sie geben ihnen Namen etc. Sobald Menschen dann Stimmen hören, Gestik und Mimik wahrnehmen, gar eine menschenähnliche Gestalt vor sich haben, wird wiederum menschenähnlicher mit den Maschinen umgegangen. Wir müssen dabei aber allerdings wissen, dass beispielsweise Stereotype, nehmen wir einmal Geschlechterstereotype, dann mitgenommen werden. So werden Sicherheitsroboter eher akzeptiert, wie auch Arthur Jago referiert, wenn sie einen männlichen Namen und eine männliche Stimme haben. Wir selbst haben schon an einem anderen Beispiel, in dem es um den materiellen Wert eines Computers ging, Ähnliches berichtet.

Wir müssen jetzt mindestens drei Ebenen im Blickhaben.

(1) Da ist zunächst die transparente Bestimmung der Leistungsfähigkeit der jeweiligen (intelligenten) Maschinen für ihren den Bereich, für den sie vorgesehen sind, und die die menschliche immer öfter übersteigen wird.

(2) Dann ist es die systemische Leistungsfähigkeit, die sich durch eine wissensgestützte, gestalterische Vernetzung maschineller Leistungen in unterschiedlichsten Anwendungen ergibt oder absehbar ergeben könnte.

(3) Hinzu tritt das Wissen um die beabsichtigen und die sensible Suche nach den unbeabsichtigten Folgen, die Sachzusammenhänge oder die Menschen berühren, sei es für ihre Arbeit, in der Mensch-Maschine-Interaktion, im Zusammenspiel von Mensch zu Mensch und am Ende die Stellung des Menschen selbst betreffend.

Damit plädiere ich abschließend für die Entwicklung einer Maschinenethik, wie sie beispielsweise die Stuttgarter Professorin Catrin Misselhorn für die Schnittstelle von Philosophie und Informatik formuliert hat, die wiederum mit anderen ethischen Diskursen zu verbinden ist. Die momentan leicht absurd klingende Frage, nämlich die, inwieweit sich intelligente Maschinen der x-ten nachfolgenden Generationen daran beteiligen sollten, wäre schon einmal mitzubedenken. Eines empfehle ich abschließend noch: Diese Diskussion sollte in dem Bewusstsein geführt werden, dass die verwerflichsten und gefährlichsten Entscheidungen und Taten bislang rein menschlicher Natur sind. Künstliche Intelligenz sollte also auch dahingehend befragt werden, inwieweit sie dem Menschen helfen kann, davon abzulassen.

Dietvorst, B.J. / Simmons, J. P. / Massey, C. (2015): Algorithm Aversion: People Erroneously Avoid Algorithms after Seeing Them Err. In: Journal of Experimental Psychology: General, 14(1), S. 114-126

Jago, A. (2019): Algorithms and authenticity. In: Academy of Management discoveries, 5(1), S. 38-56

Logg, J.M. / Minsona, J.A./ Moore, D. A. (2019): Algorithm appreciation: People prefer algorithmic to human judgment. In: OBHDP, 151, S. 90-103

Misselhorn, C. (2018): Maschinen mit Moral? Grundfragen der Maschinenethik, Stuttgart