US-Wissenschaftler behaupten, Bestseller ließen sich durch den Einsatz von Computerprogrammen und Künstlicher Intelligenz (KI) vorhersagen. Jetzt veröffentlichten sie ihre Forschungsergebnisse unter dem Titel »Der Bestseller-Code«. Ruprecht Frieling hat den Bericht gelesen.
Spätestens mit dem grandiosen Erfolg der ursprünglich ohne Verlag veröffentlichten Trilogie »Shades of Grey« von E. L. James (tatsächlich Erika Leonard) wird in der literarischen Welt der Begriff des Bestsellers neu diskutiert. Wurden bislang Bücher von bereits berühmten Autoren, die sich überdurchschnittlich schnell und gut verkaufen ließen, als Bestseller gehandelt, tauchten wie aus dem Nichts plötzlich Werke vollkommen unbekannter Verfasser am Firmament des Buchmarkts auf.
Der Begriff »Bestseller« wird neu definiert
Bis dato wurden Bücher durch entsprechende Werbe- und Marketingmaßnahmen bekannt gemacht und in vereinten Anstrengungen von Verlagen, Buchhandel und Kritik nach oben gedrückt. Doch plötzlich verändert sich die Sichtweise, und es drängt die Frage, worauf Publikumserfolg eigentlich gründet und ob im Ergebnis der den Buchmarkt verändernden digitalen Revolution der künftige Erfolg eines Buches vielleicht sogar berechnet bzw. vorhergesagt werden kann. Spätestens damit wird die Nutzung künstlicher Intelligenz auch im Verlagswesen eingeleitet.
Zwei amerikanische Forscher, Jodie Archer und Matthew L. Jockers, stellen nun mit dem Buch »Der Bestseller-Code« die kühne Behauptung auf, dass Bucherfolge nicht beliebig entstehen und dass der Buchmarkt keineswegs so unberechenbar ist, wie viele meinen. Jodie Archer hat für Penguin UK gearbeitet, bevor sie ihren Doktor in Englisch an der Stanford University machte. Danach arbeitete sie bei Apple als Forschungsleiterin für Literatur. Matthew L. Jockers ist Professor für Englisch an der University of Nebraska-Lincoln. Dort leitet er das Nebraska Literary Lab.
Auf der Suche nach der Bestseller-DNA
Mithilfe einer Software, die große Mengen von Büchern nach tausenden von Merkmalen durchsucht, haben sie in fünfjähriger Arbeit ermittelt, dass Bestseller unabhängig vom Genre viele Gemeinsamkeiten aufweisen. Die beiden Wissenschaftler machten Merkmale und Eigenschaften für die eigentliche DNA der Bestseller fest. Diese liefern nämlich Erkenntnisse darüber, was und warum ein Text gelesen wird. Durch eine ausgefeilte Algorithmik, welche die Leistungsfähigkeit des einzelnen menschlichen Gehirns weit übersteigt, lässt sich – und das ist der eigentliche Clou – ein bislang noch unveröffentlichtes Manuskript daraufhin untersuchen, ob das Werk das Zeug für einen möglichen Bestseller hat.
Um ihr Programm zu testen, fütterten die Wissenschaftler ihre Rechner unter anderem mit den New York Times-Bestsellern der letzten 30 Jahre und vielen tausend anderen Werken und siehe da: Die Rechner meldeten bei 80 % der tatsächlichen Bestseller, dass diese wahrscheinlich in der Bestsellerliste erscheinen würden. Inzwischen lässt sich für jedes neue Manuskript ein Erfolgs-Quotient ermitteln, der die Wahrscheinlichkeit bezeichnet, mit der das spätere Buch nach oben schießen kann.
In fünfjähriger Forschungsarbeit ermittelten Archer und Jokers, »dass der Erfolg eines Buches maßgeblich davon abhängt, ganz einfach die richtigen Worte in der richtigen Reihenfolge aufzuschreiben« sowie bestimmten Mustern systematisch zu folgen. Das klingt schrecklich banal, aber dahinter steckt natürlich sehr viel mehr. Zumal, so das Ergebnis der Untersuchungen, sowohl seichte Unterhaltungsromane, die erfolgreich auf den oberen Plätzen der Verkaufshitparaden stehen wie auch anspruchsvolle Sachbücher, die entsprechend ranken, sehr viel mehr gemeinsam haben, als es auf den ersten Blick scheint.
Computer »lesen« viel schneller als Menschen
Derartige Gemeinsamkeiten finden Computer schneller und gründlicher heraus als jeder noch so erfahrene Verleger, Lektor oder Literaturkritiker. Abgesehen davon, dass Computer täglich hunderte Manuskripte »lesen« können, sind sie in der Lage, Muster mit einer Detailgenauigkeit zu erkennen und auszuwerten, die ein Mensch unmöglich erreichen kann. Sie können detaillierte Informationen über die speziellen Stellen jedes Buches herausfiltern, ebenso wie seine Themen, seine emotionalen Höhen und Tiefen, seine Charaktere und seine Schauplätze.
Bei der Entwicklung ihres Algorithmus gingen die Wissenschaftler ähnlich vor wie es Programmierer von E-Mail-Postfächern machen, die eingehende Post in erwünschte und unerwünschte (Spam) Fächer sortieren. Dies geht durch bestimmte Auffälligkeiten, Rechtschreibfehler, häufig wiederkehrende Worte usw. und wird durch den Empfänger noch verfeinert, der diese oder jene Mail umschichtet und damit dem Programm zusätzliche Informationen liefert, mit deren Hilfe es sich selbst verbessern und weiterentwickeln kann.
In den »Spam-Ordner« der Bestseller-Forscher wurden entsprechend die schlecht verkauften Bücher gelegt, während die Bestseller in den »Kein-Spam-Ordner« kamen. Den Rechnern wurde beigebracht, diese beiden Klassen anhand ihrer besonderen Profile zu erkennen und daraus Schlüsse für weitere Neuzugänge zu ziehen. Dazu wurden insgesamt 5.400 Kriterien erhoben und mehr als eintausend Rechner eingesetzt, um alle Daten zu verarbeiten.
Die These »Sex sells« scheint überholt
Im Ergebnis stellte sich beispielsweise heraus, dass Menschen es lieben, über Arbeit, Freunde und Beziehungen zu lesen. Das Thema Sex hingegen scheint einem Massenerfolg eher abträglich zu sein. In den fast 5.000 eingespeisten Romanen, die untersucht wurden, wie häufig darin 500 verschiedene Themen vorkommen, macht Sex nur einen Anteil von einem Tausendstel Prozent aus, bei den 500 untersuchten Bestsellern sinkt der Wert sogar noch weiter. Auf die Bestsellerliste schafft es ein Buch mit Sexszenen, wenn sie das Verhältnis zwischen den beteiligten Personen verändern.
Eine gute Voraussetzung für Bestseller scheint auch eine Fokussierung auf Themen zu sein, mit denen sich der jeweilige Autor besonders gut auskennt (Beispiel: Jurist John Grisham). Dies ermöglicht erfolgreichen Verfassern, mit wenigen Themen ein Buch zu füllen, weniger erfolgreiche Autoren dagegen versuchen, möglichst viele Ideen in einen Roman zu quetschen. Bei Bestsellern sind es maximal vier Hauptthemen, bei Nicht-Bestsellern kommen durchschnittlich sechs vor. »Den Kern einer Geschichte mit weniger Themen darzustellen bedeutet, Schwerpunkte zu setzen und auf unnötige Nebenhandlungen zu verzichten. Es zeigt gut organisiertes und präzises Denken beim Autor. Es lässt Erfahrung vermuten«, urteilen die Wissenschaftler.
Mehr als erstaunlich ist, wie gut Computer inzwischen Sprache, Stil, Themen und Stimmungen analysieren können. Die Darstellung der emotionalen Höhen und Tiefen in grafischer Form wird modelliert durch etwas, das Forscher im Bereich Sprachverarbeitung »Sentimentanalyse« nennen. Auf Makro-Ebene wird der Text hinsichtlich der Wortwahl bis hin zu den verwendeten Satzzeichen zerlegt, um so Höhen und Tiefen der Gefühle und die damit verbundenen Wendepunkte einer Geschichte zu zeigen. Im Ergebnis stellte sich anhand von Hunderten von Handlungslinien heraus: Erfolgstitel zeichnen sich durch Handlungsformen in drei Akten aus; Millionen-Einnahmen sind mit einem guten, starken und regelmäßigen Takt zu holen.
Wer zögert, verliert
Jahrelange Forschung in Stilometrie, einem Zweig der angewandten Linguistik, sprechen dafür, dass jeder von uns einen ziemlich einzigartigen und individuellen linguistischen Fingerabdruck oder eben Stil hat. Der Versuch von Harry-Potter-Verfasserin J. K. Rowling, heimlich unter dem Pseudonym »Robert Galbraith« zu veröffentlichen, um ihr Potential zu ergründen, wurde vom Algorithmus innerhalb weniger Minuten durchschaut. Letztlich waren es einfache Dinge wie die gewohnheitsmäßige Verwendung von Präpositionen, Pronomen und Satzzeichen, die Rowlings stilistischen Gen-Code auszeichnen, was die Autorin später übrigens auch bestätigte.
Im Ergebnis stellte sich bei der Forschungsarbeit sogar heraus, anhand von zwei Verben den Unterschied von Bestseller und Ladenhüter unterscheiden zu können. Es handelt sich um »need« (brauchen/müssen) und »want« (wünschen). Bestseller-Romane dagegen spiegeln eine Welt, »in der die Figuren ihre Handlungsfähigkeit kennen, kontrollieren und zeigen. Ihre Verben sind klar und selbstsicher.« Sie wissen, was sie wollen. Figuren, die es auf die Bestsellerliste der New York Times schaffen, »verfügen normalerweise über Orientierung, Kompetenzen und Sicherheit. Keines der für sie typischen Verben kommt in Romanen, die nicht auf der Liste zu finden sind, ähnlich häufig vor. Bestseller-Figuren tun nicht nur die richtigen Dinge auf die richtige Weise, sie sprechen auch genau richtig.
Figuren in Ladenhütern hingegen werden deutlich häufiger mit Bezug auf ihr Brauchen mit Verben wie »scheinen, warten, unterbrechen, schreien, werfen, taumeln, unterbrechen, beschrieben«. Leser wollen offensichtlich, dass jemand ist, nicht dass er scheint. Es gilt die Losung: Wer zögert, verliert.
Am Ende steht die geheilte Welt
So wie der letzte Band der Harry-Potter-Heptalogie mit den Worten »Alles war gut« endet, so scheint das »Alles-war-gut«-Ende ein unverzichtbarer Teil der Struktur des erfolgreichen Erzählens in drei Akten zu sein. Doch auch dieser Aspekt allein bietet keinerlei Garantie. Es bedarf letztlich der richtigen Mischung aller Faktoren.
Überraschend für die Forscher ermittelte ihr Algorithmus »Der Circle« von Dave Eggers als das Werk mit den allerbesten Werten. Dieser Roman avancierte dann auch tatsächlich zum internationalen Spitzenreiter und schoss in Deutschland auf Platz 1 der SPIEGEL-Bestsellerliste. Kurios ist, dass der Roman selbst um einen Bewertungs-Algorithmus kreist!
Künstliche Intelligenz lernt rasend schnell
Die Ermittlung der individuellen Schreib-DNA eines Autors wird künftig neben der Frage eventueller Bestsellerqualitäten sowohl für die Wissenschaft als auch zur Ermittlung von Plagiaten eine wachsende Rolle spielen. Dabei stecken all diese Entwicklungen und Möglichkeiten noch in den Kinderschuhen, das sollte immer wieder betont werden.
Da Künstliche Intelligenz aber selbst lernt und dies mit enormer Geschwindigkeit vollzieht, wird es über kurz oder lang Programme für jedermann geben, die Manuskripte und ihre Verfasser blitzschnell bewerten. Das Bestseller-o-meter ist dabei letztlich nur eine Erscheinungsform einer neuen Herangehensweise an Literatur, die auch noch nicht allgemein verfügbar ist und zudem erst auf deutsch umgeschrieben und getestet werden müsste.
Können Computer auch Bücher schreiben?
Die enorme Leistungsfähigkeit lesender und auswertender Computer führt unweigerlich zur Frage, ob Rechner auch schreiben können. Die Antwort lautet: Ja, aber noch mit erheblichen Einschränkungen, da sehr viel mehr Rechenleistung benötigt wird als zur reinen Analyse.
Es ist nämlich nur eine Seite der Medaille, einen Text in seiner Tiefe auf mathematisch nachvollziehbare Fragestellungen auswerten und mit anderen vergleichen zu lassen, um dann einen Näherungswert zu erhalten. Auf der anderen Seite, auf der Seite des Schreibens, steht nämlich noch die Herausforderung, Empathie in Programmsprache umzusetzen. An diesem Punkt sind Autoren aus Fleisch und Blut aktuell noch jedem Großrechner überlegen, und insofern ist alles (noch) gut.
Pingback: 12 Dinge, die Autoren über den Bestsellercode wissen sollte – Hans Peter Roentgen
Eigentlich ist seit der OSCAR-Prämierung des Films „Awakenings“ (1990) klar, dass computerunterstützt geschriebene Drehbücher erfolgversprechend sind. Und so werden inzwischen viele der Hollywood-Drehbücher computerunterstützt geschrieben. Gut, der Streik der Drehbuchautoren (Nov. 2007 bis Feb. 2008) zeigte noch eindeutig, dass computergesteuerte Algorithmen noch nicht fähig sind, Drehbücher selber zu erstellen, nur werden die Programme dahin immer besser, Drehbuchautoren zu unterstützen, hohe Erfolgsquoten zu erzielen. Und was für Drehbüchern billig erscheint, wird „normalen“ Buchautoren als will-ich beim Schreiben gelten. Wenn ich ganz ignorant urteile, dann ist „50 shades of grey“ nicht anderes als ChicLit mit Sex-Touch. Sowohl bei den Lesenden als auch im Kino war der Anteil der Frauen massig hoch (ich schätze mal Verhältnis Frauen zu Männer 3:1, wenn nicht sogar 4:1).
Momentan hat der Computereinsatz beim Schreiben noch so etwas wie eine andersartige Definition von „Porno“: Pornos brauch den Menschen, weil Geschlechtsteile noch nicht selber laufen können. Und so ist es wohl auch noch in Sachen Bücherschreiben und Computereinsatz. …