Bücher-Digitalisierung - Was Google falsch macht

Anonymous

BÜCHER-DIGITALISIERUNG

[SIZE=+1]Was Google falsch macht[/SIZE]
[SIZE=+1]
[/SIZE][SIZE=-1]
Um die alten und wertvollen Bestände vor dem Verfall zu retten und sie gleichzeitig von überall auf der Welt zugänglich zu machen, digitalisieren immer mehr Bibliotheken ihre Bücher. SPIEGEL ONLINE hat sich in Göttingen einmal aufzeigen lassen, wie das Buch in den Rechner kommt - und auch, warum sich Google beim Digitalisieren mehr Mühe geben sollte.

[/SIZE]
[SIZE=-1]Göttingen, neben München das zweite große universitäre Digitalisierungszentrum in Deutschland, scannt in einem halb abgedunkelten Raum Buch für Buch mit der Scanner-Kamera.

Bis zum heutigen Tag wurden im Göttinger Digitalisierungszentrum 4.487.815 Seiten in immerhin 11.726 Bänden digitalisiert. Rund die Hälfte davon ist sogar frei zugänglich.

Das Scannen slebst ist eine monotone Handarbeit. Insgesamt gibt es vier Computer-Stationen zum Digitalisieren von Büchern, Zeitschriften und anderen Druckerzeugnissen. Bis zu 6000 Seiten kann man an erfolgreichen Tagen in das hauseigene Computersystem einspeisen. Ein Tropfen auf den heißen Stein.

Geschwindigkeit ist aber in Göttingen nur von untergeordneter Bedeutung. Ralf Stockmann, Chef des Digitalisierungszentrums, erklärt gegenüber Spiegel online, dass es vor allem darum geht, qualitativ hochwertige Produkte zu erzeugen. Und dazu ist nicht zuletzt Kontrolle nötig: War der Kollege beim Scannen unachtsam? Hat er eine Seite vergessen? Oder doppelt aufgenommen? Liegen die Dateien im richtigen Verzeichnis?
Fehler beim Scannen sind nicht selten. Nur ca. fünf Sekunden können sich die Mitarbeiter durchschnittlich für eine Seite Zeit nehmen. Die Aufgabe ist so stupide, dass am Scanner nur in Vierstundenschichten gearbeitet werden kann, ein idealer Studenten-Job, um sich ein paar Euro dazu zu verdienen.

Meist werden die alten Bücher und Zeitschriften in Göttingen schwarz-weiß gescannt. Altersspuren auf dem Papier werden dann auf dem Computerbild zu hässlichen schwarzen Inselgruppen. Aber dank einer speziellen Filtersoftware können solche Probleme korrigiert werden. Dort, wo der Zahn der Zeit den Buchstaben so zugesetzt hat, dass sie schon Löcher aufweisen, werden diese im Computer dann einfach wieder ausgefüllt. Bei Textseiten funktioniert das automatisch und über Nacht. Bei schwierigeren Fällen wie Bildern und Grafiken müssen die Mitarbeiter tagsüber dann eben per Hand ran.
Sind alle Schritte absolviert, werden die Daten auf einem Server im Keller der neuen Universitätsbibliothek gespeichert. 500 Gigabyte sind dabei schon zusammengekommen, schätzt Cheftechniker Markus Enders. Dazu kommen insgesamt noch einmal vier Kopien von jedem Werk auf CD-ROM, die von einem Brennautomaten angefertigt und getrennt voneinander gelagert werden.

Und Google? Buchstaben im Nebel...

Nicht jeder macht sich aber soviel Mühe und kennt das Wort Sorgfalt. Nur wenig gute Worte hat man in Göttingen deshalb für das Digitalisierungsprojekt des Suchmaschinenriesen Google übrig. Das "Google Books Library Project" macht derzeit Teilbestände großer Universitätsbibliotheken computerlesbar. In den USA sind unter anderem die Unis Harvard und Stanford dabei, in Europa scannt Google im britischen Oxford. Insgesamt soll das Projekt mindestens 15 Millionen Bände erfassen.

Doch die Qualität der Google-Scans, so sagt man zumindest in Göttingen, ist vorischtig ausgedrückt nicht immer ausreichend. Ralf Stockmann legt als Beweis ein A3-Blatt auf den Tisch. Es zeigt zwei Ausdrucke einer digitalisierten Buchseite aus der Göttinger Universitätschronik von 1838. Links steht dabei die in Göttingen digitalisierte Fassung, rechts das Google-Pendant. Auf der Google-Seite erscheinen die Buchstaben verschwommen und von einer Art grauer Wolken umgeben. In der Göttinger Fassung, die mit weit höherer Auflösung entstand und noch nachbearbeitet wurde, sind sie gestochen scharf.

Auf Bibliothekarstreffen, so erzählt man in Göttingen, würden die mit der Suchmaschine kooperierenden Bibliotheken mittlerweile darüber klagen, dass die Qualität der Google-Scans eindeutig zu schlecht sei. Doch ändern könnten die Betroffenen daran nichts, weil Google den ganzen Prozess in eigener Hand behält. Mitarbeiter der Universitäten hätten nicht einmal Zugang zu den Räumen des Scan-Projekts, sogar die Fenster seien abgeklebt.

Das Buch der Bücher für jedermann

In Göttingen ist aber von solcher Geheimniskrämerei überhaupt nichts zu spüren, es gibt keine Betriebsgeheimnisse, da es um die Rettung des Weltkulturerbe geht.

Das Göttinger Vorzeigeobjekt ist und bleibt die Digitalisierung der Gutenberg-Bibel. Die Göttinger Bibliothek hütet eine von vier vollständig erhaltenen Ausgaben auf Pergamentpapier. Und seit fünf Jahren sind alle 1282 Seiten auch digital im Internet zugänglich.

Aufgenommen wurde das Buch der Bücher auf einer sogenannten Buchwippe. Sie sorgte dafür, dass das fragile Buch nicht vollständig aufgeschlagen werden musste. Damit das wertvolle Papier keinen Schaden nahm, wurden die Seiten an den Rändern von einem Luftsog festgehalten. Nicht für jedes zu digitalisierende Buch ist natürlich so viel Aufwand nötig.

DigiWunschbuch ist im Übrigen ein Projekt für Internetinteressenten. Es ist hierbei möglich Patenschaften für die Digitalisierung von Büchern zu übernehmen. Voraussetzung ist, dass das betreffende Buch vor 1900 erschienen und damit frei von Urheberrechten ist, es sei denn, man hat eine Erlaubnis vom Verlag oder dem Verfasser des Buches.

Quelle: spiegel online[/SIZE]

Bücher-Digitalisierung - Was Google falsch macht

Künstliche Intelligenz in der Plattformentwicklung

Wie finde ich die besten Fototapeten für mein Zuhause?

Was habt ihr euch zuletzt gekauft?

Word 2010: Silbentrennung aktivieren

Die Kunst des Einschenkens von Bier.

Benutzer online in diesem Thema