Scannen, Indizieren und OCR-Bearbeitung für Zeitungsbestände aus Hamburger Bibliotheken und Bibliotheken von außerhalb Hamburgs im Umfang von ca. 1 251 298 Scans (incl. Beilagen) gemäß Vorgaben zuzüglich ausschließliche OCR-Bearbeitung für 552 924 vorliegende Scans von Zeitungseiten.
Anzahl zu bearbeitender Originalbände = ca. 306
Anzahl zu bearbeitender Rollen Mikrofilm = ca. 143
Anzahl Seiten scannen/indizieren/OCR = ca. 509 280
Anzahl Seiten nur OCR = 426 050
Anzahl OCR-Einheiten DIN A 4 = 1 826 300
Anforderungen:
Digitalisierung v. Bänden
— Scannen in 24 Bit Vollfarbe bei 300dpi (in Anlehnung an den Qualitätsstandard Metamorfoze extra light);
— Aufnahme von Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed).
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— Farbraum: eciRGBv2;
—— nicht aus einem internen JPEG erzeugt.
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Acronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Acronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z. B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
Für die Digitalisierung von Mikrofilmen:
— Vorauslaufende Analyse der Einzelrolle zur Bestimmung der besten Scanparameter;
— Scan der Doppelseiten-Aufnahmen in 8Bit-Graustufe 300 dpi – in Relation zur Originalgröße;
— Trennung in Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed).
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— nicht aus einem internen JPEG erzeugt.
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Akronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Akronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z.B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
— Verfügbare Verfilmungsprotokolle mit einem Hinweis auf bekannte fehlende Seiten und sonstige Besonderheiten werden vom Auftraggeber zur Verfügung gestellt.
Für die OCR-Bearbeitung:
Das Ergebnis der OCR wird erwartet im Format ALTO-XML unter der Verwendung des ALTO-Schemas Version 2.0 in einer XML v1.0 (mit UTF-8 encoding). Für den Parameter ‚MeasurementUnit‘ wird „pixel” vorgegeben.
Der Dateiname wird analog zur Bilddatei vergeben (z. B. 00000001.xml) und die Dateien werden parallel zu den Bilddateien in der beschriebenen Verzeichnisstruktur abgelegt.
Abholung und Rücklieferung:
Commerzbibliothek der Handelskammer Hamburg
Staats- und Universitätsbibliothek Hamburg
Staatsarchiv Hamburg, Bibliothek,
Staats- und Universitätsbibliothek Bremen
Schleswig-Holsteinische Landesbibliothek Kiel
Anzahl zu bearbeitender Originalbände = ca. 360 (davon 337 Staatsarchiv Hamburg, einzelne ggf. durch Mikrofilme zu ersetzen)
Anzahl zu bearbeitender Rollen Mikrofilm = ca. 16
Anzahl Seiten scannen/indizieren/OCR = ca. 404.228
Anzahl Seiten nur OCR = 126 874
Anzahl OCR-Einheiten DIN A 4 = 2 124 408
Anforderungen:
Digitalisierung v. Bänden
— Scannen in 24 Bit Vollfarbe bei 300dpi (in Anlehnung an den Qualitätsstandard Metamorfoze extra light);
— Aufnahme von Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed).
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— Farbraum: eciRGBv2;
—— nicht aus einem internen JPEG erzeugt.
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Acronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Acronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z. B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
Für die Digitalisierung von Mikrofilmen:
— Vorauslaufende Analyse der Einzelrolle zur Bestimmung der besten Scanparameter;
— Scan der Doppelseiten-Aufnahmen in 8Bit-Graustufe 300 dpi – in Relation zur Originalgröße;
— Trennung in Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed);
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— nicht aus einem internen JPEG erzeugt;
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Akronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Akronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z. B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
— Verfügbare Verfilmungsprotokolle mit einem Hinweis auf bekannte fehlende Seiten und sonstige Besonderheiten werden vom Auftraggeber zur Verfügung gestellt.
Für die OCR-Bearbeitung:
Das Ergebnis der OCR wird erwartet im Format ALTO-XML unter der Verwendung des ALTO-Schemas Version 2.0 in einer XML v1.0 (mit UTF-8 encoding). Für den Parameter ‚Measuremen-tUnit‘ wird „pixel” vorgegeben.
Der Dateiname wird analog zur Bilddatei vergeben (z. B. 00000001.xml) und die Dateien werden parallel zu den Bilddateien in der beschriebenen Verzeichnisstruktur abgelegt.
Abholung und Rücklieferung:
Staatsarchiv Hamburg, Bibliothek,
Staats- und Universitätsbibliothek Hamburg,
ZBW – Leibniz-Informationszentrum Wirtschaft, Standort Kiel.
Anzahl zu bearbeitender Originalbände = ca. 296
Anzahl zu bearbeitender Rollen Mikrofilm = ca. 44
Anzahl Seiten scannen/indizieren/OCR = ca. 337 790
Anzahl OCR-Einheiten DIN A 4 = 1 323 008
Anforderungen:
Digitalisierung v. Bänden
— Scannen in 24 Bit Vollfarbe bei 300 dpi (in Anlehnung an den Qualitätsstandard Metamorfoze extra light);
— Aufnahme von Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed);
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— Farbraum: eciRGBv2;
—— nicht aus einem internen JPEG erzeugt.
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Acronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Acronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z. B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
Für die Digitalisierung von Mikrofilmen:
— Vorauslaufende Analyse der Einzelrolle zur Bestimmung der besten Scanparameter;
— Scan der Doppelseiten-Aufnahmen in 8Bit-Graustufe 300 dpi – in Relation zur Originalgröße;
— Trennung in Einzelseiten und Geradestellen von verkippten Seiten;
— Cropping – Freistellen mit ausreichend breitem schwarzen Rand (5-10 mm);
— Cropping von kleinerformatigen Seiten (z. B. Beilagen, vor Hintergrund größerformatiger Seiten);
— Ggf. Drehen des Scans in Leserichtung;
— Lieferung der Bilder als Tiffs (uncompressed);
—— Ohne mehrere Frames/nicht Multipage;
—— Ohne Alphakanal;
—— nicht aus einem internen JPEG erzeugt.
— Die Scans einer Zeitung werden in einer Verzeichnisstruktur nach Jahren zusammengefasst. Jeder Zeitung ist ein Akronym beigegeben (vgl. Tabelle oben).
—— Unterhalb der Jahreseinheit wird für jeden Tag ein eigenes Verzeichnis angelegt nach der Konvention „Akronym_YYYYMMDD“ für den Verzeichnisnamen. Bei mehr als einer Ausgabe pro Tag ist dieses zu kennzeichnen – exakte Vorgabe erfolgt bei Auftragsvergabe.
—— Innerhalb des Verzeichnisses pro Tag werden die Scans numerisch aufsteigend benannt. Der numerische Teil ist dabei achtstellig (z. B.00000001.tif).
— Vorkommende Beilagen oder Sonderausgaben mit eigenem Titel werden in Reihenfolge ihres Auftretens unter Fortsetzung der Scan-Nummerierung der Tagesausgabe in deren Verzeichnis ohne weitere Kennzeichnung mit abgelegt.
— Fehlende Seiten werden in einem Arbeitsprotokoll des Auftragnehmers dokumentiert.
— Verfügbare Verfilmungsprotokolle mit einem Hinweis auf bekannte fehlende Seiten und sonstige Besonderheiten werden vom Auftraggeber zur Verfügung gestellt.
Für die OCR-Bearbeitung:
Das Ergebnis der OCR wird erwartet im Format ALTO-XML unter der Verwendung des ALTO-Schemas Version 2.0 in einer XML v1.0 (mit UTF-8 encoding). Für den Parameter ‚Measuremen-tUnit‘ wird ) „pixel” vorgegeben.
Der Dateiname wird analog zur Bilddatei vergeben (z. B. 00000001.xml) und die Dateien werden parallel zu den Bilddateien in der beschriebenen Verzeichnisstruktur abgelegt.
Abholung und Rücklieferung:
Staatsarchiv Hamburg, Bibliothek,
Forschungsstelle für Zeitgeschichte Hamburg
Staats- und Universitätsbibliothek Hamburg
Bibliothek des Bundesarchivs Berlin
Bibliothek der Friedrich-Ebert-Stiftung Bonn.