Allg. Durchsuchbares Archiv erstellen

psychocyberdisc

Grand Admiral Special
Mitglied seit
31.03.2004
Beiträge
2.517
Renomée
151
Standort
Mystery Lake
  • SIMAP Race
  • QMC Race
  • Spinhenge ESL
Hallo,

zur Umsetzung des folgenden Projekts habe ich ein paar Fragen:
Eine enorme Anzahl an Pressetexten aus Zeitungen und Zeitschriften soll digitalisiert und in ein durchsuchbares Archiv gebracht werden. Im Moment weiß ich noch nicht, ob die Texte per OCR bearbeitet werden sollen und ob ein Einzugsscanner zur Verfügung stehen wird.

In jedem Fall müssen die Texte eingescannt werden. Welches Dateiformat ist für die Archivierung wohl zu wählen? Das PDF-Format? Sollte man hierzu günstigerweise die Scannerfunktion "Scan to PDF" nutzen?

Das Archiv soll von mehreren PCs aus durchsuchbar sein. Benötigt man dazu ein Content-Management-System zusätzlich zum OCR-Programm? Erhält man mit einem solchen Content-Management-System eine Suchmaske und eine Weboberfläche ähnlich wie bei den Suchmaschinen?
Oder kann man das auch einfacher via Netzwerk lösen? Ich dachte an einen FTP-Server; die Verzeichnisse des FTP-Servers (beziehungsweise das Hauptverzeichnis ???) müssten dann - irgendwie - unter Windows über einen Laufwerksbuchstaben ansprechbar sein. Allerdings ist es um die Durchsuchbarkeit bei der FTP-Lösung wahrscheinlich nicht so gut bestellt.

Fragen über Fragen - und ziemliche Ratlosigkeit. Ich bin leicht überfordert. :-[ Wer kann mir mit Ideen und Tipps bei der Planung und Umsetzung helfen?
 
Wenn das Ding durchsuchbar sein soll, muss eine OCR genutzt werden, denn sonst sind das ja nur Grafiken (ob in PDF eingebettet oder nicht, spielt keine Rolle). Welche OCR benutzt wird, ist erstmal zweitrangig.

psychocyberdisc schrieb:
Welches Dateiformat ist für die Archivierung wohl zu wählen?
Tja, man sollte versuchen, ein Dokumentenformat zu wählen, was möglichst lange noch gelesen werden kann. PDF ist sicherlich nicht ganz schlecht, besser wäre ODF, aber ich schätze, dass dort die softwareseitige Unterstützung noch nicht so doll ist... HTML wäre ggf. auch noch ne Möglichkeit - damit wäre auch die Durchsuchbarkeit gewährleistet und es funktioniert auch in Jahren, evtl. Jahrzehnten noch.

psychocyberdisc schrieb:
Sollte man hierzu günstigerweise die Scannerfunktion "Scan to PDF" nutzen?
Diese Funktion wird vermutlich eine Grafik in ein PDF einbetten. Mit Durchsuchen ist es dann Asche. Ich fürchte, du kommst um eine größere Lösung nicht herum. Entweder etwas schon existierendes oder du musst die Einzelprogramme versuchen zu skripten (Batch, Parameter, programminterne Funktionen zum Stapeln von Aufträgen oder schlimmstenfalls AutoIt).

psychocyberdisc schrieb:
Das Archiv soll von mehreren PCs aus durchsuchbar sein. Benötigt man dazu ein Content-Management-System zusätzlich zum OCR-Programm?
Hier ist die Frage, wie du dir das Durchsuchen bzw. Benutzen vorstellst. Man kann natürlich eine einfache Freigabe machen, die von allen genutzt werden kann. Aber genausogut ist es möglich, dass in einer größeren Lösung (die wohl Einiges an Geld kosten dürfte) Interfaces existieren, die das Durchsuchen und Verwalten vereinfachen.

Die Benutzung eines FTP-Servers kannste gleich wieder vergessen, weil weder das Verknüpfen als Laufwerk problemlos funktioniert noch das Benutzen selbst. Bei FTP müssen die Dateien immer komplett übertragen werden, damit damit was angestellt werden kann.

Ich hoffe, ich habe etwas helfen können, auch wenn mir keine große fertige Lösung bekannt ist.

MfG Dalai
 
Zurück
Oben Unten