Intern: Planet 3DNow! News-Bestand endlich wieder komplett

Nero24

Administrator
Teammitglied
Mitglied seit
01.07.2000
Beiträge
24.066
Renomée
10.446
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2021
Bevor Planet 3DNow! Anfang des Jahres auf einen neuen Server umgezogen ist (wir <a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=251057">berichteten</a>), haben uns die beiden alten Krawall-Server das Leben nochmal so schwer wie möglich gemacht. Die permanenten Ausfälle zur Stoßzeit, die lahme Reaktion auf Newsanfragen und allerlei Merkwürdigkeiten im "Verhalten" bei Überlastung sind uns allen noch lebhaft im Gedächtnis.

Als wir im Dezember begannen die Daten für den Transfer auf den neuen Server zu sichten, stellten wir fest, dass ein Großteil der News von vor Juni 2004 fehlte. Bei einer der Schluckauf-Phasen musste der alte Server den Datenbestand vernichtet haben. Vermutlich war er abgestürzt während ein Autor eine News sichern wollte. Ein guter Teil des Datenbestandes ließ sich aus früheren Sicherungen relativ schnell und unkompliziert wieder zusammenbasteln, doch der Zeitraum Februar 2004 bis Mai 2004 schien unwiederbringlich verloren, da diese Daten auch in den Backups korrupt waren. Scheinbar hatte der alte Server unbemerkt schon viel früher begonnen unzuverlässig zu arbeiten und mal hier, mal da ein paar Dateien beschädigt. Darunter waren Schätze wie der CeBIT-Bericht 2004, die Einführung von Intels Number-Rating, die damalige Clawhammer/Newcastle Diskussion, Intels kuriose Warnung vor 64-Bit Betrieb mit den hauseigenen Xeons, unsere Vor-Ort-Reportage von der Fab 36, sämtliche Spiele-News von Planet 3D Games sowie Planet 3DNow! "Kulturgut" wie die 2004er Aprilscherze oder der VIA Themenabend. Dem Leser fiel das im Normalfall nicht auf, da die aktuellen News alle vorhanden waren, aber dass ein guter Teil der P3D-Historie fehlte, schmerzte.

Bis irgendwann einmal ein Teammitglied per Zufall bei archive.org durch die alten Planet 3DNow! Seiten stöberte und überrascht feststellte, dass dieses Internetarchiv doch tatsächlich die zerstörten Seiten gecached hatte. Hastig sicherten wir das Archiv-Material als HTML-Dateien herunter. Allerdings begann dann erst die eigentliche Arbeit. Aus der fertig gelayouteten Webseite mussten die Rohdaten herausgefiltert und in ein Format gebracht werden, das unser Newsskript verarbeiten konnte. 370 News wurden so manuell extrahiert, nachdem diverse Versuche es per Makro zu automatisieren stets an irgendwelchen Ausnahmen oder nicht eindeutigen Kennzeichen für diverse Blöcke scheiterten. Seit Januar bastelten wir mal mehr mal weniger intensiv daran, doch nun ist der Newsbestand von Planet 3DNow! endlich wieder komplett:<ul><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/archives.cgi?category=1&view=2-04">News-Archiv Februar 2004</A></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/archives.cgi?category=1&view=3-04">News-Archiv März 2004</A></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/archives.cgi?category=1&view=4-04">News-Archiv April 2004</A></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/archives.cgi?category=1&view=5-04">News-Archiv Mai 2004</A></li></ul>Viel Vergnügen beim Stöbern...
 
Na dann Glückwunsch zu diesem Fund und Hut ab vor der Arbeit, die ihr euch da gemacht habt. :)
 
Bis irgendwann einmal ein Teammitglied per Zufall bei archive.org durch die alten Planet 3DNow! Seiten stöberte und überrascht feststellte, dass dieses Internetarchiv doch tatsächlich die zerstörten Seiten gecached hatte.


Zufall?
Wenn ich was im Web nicht mehr finde schaue ich immer sofort zuerst dort nach.
;D

t=249786&2537646
 
*clap*
super Sache!
gute Arbeit!

gruss
skell
 
Tolle Aktion! *greater*

Kleine Frage dazu: Stehen die News (außer den Artikeln) nicht auch im Kommentare-Forum? Das Forum hat ja wohl nicht gelitten, oder? *noahnung*
 
Kleine Frage dazu: Stehen die News (außer den Artikeln) nicht auch im Kommentare-Forum? Das Forum hat ja wohl nicht gelitten, oder? *noahnung*
Jein. Zum einen hat nicht jede News auch einen Kommentare-Thread. Zum anderen sind die Beiträge im Kommentarethread teilweise anders formatiert. Last but not least haben die Themen im Kommentarethread teilweise auch einen anderen Titel, weil wir in den News darauf achten müssen, dass die Headlines für die oberen Kästen nicht zu lang werden, während das im Kommentareforum egal ist.

Die Kommentare waren natürlich auch unser erster Gedanke, aber angesichts des eben genannten wäre es vielleicht sogar noch mehr Arbeit gewesen, daraus die Rohdaten für die News zu gewinnen, als es letztlich über archive.org der Fall gewesen ist.
 
woohooo... das wird sich um die history richtig gedanklen gemacht, wunderbar! nachher sagt man sonst "damals" und hat nix mehr davon... so hat man sogar noch die Disskusionen richtig zum anfassen
Danke :-*
 
Interessant, was hier so alles im Hintergrund abläuft..! *great*
 
Vielen Dank für die Arbeit *great*
 
Zurück
Oben Unten