Neue Erkenntnisse zu Speicherfehlern bei DRAM

SPINA

Grand Admiral Special
Mitglied seit
07.12.2003
Beiträge
18.122
Renomée
985
Machen wir es kurz. Es gibt eine neue Studie (basierend auf Erfahrungswerten zur Serverfarm von Google). Dabei kristallieren sich zwei Thesen heraus:

- häufigste Ursache für Speicherfehler sind nicht wie bisher angenommen Umwelteinflüsse (z.B. radioaktive Strahlung), sondern die Güte der DIMMs
- Speicherfehler treten häufiger auf als angenommen. Die Wahrscheinlichkeit für einen 1-Bit Fehler im Jahr liegt bei rund 1:12 je Modul

Was bedeutet das für Nutzer von Desktop PCs? Sie sollten auf Qualität achten und wenn möglich bei 1st Party Herstellern kaufen und aufs Übertakten verzichten.
Bei intensivem Einsatz des Desktop PCs oder bei kritischen Anwendungen kann sich der Auspreis für ECC lohnen. Es drohen aber Leistungseinbußend dadurch.

Quelle: Heise Newsticker - Hauptspeicherfehler sehr viel häufiger als bisher angenommen
 
hat heise also auch endlich die Studie wahrgenommen lol

auch interessant an der Stelle:
aktuelle Desktop Prozessoren von Intel unterstützen kein ECC!
 
Zuletzt bearbeitet:
8% der bei Google verwendeten Speichermodule weisen innerhalb eines Zeitraumes von 8760 Stunden Dauerbetrieb mindestens einen einmaligen 1Bit Fehler auf ?
Ich versuche da grade die Relevanz für den Desktop abzuschätzen aber irgendwie ist die Zahl die da am Ende bei rauskommt unheimlich klein..

Grüße!
 
amd ftw! ;D

sorry, leute, den konnte ich mir nicht verkneifen!
das nicht-abschalten der ecc-unterstützung ist für mich eindeutig ein vorteil der amd-cpus (und asus-bretter, da mir sonst auf anhieb kein hersteller einfällt, bei dessen boards ecc-unterstützung standard ist).
 
Die AMD Speichercontroller können zwar alle ECC, leider unterstützen das nicht alle Mainboards (Bios Option). :(

Bei ASRock z.B. hatte ich noch kein Mainboard mit ECC Option, auf Anfrage beim Support hieß es die Mainboards wären für den Desktop-Betrieb und daher wird die Option nicht implementiert, leider.
 
Ich versuche da grade die Relevanz für den Desktop abzuschätzen aber irgendwie ist die Zahl die da am Ende bei rauskommt unheimlich klein.
Im Gegenteil. Die meisten Desktop PCs haben doch gleich zwei oder vier Module. Da summieren sich die Werte, sodass Speicherfehler auch auf dem Desktop viel häufiger zum Tragen kommen können, als bisher angenommen. In älteren Studien war noch von einem Auftreten alle 1000 Jahre je Chip die Rede. Außerdem sind dort 1-Bit Fehler bei konventionellen Unbuffered DIMMs ohne ECC (nicht erkennbar und) nicht behebbar. Andererseits wirkt sich natürlich nicht jeder 1-Bit Fehler aus. Erstens weil der Speicherbereich in dem er auftritt vielleicht gerade ungenutzt ist, was bei Desktop PCs durchaus häufig der Fall sein kann. Oder zweitens weil er für die laufenden Anwendungen nicht relevant für die Stabilität oder die Integrität des Ergebnis der Rechenoperationen ist.

Nicht jeder 1-Bit Fehler tritt im Bereich der kernelnahen Anwendungen, wie Gerätetreibern oder Systemdiensten auf. Wahrscheinlicher ist es sogar, dass es Anwendungen im User Mode trifft. So macht der Aufpreis für Module mit ECC sicherlich keinen Sinn bei einem Desktop PCs, welcher zum Surfen im Internet und dem Arbeiten mit einem Textverarbeitungsprogramm dient oder ab und an einmal ein Video decodiert sowie zum Spielen von Computerspielen verwendet wird. Aber nutzt man den Desktop PC zum Beispiel geschäftlich und hat dort Anwendungenn laufen, deren Absturz den Verlust von vielen Mannstunden Arbeit bedeutet, kann sich für ein solches Produktivsystem durchaus die Anschaffung von DIMMs mit Fehlerkorrektur lohnen, nachdem häufigere Fehlerursachen, wie die Festplatten auf ihre Redundanz hin untersucht wurden.
 
amd ftw! ;D

sorry, leute, den konnte ich mir nicht verkneifen!
das nicht-abschalten der ecc-unterstützung ist für mich eindeutig ein vorteil der amd-cpus (und asus-bretter, da mir sonst auf anhieb kein hersteller einfällt, bei dessen boards ecc-unterstützung standard ist).

Wenn man das Geld für eine entsprechende LGA 1366 Platine hat, kann man selbstverständlich mit einem Xeon ECC-Ram nutzen. In in der Vergangenheit war dies auch beim Pentium 4 möglich, unter dem I875P Chipsatz. Wie bei AMD auch beschränkt sich das aber nur auf ECC. Reg Ram schlucken nur Serverboards. Und die handvoll von reinen ECC Rams sind auch nicht grad billig. Die einzige AMD Platine die ECC Ram schluckt die ich hier liegen hatte, war ein Asus K8V-SE Deluxe, es hatte die benötigten Optionen im Bios, aber was will man heute noch bitte mit Sockel 754 *g*
 
. Die einzige AMD Platine die ECC Ram schluckt die ich hier liegen hatte, war ein Asus K8V-SE Deluxe, es hatte die benötigten Optionen im Bios, aber was will man heute noch bitte mit Sockel 754 *g*

Mein M4A79Tdeluxe kann sehr wohl ECC verwursten, wenn ich denn ECC-Speicher hätte.....Größtes Problem sehe ich ähnlich wie der Heise-Artikel darin, dass auf Desktop-Boards kaum vernünftig ein correction-Ereignis protokolliert wird. Das wäre aber wichtig, um das betreffende Modul auszutauschen.

Wenn tatsächlich soft-errors keine große Rolle spielen, dann halte ich im non-24/7 Desktop auch die gelegentliche Komplettanalyse des Speichers mit entsprechend geeigneten Testprogrammen für ausreichend gut. Dass Qualität wichtig ist, ist eh klar. Ich hatte schon meine Gründe, in meinen Privat-Rechner crucials mit konservativen Timings reinzubauen. Wie man für Leistungsgewinne im unteren einstelligen Prozentbereich irgendwelche klicki-bunti-Schwitzblech-super-duper-low_timings Module mit Überspannung verbauen kann, ist mir bis zum heutigen Tag ein Rätsel. Die Studie bestärkt mich darin.
 
Mein ASUS M3N78 PRO und M3N72-D sollen ebenfalls DIMMs mit ECC aufnehmen, aber ich fühle ich mich gerade schon mit Qimonda Modulen ohne Fehlerkorrektur gut aufgehoben.
Allerdings drängt sich mir gerade eine Frage auf. Wie kann man herausfinden, ob der IMC des AMD Phenom nun aktiv ECC nutzt? Gibt es ein Program welches dies zuverlässig ausliest.
Schließlich besagt das Vorhandensein des zusätzlichen Chips auf dem Modul und einer Verbreiterung des Busses dadurch auf 72-Bit nicht, dass dies Potential auch genutzt wird.

Laut BIOS and Kernel Developer's Guide müsste es jedenfalls grundsätzlich möglich sein dies auszulesen:
F2x[1, 0]90 DRAM Configuration Low Register/DimmEccEn
DIMM ECC enable. Read-write. 1=ECC checking is capable of being enabled for all DIMMs on the DRAM controller (through F3x44[DramEccEn]).
This bit should not be set unless all populated DIMMs support ECC check bits. 0=ECC checking is disabled on the DRAM controller.
Im Zusammenhang damit stehen wohl noch DramEccEn und ChipKillEccEn bei den Northbridge Configuration Registers.

EDIT 1: Da gäbe es immerhin sogar ein paar ganz nette PC2-6400E DIMMs habe ich gerade entdeckt. Zum Beispiel Kingston KVR800D2E5/2G für ~ 37 Euro das Stück: Datenblatt (PDF)
EDIT 2: Bei CPU-Z gibt es ein Feld namens "Correction". Allerdings findet es sich im Reiter "SPD". Ich vermute daher es liest nur das EEPROM dahingehend aus.
 
Zuletzt bearbeitet:
Ich würde Asus zutrauen, dass ECC auch wirklich aktiv ist, wenn es im Bios eingeschaltet wurde. Ich nehme auch an, dass das dann im boot-Bildschirm angezeigt wird. Bliebe noch das Auslesen der von Dir genannten Register, was prinzipiell auch kein Problem sein sollte.

Klar gibts ECC-nonreg-Module. Hats schon immer gegeben, wirds vermutlich immer geben. Kingston, crucial/Micron, Samsung dürften zuverlässige Quellen sein.

edit: Beispiel: hier gibts sogar 4GB-nonreg-ECC PC3-10600. Nicht ganz billig, aber wer sowas will, kanns kaufen. Einem PhenomII-System mit 16GB PC3-10600ECC steht nichts im Wege, höchstens die gut 11hundert Dollar. Ein einzelnes 2GB Modul für $67,99 ist allerdings tatsächlich kein Drama.
 
Zuletzt bearbeitet:
Klar gibts ECC-nonreg-Module. Hats schon immer gegeben, wirds vermutlich immer geben.
Davon ging ich aus. Nur war ich erstaunt sie auch mit hohen Taktraten zu finden und nicht nur mit DDR2-533 oder DDR2-667. Und dann sogar noch zu annehmbaren Preisen.

Das war früher ganz anders. Da musste man noch mehr Zugeständnisse in Bezug auf Leistung und Witschaftlichkeit eingehen, wenn man ECC haben wollte.
 
Davon ging ich aus. Nur war ich erstaunt sie auch mit hohen Taktraten zu finden und nicht nur mit DDR2-533 oder DDR2-667. Und dann sogar noch zu annehmbaren Preisen.

Das war früher ganz anders. Da musste man noch mehr Zugeständnisse in Bezug auf Leistung und Witschaftlichkeit eingehen, wenn man ECC haben wollte.

Das stimmt (siehe mein edit oben). Der crucial-shop scheint mir für solche etwas "exotischeren" Anforderungen sehr gut geeignet, man kann dort auch in die EU liefern lassen. Die Preise auch in Euro sind durchaus annehmbar (Achtung: die Preise in Euro inkl. MWSt sind nur 15% England-MWSt! Wird also noch nen Tick teurer).
 
beim post zeigt mein asus-board, wenn ecc an ist.
linux meldet es bei aktuellen kernels ebenfalls:
Code:
[   10.439974] EDAC amd64_edac:  Ver: 3.2.0 Oct 15 2009                                                                                                                                                                                      
[   10.440247] EDAC amd64: ECC is enabled by BIOS, Proceeding with EDAC module initialization                                                                                                                                                
[   10.440269] EDAC MC: F10h CPU detected                                                                                                                                                                                                    
[   10.440320] EDAC MC0: Giving out device to 'amd64_edac' 'Family 10h': DEV 0000:00:18.2                                                                                                                                                    
[   10.440334] EDAC PCI0: Giving out device to module 'amd64_edac' controller 'EDAC PCI controller': DEV '0000:00:18.2' (POLLED)
sporadisch meldet linux mir im kernel log auch meldungen zu ecc-fehlern. :( da die fehler nicht reproduzierbar sind, konnte ich bislang durch testen einzelner module/modulkombinationen nicht rausfinden, welches modul nun die macke hat. wenn der fehler kommt, dann früh und solange der pc läuft, immer wieder mal. kommt in den ersten minuten keine meldung, kommen auch keine mehr.
 
Sie sollten ihre Dimms sorgfältig durchtesten und keinem Hersteller blind vertrauen. *suspect*
Dass man neu erworbenen Speicher ausgiebig mit Memtest86+ überprüft, setze ich als selbstverständlich voraus.

Wer, der auch nur ein wenig Ahnung vom Selbstbau eines PC hat, tut das denn fahrlässigerweise nicht? *noahnung*
 
Ich rede nicht von uns Selbstschraubern, im Grunde gilt das auch für Einstöpselrechner ;D
 
Mich hat der Heise-News-Artikel auch zum Nachdenken angeregt.
Ich hatte schon mal korrupte Daten auf der Platte und keine Ahnung wann/wodurch die beschädigt wurden. Mein Biostar 790GX A2+ Board hat (ich schaue gleich mal nach) mMn ne ECC-Option im BIOS.
Laut Geizhals, sind ECC-DDR2-Module ja nicht so teuer. Mir würde auch ein 2GB Modul reichen.

Vielleicht probiere ich das mal aus - das Biostar fungiert als HTPC und Fileserver. Die Datensicherheit z.B. meiner Fotos ist mir sehr wichtig.
 
Vielleicht probiere ich das mal aus - das Biostar fungiert als HTPC und Fileserver. Die Datensicherheit z.B. meiner Fotos ist mir sehr wichtig.

hallo..
Was meinst du den wie sich ein 1Bit Fehler bei deinen Fotos mit x Megabyte auswirkt? Oder bei Filmen mit x GB .*noahnung*..Außerdem liegen die Daten physisch auf der Festplatte und wenn du keine Bildbearbeitung machst . und während dem Abspeichern dir der PC abschmiert - völlig unwichtig was der RAM macht. Pixelfehler bei Videoencoden/Bildern allgemein sind meiner Meinung nach zu vernachlässigen, solange du nicht professionell irgendwelche Animationen, etc. machst. ;) Augenmerk bei der Datensicherheit lege ich auf regelmäßige Backups und die sollten sich irgendwo extern auf DVD oder HD befinden - also nicht am Stromnetz und auch nicht mit Internetanbindung..

Grüße!
 
Zuletzt bearbeitet:
Vor ein paar Monaten ist ein RAM in unserem Server eingegangen. Da war die Freude groß, vor allem, da er dann nur instabil war und in der weiteren Folge gleich eine Config Datei im XML Format beim Booten geschrieben hat. Beim nächsten Booten hat der Exchange Server sich natürlich sehr gefreut, über die paar fehlerhaften Zeichen, die da drin gestanden sind;D
Wenn da nicht zufällig der Dateiname samt Lesefehler einmal in der Ereignisanzeige zu finden gewesen wäre und ich noch das Backup vom Vortag gehabt hätte, dann hätten wir da wahrscheinlich einen 2-3 tägigen spontanen Betriebsurlaub gehabt außer für die EDV (mich).
Bei den Desktop PCs, die mir unterkommen (in der Firma bzw. PCs von Kollegen, deren Bekannten usw.) sind ca. 80-90% der Hardwareprobleme auch entweder der RAM oder die Nvidia Grafikkarte, die das zeitliche gesegnet hat.
 
Vor ein paar Monaten ist ein RAM in unserem Server eingegangen. Da war die Freude groß, vor allem, da er dann nur instabil war und in der weiteren Folge gleich eine Config Datei im XML Format beim Booten geschrieben hat. Beim nächsten Booten hat der Exchange Server sich natürlich sehr gefreut, über die paar fehlerhaften Zeichen, die da drin gestanden sind;D
[..]

Hi..
Falls Daten auf der Platte liegen, kann man die aber noch retten - insofern man von ner anderen Platte bootet..Ich hatte ein ähnliches Problem neulich wegen einem nicht richtig angesteckten Sata - Kabel, bzw. das hatte sich im Laufe der Zeit gelöst und es fehlten beim nächten Neustart ein paar Dateien die zum Booten
benötigt werden..hab dann von CD gebootet - alles wichtige umkopiert, neu formatiert, neu installiert, und dann lief die Sache wieder..Dateiverlust hatte ich keinen..

Grüße!
 
Außerdem sind dort 1-Bit Fehler bei konventionellen Unbuffered DIMMs ohne ECC (nicht erkennbar und) nicht behebbar.

Stimmt nicht...die Paritätsprüfung erkennt einen 1Bit Fehler! ECC kann einen 1Bit Fehler beheben und einen 2Bit Fehler erkennen
 
hallo..
Was meinst du den wie sich ein 1Bit Fehler bei deinen Fotos mit x Megabyte auswirkt? Oder bei Filmen mit x GB .*noahnung*..Außerdem liegen die Daten physisch auf der Festplatte und wenn du keine Bildbearbeitung machst . und während dem Abspeichern dir der PC abschmiert - völlig unwichtig was der RAM macht. Pixelfehler bei Videoencoden/Bildern allgemein sind meiner Meinung nach zu vernachlässigen, solange du nicht professionell irgendwelche Animationen, etc. machst. ;) Augenmerk bei der Datensicherheit lege ich auf regelmäßige Backups und die sollten sich irgendwo extern auf DVD oder HD befinden - also nicht am Stromnetz und auch nicht mit Internetanbindung..

Grüße!

Ein gekipptes Bit kann dafür sorgen, dass sich ein Bild nicht mehr öffnen lässt. Mit etwas Arbeit könnte man vielleicht das geänderte Bit finden - aber was ist z.B. mit einem verschlüsselten Container? Da sind dann alle enthaltenen Daten verloren.

Natürlich kann man sagen " ein verlorenes Foto ist nicht wichtig". Aber, wenn der RAM anfängt Probleme zu machen - wie bemerke ich die? Irgendwas ist merkwürdig, und bis ich mir die Zeit nehme, diese Merkwürdigkeiten genauer unter die Lupe zu nehmen, habe ich bereits ein paar Wochen Backups auf dem Rechner gemacht - die sind dann alle potentiell beschädigt...

Das BIOS vom Biostar TA790GX A2+ hat ECC-Optionen. Ich werde wohl mal einen Riegel mit ECC kaufen.

Da gibt es verschiedene Riegel von Kingston bei Geizhals. Kann mir jemand die Unterschiede zwischen den beiden hier verraten?

KVR800D2E5/2G http://geizhals.at/deutschland/a293207.html
KVR800D2E5/2GI http://geizhals.at/deutschland/a293207.html

? Registred Speicher hat noch nen zusätzlichen Bufferchip, um mehrere RAM-Module betreiben zu können, oder? Das brauche ich nicht für mein ein-Modul-Betrieb, oder?
 
Stimmt nicht...die Paritätsprüfung erkennt einen 1Bit Fehler! ECC kann einen 1Bit Fehler beheben und einen 2Bit Fehler erkennen
Stimmt selbstverständlich. Übrigens ist das auch ein Punkt, der für FB-DIMMs spricht. Die Fehlerkorrektur geht dort weit über konventionelle Registered DIMMs hinaus.

Siehe JESD206 der JEDEC ab Seite 87 (Seite 97 im PDF): http://www.jedec.org/download/search/JESD206.pdf
Da gibt es verschiedene Riegel von Kingston bei Geizhals. Kann mir jemand die Unterschiede zwischen den beiden hier verraten?

KVR800D2E5/2G http://geizhals.at/deutschland/a293207.html
KVR800D2E5/2GI http://geizhals.at/deutschland/a339790.html
Das "I" am Ende der Bestellnummer steht für "Intel" und bezieht sich auf eine Zertifizierung für diese Plattform. Das ist so ähnlich wie bei den "SLI Ready" DIMMs für nVidia Chipsätze mit EPP.
Registred Speicher hat noch nen zusätzlichen Bufferchip, um mehrere RAM-Module betreiben zu können, oder?
Ja, die haben zusätzliche Register Chips und Taktgeber (PLL) aber die müssen auch vom MCH angesprochen werden können. Ansonsten bleibt das System tot.

Das liegt an einer etwas anderen Pinbelegung, während beispielsweise Unbuffered DIMMs mit ECC im Prinzip auf jedem Mainboard laufen, wenn auch ohne ECC Unterstützung.
 
Ein gekipptes Bit kann dafür sorgen, dass sich ein Bild nicht mehr öffnen lässt. Mit etwas Arbeit könnte man vielleicht das geänderte Bit finden - aber was ist z.B. mit einem verschlüsselten Container? Da sind dann alle enthaltenen Daten verloren.

Natürlich kann man sagen " ein verlorenes Foto ist nicht wichtig". Aber, wenn der RAM anfängt Probleme zu machen - wie bemerke ich die? Irgendwas ist merkwürdig, und bis ich mir die Zeit nehme, diese Merkwürdigkeiten genauer unter die Lupe zu nehmen, habe ich bereits ein paar Wochen Backups auf dem Rechner gemacht - die sind dann alle potentiell beschädigt...
[..]

Die Suppe wird meist heisser gekocht als gegessen. In der Theorie kann das immer passieren - praktisch passiert sowas nie..Dein Haus kann auch vom Blitz getroffen werden-? Ein Flugzeugabsturz - was dann? Wie hoch ist die Wahrscheinlichkeit das sowas passiert? 1 zu wievielen Hunderttausend - Millionen?
Container kann man übrigens reparieren, aber wiegesagt - sowas kommt in der Praxis eh nicht vor..

Grüße!
 
Zuletzt bearbeitet:
Zurück
Oben Unten