i7-6700 läuft nur mit 1-3 Kernen stabil

Zahnmeister

Redshirt
Mitglied seit
21.05.2011
Beiträge
2
Renomée
0
Hallo zusammen,

ich hoffe ihr könnt mir weiterhelfen. Mein System läuft nur noch mit 1-3 aktivierten Kernen stabil.

CPUIntel Core i7-6700 (Non-K, 3.4 GHz)
KühlerNoctua NH-L9i
MBASRock H170M-ITX/DL (aktuelles Bios)
RAMCrucial CT2K16G4DFD8213 2x16GB DDR4-2133 1.2V
SSDSamsung 850 Evo - 500GB
PSUCooler Master V550
OSArch Linux
Das System habe ich seit Anfang des Jahres im 24/7 Betrieb mit BOINC (Grüße an alle Mitcruncher im P3D-Team :)).
Das eigentliche Problem tritt erst seit 3 Wochen auf.

Was führt zum Problem:
Es lässt sich nach mehreren Stunden reproduzieren, durch eine Anwendung die auf 100% CPU-Auslastung läuft und abrupt gestoppt wird (z.B. BOINC). Danach dauert es eine Zeit lang, bis das System überhaupt wieder mit allen Kernen gestartet werden kann.

Problem:
Mit allen aktivierten Kernen kann ich dann weder mein OS noch andere bootbare Medien starten. Das System friert ein. Arch Linux teilt mir Machine Check Exceptions (MCE) mit. Diese habe ich mit mcelog analysiert:

MCE-log 1:
Hardware event. This is not a software error.
CPU 7 BANK 3 TSC 14c68abfcbe
RIP !INEXACT! 10:ffffffff811d5528
MISC 64285
TIME 1467445583 Sat Jul 2 09:46:23 2016
MCG status:RIPV MCIP
MCi status:
Uncorrected error
Error enabled
MCi_MISC register valid
Processor context corrupt
MCA: Generic CACHE Level-1 Eviction Error
STATUS ba00000000020179 MCGSTATUS 5
CPUID Vendor Intel Family 6 Model 94
RIP: ___slab_alloc+0x18/0x5a0}
SOCKET 0 APIC 7 microcode 49
MCE-log 2:
Hardware event. This is not a software error.
CPU 0 BANK 6 TSC 14c68ac1b2c
RIP !INEXACT! 10:ffffffff8136c811
MISC 5086000086 ADDR 810468c00
TIME 1467445583 Sat Jul 2 09:46:23 2016
MCG status:RIPV MCIP
MCi status:
Uncorrected error
Error enabled
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS be0000000100110a MCGSTATUS 5
CPUID Vendor Intel Family 6 Model 94
RIP: intel_idle+0xc1/0x120}
SOCKET 0 APIC 0 microcode 49
Ausprobiert habe ich:
  • Memtest86+ -> keine Fehler (3h)
  • BIOS Update
  • CMOS Reset
  • Start mit nur einem RAM-Riegel
  • RAM-Spannung von 1.2V auf 1.25V erhöht
  • Wärmeleitpaste ausgetauscht und CPU-Temperaturen kontrolliert
  • Durchtesten der BIOS-Settings durch Deaktivieren von Turbo, Speedstep, HT, C-States, Anzahl Kerne
Sonstiges:
  • Ich hatte von Anfang an keinen Spielraum für Undervolting. Nichtmal Offset -5mV war drin.
  • Wenn wieder MCE's auftreten und ich die CPU-Spannung mit Offset +50mV erhöhe, kann ich mein OS wieder starten. Es läuft jedoch nicht stabil.
Ich habe keine andere Sockel 1151 Hardware hier (oder von Freunden) um die Komponenten schnell tauschen zu können.
Was könnte ich noch testen? Ist die CPU defekt?

Gruß,
Zahnmeister
 
Evtl. mal das NT tauschen, wenn Du testweise an ein anderes kommst. Könnte sein, daß die Spannungen nicht mehr sauber sind.

Das eigentliche Problem tritt erst seit 3 Wochen auf.
war da vielleicht irgendwas? Irgendeine Software oder Hardware installiert? Beim Staubsaugen an den Rechner gestoßen? Gewitter, was eine Überspannung gemacht haben könnte?

ach übrigens:
Ausprobiert habe ich:
BIOS Update
davon ist allgemein unbedingt abzuraten bei einem instabilen System. Wenn es genau beim Flashen abnippelt, steht man dumm da. Bei Dir hat's ja glücklicherweise geklappt, aber das wollt ich nur nochmal erwähnt haben für den nächsten mit so einem Problem.
 
Ist es denn ein bestimmter Kern, den Du deaktivieren musst damit die CPU läuft, oder läuft sie mit einem beliebigen deaktivierten Kern. Falls ersteres dürfte wohl ein Kern defekt sein. Wenn das ein i7 6700 ist, kann er ja nicht alt sein. Würde mich nicht damit herumärgern, sondern reklamieren.
 
Um mich dem Vorschlag von Nero24. anzuschließen:

Bestimmter Kern: (sprich reproduzierbar der Gleiche) - CPU reklamieren / tauschen
Beliebiger Kern: Mainboard (Spannungswandler) oder Netzteil tauschen
 
Hey, danke für eure Hilfe :)

Ich habe die letzten beiden Tage getestet:

OBrian schrieb:
war da vielleicht irgendwas? Irgendeine Software oder Hardware installiert? Beim Staubsaugen an den Rechner gestoßen? Gewitter, was eine Überspannung gemacht haben könnte?
Der PC ist im gut durchlüfteten Schrank verstaut. Es gab kein Anstoßen oder Hardware-Änderungen. An Software habe ich die täglichen Updates, die über den Paketmanager hereinkommen, installiert. Allerdings gab es viele Gewitter in den letzten Wochen.

OBrian schrieb:
Evtl. mal das NT tauschen
Ich habe es testweise gegen ein Enermax Pro 82+ 425W getauscht. Damit tritt das Problem leider auch auf.

Nero24. schrieb:
Ist es denn ein bestimmter Kern, den Du deaktivieren musst damit die CPU läuft [...] Falls ersteres dürfte wohl ein Kern defekt sein.

Treffer!

Ich kann im BIOS nur die Anzahl aktiver Kerne festlegen.
Deswegen habe ich Hyperthreading deaktiviert und per Linux Kernel Konfiguration jeweils einen Kern deaktiviert. Die Config mit Kern 0+1+2 ist die einzige Konfiguration, die nicht beim Stoppen einer Anwendung (mit 100% Auslastung) abstürzt. Zusätzlich habe ich mir noch die Machine Check Exceptions genauer angesehen. Es ist immer nur der Kern mit CPU-ID 3.
 
Dann umtauschen, vielleicht noch das Fehlerprotokoll beilegen.
 
Zurück
Oben Unten