Drei Monate ist der AMD Phenom nun schon auf dem Markt und obwohl AMD einen Tag vor der Einführung das Modell 9700 zurückgezogen sowie im Anschluss daran die Auslieferung beinahe der kompletten Quad-Core Opteron-Familie gestoppt hat, waren bei AMD keine offiziellen TechDocs zu dem ominösen TLB-Bug aka Erratum 298 zu finden. Jetzt endlich hat AMD seinen Revision-Guide aktualisiert und das Erratum 298 hinzugefügt:
298 L2 Eviction May Occur During Processor Operation To Set Accessed or Dirty Bit
Description The processor operation to change the accessed or dirty bits of a page translation table entry in the L2 from 0b to 1b may not be atomic. A small window of time exists where other cached operations may cause the stale page translation table entry to be installed in the L3 before the modified copy is returned to the L2. In addition, if a probe for this cache line occurs during this window of time, the processor may not set the accessed or dirty bit and may corrupt data for an unrelated cached operation.
Potential Effect on System One or more of the following events may occur: • Machine check for an L3 protocol error. The MC4 status register (MSR 0000_0410) will be equal to B2000000_000B0C0F or BA000000_000B0C0F. The MC4 address register (MSR 0000_0412) will be equal to 26h. • Loss of coherency on a cache line containing a page translation table entry. • Data corruption.
Suggested Workaround BIOS should set MSR C001_0015h[3] (HWCR[TlbCacheDis]) to 1b and MSR C001_1023h[1] to 1b. In a multiprocessor platform, the workaround above should be applied to all processors regardless of silicon revision when an affected processor is present.
Fix Planned Yes
Zudem ist zu lesen, dass der Bug die Steppings DR-BA und DR-B2 betrifft.
Damit fällt die Beschreibung des Erratum 298 leider nicht sehr viel ausführlicher aus, als wir nach Zusammenfügen des Puzzles ohnehin schon berichtet hatten. Im Gegenteil: nach wie vor fehlt für den Anwender der Hinweis in welcher Software-Umgebung (Hardware-Virtualisierung oder genügt der Virtual Mode?) der Bug auftreten kann und ob - wie Anfangs kolportiert - hohe Last nötig ist und falls ja auf wievielen Kernen. Zudem ist in der Beschreibung mit keinem Wort erwähnt, dass der Bug erst ab einer bestimmten Taktfrequenz auftreten kann, obwohl dies der Grund für den zurückgezogenen Phenom 9700 gewesen sein soll. So ist es zwar schön, dass AMD den Bug endlich offiziell dokumentiert, sehr viel schlauer als zuvor ist man jedoch auch nicht.
Blättert man den Revision-Guide noch ein Stück weiter, trifft man auf das Erratum 309, das ebenfalls durch eine Art Race-Condition zweier Komponenten hervorgerufen wird und zu einem Absturz führen kann:
309 Processor Core May Execute Incorrect nstructions on Concurrent L2 and Northbridge Response
Description Under a specific set of internal timing conditions, an instruction fetch may receive responses from the L2 and the Northbridge concurrently. When this occurs, the processor core may execute incorrect instructions.
Potential Effect on System Unpredictable system behavior.
Suggested Workaround BIOS should set MSR C001_1023h[23].
Fix Planned Yes
Und last but not least scheint der Phenom an einem ähnlichen Problem zu leiden wie die 65 nm K8-Prozessoren auf Brisbane-Basis. Auch hier liefern die internen Dioden "inkonsistente" Werte, sodass AMD empfiehlt sie nicht zu nutzen:
319 Inaccurate Temperature Measurement
Description The internal thermal sensor used for CurTmp (F3xA4[31:21]), hardware thermal control (HTC), software thermal control (STC), and the sideband temperature sensor interface (SB-TSI) may report inconsistent values.
Potential Effect on System HTC, STC and SB-TSI do not provide reliable thermal protection. This does not affect THERMTRIP.
Suggested Workaround None. Systems should be designed with conventional thermal control and throttling methods or utilize PROCHOT_L functionality based on temperature measurements from an analog thermal diode (THERMDA/THERMDC). Systems should not rely on the HTC features, STC features or use SB-TSI. Software should not modify HtcTmpLmt (F3x64[22:16]) or enable any of the STC features by setting StcPstateEn, StcApcTmpLoEn, StcApcTmpHiEn, StcSbcTmpLoEn, or StcSpcTmpHiEn (F3x68[5,3:0]).
