Intels Chipsatzfehler und seine Folgen

MusicIsMyLife

Redaktion
☆☆☆☆☆☆
Mitglied seit
22.02.2002
Beiträge
15.579
Renomée
2.567
Standort
in der Nähe von Cottbus
  • QMC Race
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • SETI@Home Wow!-Event 2019
  • BOINC Pentathlon 2020
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=13357&w=o" alt="Intels Chipsatzfehler und seine Folgen - Titelbild" border="1"></center>

Anfang Januar 2011 war die Welt für Intel und seine Partner noch in Ordnung. Die zweite Generation der Core i3/i5/i7-Prozessoren wurde vorgestellt und erhielt durchweg gute Kritiken. Gute Leistung, gute Leistungsaufnahme und ein damit einhergehendes gutes Preis-/Leistungsverhältnis brachten viele Redaktionen ins Schwärmen.

Gefolgt wurde der erfolgreiche Produktlaunch von guten Umsätzen im Mainboardsektor. Schließlich benötigt die neue CPU-Generation, Codename Sandy Bridge, neue Hauptplatinen, da Intel mit Sandy Bridge einen neuen Sockel mit 1155 Pins einführte. Und für die - wie konnte es anders sein - hatte Intel auch neue Chipsätze parat. Die neuen Chipsätze P67 und H67, Codename Cougar Point, wurden auf jedem neuem Mainboard verbaut, was Intel doppelten Umsatz bescherte und auch den Mainboard-Herstellern ein Stück vom Kuchen einbrachte.

Während die Mainboard-Hersteller am 31. Januar ihren erfolgreichen Monat feierten, platzte eine Bombe. In einer <a href="http://newsroom.intel.com/community/intel_newsroom/blog/2011/01/31/intel-identifies-chipset-design-error-implementing-solution">Pressemitteilung</a> ließ Intel verlautbaren, dass man einen Fehler in den neuen Chipsätzen festgestellt habe und die Produktion der Cougar Point-Chipsätze im B2-Stepping (die zum Launch aktuelle Chipsatz-Revision) vorerst einstelle. Eine Lawine kam ins Rollen.

Wir haben unseren diesjährigen CeBIT-Besuch zum Anlass genommen, um sowohl mit Intel als auch mit Mainboard-Herstellern über diese Thematik zu sprechen. Worin besteht der Fehler, wie äußert er sich und welche Folgen hat (bzw. hatte) er für die Mainboard-Hersteller? Auf den folgenden Seiten haben wir die gewonnenen Informationen für unsere Leser aufbereitet.

Viel Vergnügen beim Lesen!
[break=Kleine Ursache, große Wirkung!]
Nie war der Spruch "kleine Ursache, große Wirkung" so wörtlich zu nehmen. Denn nachdem Intel den Partnern nähere Informationen zukommen ließ, war klar, dass ein Designfehler für das Chipsatz-Desaster verantwortlich war, der einen einzigen Transistor betraf. Es handelt sich beim Verursacher um einen Thin-Gate-Transistor, welcher mit einer zu hohen Betriebsspannung versorgt wird. Die zu hohe Spannung sorgt für eine schnellere Alterung des Transistors (schneller als geplant). Mit zunehmender Alterung werden die Leckströme immer größer, sodass die nachfolgend gelagerte Schaltung irgendwann nicht mehr zwischen dem On- und Off-Zustand des betroffenen Transistors unterscheiden kann und den Zustand falsch interpretiert.

Doch wieso wurde dieses Problem nicht vor dem Produktlaunch festgestellt? Diese Frage stellten wir Intel auf der CeBIT und sie wurde uns beantwortet.

Während des Design-Prozesses werden ständig Kontrollen durchgeführt, die die Qualität eines Produktes gewährleisten sollen. Jedoch werden dabei nicht alle Tests von Intel selbst durchgeführt, da Einsatzmöglichkeiten und die späteren Konfigurationen schier unbegrenzt sind. Insofern testen Intels Partner (große OEM-Hersteller wie z.B. Dell und HP) ebenfalls Chipsatzfunktionen und stimmen sich bei auftretenden Problemen mit Intel ab. Man betonte, dass dies ein völlig normales Prozedere sei.

Die Krux: Der am 31. Januar vermeldete Chipsatzfehler wurde zwar durch einen der großen OEM-Partner Intels herausgefunden, jedoch erst nach Markteinführung der betroffenen Chipsätze.
[break=Auswirkungen des Fehlers]
Natürlich fragten sich alle Besitzer eines Mainboards mit einem P67/H67-Chipsatz, wie sich der Fehler im Alltag äußert und welche Konsequenzen sich daraus ergeben. Intel ließ verlautbaren, dass sich der Fehler in langsamer werdenden Transferleistungen der SATA II-Ports äußere - im schlimmsten Fall drohe der komplette Ausfall des SATA-Ports. Stets wurde betont, dass ausschließlich die Ports der SATA II-Spezifikation betroffen sind. Intel schätzt die Ausfallrate auf fünf Prozent aller Chipsätze im Zeitraum von drei Jahren.

Einige Sandy Bridge-Nutzer stellten sich auch die Frage, ob es bei problembehafteten SATA-Ports auch zu einem schleichenden Datenverlust kommen kann. In unserem Gespräch mit Intel versicherte man uns, dass dies nicht der Fall sei - ein genereller Datenverlust könne jedoch nicht ausgeschlossen werden. Damit dies passiert, müssen jedoch gewisse Voraussetzungen herrschen.

Der betroffene Transistor sorgt dafür, dass die Transferleistung der SATA-Ports geringer werden kann. Sofern die nachgelagerte Schaltung den On-/Off-Zustand nicht mehr korrekt interpretieren kann, wird die entsprechende "Anfrage" wiederholt. Dies führt zu Verzögerungen und im schlimmsten Fall dazu, dass die SATA-Ports unbenutzbar und daran angeschlossene Laufwerke vom System ignoriert werden.

Solange angeschlossene Laufwerke nicht völlig vom BIOS/Betriebssystem ignoriert werden, sorgen weitere, nachgelagerte Mechanismen dafür, dass die Datenintegrität gewahrt bleibt. Kurzum: Bis zum totalen Ausfall kann also kein schleichender Datenverlust auftreten. Zwar wird die Leistung durch die Wiederholung von Befehlen langsamer, die auf einer Festplatte ankommenden Daten sind aber intakt.

Es kann jedoch vorkommen, dass sich die Vitalität der Ports während der Arbeit mit Daten so verschlechtert, dass die angeschlossenen Laufwerke "abgekoppelt" werden. Sind bearbeitete Daten in diesem Moment noch nicht gespeichert, kann es zum Verlust dieser kommen. Wer zum Beispiel seine Dissertation längere Zeit nicht abspeichert, der kann die Arbeit einiger Stunden verlieren.

Da es sich beim Chipsatzfehler um ein Hardware-Problem handelt, ist ein Software-Fix (BIOS-Update oder Betriebssystem-Patch) nicht möglich.
[break=Annahmen zur Fehlerquote]
Wie bereits erwähnt, geht Intel von einer Fehlerquote von fünf Prozent nach drei Jahren aus. Diese Zahl basiert auf verschiedenen Annahmen, sodass die konkrete Quote variieren kann. Auch der Zeitpunkt des Auftretens des Fehlers kann sehr unterschiedlich sein.

Die Herstellung des betroffenen Thin-Gate-Transistors unterliegt - wie bei vielen Aspekten - einer gewissen Toleranz. Ein Thin-Gate-Transistor kann also unterschiedlich "dick" ausfallen. Befindet sich die Dicke am unteren Ende der Toleranz, so wird dieser Thin-Gate-Transistor schneller altern als wenn er sich am oberen Ende der Toleranz in Richtung Thick-Gate-Transistor befindet.

Die Versorgungsspannung des Transistors unterliegt ebenfalls einer gewissen Toleranz. Befindet sich die Spannung am unteren Ende der erlaubten Bandbreite, so kommt dies der Lebenszeit zugute. Höhere Spannungen innerhalb der Grenzen verkürzen die Lebensdauer hingegen.

Auch das Nutzungsprofil der SATA II-Anschlüsse hat starke Auswirkungen. Werden die Ports nur selten verwendet und befinden sich stattdessen häufig in Stromspar-Modi, so wirkt sich dies positiv auf die Lebenserwartung aus. Poweruser, die ständig Datentransfer produzieren, sodass keine Stromsparmechanismen greifen (können), verkürzen unaufhaltsam die Lebensdauer.

Weitere Aspekte, wie zum Beispiel die Betriebstemperatur und/oder die Anzahl der angeschlossenen Laufwerke können unter Umständen ebenfalls Auswirkungen auf den betroffenen Transistor haben.

Durch diese vielen Variablen, die Intel mit konservativen Annahmen für die Berechnung der durchschnittlich zu erwartenden Lebensdauer ansetzt, ist eine genaue Vorhersage über konkrete Ausfallzahlen nahezu unmöglich. Dies führte mit dazu, dass Intel - statt stillschweigend auf eine erhöhte RMA-Quote zu setzen - gänzlich die Produktion der Chipsätze im B2-Stepping einstellte.
[break=Die Problemlösung: Glück im Unglück]
Der kleine aber folgenschwere Fehler hat - zum Glück für Intel - eine relativ einfache Lösung. Durch eine kleine Änderung am Chipsatz-Layer 6 konnte Intel die schädliche Spannung beseitigen.

Chipsätze sind - wie viele andere Bauteile auch - in mehreren Lagen, sogenannten Layern, aufgebaut. Die Ursache für den zu schnell alternden Transistor wurde in Layer 6 gefunden und beseitigt. Ein Layer, der anscheinend relativ weit oben im Chipsatz liegt - und damit auch spät in der Fertigung. Alle Chipsätze, die den entsprechenden Layer noch nicht hatten, mussten nicht entsorgt werden. Stattdessen konnten die Anpassungen auch bei diesen Exemplaren angewandt werden und die Anzahl der fehlerhaft produzierten Chipsätzen so gering wie möglich gehalten werden.

Das Glück von Intel bestand darin, dass die Fehlerquelle durch eine kleine Anpassung spät in der Fertigung beseitigt werden konnte. Der Fehler hätte auch in tiefer liegenden Schichten verursacht werden und damit gravierendere Auswirkungen haben können. Bis hin zum kompletten Rework wären alle Szenarien denkbar gewesen.

Nichtsdestotrotz musste Intel seine Fertigungslinien für einen gewissen Zeitraum stoppen, was nicht nur für Intel selbst ein Problem darstellte.
[break=Mainboard-Hersteller und ihre Probleme]
In unseren Gesprächen mit Mainboard-Herstellern auf der CeBIT haben wir einige Informationen erhalten, welche Auswirkungen Intels Problem für sie hatte.

Intel nimmt für sich in Anspruch, schnell nach Bekanntwerden des Fehlers gehandelt zu haben. Leider wurde die offizielle Mitteilung herausgegeben, noch bevor die Mainboard-Hersteller informiert waren. So kam es, dass Hersteller erste Anfragen zur Problematik bekamen, noch bevor sie überhaupt vom Problem wussten. Der Normalfall soll hingegen eine Vorwarnzeit von 24 Stunden seitens Intel sein, die dieses Mal nicht eingehalten wurde.

Die Partner von Intel wussten in diesem Moment genausoviel wie jeder Endverbraucher. Auch die Hersteller mussten auf Infos warten, gleichzeitig häuften sich bei ihnen aber die Anfragen der Distributoren und auch der Endverbraucher. Man tappte völlig im Dunkeln.

Als Intel schließlich alle Partner ausreichend über die Problematik in Kenntnis gesetzt hatte, liefen deren Marketingmaschinerien an. Es wurden Austauschprogramme erdacht, Garantieverlängerungen gewährt, hunderte Supportanfragen beantwortet und jede Mengen Überstunden geschoben. Intel setzte finanzielle Mittel frei, um den auftretenden Schaden abzudecken und fehlerhafte Chipsätze zu tauschen. Fast könnte man meinen, mit genug Geld könnte man jedes Problem lösen. Doch dies war bzw. ist mitnichten so.

Die Mainboard-Hersteller haben alles getan, um ihre Endkunden zufrieden stellen zu können. Mainboards mit Chipsätzen im B2-Stepping werden kostenfrei getauscht, wenn das Nachfolge-Stepping B3 verfügbar ist. Man verlängert die Garantie und verzichtet auf die Beweislastumkehr. Doch inklusive der angefallenen Überstunden sind dies alles Kosten, wo fraglich ist, wer diese trägt. Auch ist fraglich, welche Kosten Intel bezüglich der retournierten Mainboards trägt und was mit diesen passiert.

Intel hat den Chipsatz geliefert und tauscht diesen aus. Doch was wird aus dem Mainboard, welches um den Chipsatz "herum gebaut" wurde? Wird unter hohem Aufwand der Chipsatz getauscht (sofern dies bei der Komplexität eines mehrlagigen Mainboards überhaupt möglich ist)? Oder müssen diese Mainboards vernichtet werden? Wer trägt die Kosten für Transport, Aufarbeitung und/oder Vernichtung? Um diese Fragen drehen sich aktuell die Gedanken der Mainboard-Hersteller, ohne dass der Endverbraucher hiervon etwas merkt.

Hinzu kommt ein deutlich eingebrochener Umsatz im Februar. Denn aufgrund des Produktionsstopps von Intel und der damit einhergehenden Dauer bis zur Auslieferung des B3-Steppings an Partner konnten die Hersteller im Februar keine Cougar-Point-Mainboards mehr verkaufen und mussten so einen deutlichen Einschnitt hinnehmen. Auch bei den Umsatzeinbußen ist fraglich, ob Intel einen Teil trägt oder ob die Partner die Suppe auslöffeln müssen.

Um aus der Not eine Tugend zu machen, werden von den Herstellern teilweise sogar weiterhin B2-Chipsätze verwendet. Immer dann, wenn lediglich zwei Laufwerke verbaut werden müssen (z.B. in Laptops), reichen die beiden fehlerfreien SATA-III-Ports aus, der Chipsatz kann also ohne Probleme verwendet werden. Unter diesen Umständen können Restbestände an betroffenen Chipsätzen aufgebraucht und einige Geschäftsbereiche aufrecht erhalten werden. Diese Konfigurationen wiegen den Nachteil hingegen nicht auf.
[break=Annahmen und die Praxis]
Die von Intel kolportierten fünf Prozent nach drei Jahren sind mittlerweile bekannt. Interessanterweise hat sich ein Mainboard-Hersteller konkrete Zahlen entlocken lassen, die eine deutliche Diskrepanz zwischen den Annahmen und der Wirklichkeit offenbaren.

Man sprach von einer fünfstelligen Stückzahl an verkauften Mainboards in Europa, die auf dem betroffenen Chipsatz basieren. Von dieser fünfstelligen Zahl wurden bisher derer fünf Mainboards retourniert - alle mit einem völlig anderen Fehlerbild als dem der ausfallenden SATA-Ports. Trotzdem konnte man bei diesem Hersteller bereits ein Exemplar verzeichnen, dessen SATA-Anschlüsse ausfallen. Die Ironie: Hierbei handelt es sich um ein Pressesample, welches routinemäßig nach der Rückkehr getestet wurde. Der testenden Redaktion scheint die Problematik aber nicht aufgefallen zu sein: Der Test ergab einen Gold-Award für das Mainboard.

Auch in diversen Hardwareforen, die bei entsprechenden Problemen erste Anlaufstelle sind, kann man bisher keinen konkreten Fall finden, der sinkende SATA-Leistung oder gar einen kompletten Ausfall der Ports aufweist. Insofern scheinen Intels Annahmen ein Worst-Case-Szenario zu sein, wobei dies eine Vermutung ist, die sich in drei Jahren beweisen oder entkräften lässt.
[break=Ist AMD der Gewinner?]
Man könnte meinen, angesichts des durch Intels Verhalten selbstbeigebrachten Tiefschlags gehe AMD als Sieger aus dem Ring. Doch dem ist mitnichten so. Bis auf eine <a href="http://news.cnet.com/8301-17938_105-20031895-1.html">kleine Anspielung auf das Cougar-Point-Desaster am Valentinstag</a> gab es keine Reaktion seitens AMD. Sowohl die Endverbraucher als auch die Mainboard-Hersteller warteten bisher vergebens auf eine Art Lebenszeichen des grünen Herstellers. Dabei wäre dies die perfekte Gelegenheit, sich für die Schmach des TLB-Bugs anno 2007/2008 zu revanchieren. Damals wurde kein gutes Haar an AMD ob der Informationspolitik gelassen, wobei der damalige Fehler sogar noch per BIOS-Update und/oder Software-Einsatz zu beheben war. Zwar verringerte sich die Leistung der damals betroffenen Prozessoren teils enorm, sie funktionierten grundsätzlich jedoch noch.

Ob bewusst oder unbewusst - AMD verpasst hier (auch nach Meinung der Mainboard-Hersteller) eine große Gelegenheit, sich nachhaltig in Erinnerung zu bringen. Aufgrund der offensiven Information von Intel und der Maßnahmen der Mainboard-Hersteller, bekommt man das Gefühl, dass Intel unbeschadet aus dem Chipsatzbug hervorgehen wird. Obwohl bei weitem nicht alle Fragen geklärt sind, weiß AMD diese Situation nicht für sich zu nutzen.
[break=Fazit]
<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=13357&w=o" alt="Intels Chipsatzfehler und seine Folgen - Titelbild" border="1"></center>

Nach dem rosigen Jahresstart für Intel und die Mainboard-Hersteller folgte am 31. Januar die Ernüchterung. Die diesjährige CeBIT bot Gelegenheit, sowohl mit Intel als auch einigen Herstellern über die P67/H67-Chipsatz-Problematik und ihre Folgen zu sprechen.

Intels schnelle Reaktion und die getroffenen Maßnahmen, für die es für die Mainboard-Produzenten noch so manch offene Frage gibt, scheinen den Image-Schaden relativ gering zu halten. Und das, obwohl es sich um ein Hardware-Problem handelt, welches den Chipsatzaustausch notwendig macht und nicht durch Einsatz eines Software-/BIOS-Fixes behoben werden kann.

AMD weiß diese Situation nicht für sich zu nutzen und hüllt sich fast komplett in Schweigen. Einmal mehr scheint das Marketing der grünen Prozessor-Schmiede nicht zu erkennen, welche Steilvorlage die Konkurrenz geliefert hat.

<center><a href="http://www.planet3dnow.de/vbulletin/forumdisplay.php?f=163">...weitere Artikel</a><br><a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=392478">...diesen Artikel im Forum diskutieren</a></center>
 
Zurück
Oben Unten