T49x/s T495 Zufällige Abstürze

saphire

New member
Themenstarter
Registriert
6 Aug. 2024
Beiträge
10
Hallo zusammen!

Seit einigen Tagen versuche ich Troubleshooting für mein 5 Jahre altes T495 zu betreiben und habe keine Ideen mehr.
Nach dem Booten scheint das System nach wenigen Sekunden bis einigen Minuten abzustürzen, entweder Freeze oder Blackscreen. Einzige Lösung ist die Power Taste gedrückt zu halten. Manchmal kann ich jedoch stundenlang normal arbeiten. Das Problem taucht sowohl unter Windows als auch Ubuntu 22.04 (Dual Boot) auf, ebenso auf Linux Mint per Boot-USB.
In Windows gabs oft auch BSODs. Immer unterschiedliche, u.a. System Thread Exception Not Handled. Die Windows Ereignisanzeige lieferte Meldungen zu AMD Crash Defender Service und "System wurde neugestartet, ohne dass es ordnungsgemäß heruntergefahren wurde...".

Bisher sonst probiert:
Secure Boot aus, AMD PowerNow! technology im Bios deaktiviert, Batterie Reset Knopf.
Das Lenovo Diagnostizierungstool hat nach 5 Stunden bescheinigt, dass sämtliche Hardware ok ist. Einzig eine Warnung für die Batterie, lifespan mode sei LS1_4 statt LS1_5, was auch immer das heißt.
Ich habe auch BIOS Updates per Vantage gestartet, beim Neustart gabs wieder einen Absturz, noch bevor ich die erwartete BIOS-Update UI zu sehen bekam. Ich hatte damals Angst, dass das System zerschossen wurde, aber danach war alles wie vorher und das BIOS ist nun laut Vantage aktuell...

Nach zwei Tagen Ruhe habe ich den Laptop wieder angeschaltet, das Abstürze sind heute nicht aufgetaucht. Nur sehe ich den Boot Screen erst nach 3-4 Anläufen. Es scheint ohne verbundenes Netzteil besser zu klappen.

Ich vermute, es liegt an der Batterie? Kapazität liegt noch bei 85% und Anzahl Zykel ist <200. Wenn ja, könnt ihr einschätzen ob nur das Tauschen der Batterie das Problem wahrscheinlich löst?

Vielen Dank fürs Lesen!
 
200 Zyklen sollte die Batterie eigentlich überstehen.
 
Das Lenovo Diagnostizierungstool hat nach 5 Stunden bescheinigt, dass sämtliche Hardware ok ist.
Das muss nix heißen. Ich tippe auf defekten RAM. Dazu würde zumindest zur Symptomatik passen. Keine Ahnung wie ausführlich das Diagnostik Tool wirklich den RAM prüft. Probier mal ein anderes Tool, als das von Lenovo dafür. Z.B. den Memtest der normaleweise beim Linux Live Stick mit dabei ist.
Beitrag automatisch zusammengeführt:

Meinst du mit Batterie den Akku? Ein defekter Akku zeigt normalerweise andere Symptomatiken. Da geht häufig das Gerät dann gar nicht mehr an, solange der Akku noch drin ist.

Oder meinst du die BIOS Batterie? Wenn du deinen Laptop nicht gerade jeden Tag 20mal bootest hält die eine Ewigkeit. Habe Laptops, die bis zu 15 Jahre alt sind und bis heute noch keine einzige BIOS Batterie gehabt, die getauscht werden musste. Ist überall noch die erste drin.

Was passiert, wenn du nur ins BIOS gehst und deinen Rechner so laufen lässt, also ohne ins OS zu booten? Kommt es dann auch zu Problemen? Wenn nein, ist es vielleicht die Festplatte. Werf unter Linux mal einen Blick ins Journal mittels "journal -r" bzw. "journal -r -p 1..3" (Letzerer Befehl zeigt dir auschließlich Fehler an)
 
Zuletzt bearbeitet:
Den halben Tag lang hat das System heute nicht gebootet. Also Power Knopf, Tastatur leuchtet auf, Bildschirm an, aber Blackscreen.
Danach wie durch Zufall wieder. Memtest 86 hat nach 4 Durchläufen keine Fehler gefunden. Sowohl nur mit angelötetem RAM Slot, als auch beide Slots belegt.

In journalctl sehe ich vielleicht zwei Einträge die relevant sind (kann es aber nicht einschätzen):
kernel: BUG: Bad page state in process kworker/u32:3 pfn:3031b6 (gestern Nacht, Zeitstempel stimmt mit letztem Absturz halbwegs überein)
Device: /dev/nvme0, number of Error Log entries increased from 6832 to 6835

Ich meine mich zu erinnern, dass es auch einen Freeze bei der Passwort Eingabe für SSD Entschlüsselung und im Lenovo Diagnosetool gab. Beides vor dem Grub Boot Menü. Im Bios Menü bisher noch nicht, wenn ich es mal hineingeschafft habe, aber ich glaube einmal im Bios Splash Screen, wobei ich mir aber nicht ganz sicher bin.
 
Zuletzt bearbeitet:
Liest sich wie eine sterbende SSD
Würde ich auch sagen. Dein journal Fehler klingt nach Speicher Problem. Wenns nicht der RAM ist, bleibt nur die Festplatte. Mal von nem anderen Medium booten und schauen ob die Fehler auch auftreten, bzw. vom Linux Live System aus könntest du dann ja auch gleich einen smartctl Test deiner Festplatte machen.

Das "Problem" mit Speicher bedingten Abstürzen unter Linux ist, dass dann oft auch kein Fehlereintrag ins Journal stattfindet, weil eben der Schreib/Leseprozess beeinträchtigt ist. Deshalb kann man das nicht immer direkt an den Logs erkennen. Aber dein Eintrag schaut schon verdächtig nach Festplatte aus.
 
Zuletzt bearbeitet:
Ich würde nicht mehr lange testen und gleich erst mal einen Backup der aktuellen Daten machen und sofort eine neue SSD einbauen.

Der Fehler ist eindeutig.
Selbst wenn die Smartwerte noch gut aussehen sollten. Hatte schon häufiger das Problem, dass Rechner plötzlich ganz langsam wurden, die Smartwerte eigentlich auch gut aussahen aber trotzdem die SSD nicht in Ordnung war und nur ein Tausch geholfen hat.
 
Vielen Dank schonmal für die ganzen Hinweise!

Die Abstürze treten definitiv auch auf Linux Live Systemen auf. Selbst wenn ich dort nicht manuell auf die Festplatte zugreife. Kann es trotzdem sein, dass es an ihr liegt?
Die SMART Werte sehen alle gut aus, aber vielleicht auch nicht aussagekräftig, da NVME?
Und sollte eine defekte Festplatte nicht erlauben, dass ich jedes Mal immerhin ins Boot Menü gelange?

Mit ausgebauter Festplatte habe ich kein Absturz feststellen können, aber ich hab nur einmal kurz getestet, und z.B. gestern konnte ich wieder den ganzen Tag am Gerät arbeiten.
 
Vielen Dank schonmal für die ganzen Hinweise!

Die Abstürze treten definitiv auch auf Linux Live Systemen auf. Selbst wenn ich dort nicht manuell auf die Festplatte zugreife. Kann es trotzdem sein, dass es an ihr liegt?
Wenn die Festplatte nicht verschlüsselt ist, wird sie im Live System automatisch eingehängt. Das könnte bei Festplattenproblemen schon ausreichen. Wie der Kollege schon sagte, das ist recht eindeutig. Nimm die Festplatte komplett raus und boot ins Live System. Wenn die Probleme weg sind, ist die Sache geklärt. Ansonsten hoffe ich das du ein Backup hast. Wenn nicht, noch zügig eins vom Live System aus machen, bevor gar nichts mehr geht.
 
Neue Platte ist drin. Soweit funktioniert alles. Vielen Dank für eure Beiträge!
Weiß jmd vll zufällig noch, ob/wie man Secure Boot wieder einrichtet? Ich musste es ausstellen, damit von der neuen Platte gebootet werden kann.
 
Im BIOS/UEFI unter "Security" aktivieren - sollte eigentlich die Werkseinstellung sein.
 
Das System weigert sich dann zu starten. Ich nehme mal an, da es die neue Platte nicht kennt?

Und leider finden die Abstürze mittlerweile wieder statt...
Vielleicht lasse ich Memtest mal länger laufen. Und die neue Platte habe ich per Clonezilla eingerichtet. Kann es sein, dass defekte Sektoren aus der alten Platte, die mitkopiert wurden, das Problem sind?
 
Was mir eventuell noch einfallen würde wäre eine sich anbahnende oder gerade kaputtgehende Grafikkarte bzw integrierte grafikeinheit

Habe bei ebay gestern auch ein ThinkPad gesehen mit Ryzen Prozessor und ähnlichem Problem
 
Lass mal ein SFC /scannow durchlaufen.
Wenn eine defekte Graka vermutet wird, deinstalliere den Grafiktreiber und nutze das Gerät eine Zeit lang nur mit dem Microsoft Basic Treiber. Der nutzt nur ein absolutes Minimum des Grafikchips.
 
Was steht bei den aktuellen Abstürzen drin.
kernel: tpm tpm0 [Firmware Bug]: TPM interrupt not working, polling instead
kernel: [drm:amdgpu_init [amdgpu]] *ERROR* VCAGON disables amdgpu kernel modesetting.

Beide Nachrichten sehe ich aber schon seit sehr langer Zeit beim booten. Speziell bei letzterer bin ich mir unsicher, da ich schon viele linuxspezifische Probleme bzgl. amdgpu erlebt habe (wie z.B. aktuell https://bugs.launchpad.net/ubuntu/+source/linux/+bug/2068738), die Abstürze ja aber auch unter Windows auftreten.
 
Eieieiei, da rückt man nach einer Woche mit den wichtigsten Fehlermeldungen auf, statt gleich alles auf den Tisch zu legen.

Erster Treffer beim Googlen nach der TPM-Fehlermeldung:
Bei askubuntu wird das AMD-Problem gehandelt:
 
Die Quelle habe ich damals schon in Betracht gezogen, sie erwähnt jedoch explizit, dass der Fehler ignoriert werden kann?
Bei askubuntu wird das AMD-Problem gehandelt:
Das klingt bei den Beiträgen nach Bootfehlern. Ich kann das System an sich ja teilweise nicht starten. Und die Abstürze treten auch nach erfolgreichem Boot auf. Oder kann so eine Fehlermeldung auch damit zusammenhängen?
Der Boot-Parameter amdgpu.dc=0 wie im Beitrag hat nicht geholfen.
Beitrag automatisch zusammengeführt:

Ok, es gab jetzt (endlich?) auch einen Absturz beim Versuch, im Bios Menü selbiges zu verlassen. Dabei war periodisches schwarzes Flackern des Bildschirms zu beobachten.
Ich nehme an, das ist ein Zeichen für irgendwas low-level Firmware, oder bei Pech GPU, Verkabelung, Mainboard, etc?
Die Grafikeinheit ist integriert und so ein Prozessor gibt doch nicht einfach so mal den Geist auf?
 
Zuletzt bearbeitet:
Ich habe so das Gefühl dass bei Dir 2 unterschiedliche Fehler zusammenkommen.

Die sterbende SSD gab es evtl. schon länger, denn dass die alte SSD Probleme machte war aufgrund des obigen Logs eigentlich ziemlich eindeutig.
Sie alleine war aber evtl. nicht für die aktuellen Abstürze verantwortlich.
Evtl. hast Du tatsächlich parallel noch ein Problem mit der Grafikeinheit oder dem RAM der von der Grafik verwendet wird.

Wenn Du zwei Riegel verbaut hast: Einen einfach mal weglassen und ein paar Tage beobachten. Dann auf den anderem Riegel wechseln und auch da mal beobachten was passiert

Die Grafikeinheit ist integriert und so ein Prozessor gibt doch nicht einfach so mal den Geist auf?
Dass eine CPU kaputt geht ist schon sehr selten (oder auch nicht wie es gerade Intel vormacht) aber eben auch nicht vollkommen ausgeschlossen.
Es kann natürlich auch eine Form von Flexing bei Dir auftreten und sich die CPU vom MoBo lösen oder eine Stelle hat Kontaktprobleme.
Lässt sich nicht aus der Ferne nicht weiter diagnostizieren.
 
  • ok1.de
  • ok2.de
  • thinkstore24.de
  • Preiswerte-IT - Gebrauchte Lenovo Notebooks kaufen

Werbung

Zurück
Oben