Erstellt vor 4 Jahren

Geschlossen vor 4 Jahren

#2547 closed defect (fixed)

Google Telefonbuch führt bei Restart zu crash von pbd und anschließendem restart der Box

Erstellt von: hawkeye80 Verantwortlicher:
Priorität: normal Meilenstein: freetz-next
Komponente: unknown Version: devel
Stichworte: Beobachter:
Product Id: 7490 Firmware Version: 6.20 devel-12433

Beschreibung

Konnte meine Reboot-Probleme mit Freetz auf der 6.20 eingrenzen und es hängt mit meinem Google Telefonbuch zusammen.
Erstmals war mir aufgefallen, dass nach dem Update auf ein freetz-Image das Telefonbuch mit nil im Webinterface angezeigt wird.
Habe dann auch ein Crashlog gefunden.

2014-09-05 19:25:00 [Segmentation fault]
pbd[1221] crashed at 2ab1dc6c (/lib/libpthread.so.0: pthread_kill + 0xc) accessing 0x2b092588
Version: 06.20
at: 00000001 v0: 2ab1dc60 v1: 00005c60
a0: 2b092520 a1: 00000000 a2: 0042a0e0 a3: 00000001
t0: 00000001 t1: 00000000 t2: ffffffff t3: 2aaa8000
t4: f0000000 t5: 00000001 t6: 2ab18ca0 t7: 00407459
s0: 0042a0e0 s1: 00422384 s2: 7ffe6650 s3: 2ac86c80
s4: 2aab0448 s5: 00478a30 s6: 00000002 s7: 00000000
t8: 000000ad t9: 2ab1dc60
gp: 2aac7010 sp: 7ffe53d8 fp: 00000000 ra: 00407459
[bt] Code: afb00000 afb10004 <8c900068> 1a000019
[bt] 00407454 [pbd at 7455]
[bt] 0040f502 [pbd at f502]
[bt] 0040407e [pbd at 407e] main + 0x18de

Wenn ich den pbd nach dem Crash schnell genug per Console neu starte läuft die Box weiter.
Jedoch ist unter Telefonie/Telefonbuch nur ein Telefonbuch ohne Namen und Inhalt.
Lösche ich dieses und lege dann ein neues Google-Telefonbuch an werden die Einträge sauber synchronisiert und die Box läuft stabil. Bis zum nächsten gewollten Reboot, danach beginnt das Spiel von vorne.

Die original 6.20 zeigte dieses Verhalten mit dem Telefonbuch nicht und lief stabil.

In /var/tmp habe ich eine pbook.err gefunden, welche wohl durch den Prozess "pbd —import /var/tmp/pbook.xml" der beim Boot kurzzeitig zu sehen ist erzeugt wird.
Inhalt der pbook.err

2014-09-05 19:50:25 Google 403 HTTP_ERROR HTTP error gc_session.cpp 1188

Den Inhalt der pbook.xml habe ich gesichert falls er von Interesse seien sollte.

Anhänge (1)

.config (60.7 KB) - hinzugefügt von hawkeye80 vor 4 Jahren.
.config meines Images

Alle Anhänge herunterladen als: .zip

Änderungshistorie (16)

Geändert vor 4 Jahren durch hawkeye80

.config meines Images

comment:1 Geändert vor 4 Jahren durch hawkeye80

Zu ergänzen wäre wohl noch, dass wenn ich die Box per manuellem pbd start auf der Console am Reboot gehindert habe das Telefonbuch normal zur Verfügung steht und sogar fehlerfrei im WebIF synchronisiert werden kann.

comment:2 Geändert vor 4 Jahren durch Whoopie

Hatte ich bei meiner 7390 in Verbindung mit dem GMX Telefonbuch auch. Nach dem Löschen des Online-Telefonbuchs ging es. Da ich das Feature eigentlich nicht nutze, habe ich es nicht weiter untersucht.

comment:3 Geändert vor 4 Jahren durch hawkeye80

Hatte bis vor einigen Wochen auch eine 7390 mit Freetz (6.03-devel-12178) und dann die 7490 mit 6.05-devel-12282 bei den Versionen hatte ich die Probleme noch nicht. Kamen erst mit 6.20 mit freetz.

comment:4 Geändert vor 4 Jahren durch er13

Kann den Fehler auf meiner 7490.06.24release nachstellen bzw. der lässt sich nicht vermeiden:

2015-03-03 23:19:33 [Segmentation fault]
pbd[1208] crashed at 2ab1dbbc (/lib/libpthread.so.0: pthread_kill + 0xc) accessing 0x2afb4588
Version: 06.24
at: 00000001 v0: 2ab1dbb0 v1: 00005bb0
a0: 2afb4520 a1: 00000000 a2: 0042a0e0 a3: 00000001
t0: 00000001 t1: 00000000 t2: ffffffff t3: 2aaa8000
t4: f0000000 t5: 00000001 t6: 2ab18c98 t7: 00407449
s0: 0042a0e0 s1: 00422384 s2: 7fe1a7f0 s3: 2ac86df0
s4: 2aab0448 s5: 00484f70 s6: 00000002 s7: 00000000
t8: 000000ad t9: 2ab1dbb0
gp: 2aac7010 sp: 7fe19578 fp: 00000000 ra: 00407449
[bt] Code: afb00000 afb10004 <8c900068> 1a000019
[bt] 00407444 [pbd at 7445]
[bt] 0040f506 [pbd at f506]
[bt] 00404062 [pbd at 4062] main + 0x18c2
2015-03-03 23:24:23 [Segmentation fault]
pbd[1204] crashed at 2ab1dbbc (/lib/libpthread.so.0: pthread_kill + 0xc) accessing 0x2afb4588
Version: 06.24
at: 00000001 v0: 2ab1dbb0 v1: 00005bb0
a0: 2afb4520 a1: 00000000 a2: 0042a0e0 a3: 00000001
t0: 00000001 t1: 00000000 t2: ffffffff t3: 2aaa8000
t4: f0000000 t5: 00000001 t6: 2ab18c98 t7: 00407449
s0: 0042a0e0 s1: 00422384 s2: 7fb9b050 s3: 2ac86df0
s4: 2aab0448 s5: 00484f70 s6: 00000002 s7: 00000000
t8: 000000ad t9: 2ab1dbb0
gp: 2aac7010 sp: 7fb99dd8 fp: 00000000 ra: 00407449
[bt] Code: afb00000 afb10004 <8c900068> 1a000019
[bt] 00407444 [pbd at 7445]
[bt] 0040f506 [pbd at f506]
[bt] 00404062 [pbd at 4062] main + 0x18c2
2015-03-03 23:28:21 [Segmentation fault]
pbd[1207] crashed at 2ab1dbbc (/lib/libpthread.so.0: pthread_kill + 0xc) accessing 0x2afb4588
Version: 06.24
at: 00000001 v0: 2ab1dbb0 v1: 00005bb0
a0: 2afb4520 a1: 00000000 a2: 0042a0e0 a3: 00000001
t0: 00000001 t1: 00000000 t2: ffffffff t3: 2aaa8000
t4: f0000000 t5: 00000001 t6: 2ab18c98 t7: 00407449
s0: 0042a0e0 s1: 00422384 s2: 7fe539b0 s3: 2ac86df0
s4: 2aab0448 s5: 00484f70 s6: 00000002 s7: 00000000
t8: 000000ad t9: 2ab1dbb0
gp: 2aac7010 sp: 7fe52738 fp: 00000000 ra: 00407449
[bt] Code: afb00000 afb10004 <8c900068> 1a000019
[bt] 00407444 [pbd at 7445]
[bt] 0040f506 [pbd at f506]
[bt] 00404062 [pbd at 4062] main + 0x18c2

Workaround (es ist nicht nötig, die Box zu recovern):

  • DSL-Kabel abziehen
  • Box starten lassen
  • erst danach DSL-Kabel in die TAE-Dose einstecken
  • das online-Telefonbuch löschen (sofern dieses nicht angezeigt wird, dieses neu anlegen und gleich wieder löschen)

Und irgendwas sagt mir, es ist eng mit #2499 verbunden. Und es wird was mit uClibc zu tun haben.

comment:5 Geändert vor 4 Jahren durch er13

Epigraph: ich habe mich noch nie so über ein Boot-Loop gefreut!

Hallo zusammen,

es ist zwar nur eine Vermutung meinerseits, aber mein Gefühl sagt mir, bei den in #2499 und #2547 gemeldeten Problemen könnte es sich am Ende um dasselbe Problem handeln. Das Problem aus #2499 kann ich auf meiner Box nicht nachstellen, das aus diesem Ticket dagegen schon. Daher habe ich mich auf dieses Ticket gestürzt, in der Hoffnung, es würde dabei auch was für #2499 rausspringen.

Da es bisher keiner gemacht, habe ich endlich mal diesen Test gemacht und… hurra - ich habe mich noch nie so über ein Boot-Loop gefreut! Damit lässt sich die Fehlerursache auf uClibc/gcc/binutils (inkl. deren Konfiguration bzw. Compiler-Flags) einschränken.

Als nächstes habe ich die meisten uClibc-Patches ausgeschaltet (s. Liste unten) und den gleichen Test mit der so gebauten uClibc gemacht. Hurra, die Box rebootet nicht mehr. Damit sind gcc/binutils und uClibc .config zwar grundsätzlich als Fehlerursache noch nicht endgültig ausgeschlossen, aber die Wahrscheinlichkeit steigt, dass es an einem (oder auch mehreren) der uClibc-Patches liegt.

Ich versuche meinen aktuellen Stand hier nachvollziebar zu dokumentieren, wer mittesten möchte, gebt Bescheid. Vom Lesen her konnte ich keinen Patch eindeutig für das Problem verantwortlich machen, daher werde ich diese häppchenweise (binäre Suche wäre optimaler, mal schauen) hinzuaddieren, die uClibc neu bauen, ein Image, in dem nur die uClibc ersetzt ist, erstellen und flashen.

p.s. und da 7390.06.0x auch schon NPTL-enabled uClibc-0.9.33.x verwendet, müsste sie eigentlich auch von #2499/#2547 betroffen sein. Könnte das jemand bitte bestätigen/widerlegen?

Edit: der aktuelle Test-Stand ist in dem uclibc-testing branch dokumentiert

Zuletzt geändert vor 4 Jahren von er13 (vorher) (Diff)

comment:6 Geändert vor 4 Jahren durch er13

In 12989:

  • create uclibc-testing branch
  • refs #2547, refs #2499

comment:7 Geändert vor 4 Jahren durch er13

In 12990:

uClibc:

  • disable/rename/regroup some patches (WIP)
  • refs #2547, refs #2499

comment:8 Geändert vor 4 Jahren durch er13

In 12991:

uClibc:

  • reenable/rename/regroup some patches (WIP)
  • refs #2547, refs #2499

comment:9 Geändert vor 4 Jahren durch er13

In 12992:

uClibc:

  • reenable another set of patches
  • refs #2547, refs #2499

comment:10 Geändert vor 4 Jahren durch er13

Meine Tests zeigen, dass das Problem aus diesem Ticket eindeutig von 190-nptl_no_stack_cache.openwrt.patch verursacht bzw. getriggert wird.

comment:11 Geändert vor 4 Jahren durch er13

In 12993:

uClibc:

  • reenable another set of patches
  • refs #2547, refs #2499

comment:12 Geändert vor 4 Jahren durch er13

In 12995:

uClibc:

  • reenable NPTL-related patches
  • refs #2547, refs #2499

comment:13 Geändert vor 4 Jahren durch er13

In 13005:

[uclibc-testing branch]:

  • update uClibc-0.9.33.x based download toolchains
  • refs #1939, refs #2499, refs #2547

comment:14 Geändert vor 4 Jahren durch er13

In 13007:

[trunk]:

Note: all users of uClibc-0.9.33.2 based toolchain (both download and self-built) should backup their .config, call "make distclean", restore their .config and build everything anew, i.e. no autoupdate or whatever…

comment:15 Geändert vor 4 Jahren durch er13

  • Lösung auf fixed gesetzt
  • Status von new nach closed geändert
Hinweis: Hilfe zur Verwendung von Tickets finden Sie in TracTickets.