시스템 패닉메시지 Score05/Score95

2010.05.12 03:05

조인상 조회 수:6730

원문 : http://www.ischo.net -- 조인상 // 시스템 엔지니어

Writer : http://www.ischo.net -- ischo // System Engineer in Replubic Of Korea

+++++++++++++++++++++++++++++++++++++++++++++++++++++++

 

본문 : http://www.ischo.net -- 조인상 //시스템 엔지니어

+++++++++++++++++++++++++++++++++++++++++++++++++++++++


시스템에 패닉이 발생하면서 리부팅 될때는 여러가지 원인이 있을 수 있습니다.
그중 한가지 유형의 분석을 돕기 위해서 아래의 패치들에 추가된 기능이
있습니다.

Solaris 2.5.1 : 103640-34
Solaris 2.6 : 105181-23
Solaris 7 : 106541-13
Solaris 8 : 108528-04

아래의 메세지를 자세히 보시면 (Score 05)라는 부분이 있습니다.
이것은 위의 패치들이 적용되 있을 경우에만 나타나는 메세지로
메세지에 나타나는 CPU가 패닉의 원인을 제공한것인지의 여부에 대한
점수를 100점 만점의 수치로 보여줍니다.  점수는 05 에서 95중
어느 값을 가질 수도 있지만 거의 항상 05나 95점 둘중에 하나가
지정됩니다.(Score 05: 패닉을 유발하지 않음, Score 95: 패닉 유발/교체 대상)

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800

점수는 AFSR(Asynchronous Fault Status Register)에 저장되어 있는
비트값에 의거하여 지정됩니다.  CPU와 CPU에서 데이타를
서로 주고 받을 때 하드웨어/소프트웨어의 문제로 인해
데이타의 완결성이 깨질수가 있습니다.  데이타가 깨진 것을 발견하면
그때의 상황에 따라 AFSR 레지스터에 각각의 비트가 세팅됩니다.
(80200000 = 10000000001000000000000000000000)

AFSR의 값을 확인해 보면 어떤 CPU가 데이타를 요청했고 어떤 CPU가
데이타를 보내는 것이 였는지를 확인할 수가 있습니다.  데이타를
요청한 CPU는 불량이 아니겠지요. 그러나 일일이 32비트 값을 항상 확인할
수는 없고 따라서 필드 엔지니어들의 업무를 수월하게 하기 위해서 시스템은
패닉으로 리부팅되면서 자체 분석을 통해서 점수를 보여주는 것입니다.

시스템에 패닉이 발생할 때 패닉 메세지를 자세히 확인해 보시기 바랍니다.
AFSR 0x00000000.######## 의 패턴을 갖는 메세지가 있는지 확인하시고
있다면 시스템에서 자체적으로 분석한 점수(Score ##)를 확인하시기 바랍니다.

/var/adm/messages 또는

# adk -k unix.0 vmcore.0
$<msgbuf

를 통해서 확인하실 수 있습니다.


예 1) CPU10번 교체대상

WARNING: [AFT1] WP event on CPU10, errID 0x000d99f1.038e8d48
    AFSR 0x00000000.00800400<WP> AFAR 0x000001c4.f8800030
    AFSR.PSYND 0x0400(Score 95) AFSR.ETS 0x00 Fault_PC 0x100826b0
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0000 UDBL.ESYND 0x00
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.1f00daa0
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.1f00daa0 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.1f00daa0 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.1f00daa0: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.1f00daa0 Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.21d007bc
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.21d007bc Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.21d007bc PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.21d007bc: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.21d007bc Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] errID 0x000d99f5.a9d4e269 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f5.a9d4e269 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
syncing file systems...panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944

예 2) CPU 14번 교체대상

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000db615.44f55a6b Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000db615.44f55a6b PA=0x00000000.490b9038
    E$tag 0x00000000.0fc00921 E$State: Modified E$parity 0x07
[AFT2] E$Data (0x00): 0x00000000.701d7b24
[AFT2] E$Data (0x08): 0x00000000.baddcafe
[AFT2] E$Data (0x10): 0x00000000.00000000
[AFT2] E$Data (0x18): 0x728f4f20.728f4f20
[AFT2] E$Data (0x20): 0x00000000.00000000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.baddcafe
[AFT2] E$Data (0x38): 0x00000000.00100000 *Bad* PSYND=0x00ff
WARNING: [AFT1] CP event on CPU14 (caused Data access error on CPU10), errID 0x0
00db615.44f55a6b
    AFSR 0x00000000.01000004<CP> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0004(Score 95) AFSR.ETS 0x00
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x00c8 UDBL.ESYND 0xc8
WARNING: [AFT2] errID 0x000db615.44f55a6b No cache dump available
panic[cpu10]/thread=701d7b20: [AFT1] errID 0x000db615.44f55a6b UE Error(s)
    See previous message(s) for details
syncing file systems...WARNING: tmp_putapage: err 5

  [21] 4WARNING: tmp_putapage: err 5

  [21] 2panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944
번호 제목 글쓴이 날짜 조회 수
공지 [공지] 게시자료 열람자유. 불펌금지입니다. 조인상 2010.12.07 20164
33 운영체제별 명령어 비교 조인상 2010.05.12 7110
32 Sun/Qlogic HBA WWN 알아보는법 조인상 2010.05.12 18275
31 SUN 용 시리얼케이블 제작법 file 조인상 2010.05.12 16189
30 솔라리스 이더넷카드 인터페이스 종류 조인상 2010.05.12 8991
29 Sun Performance And Tuning - Sparc & Solaris file 조인상 2010.05.12 6497
28 Solaris 10 Virtual Exam file 조인상 2010.05.12 6521
27 number of files (nofiles : File descriptor)값 변경하는 법 조인상 2010.05.12 11752
26 about iostat 조인상 2010.05.12 7796
25 솔라리스 10 매뉴얼 file 조인상 2010.05.12 14213
24 Solaris Volume Manager Admin Guide file 조인상 2010.05.12 7834
23 NIC 속도 확인방법 조인상 2010.05.12 19788
22 솔라리스 10 접속서비스 설정 (telnet ftp ssh) 조인상 2010.05.12 16483
21 같은아이디로 여러번 로그인(멀티로그인) 금지 방법 조인상 2010.05.12 10673
20 솔라리스8 ssh 설치 조인상 2010.05.12 17356
19 솔라리스10에서 tcp_wrapper 사용하기/설정 조인상 2010.05.12 19588
18 [ksh] 여러개의 프로세스 kill 시키는 스크립트 조인상 2010.05.12 15568
17 FTP 관련 포트 정리 file 조인상 2010.05.12 19223
16 UTP 케이블. 다이렉트/크로스 제작방법 조인상 2010.05.12 15617
15 C++ 테스트 코드 조인상 2010.05.12 14049
14 SUN ILOM 2.0 기능 및 설명 file 조인상 2010.05.24 31267
서버에 요청 중입니다. 잠시만 기다려 주십시오...