Domino主機Fault Restart
最近發現我們Domino主機(6.0.3版/AIX)不定時的發生因為Fault而自動重開的現象, 因為主機會自動寄信通知我們管理員, 所以一定會知道有這個情形, 有時候重開後系統行為就很正常, 但有時候, 重開後系統就不太正常! 至少在重開時, 那五分鐘的時間內, 使用者會覺得不能寄信或收信!
主機寄來的通知信內容如下:
Fault Recovery Notification: Server s02/Princo was restarted after a fault on 02/13/2007 08:28:41
一開始我在Domino管理員界面的log裡找問題, 結果出事的那段時間就是沒有log!
後來在AIX的目錄下(/server1)找到log檔, 如下:
-rw-r--r-- 1 notes notes 755783 Feb 13 08:34 dcntrlr02130000.log
這個檔的內容就有出事時的log, 如下:
02/13/2007 08:28:34 SMTP Server: 10.1.10.122 disconnected. 1 message[s] received
02/13/2007 08:28:36 SMTP Server: 10.1.32.2 connected
02/13/2007 08:28:39 SMTP Server: Message 00029EDA (MessageID: <45d105e3.2080008@princo.com.tw>) received
02/13/2007 08:28:39 SMTP Server: 10.1.32.2 disconnected. 1 message[s] received
Stack base = 0x2ff21840, Stack size = 124168 bytes
Fatal Error signal = 0x0000000b PID/TID/K-TID = 13994/1/18887
Tue Feb 13 08:28:41 Fault recovery is in progress
Tue Feb 13 08:28:41 Running NSD
NSD is in progress .................
Tue Feb 13 08:33:59 Terminating tasks
Tue Feb 13 08:34:01 Freeing resources
Tue Feb 13 08:34:01 Fault recovery completeddomino-exited
另外在另一個目錄下(/server1/IBM_TECHNICAL_SUPPORT), 有另一個log檔:
-rw-r--r-- 1 notes notes 5799656 Feb 13 08:34 nsd_all_AIX_s02_02_13@08_28.log
這個檔很大, 裡面記錄著出事時系統的詳細狀態, 包括所有的process情況, 所以由上面的log檔指出有問題的PID=13994, 來找看看是那一支程式, 結果:
F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD
240001 A notes 13994 13170 0 60 20 2442 125820 * Jan 27 - 164:20 /opt/lotus/notes/latest/ibmpow/tmmscan
沒錯就是Trend Micro的ScanMail軟體, 由於我們最近發生了幾次相同的問題, 以一樣的方式來查看, 都是指出Trend Micro的這支程式出問題, 所以很明顯的兇手就是它了!
基本上這是花錢買的程式, 但是我對它已經信心盡失, 直接將該程式關掉, 並把信導給FreeBSD, 由其上所執行的Sendmail收進去後, 由ClamAV來做AntiVirus的工作。今天還只是第二天, 到目前為止, 我們的Domino主機還沒再出一樣的問題, 持續觀察看看吧!
主機寄來的通知信內容如下:
Fault Recovery Notification: Server s02/Princo was restarted after a fault on 02/13/2007 08:28:41
一開始我在Domino管理員界面的log裡找問題, 結果出事的那段時間就是沒有log!
後來在AIX的目錄下(/server1)找到log檔, 如下:
-rw-r--r-- 1 notes notes 755783 Feb 13 08:34 dcntrlr02130000.log
這個檔的內容就有出事時的log, 如下:
02/13/2007 08:28:34 SMTP Server: 10.1.10.122 disconnected. 1 message[s] received
02/13/2007 08:28:36 SMTP Server: 10.1.32.2 connected
02/13/2007 08:28:39 SMTP Server: Message 00029EDA (MessageID: <45d105e3.2080008@princo.com.tw>) received
02/13/2007 08:28:39 SMTP Server: 10.1.32.2 disconnected. 1 message[s] received
Stack base = 0x2ff21840, Stack size = 124168 bytes
Fatal Error signal = 0x0000000b PID/TID/K-TID = 13994/1/18887
Tue Feb 13 08:28:41 Fault recovery is in progress
Tue Feb 13 08:28:41 Running NSD
NSD is in progress .................
Tue Feb 13 08:33:59 Terminating tasks
Tue Feb 13 08:34:01 Freeing resources
Tue Feb 13 08:34:01 Fault recovery completeddomino-exited
另外在另一個目錄下(/server1/IBM_TECHNICAL_SUPPORT), 有另一個log檔:
-rw-r--r-- 1 notes notes 5799656 Feb 13 08:34 nsd_all_AIX_s02_02_13@08_28.log
這個檔很大, 裡面記錄著出事時系統的詳細狀態, 包括所有的process情況, 所以由上面的log檔指出有問題的PID=13994, 來找看看是那一支程式, 結果:
F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD
240001 A notes 13994 13170 0 60 20 2442 125820 * Jan 27 - 164:20 /opt/lotus/notes/latest/ibmpow/tmmscan
沒錯就是Trend Micro的ScanMail軟體, 由於我們最近發生了幾次相同的問題, 以一樣的方式來查看, 都是指出Trend Micro的這支程式出問題, 所以很明顯的兇手就是它了!
基本上這是花錢買的程式, 但是我對它已經信心盡失, 直接將該程式關掉, 並把信導給FreeBSD, 由其上所執行的Sendmail收進去後, 由ClamAV來做AntiVirus的工作。今天還只是第二天, 到目前為止, 我們的Domino主機還沒再出一樣的問題, 持續觀察看看吧!
留言
其實我自以為寫得很具體了,可能是環境沒交代清楚! 我們那台Domino是一台IBM RS6000的主機, 而log檔(日誌文件)會存在兩個地方:1.Domino本身,你可以在管理員界面找到, 2.作業系統(OS),以RS6000來說,就是AIX的/server1目錄(視你當初安裝時的設定可能不同)。重點是:Fault Restart的問題,必須找作業系統的log檔!
而且只看這個log檔是不足以解決問題!必須看另一個檔(/server1/IBM_TECHNICAL_SUPPORT/nsd_all...)先由第一個log檔找到主機是由那一個程序引起問題的(找PID), 再由第二個檔,利用PID找到這個程序的名稱(以我們的情形來說,就是tmmscan)。這樣就知道是那個軟體造成問題的了, 那你可以針對這個軟體, 再去問問是不是有更新或修正程式; 或者以我的情況來說, tmmscan是某個商業防毒軟體, 我們決定是不再使用該軟體, 用別的, 這樣也是可以解決!
所以, 如果你的主機環境, 不是IBM RS6000, 而是其他種類的, 如SUN SOLARIX, HP-UNIX, Linux, Windows等, 那麼log檔的位置應該也不太相同, 你自己可能要找一下。