2007年2月14日 星期三

Domino主機Fault Restart

最近發現我們Domino主機(6.0.3版/AIX)不定時的發生因為Fault而自動重開的現象, 因為主機會自動寄信通知我們管理員, 所以一定會知道有這個情形, 有時候重開後系統行為就很正常, 但有時候, 重開後系統就不太正常! 至少在重開時, 那五分鐘的時間內, 使用者會覺得不能寄信或收信!
主機寄來的通知信內容如下:
Fault Recovery Notification: Server s02/Princo was restarted after a fault on 02/13/2007 08:28:41

一開始我在Domino管理員界面的log裡找問題, 結果出事的那段時間就是沒有log!
後來在AIX的目錄下(/server1)找到log檔, 如下:
-rw-r--r-- 1 notes notes 755783 Feb 13 08:34 dcntrlr02130000.log

這個檔的內容就有出事時的log, 如下:
02/13/2007 08:28:34 SMTP Server: 10.1.10.122 disconnected. 1 message[s] received
02/13/2007 08:28:36 SMTP Server: 10.1.32.2 connected
02/13/2007 08:28:39 SMTP Server: Message 00029EDA (MessageID: <45d105e3.2080008@princo.com.tw>) received
02/13/2007 08:28:39 SMTP Server: 10.1.32.2 disconnected. 1 message[s] received
Stack base = 0x2ff21840, Stack size = 124168 bytes
Fatal Error signal = 0x0000000b PID/TID/K-TID = 13994/1/18887
Tue Feb 13 08:28:41 Fault recovery is in progress
Tue Feb 13 08:28:41 Running NSD
NSD is in progress .................
Tue Feb 13 08:33:59 Terminating tasks
Tue Feb 13 08:34:01 Freeing resources
Tue Feb 13 08:34:01 Fault recovery completeddomino-exited

另外在另一個目錄下(/server1/IBM_TECHNICAL_SUPPORT), 有另一個log檔:
-rw-r--r-- 1 notes notes 5799656 Feb 13 08:34 nsd_all_AIX_s02_02_13@08_28.log

這個檔很大, 裡面記錄著出事時系統的詳細狀態, 包括所有的process情況, 所以由上面的log檔指出有問題的PID=13994, 來找看看是那一支程式, 結果:
F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD
240001 A notes 13994 13170 0 60 20 2442 125820 * Jan 27 - 164:20 /opt/lotus/notes/latest/ibmpow/tmmscan

沒錯就是Trend Micro的ScanMail軟體, 由於我們最近發生了幾次相同的問題, 以一樣的方式來查看, 都是指出Trend Micro的這支程式出問題, 所以很明顯的兇手就是它了!

基本上這是花錢買的程式, 但是我對它已經信心盡失, 直接將該程式關掉, 並把信導給FreeBSD, 由其上所執行的Sendmail收進去後, 由ClamAV來做AntiVirus的工作。今天還只是第二天, 到目前為止, 我們的Domino主機還沒再出一樣的問題, 持續觀察看看吧!
張貼留言