Domino主機Fault Restart

最近發現我們Domino主機(6.0.3版/AIX)不定時的發生因為Fault而自動重開的現象, 因為主機會自動寄信通知我們管理員, 所以一定會知道有這個情形, 有時候重開後系統行為就很正常, 但有時候, 重開後系統就不太正常! 至少在重開時, 那五分鐘的時間內, 使用者會覺得不能寄信或收信!
主機寄來的通知信內容如下:
Fault Recovery Notification: Server s02/Princo was restarted after a fault on 02/13/2007 08:28:41

一開始我在Domino管理員界面的log裡找問題, 結果出事的那段時間就是沒有log!
後來在AIX的目錄下(/server1)找到log檔, 如下:
-rw-r--r-- 1 notes notes 755783 Feb 13 08:34 dcntrlr02130000.log

這個檔的內容就有出事時的log, 如下:
02/13/2007 08:28:34 SMTP Server: 10.1.10.122 disconnected. 1 message[s] received
02/13/2007 08:28:36 SMTP Server: 10.1.32.2 connected
02/13/2007 08:28:39 SMTP Server: Message 00029EDA (MessageID: <45d105e3.2080008@princo.com.tw>) received
02/13/2007 08:28:39 SMTP Server: 10.1.32.2 disconnected. 1 message[s] received
Stack base = 0x2ff21840, Stack size = 124168 bytes
Fatal Error signal = 0x0000000b PID/TID/K-TID = 13994/1/18887
Tue Feb 13 08:28:41 Fault recovery is in progress
Tue Feb 13 08:28:41 Running NSD
NSD is in progress .................
Tue Feb 13 08:33:59 Terminating tasks
Tue Feb 13 08:34:01 Freeing resources
Tue Feb 13 08:34:01 Fault recovery completeddomino-exited

另外在另一個目錄下(/server1/IBM_TECHNICAL_SUPPORT), 有另一個log檔:
-rw-r--r-- 1 notes notes 5799656 Feb 13 08:34 nsd_all_AIX_s02_02_13@08_28.log

這個檔很大, 裡面記錄著出事時系統的詳細狀態, 包括所有的process情況, 所以由上面的log檔指出有問題的PID=13994, 來找看看是那一支程式, 結果:
F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD
240001 A notes 13994 13170 0 60 20 2442 125820 * Jan 27 - 164:20 /opt/lotus/notes/latest/ibmpow/tmmscan

沒錯就是Trend Micro的ScanMail軟體, 由於我們最近發生了幾次相同的問題, 以一樣的方式來查看, 都是指出Trend Micro的這支程式出問題, 所以很明顯的兇手就是它了!

基本上這是花錢買的程式, 但是我對它已經信心盡失, 直接將該程式關掉, 並把信導給FreeBSD, 由其上所執行的Sendmail收進去後, 由ClamAV來做AntiVirus的工作。今天還只是第二天, 到目前為止, 我們的Domino主機還沒再出一樣的問題, 持續觀察看看吧!

留言

匿名表示…
好啊,不知你的问题解决了没有,我也遇到了此问题,但不是很理解你所写的,能不能搞得具体点,让大家看了更容易懂.
雨恩寫道…
謝謝你的關心, 到目前為止, 已經一年多了, 我們那台Domino Server運作很正常, 沒有再出現任何問題!
其實我自以為寫得很具體了,可能是環境沒交代清楚! 我們那台Domino是一台IBM RS6000的主機, 而log檔(日誌文件)會存在兩個地方:1.Domino本身,你可以在管理員界面找到, 2.作業系統(OS),以RS6000來說,就是AIX的/server1目錄(視你當初安裝時的設定可能不同)。重點是:Fault Restart的問題,必須找作業系統的log檔!
而且只看這個log檔是不足以解決問題!必須看另一個檔(/server1/IBM_TECHNICAL_SUPPORT/nsd_all...)先由第一個log檔找到主機是由那一個程序引起問題的(找PID), 再由第二個檔,利用PID找到這個程序的名稱(以我們的情形來說,就是tmmscan)。這樣就知道是那個軟體造成問題的了, 那你可以針對這個軟體, 再去問問是不是有更新或修正程式; 或者以我的情況來說, tmmscan是某個商業防毒軟體, 我們決定是不再使用該軟體, 用別的, 這樣也是可以解決!
所以, 如果你的主機環境, 不是IBM RS6000, 而是其他種類的, 如SUN SOLARIX, HP-UNIX, Linux, Windows等, 那麼log檔的位置應該也不太相同, 你自己可能要找一下。

這個網誌中的熱門文章

D-BUS學習筆記

Cisco Switch學習筆記: EtherChannel

Cisco Switch學習筆記: interface的封包錯誤統計