ERROR: Cannot signon with heartbeat

問題描述:
在某次UPS不正常跳後,所有吃這台UPS的電腦都CRASH。而重新開機之後,有一組作為HA的主機突然就不能使用,使用cl_status nodestatus 查詢主機目前狀態時出現下面兩條錯誤:

ERROR: Cannot signon with heartbeat
REASON: hb_api_signon: Can’t initiate connection to heartbeat


查詢 /var/log/ha-debug記錄檔發現一長串這樣的記錄:heartbeat[3869]: 2011/03/20_04:02:14 ERROR: Message hist queue is filling up (500 messages in queue)

而在沒有問題的一台查詢到的結果是:
自已的狀態是:active
那台有問題的狀態是:dead

檢查:
1. 設定檔沒有發現兩台之間有任何設定有問題
2. ping 互相檢查對方的網路介面是否正常,都可以ping到對方的網路介面
3. nmap 互相檢查對方所開啟的服務端口,發現從正常的那台檢查有問題那台nmap會告訢我們說請確認主機是否開機。但是從有問題的那台檢查正常的那台,nmap確完整的回覆我們的查詢。

推測問題點:
第三點猜測可能是服務端口不正常,所造成ha不能正常運作。但是從發現ha有問題之後,我也已經對有問題這台主機重新開機二回了,也有嘗試重新啟動heartbeat過,但狀況還是不能解決。

解決方法:
直到兩天後上班日,由上述的檢查步驟依依檢查。最後用pkill -9 heartbeat 將有問題的主機強制關閉heartbeat,之後在啟動heartbeat機制就又回復了正常。在將剛回復正常的主機重新開機後HA仍然正常。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s