วันอาทิตย์ที่ 21 มิถุนายน พ.ศ. 2558

อย่าไว้ใจทาง อย่าวางใจ Raid 1 (Mirror)

บ่อยครั้งที่ผมคุยกับ Zimbra Admin มือใหม่ เกี่ยวกับเรื่องการ Backup จะมีส่วนนึ่งที่ไม่ค่อยสนใจจะทำการ Backup ซักเท่าไหร่ เค้าเหล่านั้นให้เหตุผลว่า เครื่อง Server ที่ติดตั้ง Zimbra อยู่ มีระบบ mirror disk อยู่แล้ว วางใจได้ แต่ถ้าพูดเรื่องนี้ กับ Admin ที่มีประสบการณ์ส่วนใหญ่ เราจะเห็นตรงกันว่า Raid 1 ไว้ใจไม่ได้จริงๆ

 Raid 1   เป็นระบบที่เก็บข้อมูลเหมือนกัน ไว้ที่ Disk 2 ลูก หรือที่เราเรียกอีกอย่างว่า Mirror Raid ดูเผินๆ ก็น่าจะดีเพราะถ้า Disk ลูกใดลูกหนึ่งเสีย เรายังจะมีข้อมูลเหลือที่ Disk อีกลูกหนึ่ง และสามารถทำงานต่อไปได้โดยระบบไม่ล่ม

แต่อย่างไรก็ตาม ก็ยังมีจุดที่ต้องระวังคือ เราจะรู้ได้อย่างไรว่า Disk ในระบบ Raid 1 ของเราเสียไปแล้วลูกหนึ่ง เพราะระบบทำงานต่อได้

อย่าคิดว่าเป็นเรื่องเล่นๆ นะครับผมฝากการบ้าน ลองถามตัวคุณเองดูซิว่า เราจะรู้ได้อย่างไร ถ้าคุณตอบคำถามนี้ไม่ได้ แปลว่าหายนะ ใกล้มาถึงตัวคุณแล้ว

เอาหละ สมมติว่า คุณหาคำตอบได้แต่ ปัญหายังไม่จบครับ ผมมีนิทานเรื่องนึงมาเล่าให้คุณฟัง ......

นิทาน Raid 1
กาลครั้งหนี่ง ไม่ค่อยนานเท่าไหร่ มีเครื่อง Zimbra Server (Brand Name) อยู่เครื่องหนึ่ง รับใช้องค์กรมาหลายปีดีดัก เครื่องทำงานดีมากไม่เคยงองแง ทั้งๆที่แทบไม่ได้ปิดเลย นานๆ Reboot สักที

 วันหนึ่ง ผู้ดูและระบบเกิดสังเกตุเห็นว่า Disk มีอาการแปลกๆ เลยติดต่อบริษัทเจ้าของเครื่อง Server Brand Name นั้นมาดู (พอดีทำ MA ไว้) บริษัทก็รีบส่งช่างมาดู ก็พบว่า Disk ชุดที่ เป็น raid 1 มีลูกหนึ่งเสียเลยแจ้งให้ผู้ดูแลระบบทราบ และจัดแจงรีบหา Disk มาเปลี่ยน

ทุกอย่างดูดีไม่มีปัญหา เมื่อช่างได้ Disk ใหม่มาเรียบร้อย ช่างจัดการ ถอด Disk ลูกที่เสีย และใส่ Disk ใหม่เข้าไปและสั่งให้เครื่อง sync data จาก Mirror ลูกที่เหลืออยู่ ไปยังลูกใหม่ที่เพิ่งเปลี่ยนแทนลูกที่เสีย และขอตัวกลับ เพราะงานเหลือแค่รอ Disk Sync กันให้เรียบร้อย คงหลายชั่วโมง จะรอก็เสียเวลาเปล่าๆกลับบ้านดีกว่า

ชะรอยคงเป็นคราวเคราะห์ของช่าง Server คนนั้น ตอนมาดันลืมไหว้พระภูมิเจ้าที่หน้าตึก Disk ลูกเดิมที่อยู่ใน Mirror เกิดทนพิษบาดแผลไม่ไหว สิ้นใจตายตามคุ่ของมันที่ถุกถอดออกไปแล้ว จะรอให้ Sync เสร็จก่อนก็ไม่ได้ ผลก็คือ data ใน raid mirror นั้นไม่หายก็เหมือนหายหมด

 Data อะไรหลายคนคงสังสัย /opt/zimbra นะสิครับ ทั้ง config ทั้ง email เก่าๆ อยู่ในนั้นทั้งหมด เครื่อง Linux ทำงานได้ แต่ /opt/zimbra หายก็ งานเข้าหละทีนี้ น้องช่าง Server คนนั้นพูดไม่ออกเลยครับ ผู้ดูและระบบท่านนั้น ก็ไม่รู้จะเอาผิดกับใคร หลายคนคงคิดว่า นั้นมันหนึ่งในล้านๆ คงไม่เกิดกับเราหรอก แต่จริงแล้ว ไม่เป็นแบบนั้น

ทำไม่ Disk สองลูกถึงเสียในเวลาใกล้เคียงกัน คำตอบง่ายนิดเดียวครับ เพราะ Disk ที่คนขาย Server เกือบทั้ง 100% ใส่ให้มาในเครื่องเดียวกันเป็น Disk ที่ถูกผลิดมา ยี่ห้อเดียวกัน Lot เดียวกัน เรียกว่ามาจากกล่องเดียวกันเลย คุณสมบัติ ความคงทน จะใกล้เคียงกัน เคยได้ยินไหมครับของที่ผลิดจากโรงงาน เค้าจะสุ่มตรวจ ถ้าพบว่ามัปัญหา QC ไม่ผ่าน เค้าจะโล๊ะทั้ง Lot ทิ้ง ไม่เอาออกไปขายนี่คือเหตุผลว่าทำไม่โรงงานเค้าต้องทำแบบนั้น

Disk ใน Server พอเป็น Lot เดียวกัน อยู่ในเครื่องเดียวกัน ถูกใช้งานเหมือนๆกันมันก็มีโอกาสจะตายพร้อมกันหรือไม่ก็ในเวลาใกล้เคียงกันได้ ผมเคยเจอหนักกว่านั้น มีช่วงหนึ่งลูกค้าผมหลายๆ เจ้าซื้อเครื่อง Server ยี่ห้อเดียวกัน มาใช้ ปรากฏว่า Disk ทยอยเสียในเวลาใกล้ๆกัน

อย่างที่ผมบอก ผู้ดูและระบบน้องใหม่ มักไม่ทราบ รู้แต่ตามตำรา ถ้าเจอนอกตำราแบบนี้เข้าไป แล้วไม่ได้ Backup Zimbra ไว้ คงต้องเตรียมตัวเตรียมใจถูก User ตั้งแต่ระดับ เจ้านายถึงลูกน้อง  ด่าค่อนแคะกระแนะกระแหน ว่า

Server Down วันๆมัวทำอะไรอยู่ ...... มัวแต่เล่น Net หละซิ ......
แล้ว Email เก่าๆ ที่คุยกับลูกค้า ทำไมไม่  Backup ไว้ แล้วจะคุยกับลูกค้าต่อยังไง บริษัทเสียหายหลายล้านนะยะ... ว่าไปโน่น

แล้วจะป้องกันได้อย่างไร 
ทางที่ง่ายที่สุดก็คือ Backup ข้อมูลของ zimbra ไว้ครับ จะใช้วิธีไหนก็ตามสดวก แต่คิดให้รอบคอบก่อนนะครับ บางคนบอก ผมก็ทำ backup /opt/zimbra ไว้ แต่ข้อมูลที่ backup ไว้เก็บไว้บน filesystem ชุดเดียวกันกับ /opt/zimbra แบบนี้ ไม่ได้ช่วยอะไรถ้าเจอ disk พังแบบที่ผมเล่ามานะครับ  

ตอนจบของนิทานเรื่องนี้
หลายคนคงสงสัย พอดีระบบนี้ เป็นลูกค้าที่ผมดูแลอยู่ มีการ backup ข้อมูล ของ zimbra (Email, Calendar,Contact) เก็บไว้ที่เครื่องอื่น และพอดีเพิ่งย้ายข้อมูล จากเครื่องที่เจอปัญหานี้ ไปที่ server เครื่องใหม่ และเป็น Zimbra version ใหม่ เสร็จก่อนหน้าไม่กี่อาทิตย์ กำลังจะปลดระวางเครื่องที่มีปัญหานี้พอดี แต่เจอปัญหานี้เข้าก่อน งานเลยจบค่อนข้างสวยสำหรับผม

ผมได้เล่าเรื่องนี้ใน Class Zimbra Admin ครั้งล่าสุดที่ผมสอนให้ผู้เข้าอบรมฟัง พอดีใน Class นี้ผู้เข้าอบรมค่อนมีประสบการณ์ในการดูและระบบ ทุกคนเห็นด้วยและยังเล่าให้ฟังอีกว่าเจอบ่อย ยิ่งเป็นเครื่อง PC ที่ซื้อ lot เดียวกัน Disk จะเสียในเวลาใกล้เคียงกันหรือพร้อมๆกัน เรียกว่าถ้าเครื่องหมด MA แล้ว เตรียมซื้อ  Disk ไว้เปลี่ยนหลายๆตัวได้เลย

สุดท้าย วันนี้คุณ Backup Zimbra แล้วหรือยัง

ศิวัฒน์ ศิวะบวร