บางครั้งผู้ดำเนินการข้อมูลอาจทำผิดพลาดจนทำให้ศูนย์ข้อมูลทั้งหมดปิดตัวลง อย่างไรก็ตาม ปัญหาเหล่านี้ส่วนใหญ่สามารถหลีกเลี่ยงได้โดยใช้มาตรการบำรุงรักษา ขั้นตอนการตรวจสอบ และด้วยสามัญสำนึกและประสบการณ์ของผู้ปฏิบัติงานระบบ
"การหยุดทำงานของศูนย์ข้อมูลโดยไม่ได้วางแผน" เป็นวิธีสุภาพในการพูดถึงศูนย์ข้อมูลที่มีปัญหาซึ่งทำให้ระบบหยุดทำงาน ไม่ว่าสาเหตุที่แท้จริงคือข้อผิดพลาดของฮาร์ดแวร์ ข้อผิดพลาดของซอฟต์แวร์ หรือข้อผิดพลาดของมนุษย์ ข้อผิดพลาดเหล่านี้ส่วนใหญ่สามารถและควรได้รับการป้องกันล่วงหน้า เนื่องจากศูนย์ข้อมูลในปัจจุบันมีการสำรองความเสี่ยงในระดับสูง การป้องกันเหตุการณ์ล่วงหน้าจึงเป็นไปได้โดยสิ้นเชิง
สิ่งที่น่าสนใจอย่างหนึ่งก็คือข้อผิดพลาดทั้งใหญ่และเล็กยังคงสามารถเกิดขึ้นได้ตลอดเวลาในศูนย์ข้อมูล และความเสียหายที่เกิดขึ้นเมื่อศูนย์ข้อมูลหยุดทำงานนั้นก็มีไม่น้อยแม้แต่เพียงช่วงเวลาสั้นๆ นาที จากการศึกษาของ Data Center Knowledge การหยุดทำงานของศูนย์ข้อมูลอาจทำให้ธุรกิจต้องเสียค่าใช้จ่ายประมาณ 7,900 เหรียญสหรัฐต่อนาที ในความเป็นจริง 93% ของบริษัทที่มีการหยุดทำงานของศูนย์ข้อมูลเป็นเวลา 10 วันขึ้นไป ล้มละลายภายในหนึ่งปี และ 40% ล้มลงในทันที และการศึกษาวิจัยศูนย์ข้อมูล 41 แห่งที่ประเมินพบว่าต้นทุนโดยเฉลี่ยของการหยุดทำงานโดยไม่ได้วางแผนรวมถึงการหยุดชะงักทางธุรกิจมากกว่า 179,000 ดอลลาร์ รายได้ที่สูญเสียไปประมาณ 118,000 ดอลลาร์ และประสิทธิภาพการทำงานประมาณ 42,000 ดอลลาร์ หากผู้จัดการศูนย์ข้อมูลมุ่งเน้นที่การวิจัยและแก้ไขสาเหตุหลักของข้อผิดพลาดทั่วไปมากขึ้น พวกเขาจะลดความเสี่ยงที่อาจเกิดขึ้นได้อย่างมาก
ปัญหาคือผู้ดำเนินการศูนย์ข้อมูลและผู้ดำเนินการศูนย์ข้อมูลจำนวนมากมักให้ความสำคัญกับการเติบโตและรายได้มากกว่าการรักษาและเสริมสร้างความเข้มแข็งให้กับสิ่งที่มีอยู่แล้ว หากคุณให้ความสนใจกับผู้ดูแลระบบในศูนย์ข้อมูลสาธารณะและส่วนตัวหลายแห่งในปัจจุบัน คุณจะพบว่า พวกเขาแทบจะกังวลเป็นพิเศษกับการเพิ่มความจุในการจัดเก็บข้อมูล ความหนาแน่นของเซิร์ฟเวอร์ที่เพิ่มขึ้น และความหนาแน่นของเซิร์ฟเวอร์ที่เพิ่มขึ้น ดัดแปลงเซิร์ฟเวอร์ฟาร์มที่ล้าสมัยให้กลายเป็นสิ่งอำนวยความสะดวกที่ทันสมัยยิ่งขึ้นและมีประสิทธิภาพมากขึ้น ระบบทำความเย็น เป็นต้น แม้ว่าทั้งหมดนี้เป็นสิ่งที่ดี มีความจำเป็นมากและแสดงให้เห็นถึงการเติบโตอย่างไม่น่าเชื่อในอุตสาหกรรมการจัดเก็บข้อมูล แต่ยังแสดงให้เห็นว่าเหตุใดศูนย์ข้อมูลจึงล้มเหลว เกิดขึ้นบ่อยขึ้นเรื่อย ๆ
ในบทความนี้ เราจะสำรวจสาเหตุทั่วไปที่ทำให้ศูนย์ข้อมูลถูกปิดใช้งาน และเน้นสิ่งที่ผู้ดูแลระบบสามารถทำได้เพื่อลดหรือกำจัดศูนย์ข้อมูลเหล่านั้น แก้ไขปัญหาเหล่านี้ให้ครบถ้วน รวมถึงปรับปรุงเสถียรภาพของระบบของคุณ
สาเหตุที่ทำให้ Data Center ล่มสลาย
ข้อผิดพลาดที่เกิดจากมนุษย์
สิ่งเหล่านี้เป็นสาเหตุที่ง่ายที่สุดและเป็นหนึ่งในสาเหตุที่หลีกเลี่ยงได้ยากที่สุด พูดง่ายๆ ทุกคนสามารถทำผิดพลาดได้ เนื่องจาก 22% ของการหยุดทำงานเกิดจากข้อผิดพลาดของมนุษย์ สาเหตุนี้จึงควรค่าแก่การพิจารณาอย่างรอบคอบ และที่สำคัญคือสามารถป้องกันได้ค่อนข้างง่าย
การอนุญาตระบบที่ไม่เหมาะสม
ในความเป็นจริง มีผู้ดูแลระบบเพียงไม่กี่รายเท่านั้นที่สามารถเข้าถึงระบบทั้งหมดในศูนย์ข้อมูลได้เต็มรูปแบบและไม่จำกัด แทนที่จะให้สิทธิ์นี้แก่ผู้คนมากขึ้น การเข้าถึงจะต้องได้รับการจัดการอย่างเข้มงวด มิฉะนั้นอาจเป็นไปได้ทั้งหมดว่าอาจเกิดข้อผิดพลาดร้ายแรงในระบบได้ ตัวอย่างเช่น ในเหตุการณ์ Joyent ในปี 2014 ผู้ดูแลระบบที่มีประสบการณ์รีสตาร์ทเครื่องเสมือนทั้งหมดในศูนย์ข้อมูลฝั่งตะวันออกของบริษัทโดยไม่ได้ตั้งใจด้วยการคลิกเพียงไม่กี่ครั้ง
ขั้นตอนการสำรองข้อมูลไม่ดี
เมื่อวางแผนงานบำรุงรักษา ขั้นตอนที่สำคัญแต่มักถูกลืมคือกระบวนการสำรองข้อมูล บ่อยครั้งที่กระบวนการต่างๆ ได้รับการจัดทำเป็นเอกสารแต่ไม่ได้รับการตรวจสอบอย่างละเอียด และหลายครั้งที่สิ่งต่างๆ ไม่ได้คืนสู่รูปแบบเดิมอย่างสมบูรณ์หลังการบำรุงรักษา
ทำการเปลี่ยนแปลงมากเกินไป
ในระหว่างการบำรุงรักษา หากผู้ดูแลระบบพยายามทำการเปลี่ยนแปลงมากเกินไปในคราวเดียว อาจทำให้เกิดปัญหาได้ ประการแรก ผู้ดูแลระบบมักจะมีความคิดที่เร่งรีบ เนื่องจากต้องทำงานจำนวนมากให้เสร็จสิ้นภายในระยะเวลาอันสั้น ซึ่งมักจะนำไปสู่ข้อผิดพลาด ประการที่สอง เนื่องจากมีการเปลี่ยนแปลงมากมายเกิดขึ้นในช่วงเวลาเดียวกัน การแก้ปัญหาหลังการเปลี่ยนแปลงจึงเป็นงานที่ยากขึ้นมาก
ความหละหลวมในการจัดการทรัพยากรมนุษย์
อาจจะดูรุนแรงไปสักหน่อยแต่พนักงานต้องรู้จักปฏิบัติตามกฎของศูนย์อย่างเคร่งครัดและต้องได้รับวินัยอย่างเข้มงวดเมื่อฝ่าฝืน ตัวอย่างเช่น ไม่มีศูนย์ข้อมูลใดที่อนุญาตให้พนักงานรับประทานอาหารหรือดื่มเครื่องดื่มขณะทำงาน หรือต้องมีป้ายสวิตช์ฉุกเฉินไว้อย่างชัดเจนและปิดอย่างปลอดภัย สิ่งเหล่านี้อาจดูเล็กน้อยแต่สามารถนำไปสู่เหตุการณ์สำคัญได้ ดังนั้นโปรดตรวจสอบให้แน่ใจว่าได้ปฏิบัติตามกฎอย่างเคร่งครัดเสมอ
ระบบผิดพลาด
ไม่รับประกันพลังงานสำรอง อุปกรณ์เก่าหรือกำหนดค่าไม่ถูกต้อง
สาเหตุที่พบบ่อยที่สุดที่ทำให้ศูนย์ข้อมูลล่มเนื่องมาจากไฟฟ้าดับ ไฟฟ้าดับสามารถเกิดขึ้นได้ตลอดเวลา ดังนั้นศูนย์ข้อมูลจึงได้รับการออกแบบให้มีแหล่งพลังงานสำรองในกรณีที่ไฟฟ้าหลักขัดข้อง แบตเตอรี่หรือระบบเครื่องกำเนิดไฟฟ้ามักใช้เป็นพลังงานสำรอง ปัญหาคือเปลี่ยนแบตเตอรี่ไม่ทัน, เครื่องกำเนิดไฟฟ้าอาจไม่ได้รับการตรวจสอบและบำรุงรักษาทำให้เกิดปัญหาเมื่อไฟฟ้าดับ ทั้งหมดนี้หมายความว่าความสามารถในการสำรองข้อมูลของคุณอาจไม่พร้อมใช้งานเมื่อคุณต้องการมากที่สุด
ในกรณีที่ไฟฟ้าดับ ระบบ UPS จะใช้แบตเตอรี่เป็นพลังงานสำรอง ทำให้เป็นส่วนสำคัญในการรักษาเวลาทำงานของศูนย์ข้อมูล อย่างไรก็ตาม แบตเตอรี่ทำงานได้ไม่ดีเสมอไป ดำเนินการบำรุงรักษาตามคำแนะนำของผู้ผลิตเองเพื่อตรวจสอบสภาพแบตเตอรี่ ควรตรวจสอบแบตเตอรี่ว่ามีการติดตั้ง การคายประจุ และการชาร์จอย่างเหมาะสมอย่างน้อยทุกไตรมาส ซึ่งรวมถึงการตรวจสอบด้วยสายตา การตรวจสอบความจุ และการตรวจสอบเป็นประจำผ่านซอฟต์แวร์หรือจากซัพพลายเออร์ของ UPS เอง
นอกจากนี้ อุณหภูมิที่สูงอาจทำให้อายุการใช้งานแบตเตอรี่ของระบบสั้นลง การสร้างห้อง UPS โดยเฉพาะสามารถช่วยลดการสึกหรอของอายุการใช้งานแบตเตอรี่ได้ คุณควรหลีกเลี่ยงการคายประจุแบตเตอรี่บ่อยๆ และดูแลการเชื่อมต่อที่หลวมหรือขั้วต่อที่ชำรุดให้ดี กล่าวโดยสรุป UPS เป็นระบบที่สำคัญอย่างยิ่ง โดยต้องมีการออกแบบที่สมเหตุสมผล การใช้งานที่เหมาะสม และการบำรุงรักษาที่เข้มงวด
ความผิดปกติในระบบทำความเย็น
ระบบเครื่องกลในศูนย์ข้อมูลใช้พลังงานไฟฟ้ามาก ซึ่งหมายความว่าระบบจะปล่อยความร้อนจำนวนมากขณะทำงาน ศูนย์ข้อมูลสามารถกลายเป็นโรงเผาศพได้หลังจากใช้งานไปหนึ่งนาที นั่นเป็นเหตุผลว่าทำไมระบบทำความเย็นจึงมีความสำคัญมาก และแม้ว่าคุณจะมีการอ่านเซ็นเซอร์อุณหภูมิและส่งการแจ้งเตือนไปยังผู้ดูแลระบบ คุณต้องแน่ใจว่าคุณมีเวลาเพียงพอในการดำเนินขั้นตอนการทำความเย็นสำรองของศูนย์ก่อนที่ทุกอย่างจะละลาย วิ่ง"
นอกจากนี้ ระบบระบายความร้อนจำนวนมากไม่ได้ออกแบบมาให้ตามระดับความร้อนที่เพิ่มขึ้นในศูนย์ข้อมูลความจุสูงสมัยใหม่จริงๆ ขอย้ำอีกครั้งว่า การวางแผนสถานการณ์ที่ศูนย์ข้อมูลของคุณทำงานที่ความจุ 100% สามารถช่วยวางแผนระบบระบายความร้อนที่ดีขึ้นในอนาคตได้ จำเป็นต้องตั้งค่าระบบเตือนความผันผวนของอุณหภูมิระบบด้วย คุณสามารถใช้ซอฟต์แวร์สร้างแบบจำลองความร้อนและระบบ DCIM บางระบบได้ นอกจากนี้ สารทำความเย็นแบบเคมียังเป็นทางเลือกที่ดีกว่าระบบที่ใช้น้ำอีกด้วย
กระบวนการแปลงอัตโนมัติทำงานไม่ถูกต้อง
ผู้ให้บริการ องค์กร และธุรกิจส่วนใหญ่มีศูนย์ข้อมูลสำรองที่ใช้สำหรับศูนย์ข้อมูลการผลิต ในกรณีที่ไฟฟ้าดับที่ศูนย์ข้อมูลหลัก ศูนย์ข้อมูลสำรองจะเริ่มทำงานโดยอัตโนมัติ และการรับส่งข้อมูลทั้งหมดจะถูกส่งไปยังสถานที่สำรองข้อมูลนั้น หากทำอย่างถูกต้อง กระบวนการควรจะราบรื่นไปจนถึงผู้ใช้ปลายทาง ขออภัย การเฟลโอเวอร์อัตโนมัติมักจะไม่ทำงานตามที่คาดไว้ สาเหตุปกติของปัญหานี้คือการไม่มีการทดสอบเป็นประจำ แม้แต่การเปลี่ยนแปลงเล็กๆ น้อยๆ ในโครงสร้างพื้นฐานการผลิตก็อาจส่งผลกระทบอย่างมากต่อการเปลี่ยนระบบอัตโนมัติได้ ดังนั้น เมื่อทำการเปลี่ยนแปลงโครงสร้างพื้นฐาน จะต้องทดสอบกระบวนการเฟลโอเวอร์อัตโนมัติเพื่อให้แน่ใจว่าไม่มีสิ่งใดเบี่ยงเบนไปจากกระบวนการ
ฮาร์ดแวร์ที่ล้าสมัย
ฮาร์ดแวร์ทั้งหมดของแต่ละระบบมีอายุการใช้งานที่แน่นอน และยิ่งคุณใช้ฮาร์ดแวร์นานเท่าไร คุณก็จะยิ่งประสบปัญหามากขึ้นเท่านั้น ทุกคนรู้เรื่องนี้ แต่เป็นเรื่องปกติที่แอปพลิเคชันสำคัญจะพังเพียงเพราะมันทำงานบนฮาร์ดแวร์อายุ 10 ปี ปัญหาเหล่านี้มักเกิดขึ้นเนื่องจากการไม่มีแผนการเปลี่ยนและอัปเกรดที่ครอบคลุมสำหรับแพลตฟอร์มฮาร์ดแวร์หรือซอฟต์แวร์ใหม่ หรือเนื่องจากขาดงบประมาณ ถ้าเป็นเรื่องเงินก็ทำอะไรไม่ได้ แต่ถ้าคุณพยายามใช้ประโยชน์ให้นานที่สุด ปัญหาอาจเกิดขึ้นได้ตลอดเวลา และเมื่อเป็นเช่นนั้น ความเสียหายที่เกิดจากปัญหาก็อาจยิ่งใหญ่กว่านั้นมาก
ระบบดับเพลิงมีปัญหาน้ำรั่ว
ศูนย์ข้อมูลสมัยใหม่ส่วนใหญ่ใช้ระบบป้องกันอัคคีภัยแบบไม่ใช้น้ำเพื่อไม่ให้อุปกรณ์เสียหายหากเปิดใช้งานโดยตั้งใจหรือโดยไม่ได้ตั้งใจ แต่สถานที่เก่าๆ หลายแห่งยังคงใช้ระบบป้องกันอัคคีภัยแบบเดิมในศูนย์ข้อมูลของตน น้ำรั่วหลายครั้งทำให้เกิดไฟฟ้าดับครั้งใหญ่
การปิดเครื่องฉุกเฉินถูกเปิดใช้งานโดยไม่ตั้งใจ
การรักษาความปลอดภัยทางกายภาพระดับสูงในศูนย์ข้อมูลส่วนใหญ่ไม่เพียงแต่ป้องกันขโมยเท่านั้น นอกจากนี้ยังมีการหลีกเลี่ยงพนักงานที่ไม่เข้าใจว่าศูนย์ข้อมูลทำงานอย่างไร ตัวอย่างเช่น ผู้ดูแลระบบแอปพลิเคชันเดินเข้าไปในศูนย์ข้อมูลและทำให้เกิดการปิดเครื่องฉุกเฉิน (EPO) โดยไม่ได้ตั้งใจ EPO คือปุ่มสีแดงขนาดใหญ่ ทำหน้าที่ตัดไฟทั้งระบบ และแน่นอนว่าสำหรับผู้ที่ไม่เข้าใจหรือไม่เชี่ยวชาญ ความสับสนดังกล่าวอาจเป็นไปได้โดยสิ้นเชิง
ภายใต้การโจมตีทางไซเบอร์ ddos
ในช่วงหลายปีที่ผ่านมาการโจมตีทางไซเบอร์ได้กลายเป็นหนึ่งในสาเหตุหลักของความล้มเหลวของศูนย์ข้อมูล จากเพียง 2% ในปี 2553 เป็น 22% ในปี 2559 ผู้ปฏิบัติงาน ศูนย์ข้อมูลจะต้องดำเนินการเพื่อสร้างระบบเพื่อตรวจจับและลดความเสี่ยงของการโจมตีตั้งแต่เนิ่นๆ
ศูนย์ข้อมูลเป็นเรื่องยากที่จะป้องกันการโจมตี DDoSขนาดใหญ่ ISP ส่วนใหญ่ให้การป้องกันที่เลเยอร์ 3 และ 4 ของเครือข่าย แต่บริการของคุณต้องการการป้องกันเพิ่มเติมที่เลเยอร์ 7 ซึ่งสามารถกำหนดเป้าหมายโดยเฉพาะผ่าน HTTP GET หรือการโทร การโจมตีที่คล้ายกัน บริการบรรเทาผลกระทบ เช่น ไฟร์วอลล์, IPS/IDS และ DDoS สามารถรวมกันเพื่อเปลี่ยนเส้นทางการรับส่งข้อมูลได้
ภัยพิบัติทางธรรมชาติ
พายุและน้ำท่วมที่เพิ่มขึ้นเมื่อเร็วๆ นี้อาจทำให้ศูนย์ข้อมูลหยุดชะงักอย่างมีนัยสำคัญ ภัยพิบัติทางธรรมชาติมากกว่า 250 ครั้งเกิดขึ้นในปี 2010 ในสหรัฐอเมริกา ตามสถิติ รัฐนิวเจอร์ซีย์ สหรัฐอเมริกา ประสบความสูญเสียมูลค่า 63.9 พันล้านดอลลาร์เนื่องจากการหยุดชะงักทางธุรกิจที่เกิดจากพายุแซนดี้ขนาดใหญ่ในปี 2555
ขั้นตอนในการจำกัดความเสียหายที่เกิดจากเหตุการณ์ "ล่มสลาย" ของศูนย์ข้อมูล
หากมีการวางแผนการหยุดทำงานเพื่อการบำรุงรักษาตามปกติอย่างรอบคอบ และลูกค้าได้รับคำเตือนล่วงหน้าเกี่ยวกับการหยุดทำงานของศูนย์ โดยเฉพาะอย่างยิ่งในช่วงที่มีการจราจรน้อย ลูกค้าจะรู้สึกเห็นใจมากขึ้นและความเสียหายจะลดลงอย่างมาก ความเสียหายที่ยิ่งใหญ่ที่สุดเกิดขึ้นเมื่อเกิดขึ้นโดยไม่คาดคิด และโดยเฉพาะอย่างยิ่งเมื่อมันกินเวลานานและเกิดปัญหาเพิ่มเติม รักษาระบบทรัพยากรของบริษัททั้งหมดให้มีเสถียรภาพ เพื่อให้พนักงานสามารถทำงานได้อย่างมีประสิทธิภาพ ช่วยลดภาระในแผนกไอที
โดยเฉพาะ:
- สำรองข้อมูลของคุณ: ในกรณีที่คุณเผชิญกับการหยุดทำงานของศูนย์ข้อมูล ข้อมูลของคุณ (และที่สำคัญกว่านั้นคือข้อมูลลูกค้าของคุณ) ควรพร้อมเมื่อคุณเริ่มต้น เริ่มการแก้ไขปัญหาและเรียกใช้อีกครั้ง การสำรองข้อมูลเป็นประจำจะช่วยจำกัดความเสี่ยงของการล่มสลายที่แท้จริง หากบริษัทของคุณสามารถซื้อได้ ผลิตภัณฑ์บางอย่าง เช่น กลุ่มผลิตภัณฑ์ VPLEX ของ EMC หรือซอฟต์แวร์ Backup and Replication ของ VEEAM สามารถช่วยลดเวลาหยุดทำงานให้เหลือน้อยที่สุดด้วยการสลับไปยังตำแหน่งที่สำรองข้อมูลโดยอัตโนมัติ
- รักษาการตรวจสอบระบบเซิร์ฟเวอร์อย่างสม่ำเสมอ: การตรวจสอบเป็นบริการที่คุณสามารถทำได้เป็นประจำและโดยปกติจะไม่มีค่าใช้จ่ายมากเกินไป บริการตรวจสอบจากบุคคลที่สามจะแจ้งให้คุณทราบถึงการหยุดทำงานของเซิร์ฟเวอร์ที่อาจเกิดขึ้น เพื่อให้คุณสามารถจัดการปัญหาได้ทันที
- ลดข้อผิดพลาดของมนุษย์: ใช้ความระมัดระวังเมื่อทำงานหรือเดินไปรอบๆ ระบบเซิร์ฟเวอร์หรือสายไฟเพื่อหลีกเลี่ยงไม่ให้ระบบเสียหายโดยไม่ตั้งใจ หรืออย่าสัมผัสสวิตช์ลึกลับโดยที่คุณไม่เชี่ยวชาญ เก็บของเหลวให้ห่างจากระบบกลไก โทรหาผู้เชี่ยวชาญด้านการปกป้องข้อมูลทุกครั้งที่เซิร์ฟเวอร์ต้องการการอัพเกรดหรือบำรุงรักษา และปฏิบัติตามกฎของศูนย์
ศูนย์ข้อมูลทุกแห่ง ตั้งแต่ศูนย์ขนาดเล็กไปจนถึงสิ่งอำนวยความสะดวกระดับองค์กรและผู้ให้บริการ จะต้องพยายามอย่างเต็มที่ 100% เพื่อให้บริการที่เชื่อถือได้แก่ผู้ใช้ ด้วยการสละเวลาในการวางแผนสำหรับอนาคตโดยปฏิบัติตามหลักการบำรุงรักษาและปัจจัยด้านมนุษย์ ศูนย์ข้อมูลของคุณสามารถหลีกเลี่ยงสาเหตุที่พบบ่อยที่สุดบางประการของปัญหาไฟดับได้
ดูเพิ่มเติม