VMCP (VM Component Protection)

(VMCP (VM Component Protection

مجازی سازی

رایانش ابری

در پلتفرم مجازی سازی vSphere 6.0 یک ماژول جدید به ماژول های High Availability اضافه گردید که این ماژول VMCP نام دارد .

وظیفه اصلی این ماژول محافظت از ماشین های مجازی در هنگام بوجود آمدن مشکلات برای ذخیره ساز می باشد، بدین معنی که  در صورت Fail شدن ذخیره ساز ماشین های مجازی در امان خواهند بود.

قبل از اینکه نحوه کارکرد این ماژول را بررسی کنیم ابتدا احتیاج است تا با انواع Failure ذخیره ساز در محیط های مجازی سازی آشنا شویم.

به طور کلی دو نوع قطعی ذخیره ساز در پلتفرم مجازی سازی vSphere تعریف شده است که این دو مدل عبارتند از APD و DPL که در ادامه به توضیح هر کدام می پردازیم.

(PDL (Permanent Device Lost : قبل از اینکه این مسئله را در تشریح کنیم ، ابتدا لازم است تا بدانیم ذخیره ساز و Host ها بر روی بستر ارتباطی ذخیره ساز چگونه با هم ارتباط بر قرار می کنند و حر ف های یکدیگر را متوجه می شوند. در این ارتباطات دستورهایی با نام SCSI Sense Code بین سرور و ذخیره ساز جابجا می شود که هردو قابلیت فهم این دستور ها را دارا می باشند . به عنوان مثال وقتی LUN جدید به سرور معرفی می کنید این معرفی از طریق دستور های SCSI جابجا می شود و سرور متوجه این تغییر می گردد.

در این مدل از خرابی ذخیره ساز ، یک کد SCSI از سمت ذخیره ساز به سرور فرستاده می شود با این مضمون که LUN و یا Device مورد نظر دیگر برای شما قابل دسترسی نخواهد بود. به عنوان مثال LUN ای برای یک سرور تا به حال Present  می شده است ولی با توجه به تغییرات بوجود آمده دیگر نباید در دسترسی این سرور باشد، به همین دلیل ادمین ذخیره سازی این LUN را برای سرور ما Unpresent می کند.وقتی این اتفاق صورت می گیرد SCSI کد مورد نظر به سرور فرستاده می شود تا سرور دیگر تلاشی برای باز گرداندن آن LUN انجام ندهد .پس زمانی که این اتفاق می افتد سرور ما دیگر هیچ I/O برای ذخیره ساز ارسال نمی کند.

 

(APD ( All Path Down : این مدل از خرابی بدین معنی است که تمامی لینک های ارتباطی Host ها با ذخیره ساز قطع شده است و سرور تمامی تلاش خود را می کند تا ارتباط را دوباره بر قرار کند. دلایل اتفاق افتادن این مسئله عبارتند از خرابی HBA ، خرابی کابل و پر شدن بیش از حد LUN ها.برای جلوگیری کردن از Idle بودن ذخیره ساز در سرور ها ، در vSphere قابلیت تنظیم کردن Timeout داریم که این زمان مشخص کننده ، مدت تلاش سرور مجازی برای ارتباط دوباره با ذخیره ساز می باشد.در این مدل از خرابی هیچ دستور SCSI کد برای سرور ارسال نشده است برای همین سرور ها به دنبال باز گرداندن ارتباط خود می باشند ، بدین معنی که در بازه های زمانی پی در پی برای ذخیره ساز I/O ارسال می کنند. بعد از اتمام Time Out دیگر از طرف سرور ها هیچ I/O ای به سمت ذخیره ساز ارسال نمی گردد ولی I/O داخل ماشین های مجازی تا ابد ( زمانی که HA کار کند) به سمت ذخیره ساز فرستاده می شود .

به صورت پیش فرض زمان Time Out در vSphere مقدار 140 ثانیه می باشد.

 

VMCP : در ورژن 6 پلتفرم مجازی سازی vSphere ، دیگر High Availability توانایی شناسایی APD  و PDL را دارا می باشد و می تواند با توجه به سیاست های تعیین شده ادمین در هنگام بروز این مشکلات ، اقدامات لازم را انجام دهد. این وظیفه ، وظیفه VMCP می باشد. پس در VMCP تعریف می کنیم در صورت بروز مشکلات ذخیره ساز ، چگونه می خواهیم از ماشین های مجازی خود محافظت کنیم.

خود برای پیاده سازی VMCP ابتدا باید آن را روشن کنیم . این عملیات بسیار ساده است.بر روی تنظیمات کلاستر خود کلیک کنید و داخل قسمت HA شوید ، همانطور که در شکل زیر می بینید با تیک زدن باکس VMCP  می توانید آنرا فعال کنید.

VMCP1

 

پس از این مرحله زمان آن می رسد که نحوه پاسخگویی HA به اتفاقات خرابی ذخیره ساز را مشخص کنید .  همانطور که در شکل زیر مشاهده می کنید برای هر یک از این خرابی ها می توان به صورت جداگانه سیاست خاص را تعیین کرد.

VMCP2-1024x644

 

هنگامی که PDL اتفاق می افتد به صورت کلی می توان سه عکس العمل برای HA پیاده سازی کرد. تنظیمات PDL نسبتا ساده می باشد زیرا PDL صفر یا یک است یعنی با اتفاق می افتد یا نمی افتد. این سیاست ها به شرح زیر می باشند:

  • Disabled :  در صورت بروز PDL هیچ اتفاقی نیافتد.
  • Issue events : هیچ عکس العملی اتفاق نیافتد ، تنها به ادمین مجازی سازی خبر های لازم را ارائه می کند.
  • Power off and restart VMs : هنگام بروز مشکل PDL ماشین های مجازی مربوطه را خاموش می کند و بر روی سرور دیگری که ارتباطش با ذخیره ساز درست می باشد روشن می کند.

اما زمانی که APD رخ می دهد این عکس العمل ها مقداری متفاوت خواهند بود.

پاسخگویی به APD :

  • Disabled :  در صورت بروز APD هیچ اتفاقی نیافتد.
  • Issue events : هیچ عکس العملی اتفاق نیافتد ، تنها به ادمین مجازی سازی خبر های لازم را ارائه می کند.
  • (Power off and restart VMs (conservative : در این مدل ماشین های مجازی که مشکل پیدا کرده اند تا سرور سالمی که ارتباط سالم با ذخیره ساز را نداشته باشد ، پیدا نکنند جابجا نمی شوند. در این مدل Host خراب شده با مستر HA در ارتباط می باشد تا ببیند آیا فضایی برای جابجا وجود دارد یا نه. اگر وجود داشت که Host ماشین های مجازی خراب شده را از بین می برد و بر روی Host دیگری که ارتباط درستی با ذخیره ساز دارد ریستارت می کند اگر فضا نبود هیچ اتفاقی صورت نمی گیرد. در این مدل از Host نتواند با مستر HA ارتباط بر قرار کند هیچ اتفاقی بر روی این ماشین های مجازی صورت نمی گیرد.
  • (Power off and restart VMs (aggressive :در این مدل Host ماشین های مجازی خراب شده را متوقف می کند بدون اینکه مطمئن باشد Host دیگری ارتباط سالم با ذخیره ساز دارد یا خیر. در این مدل Host منتظر ارتباط با مستر HA نمی باشد و خودش ماشین های مجازی را بر روی بقیه سرور ها جابجا می کند . اگر نتواند با مستر HA ارتباط برقرار کند این ریسک را می کند که ماشین های مجازی را اگر فضا وجود داشته باشد یا نه بر روی سرور های دیگر روشن کند. اگر فضا وجود داشت برای روشن کردن ماشین های مجازی خراب شده که هیچ، آنها را روشن می کند اما اگر فضا وجود نداشت نمی تواند تمام ماشین های مجازی خراب شده را بر روی Host های دیگر روشن کند. این مدل برای زمانی مناسب است که خرابی شبکه نیز بوجود آمده باشد و Host ها نتوانند با هم ارتباط بر قرار کنند.

گرینه دیگری با نام Delay for VM failover for APD نیز وجود دارد. این گزینه به این معناست که پس از تمام شدن Time Out ، آن Host خراب شده مقدار دیگری نیز صبر می کند سپس تدابیر مشخص شده را انجام می دهد . مقدار پیش فرض این تاخیر 3 دقیقه می باشد. پس به طور کلی Host مقدار 140 ثانیه برای Time Out صبر می کند و پس از تمام شدن Time Out مقدار 3 دقیقه دیگر نیز صبر می کند (یعنی 5 دقیقه و 20 ثانیه به صورت کلی) تا عملیات های مقتضی را انجام دهد. به این مقدار VMCP Time Out نیز گفته می شود.

Response for APD recovery after APD timeout :  این گزینه برای زمانی است که Time Out تمام شده ولی زمان تاخیر برای انجام عملیات های مقتضی تمام نشده است و مشکل ذخیره ساز بر طرف می گردد.

پس بدین معنی که قبل از تمام شدن VMCP Time Out مشکل APD حل می شود و ارتباط ذخیره ساز و Host مانند قبل درست می شود.

این گزینه دو حالت دارد :

  • Disabled :  هیچ اتفاقی صورت نمی گیرد.
  • Reset VMs : ماشین های مجازی که خراب شده بودند بر روی همین سرور دوباره ریستارت می شوند. این گزینه برای نرم افزار ها و یا سیستم عامل هایی است که به دلیل بروز مشکل APD زمانی Idle شده اند و برای ادامه کار خود باید دوباره به صورت Clean استارت شوند.

شکل زیر به صورت کلی پروسه عملیاتی VMCP را نمایش می دهد.

Workflow

 

اگر بخواهیم در نموداری مدت زمان های اتفاقات را شرح دهیم باید نمودار زیر را نیز در نظر بگیریم.

Timeline

نظرات