نحوه ذخیره سازی فایل در هادوپ

Facebooktwittergoogle_pluspinterestlinkedinmail
Print Friendly, PDF & Email

توی این نوشته می خوام به سوالی که دوستان بسیاری از طرق مختلف همیشه پرسیدند پاسخ بدم. سوال این هست که فایل های ما در هادوپ چطور ذخیره می شن؟

سیستم فایل هادوپ

سیستم فایل هادوپ

همونطور که میدونید فایل های ما در هادوپ بر روی سیستم فایل توزیع شده هادوپ یا همون HDFS ذخیره می شن. هر سیستم فایل برای خودش قوائد متفاوت و گاها مشابهی برای ذخیره سازی فایل ها در مقابل سیستم فایل های دیگه داره. سیستم فایل توزیع شده هادوپ هم مثل بقیه سیستم فایلهای موجود از واحد بلاک برای ذخیره سازی یک فایل استفاده می کنه.

قسمت متفاوت بین سیستم فایل ها اندازه این بلاک هاست که توی هر سیستم فایل بسته به نوع کاربرد و محل مورد استفاده اندازه بلاک ها متفاوت و مناسب درنظر گرفته می شه. توی سیستم فایل توزیع شده هادوپ بصورت پیش فرض این بلاک ها اندازه 64 مگابایتی یا 128 مگابایتی دارن. البته خودمون می تونیم توی فایل های پیکربندی سیستم فایل هادوپ این اندازه بلاک ها رو تغییر بدیم.

پس یعنی اینکه اگر یک فایل اندازه ای بیشتر از 64 مگابایت داشته باشه و اندازه تعریف شده برای بلاک های سیستم فایل ما 64 مگابایت باشه، فایل ما در چندین بلاک ذخیره میشه. فرض کنید فایل ما 80 مگابایت هست. پس باید یک بلاک 64 مگابایتی بعلاوه یک بلاک 16 مگابایتی برای اون کنار گذاشته بشه. این 16 مگابایت به این صورت هست که بقیه فضای بلاک که خالی هست(48 مگابایت) بدون استفاده نمی مونه و برای بلاک های فایل های دیگه ای که مقدارشون از 64 کمتر هست مورد استفاده قرار میگیره.


خب تا اینجا یک فایل 80 مگابایتی رو بصورت یک بلاک 64 و یک بلاک 16 مگابایتی ذخیره کردیم. اما HDFS چیزی بنام فاکتور تکثیر یا replication factor داره که بصورت پیش فرض مقدارش 3 هست. فاکتور تکثیر به این معنی هست که از هر فایل چند نسخه در سیستم فایل نگهداری بشه(بخاطر بحث دسترسی سریع تر به داده ها و همچنین مقاوم بودن در برابر خطاهای احتمالی). پس باید 2 نسخه دیگه از این بلاک ها در سیستم فایل ما ذخیره بشه.

بر اساس رویه ای که HDFS داره، باید الان 2 نسخه دیگه از هر بلاک کپی بشه. اما نکته مهم این هست که این نسخه ها کجا ذخیره بشن. بر طبق اصول هادوپ یک نسخه از هر بلاک در همان رکی که نسخه اصلی ذخیره شده کپی و ذخیره می شه و یه نسخه دیگه هم در یک گره داده ای غیر از گره داده ای محل ذخیره سازی نسخه اصلی بلاک.


خب دوستان، امیدوارم تونسته باشم نحوه ذخیره سازی و محل ذخیره سازی فایل ها در سیستم فایل توزیع شده هادوپ رو به سادگی بیان کرده باشم.

شما احتمالا این مطالب را نیز دوست دارید...

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *