۴.۳ معرفی اجزای کلاستر هادوپ

دوره آموزش هادوپ سید محمدامین ساجدی
در این ویدئو به توضیح اجمالی درباره بخش های مختلف کلاستر هادوپ می پردازیم. این ویدئو قسمتی از ویدئوهای دوره اموزشی Hadoop Fundamentals از لیندا هست که توسط خودم ترجمه و دوبله شده.

 

خب تا اینجا اطلاعات مختلفی درباره اکوسیستم هادوپ بدست اوردیم و حالا وقتشه که یکم جلوتر بریم و یه تصویر کلی از اون رو ببینیم. شاید با دیدن این تصویر بترسید. چون واقعا شلوغ پلوغه. اما نترسید. بحث اصلی در کار با هادوپ اینه که بفهمید چه کارهایی ممکنه و چه قابلیت هایی در اختیار شما هست و بعدش سراغ انتخاب و بکارگیری اون هایی که بهشون نیاز دارین برید. حالا می خوام یه نگاه کلی به قسمت های مختلف موجود بندازم البته خیلی از این موارد رو بعدا توی دوره کامل تر باهاشون اشنا میشیم. خب در پایین ترین سطح می بینید که HDFS قرار گرفته. گفتیم که HDFS بحث فایل های ما رو هدایت می کنه. گفتیم که رایج ترین سیستم فایل برای هادوپ همین HDFS هست اما توی فضاهای ابری ممکنه با سیستم های استانداردتری برای اون فضاها مثل S3 امازون روبرو بشید و مجبور به استفاده از اون ها بشید. یا هم BLOB رو در Azure استفاده کنید. اما باز هم می گم رایج ترین سیستم فایل برای هادوپ HDFS هست. 0:53

می بینید که سطح بالاتر از HDFS یعنی بالای سیستم فایل MapReduce قرار گرفته. اینجا یه اسم جدید رو دارید می بیند. MapReduce V2. بهش YARN هم میگن. که مخفف Yet Another Resource Navigator هست. توی این دوره هر دو نسخه 1 و 2 MapReduce رو پوشش می دیم. در زمان تولید این ویدئوها نسخه 2 که خودش از نظر معماری روی نسخه 1 قرار میگیره بعنوان نسخه استاندارد و پایدار شناخته شده. 1:26

در کنار این می تونید HBase رو در سمت راست ببینید که توی ویدئوهای قبل دربارش صحبت کردیم. گفتیم که به ما امکان پرس و جو زدن در داده های ذخیره شده توی سیستم ستون گسترده خودش در بالای لایه سیستم فایل می ده. در کنار اون Hive یا HQL هست که زبان پرس و جوی شبه SQL هست و از اون برای ارسال پرس و جو به HBase استفاده می کنیم. 1:45

کتابخونه های دیگه ای رو هم می تونید ببینید از جمله Pig که یک زبان اسکریپتی بحساب میاد. و از اون برای انجام پردازش های ETL یا همون Extract, Transform, Load استفاده می شه. کتابخونه Mahout رو کنار اون می بیند که برای پردازش های یادگیری ماشین و تحلیل های پیش بینی کننده بکار برده میشه. در کنار اون ها Oozie رو داریم که برای تقسیم بندی کارها ازش استفاده می شه. 2:06

Oozie با همکاری Zookeeper کار می کنه که کارش هماهنگی گروه های کاری هست و در قسمت های بعدی دربارش صحبت می کنیم. در کنار اون Sqoop رو داریم که برای تبادل داده ها استفاده می شه. یعنی تبادل داده های سیستم های رابطه ای مثل SQL server با هادوپ استفاده می شه. در اون بخش Flume رو داریم که وظیفش جمع اوری لاگ های تولید شده از هادوپ هست. چراکه هادوپ لاگ های بسیار زیادی تولید می کنه. لاگ هایی درباره کارهایی که دارن بصورت batch انجام می شن. 2:35

توی این شکل می تونید Ambari رو که کارش تامین، مدیریت و نگهداری کلاستر های هادوپ هست ببینید. این تنها نمونه ای از کتابخونه های موجود در اکوسیستم هادوپ بود که می تونن برای همه مفید و کارامد باشن. باز هم کتابخونه های مختلفی وجود داره که بر اساس نیاز باید به سمت اون ها برید. اما این هایی که گفتیم کتابخونه های مرکزی و اصلی هادوپ بحساب میان. 2:50

اگر بخوایم مقایسه ای داشته باشیم، می تونیم نگاهی به توزیع های تجاری بندازیم. بعنوان مثال توی توزیع تجاری Cloudera در مرکز هادوپ رو داریم که همون HDFS و MapReduce 2 هست. روی این ها هم Pig و Hive قرار دارن. سمت راست اون ها HBase قرار داره که hive بالای اون قرار گرفته چون قراره که پرس و جوهای HBase رو بزنه و کارش با متاداده هاست.3:13

می بینید که Hue روی اون ها قرار گرفته و مخصوصا برای Cloudera توسعه داده شده که توی ویدئو های بعدی دربارش صحبت می کنیم. سمت چپ اون هم رابط گرافیکی Hue رو میبینید که برای تعامل ساده تر کاربر با هادوپ طراحی شده. در زیر اون Oozie رو میبینید که برای برنامه ریزی محیط کار ازش استفاده می شه. در زیر اون ها هم Zookeeper رو می بینید که برای هماهنگی استفاده میشه و Flume و Sqoop هم که برای تعامل با داده ها استفاده میشن. 3:34

وقتی که می خواین از یه توزیع تجاری استفاده کنید باید به این نکته که این توزیع از چه کتابخونه هایی و چه نسخه هایی از اون ها پشتیبانی می کنه توجه داشته باشید. و درواقع هماهنگی کتابخونه های موجود رو با اهداف تجاری کسب و کارتون بررسی کنید.


دیگر سرفصل های دوره آموزشی هادوپ

1 مقدمه
2 چرا از پایگاه داده های رابطه ای دور شویم؟
3 هادوپ چیست؟
4 درک اجزای اساسی هادوپ
5 راه اندازی محیط توسعه هادوپ
6 درک MapReduce
7 پیکربندی MapReduce
8 درک MapReduce 2.0 YARN
9 درک Hive
10 درک Pig
11 شناخت روند کار و متصل کننده ها
12 دیگر کتابخانه های هادوپ
13 شناخت Spark
14 بصری سازی خروجی هادوپ به همراه ابزارها
15 نتیجه گیری