۳.۱ آشنایی با هادوپ

دوره آموزش هادوپ سید محمدامین ساجدی

در این ویدئو به توضیح اجمالی درباره هادوپ می پردازیم. این ویدئو قسمتی از ویدئوهای دوره اموزشی Hadoop Fundamentals از لیندا هست که توسط خودم ترجمه و دوبله شده.

مشاهده ویدئو:


متن ویدئو جهت استفاده:

درصورت وجود اشتباه تایپی پیشاپیش از شما عذرخواهی می کنم.

خب، هادوپ چیه؟ هادوپ شامل دو قسمت اصلیه و درکنار این دو قسمت هم پروژه های دیگه قرار می گرن تا امکانات و ویژگی های بیشتری به اون اضافه کنن. اما این دو جزء چین؟ جزء اول یک محل ذهیره سازی متن بازه به نام HDFS که به معنای Hadoop File System هست. 00:16

دومین جزء هم API پردازش کننده اون هست که بهش MapReduce گفته میشه. بطور معمول توی پروژه های مختلف از کتابخونه های دیگه ای مثل HBase, Hive, Pig و غیره هم در کنار هادوپ استفاده میشه. فکر می کنم حدود 25 کتابخونه مختلف برای اضافه کردن و بکارگیری کنار هادوپ داریم. توی این دوره درباره این 3 صحبت می کنیم. 00:36

بعلاوه اینکه باید کتابخونه های مختلف رو که می تونید به هادوپ اضافه کنید رو بدونید، باید توزیع های مختلف هادوپ رو هم بشناسید. اولین مجموعه از توزیع های هادوپ اون هایی هستن که بطور کامل متن باز هستن. 00:49 که می تونید اونها رو توی Apache Foundation پیدا کنید. توزیع اصلی و مرکزی همون Apache Hadoop هست که نسخه های مختلفی داره. فکر کنم الان به نسخه 3.4 خودش رسیده باشه. معمولا کاری که اکثر شرکت ها انجام میدن اینه که دو تا سه نسخه نسبت به نسخه فعلی عقب تر می مونن. بخاطر اینکه طبیعت نرم افزارهای متن باز به این صورته که در ابتدایی که ارائه میشن هنوز خیلی کامل و اماده نیستن به همین خاطر عقب تر می مونن تا نسخه های جدید تکمیل بشن و بعدا سراغ اون ها میرن. 1:22

به خاطر همین موضوع چندین توزیع تجاری هم وجود داره. بعنوان مثال Cloudera, Hortonworks, MapR. اما تفاوت این نسخه ها از نسخه های متن باز چی هست؟ این توزیع ها روی نسخه پایدارتری از هادوپ قرار داده میشن و اینکه به شما ابزارها و محیط های کاربی متفاوت تر و کامل تری ارائه میدن. توی این دوره درباره هر 3 این توزیع ها صحبت می کنیم. 1:54

علاوه بر این دو دسته، شرکت ها و سازمان ها می تونن از کلاستر های هادوپ تحت فضای ابری هم استفاده کنن. توزیع های ابری که اکثرا استفاده میشن شامل AWS که متعلق به امازون هست و Windows Azure HDInsight هم که متعلق به مایکروسافت هست میشه. اید یکم گیج شده باشید. بزارید براتون واضح تر بگم. وقتی که شما از توزیع های ابری استفاده می کنید، می تونید از توزیع امازون استفاده کنید که نسخه متن باز هادوپ رو بکار می گیره، و یعنی Apache hadoop با نسخه ای پایدار روی AWS داشته باشین و یا اینکه یک توزیع تجاری از اون رو روی AWS داشته باشین. مثلا  MapR روی AWS. 2:34

این رو هم باید بگم که همه نسخه های تجاری روی همه فضاهای ابری وجود ندارن. پس باید در انتخاب فضای ابری برای بزرگ داده خودتون حواستون به این موضوع باشه. درباره HDInsight هم که داره محبوب تر و محبوب تر میشه هم صحبت می کنیم.

بعنوان یاداوری، فاکتورهای متعددی وجود دارن که باعث استفاده شما از هادوپ میشن.  اگر بخوام سریع به اون ها اشاره کنم می گم: ارزون تر، سریع تر و بهتر3:03

بازهم تکرار می کنم، باید بدونید برای چی دارین به سمت بزرگ داده میرید. بزرگ داده و سیستمی مثل هادوپ برای کار با داده های رفتاری طراحی شده، نه برای داده های تراکنشی. اما اگر دنبال بررسی داده های رفتاری هستید، اکوسیستم هادوپ خیلی ارزون تر میشه چون روی سخت افزارهای ساده و ارزون قیمت اجرا میشه و تا پتابایت حجم داده و بیشتر هم گسترش پیدا می کنه. و از اونجاییکه از الگوریتم های پردازش موازی MapReduce استفاده می کنه، و پردازش ها بصورت دسته ای روی هر گره انجام میشن، در نتیجه در زمان بسیار کمتری پردازش ها رو روی اون حجم بالای داده به ثمر می رسونه. 3:48

اگر بخوام درباره مشکلات تجاری که هادوپ میتونه اون ها رو حل کنه صحبت کنم می تونم بگم که: اولین مورد، مدلسازی ریسک هست. مثلا شرکت های بیمه ای یا بانکی رو درنظر بگیرید که می خوان ببینن که باید به شما وام بدن یا نه. تجارت این جور سازمان ها بسیار خطرپذیره و باید بدونن که در هر مرحله کجا سرمایه گذاری کنن. هرچه که بیشتر داده تراکنشی و رفتاری داشته باشن، بهتر می تونن دراین باره تصمیم گیری کنن. شرکت های زیادی در این زمینه ها دران توی اکوسیستم هادوپ فعالیت می کنن، چون حجم داده بسیار بالایی دارن. 4:31

یه نمونه دیگه فعالیت های کارت اعتباری شماست. ممکنه تا حالا شرکت کارت اعتباری شما از شما بخواد که تراکنش هایی رو تایید کنید، چراکه رفتارهای متفاوتی توی این تراکنش ها کشف شده و ممکنه یک کلاه برداری باشه.  اکثر این شرکت ها دارن از بزرگ داده توی کارهاشون استفاده می کنن  و اکثرا هم راهکارهای هادوپ رو انتخاب کردن. 4:49

موضوع بعدی تحلیل پرش مشتری هاست. هزینه اینکه یک مشتری جدید پیدا کنیم خیلی بیشتر از اینه که مشتری های فعلیمون رو نگه داریم. هرچی بیشتر از اون ها اطلاعات و داده داشته باشیم، بهتر می تونیم اون ها رو نگه داریم. داشتن هردو نوع داده های تراکنشی و رفتاری می تونه به ما کمک زیادی بکنه. بخصوص وقتی که اون ها ما رو ترک می کنن، بهتر می تونیم دلیل ترک کردن رو بفهمیم. با این کار می تونیم نرخ پرش مشتری هامون رو تا جد بسیار زیادی کاهش بدیم.5:14

مورد سوم سیستم های توصیه گر. خیلی از افراد از Netflix استفاده کردیم و از اون لذت می بریم. یک موتور توصیه گر کلاسیکه. یه نمونه دیگه از این موتورهای توصیه گر هم قسمت You may like سایت امازون هست. این ها موتورها یا راهکارهای داده ای هستن که حجم بسیار بالایی از داده رو در اختیار دارن. داده های شما و داده های دیگر مشتری هایی که شباهت هایی با شما دارن و بر اساس رفتار اون ها رفتار شما رو پیش بینی می کنن و به شما پیشنهادهایی که می تونن براتون مفید باشن ارائه می کنن. نقطه مشترک این کسب و کارها استفاده از داده های رفتاری کاربرانشون هست. 5:44

اینجا هم هادوپ وارد کار شده و امکان بررسی رفتارهای کاربران رو برای کسب و کارها فراهم کرده.

مورد بعدی که هادوپ می تونه حل کنه، Ad targeting یا هدفمندی تبلیغات هست. یعنی چی؟ یعنی اینکه شرکت هایی که کارشون توزیع تبلیغات شرکت های دیگه در سطح گسترده هستن، تبلیغاتی به شما نشون می دن که می دونن شما به احتمال بالا روی اون ها کلیک می کنید. اما چطور اینکارو انجام می دن. اونا حجم بسیار بسیار بالایی اطلاعات در اختیار دارن. داده هایی که فعالیت مارو در شبکه های اجتماعی مختلف نشون می دن و همچنین داده هایی که خریدهای مارو گزارش می کنن. دروقع این داده ها از فعالیت ها و رفتارهای ما توی وب سایتهای مختلف فروشگاهی جمع اوری میشن. اطلاعاتی همچون محل زندگی ما، نحوه دسترسی ما به وب سایت و هرچیز دیگه ای که بتونه اطلاعات خاصی نسبت به شما به اون ها بده. و درنهایت هم به شما تبلیغاتی رو نشون میدن که می دونن شما به اونها علاقه دارید. 6:30

مورد بعدی می تونه انالیز تراکنش ها باشه. درباره پایگاه داده های رابطه ای صحبت کردیم و گفتیم که محل ذخیره سازی داده های تراکنش های شما قراره همچنان همونجا بمونه. اما هادوپ چکار می تونه بکنه؟ فکرشو بکنین که هادوپ می تونه تاریخچه تراکنش های شما رو براتون تحلیل کنه. مثلا تراکنش های نقاط جغرافیایی مختلف رو. این به شما کمک می کنه که بتونید حدس بزنید که چه سفارشاتی در روزهای اتی دریافت خواهید کرد و با اینکار می تونید، مانع از بروز مشکل یا وجود کمبود در برابر سفارشات مشتریاتون بشید. 6:58

شما می تونید تاریخچه خرید مشتری های مختلفتون در بازه های زمانی مختلف رو بیرون بکشید و بر اساس اونها خرید های بعدیشون رو هم حدس بزنید. و این یعنی استفاده از داده های رفتاری برای کسب نتیجه بهتر در تصمیم گیری های کسب و کار.

7:12

موضوع بعدی تحلیل تهدیدهاست. این موضوع مشابه مدلسازی ریسک هست و مثال اون هم میشه همون کارت اعتباری که دربارش صحبت کردم.  مورد بعدی کیفیت جستجوهاست. می دونید که موتورهای جستجوی بسیاری دارن فعالیت می کنن. همه دارن از تکنولوژی های جدید استفاده می کنن و مطمئنا گوگل هم برای خودش رقیب داره. اما چطور باهم رقابت می کنن؟7:30

خب اونها تاریخچه جستجو های شما رو نگهداری می کنن و همینطور رفتارهایی که دربرابر نتایج مختلف از خودتون نشون دادید رو. حتی مواردی که شما توی باکس جستجو شروع به تایپ کردن کردید اما دکمه جستجو رو نزدید. این کار رو اولین بار فیسبوک انجام داد. فیسبوک تمام فعالیت های کلیکی ماوس و کیبورد شما رو ذخیره می کنه. با اینکارش می فهمه که شما کی می خواین یه پست جدید ارسال کنید، چه مواقعی از ارسال پست صرفنظر کردید و بعد بدنبال پیدا کردن دلیل عدم ارسال پست می گرده. و با این کارش سعی میکنه مشکلات فضای وب سایتش رو با توجه با علایق شما و این جور داده های رفتاری برطرف کنه. 8:00

درباره فیسبوک صحبت کردیم. باید بگم که فیسبوک بزرگتری شرکت از نظر تعداد کاربرانه که داره از هادوپ استفاده می کنه. شرکت های بزرگ دیگه ای هم هستن که دارن از هادوپ استفاده می کنن از جمله Yahoo, Amazon, eBay, American Airlines. اگ بخوام درباره توزیع های مختلف صحبت کنم باید بگم که Hortonworks توسط یاهو توسعه داده شده که تمامی مجموعه داده های یاهو رو توسط اون مورد انالیز و بررسی قرار میدن. امازون هم از هادوپ برای سیستم های توصیه گر خودش استفاده می کنه. eBay هم به همین صورت داره از هادوپ استفاده می کنه. America Airline هم داده های رفتاری کاربران خودش رو با هادوپ تحلیل می کنه. 8:45

روزنامه New York Times, Federal Reserve Board, IBM, Orbitz و چندین و چند شرکت بزرگ دیگه هم دارن از هادوپ برای تحلیل های خودشون استفاده می کنن.


دیگر سرفصل های دوره آموزشی هادوپ

1 مقدمه
2 چرا از پایگاه داده های رابطه ای دور شویم؟
3 هادوپ چیست؟
4 درک اجزای اساسی هادوپ
5 راه اندازی محیط توسعه هادوپ
6 درک MapReduce
7 پیکربندی MapReduce
8 درک MapReduce 2.0 YARN
9 درک Hive
10 درک Pig
11 شناخت روند کار و متصل کننده ها
12 دیگر کتابخانه های هادوپ
13 شناخت Spark
14 بصری سازی خروجی هادوپ به همراه ابزارها
15 نتیجه گیری