۲.۳ مفهوم بزرگ داده

دوره آموزش هادوپ سید محمدامین ساجدی

در این ویدئو به توضیح اجمالی درباره مفهوم بزرگ داده می پردازیم. این ویدئو قسمتی از ویدئوهای دوره اموزشی Hadoop Fundamentals از لیندا هست که توسط خودم ترجمه و دوبله شده.

مشاهده ویدئو:


متن ویدئو چهت استفاده:

درصورت وجود اشتباه تایپی پیشاپیش از شما عذرخواهی می کنم.

شاید براتون این سوال پیش اومده باشه که چه نوع داده هایی رو میشه توی هادوپ ذخیره کرد. وقتی درباره داده فکر می کنم توجهم به سمت دونوع داده منحرف می شه. اولی رو داده های خط تجاری نامگذاری می کنم یا LOB. اما یعنی چی؟ معمولا داده های تراکنشی رو توی این دسته قرار می دیم که معمولا برای قرار دادن توی هادوپ مناسب نیستن. اگر ازویدئو قبلی به یاد داشته باشید، داده های تراکنشی اون چیزی نیست که هادوپ برای اون ها بوجود اومده باشه. 00:24

همون مثال قبلی رو کی توی اون دوتا تغییر پی در پی روی حساب بانکی قرار بود انجام بشه رو در نظر بگیرید. این داده ها که قراره این تغییرات روی اون ها اعمال بشه رو داده  های تراکنشی می نامیم. یا اگر یکم کلی تر بخوام بگم می تونم بگم هر داده ای که با پول و بحث های مالی سروکار داره معمولا بصورت تراکنشی بکار برده میشه. چیزی که تا الان فهمیدم اینه که اکثر شرکت ها و سازمان ها هادوپ رو بعنوان جایگزین کامل برای پایگاه داده های رابطه ای می دونن. درصورتیکه اینطور نیست، و داده های تراکنش های شما باید توی همون سیستم رابطه ای بمونن. بعنوان یک معمار داده تاحالا هیچ مشتری رو نداشتم که به نوعی به سیستم رابطه ای نیاز نداشته باشه.

اما نوع دوم داده ای که وجود داره داده های رفتاری هست. 01:13 این داده ها قراره نقش داده های اصلی پروژه های بزرگ داده ای رو بازی کنن. اینها داده هایی هستن که بصورت دسته ای پردازش می شن، یعنی بصورت گروهی پردازش میشن تا اینکه تک تک مورد پردازش قرار بگیرن. این داده ها بهترین نوع داده برای هادوپ بحساب میان. چندتا مثال اگر بخوام براتون بزنم: داده های سلامت و پزشکی، هر لحظه داده های جدیدی از دستگاه های نظارت کننده بر سلامت افراد در جاهای مختلف داره تولید میشه. و چقدر خوب میشه اگر بتونیم این داده ها رو با راه حل های مختلف ترکیب کنیم. مثلا با رکوردهای پزشکی یا تشخیص های پزشکی.01:48

هرچند که این تشخیصات خودشون تاحدودی جزو داده های خط تجاری قرار می گیرن چون بصورت ترتیبی تجویز می شن پس نوعی تراکنش بحساب میان. اما چرا داده های تولید شده از ابزارها و دستگاه های نظارتی بر فعالیت بدن رو جزو داده های رفتاری بحساب میاریم. خب، مثلا فرض کنید شما دستگاهی دارید یا اصلا گوشی موبایل خودتون به فعالیت های روزانه شما نظارت داره. شما روزانه به پیاده روی می رید و این پیاده روی کاریه که هر روز و در طولانی مدت انجام می دید. پس یک رفتار برای شما بحساب میاد. حجم داده ای که تولید میشه هم خیلی زیاده بعلاوه دفعات تکرار این عمل هم زیاده. درصورتیکه شاید شما هر 6 ماه یکبار هم به پزشک مراجعه نکنید. 02:25

علاوه بر بحث حجم داده، نوع داده هم باید مدنظر باشه. اگر داده های شما جزو داده های خط تجاری بحساب بیاد، باید اون ها رو توی پایگاه داده رابطه ای خودتون نگهداری کنید. در غیر اینصورت، داده های رفتاری بهترین نوع داده برای هادوپ بحساب میان. 02:38

بعنوان یک معمار داده، می تونم یک تصویر کامل از این مجموعه داده رو براتون ترسیم کنم. تصویری که از اون برای ارائه راه حل به مشتری های مختلف استفاده می کنم. قبل از اینکه پروژه بزرگ داده ای خودمون رو شروع می کنیم، پایگاه داده رابطه ای مشتری رو بررسی می کنیم تا یک پایگاه رابطه ای کاملا مناسب و بدون مشکل داشته باشیم و بعد از اون بریم سراغ هادوپ. توی این تصویر به اندازه دایره ای که برای هادوپ رسم کردم دقت کنید. این همون اندازه داده ای هست که قراره جمع اوری کنید. توی مثال قبلی درباره اطلاعات پزشکی صحبت کردیم. این بار یه مثال دیگه درباره آموزش انلاین مثلا. اموزش انلاین به نوعی تجارت تبدیل شده که از کار با مرورگرها فراتر رفته، توی اون نه تنها بررسی میشه که کاربر پاسخ درست به سوالات داده یا نه، بلکه تمام رفتارهای کاربر از جمله جابجا کردن ماوس، کلیک کرد در جاهای مختلف، نوشتن پاسخ و پاک کردن اون و هرچیزی که فکرشو بکنید همگی مانیتور میشن. همه این اطلاعات که از کاربر گرفته میشه می تونه به اون کسب و کار برای بهبود نرم افزاری که طراحی کرده مفید و موثر باشه. 3:42

اینجا یه دایره هم برای NoSQL کشیدم، خب چون هادوپ خودش روی یک سیستم فایل قرار داره، و بیشتر درباره اون در ادامه دوره صحبت می کنیم. پردازش داده های با این حجم کار واقعا پیچیده ای هست. اکثر مواقع از اطلاعات هادوپ توی لایه بالاترش که NoSQL اونجا قرار می گیره استفاده می شه. 4:07

دلیل اینکه هیچ خط رابطی بین این دایره ها نکشیدم هم اینه که بعضی وقتا اطلاعات هادوپ به پایگاه های رابطه ای منتقل می شه و پرس و جوهای رابطه ای روی اون ها انجام میشه و گاهی اوقات هم به NoSQL منتقل میشن و پرس و جوهای مختلف و متقاوت روی اون ها انجام میشه. اما گاهی اوقات هم همونجا توی هادوپ می مونن و روی اون ها پردازش های دسته ای انجام میشه. پس دیدین که روش های تحلیل و بررسی داده ها بصورت متفاوت می تونه باشه. نتیجه هم اینکه فهمیدیم که هادوپ یک جایگزین برای پایگاه داده های رابطه ای بحساب نمیاد. بلکه بعنوان موارد اضافه بحساب میاد. اکثر اوقات هم به قرار دادن یک سیستم NoSQL کنار خودش نیاز پیدا می کنه.  دیدید که نفاوت های ساختاری و بنیادی باهم دارن. پس در انتخال این سیستم ها باید دقت کافی و لازم رو در برنامه ریزی برای هادوپ داشت.


دیگر سرفصل های دوره آموزشی هادوپ

1 مقدمه
2 چرا از پایگاه داده های رابطه ای دور شویم؟
3 هادوپ چیست؟
4 درک اجزای اساسی هادوپ
5 راه اندازی محیط توسعه هادوپ
6 درک MapReduce
7 پیکربندی MapReduce
8 درک MapReduce 2.0 YARN
9 درک Hive
10 درک Pig
11 شناخت روند کار و متصل کننده ها
12 دیگر کتابخانه های هادوپ
13 شناخت Spark
14 بصری سازی خروجی هادوپ به همراه ابزارها
15 نتیجه گیری