بزرگ داده چیست؟

Facebooktwittergoogle_pluspinterestlinkedinmail
Print Friendly, PDF & Email

توی این مطلب می خوام شما رو با موضوع بزرگ داده بطور خیلی ساده آشنا کنم. ابتدا با یک مثال کار رو شروع می کنم و سعی می کنم تا آخر به همین صورت برای درک بهتر با مثال بحث رو به پیش ببرم. در انتهای مطلب هم بزرگ داده و هوش مصنوعی رو به شما معرفی می کنم تا بفهمین که این دو مبحث چقدر با هم آمیخته شدن. امیدوارم از این مطلب نهایت استفاده رو ببرید.

کلوچه مورد علاقه مردم آمریکا چیه؟

سیب، البته که همینه، اما از کجا می دونیم؟

به خاطر داده هایی هست که در اختیار داریم.

کافیه نگاهی به فروش سوپرمارکت ها بکنید. کافیه به فروش کلوچه های 30 سانتی متری سوپرمارکت ها بکنید، سیب برنده می شه. هیچ رقابتی نیست، بیشتر فروش ها کلوجه های با طعم سیب هستن. بعد از یک مدت سوپرمارکت ها شروع به فروش کلوچه های کوچکتر کردن. کلوچه های 11 سانتی متری و یکدفعه سیب رفت توی رتبه چهارم یا پنجم فروش کلوچه.

چرا؟ چه اتفاقی افتاد؟ یکم در این باره فکر کنید. وقتی شما یک کلوچه 30 سانتی می خرید، تمام اعضای خانواده مجبور به قبول کردن اون هستن. و در واقع کلوچه سیب، کلوچه مورد علاقه رتبه 2 هر شخص خانواده می شه. اما وقتی که هر نفر برای خودش کلوچه 11 سانتی بخره، هرکسی اونی رو که خودش می خواد انتخاب می کنه. و هرکس انتخاب اولش رو برمی داره.

داده های بیشتری دارید، چیزهایی رو می تونید ببینید که وقتی مقدار کمتری داده داشتید نمی تونستین ببینید. نکته ای که اینجا هست اینه که داده بیشتر به ما اجازه نمیده که بیشتر درباره یک چیز ببینیم درصورتیکه داشتن داده بیشتر به ما اجازه میده تا چیزهای جدیدتری ببینیم. به ما اجازه می ده تا بهتر ببینیم که کلوچه مورد علاقه آمریکایی ها چه طعمیه.

اکثر شما عبارت Big Data یا بزرگ داده رو شنیدید، درباره این عبارت معانی و برداشت های بسیاری می شه که همگی درست نیستن. چون بزرگ داده یک ابزار واقعا مهمه که جامعه ما با بکارگیری اون پیشرفت می کنه. در گذشته ما به داده های با حجم کم نگاه می کردیم و تلاش می کردیم که دنیا رو بفهمیم اما حالا خیلی خیلی بیشتر از اون موقع داده داریم. بیشتر از هر اندازه ای که قبلا می تونستیم داشته باشیم و حالا با این همه داده باید بتونیم کارای خیلی بیشتر و مفیدتری نسبت به گذشته با اون حجم کم داده بکنیم. پس بزرگ داده مهمه و جدید و وقتی درباره اون فکر می کنید، تنها راهی که این کره خاکی می تونه به سراغ حل چالش های موجود بره، برای اینکه مردم رو از گرسنگی رها کنه، امکانات پزشکی به اون ها بده، انرژی اون ها رو تامین کنه، الکتریسیته رو تامین کنه و اینکه مطمئن بشه بخاطر گرمای جهانی به مشکل نخورن و همه این ها بخاطر استفاده موثر از داده هاست.

پس چه چیزی جدیده توی زمینه بزرگ داده؟ مشکل اصلی چیه؟ خب برای اینکه به این سوال جواب بدیم، بذارین ببینیم اطلاعات در گذشته به چه صورت بود.

در سال 1908 باستان شناسان در جزیره Creat بک دیسک گلی پیدا کردند و قدمت اون رو به 2000 سال قبل از میلاد تخمین زدند. یعنی 4000 سال پیش.

دیسک گلی محمدامین ساجدی

روی این دیسک نوشته هایی هست که ما اون رو نمی فهمیم. اما مهم نیست، مهم اینه که 4000 سال پیش اطلاعات این شکلی بود. این روشیه که جامعه توی اون زمان اطلاعات رو ذخیره و منتقل می کرد.

حالا چی؟ جامعه خیلی که فکرش رو بکنید پیشرفت هم نکرده. ما هنوز اطلاعات رو روی دیسک ها ذخیره می کنیم، اما حالا می تونیم خیلی اطلاعات بیشتری رو ذخیره کنیم خیلی بیشتر از هر زمان در گذشته، جستجو توی این داده ها خیلی آسون تره، کپی کردن خیلی آسون تره، به اشتراک گذاری اون خیلی آسون تره، پردازش اون آسون تر و سریع تره، و کاری که می تونیم الان بکنیم اینه که می تونیم از این داده ها بارها و بارها برای جنبه های مختلف که موقع جمع آوری اون داده ها حتی فکرش رو هم نمی کردیم، استفاده کنیم.

داده ها از حالت ایستا به حالت جریان و سیال تبدیل شدن. یک چیزی که قبلا استاتیک بود اما حالا پویاست.

دیسکی که 4000 سال پیش پیدا شده، سنگینه، اطلاعات زیادی رو ذخیره نمیکنه، و اون اطلاعات غیر قابل تغییره، در مقابل اون تمامی فایل هایی که ادوارد اسنودن از آژانس امنیت ملی ایالات متحده برد توی یک حافظه کوچیک به اندازه ناخن انگشت جای می گیره و اون ها رو میشه با سرعت نور به اشتراک گذاشت.

یک دلیلی که امروزه داده های بسیاری رو جمع آوری می کنیم این هست که ما داریم اطلاعاتی رو ذخیره می کنیم که همیشه درحال ذخیره اطلاعاتشون بودیم اما قبلا فقط بصورت اطلاعاتی بودند و نه در قالب داده ای ولی الان به قالب های مختلفی تبدیل می شن.

برای مثال به مسئله موقعیت فکر کنید. بعنوان مثال مارتین لوتر. اگر بخواهیم بدونیم  مارتین لوتر در سال 1500 کجا بود باید از ابتدای کار اون رو دنبال کنیم و مکان رو پیدا کنیم. اما درباره امروز فکر کنید، می دونید که یه جایی مطمئنا توی پایگاه داده سرویس دهنده تلفن همراه شما، یک صفحه گسترده یا یک سطر از پایگاه داده، وجود داره که موقعیت شما در هرلحظه رو ذخیره می کنه. در این مثال موقعیت ما تبدیل به داده شده.

حالا به مسئله طرز نشستن توجه کنید. حالتی که روی صندلی نشستید رو درنظر بگیرید. هرشخص با یه حالت متفاوت از بقیه می شینه. به عوامل  مختلفی از جمله طول پاها، وزن و … بستگی داره. اگر من سنسورهایی مثلا 100 سنسور رو روی صندلی شما کاربزارم می تونم یک شاخص یکتا برای هرکدوم از شماها بسازم که می تونه مثل اثر انگشت باشه. اما چه کاری می تونیم با این اطلاعات بکنیم؟ محققان در توکیو از این روش برای سیستم های ضدسرقت خودرو استفاده می کنن. به این صورت که وقتی دزد ماشین روی صندلی می شینه ماشین روشن نمیشه. بعد از این هم تا وقتیکه رمز عبور روی داشبورد رو وارد نکنه ماشین روشن نخواهد شد.

مثال های بسیار زیادتری برای نشون دادن کاربرد بزرگ داده در زندگی روزمره میشه بیان کرد که از حوصله این مطلب خارجه و ما به همین چند مثال ملموس بسنده می کنیم.

اما واقعا ارزش بزرگ داده چیه؟ خب الان خیلی بیشتر از گذشته اطلاعات در درست داریم. کارهایی رو که قبلا نمی تونستیم با این داده ها انجام بدیم رو الان می تونیم انجام بدیم. یکی از زمینه هایی که این مبحث خیلی قوی وارد اون شده موضوع یادگیری ماشین هست که یکی از گرایش های هوش مصنوعی که خودش یکی از شاخه های علوم کامپیوتر هست میشه. ایده اصلی این مبحث اینه که به کامپیوتر بگیم که خودش باید با توجه به داده هایی که در اختیارش قرار داده می شه بفهمه که چه حرکتی باید انجام بده.

در سال 1950 یک دانشمند علوم کامپیوتر به نام آرتور ساموئل که در IBM مشغول به کار بود یک بازی چکرز برای کامپیوتر نوشت. می نشست پشت کامپیوتر و با اون برنامه بازی می کرد و برنده می شد، بازی می کرد و برنده می شد، بازی می کرد و برنده می شد و … . چون کامپیوتر فقط می دونست که حرکت های قانونی به چه شکلی انجام میشن همیشه بازنده بود درصورتیکه آرتور علاوه بر دونستن قوانین، استراتژی های مختلف بازی کردن رو  هم می دونست. بعد از اون آرتور یک زیربرنامه برای بازی خودش نوشت که در پس زمینه اجرا می شد و کاری که انجام  می داد این بود که احتمال برد برای حالت های مختلف انجام بازی در هرلحظه رو امتیازدهی می کرد و در هر حرکت بهترین حالت رو انتخاب می کرد. بعد از اضافه کردن این زیربرنامه با بازی، دوباره شروع به بازی کردن با کامپیوتر کرد. چندین بار آرتور برنده میشد و بعد از اون تصمیم گرفت که کامپیوتر رو به حال خودش رها کنه تا با خودش بازی کنه. پس از مدتی برگشت و شروع به بازی با کامپیوتر کرد ولی این بار شکست خورد. دفعات بعدی هم بطور پی در پی شکست می خورد. می دونید چه اتفاقی می افتاد؟ درواقع هرچی که کامپیوتر بیشتر با خودش بازی میکرد اطلاعات . داده های بیشتری از حالت های مختلف، روش های مختلف انجام بازی و به نتیجه رسیدن جمع آوری می کرد  و درواقع خودش رو کامل تر می کرد و پیشرفته تر و هوشمندتر می شد. و اینجا بود که آرتور ساموئل تونست ماشینی بسازه که توانایی یادگیری در کاری که به اون آموزش داده شده بود رو داشت.

ایده یادگیری ماشین توی تمامی جنبه های زندگی روزمره ما وارد شده.

نظرتون درباره ماشین بدون سرنشین چیه؟ باید تمامی قوانین راهنمایی و رانندگی رو به اون داده بشه؟

نه!

الگوریتم ها خیلی سریع تر هستن، نه!

فضای حافظه خیلی ارزون تره، نه!

پردازش ها خیلی قدرتمند ترن، نه!

همه موارد ذکر شده موارد مهمی بحساب میان اما موضوع اصلی نیستن چون ما طبیعت موضوع رو تغییر دادیم به این صورت که قبلا به کامپیوتر می گفتیم چه کاری بکنه و … اما حالا داده هایی رو در اختیار کامپیوتر قرار می دیم و از اون می خوایم تا تصمیم درست رو اتخاذ کنه. مثلا تصمیم بگیره که وقتی داده چراغ راهنمایی رو داره و رنگ چراغ قرمزه تشخیص بده که باید توقف کنه.

یادگیری ماشین پایه و اساس خیلی از کارهایی هست که امروزه توی دنیای بی نهایت(اینترنت) داریم استفاده می کنیم. موتورهای جستجو، الگوریتم های شخصی سازی آمازون، ترجمه های گفتاری، سیستم های تشخیص صدا . هزاران هزار سیستم دیگه که داره با بکارگیری داده های جمع آوری شده از اطراف خودش و ترکیب علوم مختلف بخصوص هوش مصنوعی دوروبر ما رو احاطه کردن در حالیکه داریم به راحتی از کنارشون عبور می کنیم.

ممنون از اینکه وقت گذاشتین و این مطلب رو مطالعه کردین. سعی می کنم مطالب بیشتری توی این حوزه بخصوص ترکیب هوش مصنوعی و بزرگ داده براتون بنویسم.

شما احتمالا این مطالب را نیز دوست دارید...

۲ بازخورد

  1. Azar می‌گه:

    خیلی عالی
    ممنونم از نوشته ساده اما پرمغزتون
    جالب بود

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *