شبکه‌های عصبی، به زبان ساده

اگر مقاله‌های مرتبط با موضوع هوش مصنوعی را مطالعه کرده باشید، قریب به یقین به عبارت «شبکه‌های عصبی» برخورده‌اید. شبکه‌های عصبی مصنوعی با مدل‌سازی سطحی از روی مغز انسان رایانه‌ها را قادر می‌سازند تا از روی داده‌های ورودی، یاد بگیرند.

اثربخشی این شاخه‌ی قدرتمند از یادگیری ماشین (Machine Learning)، عصر جدیدی را برای هوش مصنوعی رقم زد و آن را از خواب زمستانی طولانی‌اش بیرون آورد.

در این مقاله قصد داریم تا به درکی عامه‌پسند از یادگیری عمیق (Deep Learning) برسیم. برای همین سعی می‌کنیم که تا جای ممکن وارد ریاضیات نشویم و تا جای ممکن به مثال و انیمیشن بسنده کنیم.

فکر زوری

یکی از اولین مکاتب هوش مصنوعی می‌گفت که اگر مقدار زیادی داده را، تا آنجا که ممکن است، در یک کامپیوتر قدرتمند بچپانیم و تا حد ممکن به‌اش دستورات کافی بدهیم تا از آن داده‌ها سردرآورد، آن کامپیوتر می‌تواند «فکر» کند. شالوده‌ی کامپیوترهای شطرنج‌باز مثل کامپیوتر Deep Blueی IBM همین بود: اینکه بیاییم هر حرکت ممکنی را به اضافه‌ی استراتژی‌های شناخته‌شده به کامپیوتر بدهیم و بعد قدرتش را به حد کافی بالا ببریم. IBM با این کار توانست ماشینی بسازد که به طور نظری تمام حرکات ممکن را محاسبه و نتیجه‌ی آن را در آینده پیش‌بینی کند و بهترین حرکات متعاقب را برای غلبه بر حریف برگزیند. چنانچه شطرنج‌بازان حرفه‌ای در سال ۱۹۹۷ متوجه شدند، این کار امکان‌پذیر بود.

با این نوع محاسبه، ماشین بر قواعد تثبیت‌شده‌ای تکیه می‌کند که با مشقت فراوان توسط مهندسین از پیش برنامه‌ریزی و پیش‌بینی شده‌ است (مثلاً اگر این حرکت را کرد، این کار را بکن؛ و اگر این‌طور شد، این حرکت را انجام بده) و اصلاً شبیه یادگیری منعطف آدمیزادی نیست. شکی نیست که داریم راجع به ابرمحاسبات قدرتمند صحبت می‌کنیم، اما نمی‌شود به آن گفت «فکر کردن».

آموزش یادگیری به ماشین‌ها

در طی دهه‌ی گذشته، دانشمندان یک مفهوم کهنه را دوباره زنده کرده‌اند. این مفهوم بر یک بانک حافظه‌ی دایره‌المعارفی تکیه ندارد، بلکه از یک روش ساده و سیستماتیک تحلیل داده‌های ورودی استفاده می‌کند که بر اساس تفکر انسانی بنا شده. این فن‌آوری با اسم یادگیری عمیق یا شبکه‌های عصبی از دهه‌ی ۴۰ وجود داشته، اما حالا با وجود این رشد نمایی داده‌های امروز (اعم از تصاویر، ویدئوها، جستجوهای صوتی، عادات وب‌گردی و…) و همین‌طور دسترسی به پردازشگرهای ارزان، آماده‌ است تا توان خود را به نمایش بگذارد.

ماشین‌ – درست مثل خود ما!

شبکه‌ی عصبی مصنوعی (ANN) یک سازه‌ی الگوریتمیک است که به ماشین‌ها اجازه می‌دهد همه‌چیز را، از فرمان‌های صوتی گرفته تا ساخت موسیقی جدید و شناخت تصویر، یاد بگیرند. یک ANN از هزاران نورون (سلول عصبی) مصنوعی به‌هم‌پیوسته تشکیل شده، که پشت سر هم در ردیف‌هایی به نام «لایه» قرار گرفته‌اند و میلیون‌ها خط ارتباطی را تشکیل می‌دهند. در بسیاری از موارد، لایه‌ها با لایه‌های نورونی قبلی و بعدی خودشان، از طرق ورودی و خروجی در ارتباط هستند. (البته این قضیه خیلی با نورون‌های مغز انسان فرق دارد، زیرا آنها در تمام جهات با هم ارتباط دارند.)

ماشین – مثل خود ما

این ANN لایه-لایه یکی از اصلی‌ترین راه‌های یادگیری ماشین در روزگار فعلی است. با فراهم کردن داده‌های نشان‌دار فراوان، ماشین قادر خواهد بود تا یاد بگیرد چگونه داده‌ها را مثل انسان (یا حتی بهتر از انسان) تفسیر کند.

مثلاً تشخیص تصویر را در نظر بگیریم. این کار به یک جور شبکه‌ی عصبی خاص به نام شبکه‌ی عصبی پیچشی (CNN) وابسته است. علت نامگذاری، به کارگیری پردازه‌ی ریاضیِ convolution برای آنالیز تصاویر به شیوه‌های غیر متعارف، مثل پیدا کردن یک ابژه‌ی نیمه‌پنهان یا ابژه‌ای است که فقط از زوایای خاصی قابل رویت است. البته انواع دیگری هم از شبکه‌های عصبی، مثل شبکه‌های عصبی راجعه وجود دارند، اما از آنها کمتر برای مثال فعلی ما، یعنی تشخیص تصاویر، استفاده می‌شود.

آموزش شبکه

اما شبکه‌های عصبی چه طور یاد می‌گیرند؟ اجازه بدهید یک پردازه‌ی بسیار ساده اما موثر، به اسم یادگیری تحت نظارت (Supervised Learning) را به شما معرفی کنیم. ما داده‌های زیادی را برای آموزش به شبکه‌ی عصبی می‌دهیم. این داده‌ها توسط انسان برچسب‌گذاری شده‌اند، به طوری که شبکه‌ی عصبی می‌تواند در حین یادگیری خودش را محک بزند. پیچیده شد؟ اجازه بدهید مثالی بزنیم.

فکر کنیم که این داده‌های برچسب‌دار شامل تصاویر سیب و پرتقال هستند. تصاویر همان داده‌های ما هستند. «سیب» و «پرتقال» هم برچسب‌هایی هستند که انسان‌ها روی این داده‌ها چسبانده‌اند. وقتی تصاویر را به شبکه‌ی عصبی می‌دهیم، شروع می‌کند به خرد کردن آنها تا اجزای پایه را بیابد؛ مثلا لبه‌ها، بافت و شکل. با پیش رفتن تصویر درون شبکه، این اجزای پایه با هم ترکیب شده و مفاهیم انتزاعی را می‌سازند؛ مثلاً انحنا و رنگ‌های متفاوت. در ادامه، ترکیب این‌ها با هم کم‌کم شبیه چیزی شبیه ساقه، پرتقال یا سیب‌های سبز و قرمز می‌شود.

در انتهای این پردازه، شبکه تلاش می‌کند تا بفهمد تصویر مربوط به کدام است: سیب یا پرتقال. ابتدا به نظر می‌رسد که این پیش‌بینی‌ها، حدس‌های اتفاقی باشند که خب، طبیعی است. هنوز یادگیری رخ نداده. اگر تصویر ورودی سیب باشد، اما شبکه آن را «پرتقال» تشخیص داده باشد، لایه‌های درونی شبکه نیاز به تنظیم دارند.

این تنظیم‌ها در طی پروسه‌ای به اسم پس‌انتشار (backpropagation) انجام می‌شوند و احتمال پیش‌بینی «سیب» را برای همان تصویر در دور بعدی پیش‌بینی بالاتر می‌برند. این روند آن‌قدر تکرار می‌شود تا زمانی که پیش‌بینی‌ها کمابیش دقیق باشند و یا اینکه شبکه پس از تمرین بیشتر، پیشرفتی نداشته باشد. اینجا هم مثل والدینی که این‌قدر به بچه‌هایشان فرق سیب و پرتقال را یاد می‌دهند تا آنها بتوانند خودشان تشخیص دهند، تمرین شرط اصلی است. اگر در طی خواندن این بخش، خودتان به این نتیجه رسیده باشید که «اِه، آدم هم همین‌طوری یاد می‌گیره»، ممکن است در حوزه‌ی هوش مصنوعی آینده‌ای داشته باشید.

یک عالمه لایه

معمولاً یک شبکه‌ی عصبی پیچشی، در کنار لایه‌های ورودی و خروجی، چهار لایه‌ی اساسی دارد:

  • کانولوشن یا هم‌گشت
  • فعال‌سازی
  • جمع‌آوری
  • کاملاً مرتبط

هم‌گشت (Convolution)

در اولین لایه یا لایه‌های کانولوشن، هزاران نورون به عنوان دسته‌ی اول فیلترینگ عمل می‌کنند و تمام پیکسل‌های تصویر را به دنبال الگو می‌کاوند. هرچه تعداد تصاویر بیشتری مورد پردازش قرار گیرد، هر نورون کم‌کم می‌آموزد که ویژگی‌های خاصی را فیلتر کند که این امر به بهبود دقت می‌انجامد.

در مورد مثال سیب، یک فیلتر شاید روی پیدا کردن رنگ قرمز متمرکز شود و دیگری به دنبال لبه‌های گرد بگردد. یک فیلتر دیگر هم شاید به دنبال زوائد نازک ساقه‌مانند باشد. اگر اسباب‌کشی کرده باشید حتماً با پروسه‌ی جدا کردن وسایل و دسته‌بندی آنها در گروه‌های مختلف مثل (کتاب، اسباب‌بازی، لباس و…) آشنا هستید. لایه‌ی هم‌گشتی هم با خرد کردن تصویر همان کار را می‌کند.

یکی از دلایل شهرت شبکه‌ی عصبی، و یکی از نقاط قدرتمندش، اینست که بر خلاف متدهای هوش مصنوعی قدیمی‌تر (دیپ بلو و امثالهم)، این فیلترها دستی طراحی نمی‌شوند. آنها تنها با نگاه کردن به داده‌ها یاد می‌گیرند و خودشان را تطبیق می‌دهند.

در واقع کار لایه‌ی هم‌گشت یا کانولوشن اینست که نقشه‌هایی می‌سازد که هر یک نسخه‌ای متفاوت و خرد شده از تصویرند و هر کدام به خاصیت فیلتر شده‌ی خاصی می‌پردازند. در مثال سیب، این نقشه‌ها نشان می‌دهند که نورون‌های شبکه کجا یک مثال (هرچند جزئي) از رنگ قرمز، ساقه، انحنا و دیگر عناصر دیده‌اند. اما از آنجا که لایه‌ی کانولوشون در تشخیص ویژگی‌ها آزاد است، به یک جفت چشم اضافه نیاز دارد تا ویژگی‌های مهم در طی حرکت تصویر درون شبکه، نادیده نمانند.

فعال‌سازی (Activation)

یکی از مزیت‌های شبکه‌های عصبی اینست که می‌توانند به صورت غیر خطی یاد  بگیرند. به زبان غیر ریاضی یعنی می‌توانند ویژگی‌هایی را تشخیص دهند که کاملاً مشهود نیستند؛ مثلاً تصویر سیب‌های روی درخت که بعضی‌هایشان زیر نور آفتاب و بعضی‌ها داخل سایه‌اند، یا سیب‌هایی که روی کانتر آشپزخانه داخل کاسه چیده شده‌اند. کار لایه‌ی فعال‌سازی پررنگ کردن چیزهای با ارزش است.

در مثال اسباب‌کشی، فکر کنید که از هر دسته چند چیز را دست‌چین کرده‌ایم که مطمئن نیستیم به درد بخورند. مثلاً چند تا کتاب قدیمی یا تی‌شرت دمده از دوران قدیم. آنها را دم دست می‌گذاریم تا بعداً دوباره به نگه داشتن یا دور انداختن‌شان فکر کنیم.

ادغام (Pooling)

کانولوشن‌های متعدد روی یک عکس، اطلاعات زیادی را تولید می‌کند. حجم اطلاعات تولیدی خود می‌تواند به یک کابوس محاسباتی بدل شود. پس نوبت به لایه‌ی ادغام می‌رسد که همه‌ی این اطلاعات را به شکلی عام و هضم‌شدنی تبدیل می‌کند. راه‌های زیادی برای این کار وجود دارد، اما یکی از محبوب‌ترین روش‌ها «ادغام حداکثری (Max Pooling)» است. در این روش نقشه‌ی هر ویژگی به صورت نسخه‌ای خلاصه از خودش درمی‌آید، به صورتی که تنها بهترین مثال‌های قرمزی، شکل ساقه یا انحنا به صورت خصوصیت درمی‌آیند.

در مثال اسباب‌کشی، فرض کنید که از هر دسته فقط عزیزترین اشیا را انتخاب کنیم و از بقیه صرف نظر کنیم. حالا همچنان وسایل‌مان به صورت طبقه‌بندی‌شده وجود دارند، اما فقط شامل چیزهایی هستند که می‌خواهیم نگه داریم.

طراح شبکه‌ی عصبی می‌تواند لایه‌های اینچنینی (کانولوشن، فعال‌سازی، ادغام) متعددی را پشت سر هم تعبیه کند و تصاویر را به دنبال اطلاعات رده بالاتری فیلتر کند. در مثال تشخیص سیب در تصویر، عکس‌ها بارها و بارها فیلتر می‌شوند. لایه‌های اولی بخش‌های ناواضحی از یک لبه، یک نقطه‌ی قرمز، یا شاید نوک ساقه را نشان دهند، در حالی که لایه‌های فیلترشده‌تر و متاخرتر، سیب‌های کامل را نشان می‌دهند. به هرحال، در هنگام حصول نتیجه، پای لایه‌ی «کاملاً مرتبط» به میان می‌آید.

ارتباط کامل (Fully Connected)

حالا وقت جواب گرفتن است. در لایه‌ی کاملاً مرتبط، هر نقشه‌ی ویژگی «ادغام‌شده» به صورت «کاملاً مرتبط» با گره‌(نورون)های خروجی‌ای در ارتباط است که نماینده‌ی گروه هدف شبکه‌ی عصبی هستند . اگر هدف شبکه، تشخیص گربه، سگ، خوک هندی و موش در تصاویر باشد، چهار گره خروجی خواهد داشت. در مورد شبکه‌ی عصبی‌ای که تا کنون راجع به آن حرف زدیم، فقط دو گره خروجی وجود خواهند داشت: «سیب» و «پرتقال».

اگر تصویری که به شبکه‌ی عصبی وارد کرده‌ایم از سیب باشد، و شبکه قبل از این تحت آموزش و بهبود پیش‌بینی‌هایش قرار گرفته باشد، به احتمال زیاد بخش زیادی از نقشه‌های ویژگی، شامل مثال‌های خوبی از ویژگی‌های سیب هستند. در اینجا، گره‌های خروجی نهایی با یک جور انتخاب برعکس، به کارشان می‌پردازند.

وظیفه‌ی گره‌های سیب و پرتقال (که آن را در طول انجام وظیفه آموخته‌اند) اینست که به نقشه‌های ويژگی‌ از آیتم مورد نظر که به دست‌شان رسیده، رای بدهند. هر چه‌قدر گره «سیب» بیشتر فکر کند که نقشه‌ی ویژگی، شامل ویژگی‌های سیب است، رای بیشتری به آن اختصاص می‌دهد. هر دو گره باید به تمام نقشه‌ها، فارغ از محتویات‌شان، رای بدهند. مثلاً اینجا، گره «پرتقال» رای زیادی به نقشه‌های ویژگی نمی‌دهد، چون در واقع چیزی از ویژگی‌های «پرتقال» در آنها نیست. در آخر، گره‌ای که بیشترین رای را داده باشد –در این مثال گره «سیب»- می‌تواند به عنوان جواب شبکه تلقی شود؛ هرچند که این‌قدرها هم ساده نیست.

از آنجایی که شبکه به دنبال دو چیز متفاوت (سیب و پرتقال) است، خروجی نهایی شبکه به شکل درصد بیان می‌شود. در این مثال ما فرض می‌گیریم که شبکه کمی از مسیر آموزش و یادگیری‌اش را طی کرده است. در چنین شرایطی مثلاً شبکه پیش‌بینی می‌کند که تصویر ۷۵ درصد «سیب» و ۲۵ درصد «پرتقال» است. شبکه‌ای که کمتر از این تحت یادگیری بوده است، ممکن است جواب غیر دقیق و غیر قاطعی بدهد و بگوید ۲۰ درصد «سیب» و ۸۰ درصد «پرتقال»! آخ!

اگر موفق نشدی، باز هم امتحان کن، باز هم، باز هم، باز هم

پس این‌طور که معلوم است، شبکه‌ی عصبی در مراحل اول جواب‌های اشتباهی را به شکل درصد ارائه می‌کند. جوابِ ۲۰ درصد «سیب» و ۸۰ درصد «پرتقال» به وضوح اشتباه است، اما از آنجایی که داده‌های ورودی ما برچسب دارند، شبکه می‌تواند اشتباه‌های خود را پیدا کند و از طریق پروسه‌ی پس‌انتشار دریابد که این اشتباه چه طور اتفاق افتاده است.

از آنجا که قول داده بودیم این مقاله شامل ریاضیات نباشد، به همین بسنده کنیم که در پروسه‌ی پس‌انتشار، به لایه‌های گره قبلی، بازخوردی داده می‌شود مبنی بر اینکه جواب‌ها چه‌قدر اشتباه بوده‌اند. آن لایه هم بازخورد خود را به لایه‌ی قبلی می‌فرستد و این کار تا مرحله‌ی کانولوشن ادامه پیدا می‌کند. اینجا تظیم‌های لازم روی نورون‌ها اعمال می‌شود تا وقتی تصاویر بعدی به شبکه می‌رسند، داده‌ها را بهتر تشخیص دهند.

این پردازه آن‌قدر و آن‌قدر تکرار می‌شود تا شبکه‌ی عصبی بتواند سیب و پرتقال را با دقت هرچه بیشتری در تصاویر تشخیص دهد و در نهایت به ۱۰۰ درصد پیش‌بینی درست برسد (گرچه بسیاری ۸۵ درصد را قابل قبول می‌دانند). وقتی به اینجا رسید، شبکه‌ی عصبی آماده است و می‌تواند به صورت حرفه‌ای به تشخیص سیب در تصاویر بپردازد.

این مقاله ترجمه‌ای است از:
https://techcrunch.com/2017/04/13/neural-networks-made-easy/

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.