علم داده
آموزش‌های پیشرفته هوش مصنوعیداده کاوی و بیگ دیتاکاربردهای هوش مصنوعی

چرخی در محله‌های توکیو: به کارگیری علم داده‌ در دنیای واقعی

0

داده‌کاوی تحت وِب Web-Scraping ، واسط برنامه نویسی کاربردی Foursquare، نقشه‌های فولیوم و غیره

بخشی از پروژه IBM Capstone به این امر اختصاص داشت که دانشمندان علم داده‌ در دنیای واقعی با چه مسائلی مواجه هستند. اهداف آخرین دوره بدین ترتیب تعریف شد: تعریف مسئله‌ی کسب‌وکار، جستجوی اطلاعات در وب، و استفاده از پایگاه داده‌های مکانی Foursquare جهت مقایسه مناطق مختلف حوزه‎های (شهریِ) شهر مورد نظر (در این مقاله شهر توکیو) به منظور شناسایی محل مناسبِ راه‌اندازی کسب‌وکار مورد انتخاب دانشجو (در این مقاله رستوران). مطابق دستور کار پروژه، سه مرحله فوق را گام به گام توضیح می‌دهم. جزئیاتِ کدها و تصاویر در Github و لینک آن در پایین همین پست قرار گرفته است.

۱. زمینه و مباحث مسئله کسب‌‎وکار

بیان مسئله: آینده‌ی رستوران‌هایِ سرو ناهار در مناطق اداری توکیو

توکیو پرجمعیت‌ترین کلان شهر دنیا است و در حال حاضر سومین قدرت اقتصادی جهان محسوب می شود لذا مکان مناسبی جهت شروع یک کسب‌وکار جدید است.
در طی روز به ویژه صبح و وقت ناهار مناطق اداری شهر فرصتهای شغلی مناسبی برای رستوران‌ها فراهم می کنند. رستوران‌هایی با قیمت‌های مناسب (مثلاً ۸ دلار بابت یک پرس غذا) اغلب در این ساعاتِ روز ( یعنی ۱۱ صبح تا ۲ بعد از ظهر) پُر از مشتری هستند. با توجه به این موضوع به بررسی فواید و مضرات تاسیس رستوران‌های سرو کننده‌ی صبحانه و ناهار در مناطق متراکم اداری پرداختیم. اغلب حاشیه سود یک رستوران معمولی بین ۱۵ تا ۲۰ درصد است امّا ممکن است به ۳۵ درصد هم برسد. مرکز شهر توکیو شامل ۲۳ حوزه (شهری) است در این مقاله تنها پنج مورد از آنها را که شلوغ‌ترین حوزه‌های اداری توکیو هستند بررسی می کنیم _ چیود (千代田区)، چو (中央区)، شینجوکو (新宿区)، شیبوی (渋谷区) و شیناگاوا (品川区).

هر مرحله را جداگانه توضیح می دهم. ابتدا تصویر کلی جمع‌آوری اولیه داده‌ها را بیان می کنم و سپس گام‌های آتی شروع رقابت محله‌های توکیو را مطرح خواهم کرد.

جمعیّت هدف

مشتریان یا افراد علاقمند به این پروژه کدامند؟

  1. پرسنلی که در حال حاضر در یک کسب‌وکار مشغول به کار و در عین حال به دنبال سرمایه‎گذاری در رستوران هستند. تحلیل پیش رو راهنمای جامعی خواهد بود جهت افتتاح یا توسعه رستوران‌هایی که در ساعات ناهار پذیرای تعداد زیادی از کارمندانِ شهرِ توکیو است.
  2. صاحبانِ کسب‌وکارهای آزاد که دوست دارند در کنار شغل خود رستوران هم داشته باشند. تحلیل پیش رو ضمن ارائه ایده‌هایی به این افراد، به آنها نشان می‌دهد که میزان سود رستوران چقدر است و فواید و مضرات آن چیست.
  3. افراد تازه فارغ التحصیل شده‌؛ این پژوهش به آنها کمک می کند تا به راحتی در نزدیکی محل کار خود رستورانی پیدا کنند که با قیمتی مناسب صبحانه و ناهار سرو می کند.
  4. دانشمندان تازه‌کارِ علم اطلاعات دانشمندان تازه‌کارِ علم اطلاعات Budding Data Scientists، یعنی افرادی که می‌خواهند پرکاربردترین راهبردهای اکتشافی تحلیل داده‌ها را به کار گیرند تا داده‌های مورد نیاز خود را بدست آورند، آنها را تحلیل کنند و نهایتاً یافته‌های خود را دراختیار دیگران قرار دهند.
۲. آماده‌سازی داده‌ها

۲-۱. جدول داده‌کاوی حوزه‌های توکیو برگرفته از ویکی‌پدیا

در مرحله اول برای ایجاد چارچوب کلی داده‌ها از صفحه جدول داده‌کاوی مناطق ویژه توکیو در ویکی‌پدیا استفاده نمودم. بدین منظور از درخواست‌ها و کتابخانه Beautifulsoup4 برای ایجاد چارچوب داده‌هایی استفاده نمودم که شامل نامِ حوزه‌های ۲۳ گانه‌ی توکیو، وسعت، جمعیّت و بخش‌ِ تراز اول آنها است. با دستور زیر شروع کردم:

علم داده

پس از کمی دستکاری، چارچوبِ داده‌ها به شکل زیر درآمد:

علم داده

چارچوب داده ها برگرفته از ویکی‌پدیا

۲-۲. دریافت مختصات بخش‌های اصلی: Geopy Client

هدف بعدی دریافت مختصات بخش‌های اصلی این حوزه‌های ۲۳ گانه با استفاده از کلاس geocoder در Geopy client است. تکه-کدهای the code snippet زیرمورد استفاده قرار گرفتند:

علم داده

همانطور که مشاهده می‌کنید مختصات چهار مورد (بونکیو، کوتو، اوتا، ادوگاوا)، به دلیل املای متفاوت نامِ منطقه در چارچوب داده‌ها، کاملاً اشتباه است (مثلاً Hongō — Hongo). لذا، بایستی این مختصات را با مقادیر بدست آمده در گوگل جایگزین می کردم. پس از دستکاری بیشتر داده‌ها با ابزارهای Panda، چارچوبِ دادهای منسجم زیر بدست آمد:

علم داده

۲-۳. متوسطِ قیمت زمین در حوزه‌های اصلی توکیو: داده‌کاوی تحت وِب

متوسط قیمت زمین در حوزه‌های ۲۳ گانه فاکتوری دیگر است که به ما در انتخاب بهترین منطقه جهت افتتاح رستوران کمک می‎کند. این اطلاعات را از طریق داده‌کاوی صفحه وبِ قیمت زمین در نواحی مختلف توکیو، در همان صفحه قبلی ویکی‌پدیا بدست آوردم. هدف این مقاله بررسی پنج مورد از شلوغ‎ترین نواحی شهری توکیو است که در بخش اول نام بردیم، لذا داده‌ها به صورت زیر مرتب شد:

علم داده

۲-۴. داده‌های موقعیت‌یاب Foursquare

داده‌های Foursquare بسیار جامع است و موقعیت یاب اَپل، آبر، و غیره را تقویت می‌کند. در مسئله مورد بررسی این مقاله، به منظور بازیابی اطلاعاتِ مربوط به مکان‌های مورد توجه مردم در پنج ناحیه اصلی توکیو، واسط برنامه نویسی کاربردی Foursquare را مورد استفاده قرار دادم. نقطه‎های بازگشتی متداول popular spots returned به بالاترین میزان تردد پیاده و در نتیجه به زمان فراخوانی بستگی دارند. لذا، در ازای ساعات مختلف روز، مناطق پرتردد متفاوتی خواهیم داشت. بازگشت فراخوان، یک فایل JSON را در اختیار ما قرار می‎دهد که باید آن را به چارچوب داده‌ها تبدیل کنیم. در این پژوهش برای هر یک از مناطق اصلی،  ۱۰۰ نقطه پرتردد با بُرد یک کیلومتر انتخاب نمودم. داده‌های بدست آمده از فایل JSON که توسط Foursquare ارسال شده ‌است را در زیر مشاهده می‌کنید:

علم داده

۳. تصویر سازی و اکتشاف داده‌ها

۳-۱. کتابخانه فولیوم و Leaflet Map

فولیوم نوعی کتابخانه پایتون است که می تواند با استفاده از داده‌های مختصات، یک Leaflet Map تعاملی ایجاد کند. به دلیل اینکه مکان پرتردد مورد نظر من در پژوهش حاضر رستوران است، ابتدا چارچوب داده‌ها را به نحوی ایجاد نمودم که ستون ‘Venue_Category’ داده‌های قبلی شامل واژه «رستوران» باشد. تکه-کد زیر را استفاده کردم:

علم داده

گام بعدی به کارگیری این داده‌ها در ایجاد Leaflet Map تعاملی با فولیوم است تا از طریق آن توزیع پرترددترین رستوران‌های این نواحی پنج گانه را مشاهده کنیم.

علم داده

در تکه-کد دستوری بالا Leaflet Map تعاملی به صورت زیر است:

علم داده

علامت‌های مدور نمایش دهنده‌ی رستوران‌هایی هستند که طبق داده‌های Foursquare در پنج منطقه‌ی اصلی توکیو بیشترین بازدید را داشته‌اند (سبز_نیهومباشی ، قرمز_ ناگاتاچو ، نارنجی_ شیبویا ، سرخابی_ شینجوکو ، آبی_ شیناگاوا).

۳-۲. تحلیل اکتشافی داده‌ها:

همانطور که در تصویر زیر مشاهده می کنید، در صدر فهرست، ۱۳۴ نوع جایگاه منحصربه فرد و رستورانِ سروِ رامنرستورانِ سروِ رامن Ramen Restaurant قرار دارد:

علم داده

پرترددترین رستوران‌ها در شینجوکو، شیبویا، ناگاتاچو، نیهومباشی، شیناگاوا طبق داده‌های Foursquare

وقتِ ناهار رستوران‎های رامن از جمله‌ی پر بازدیدترین مکان‌های پنج منطقه‌ی اصلی توکیو محسوب می‎شوند.

علم داده

پس از صرف ناهار خوشمزه، حالا وقت آن رسیده‎است تا بیشتر به اکتشاف داده‌ها بپردازیم. برای کسب اطلاعات بیشتر درباره مکان‌های برتر هر کدام از این پنج منطقه انتخابی، مراحل زیر انجام شد:

  • ایجاد چارچوب داده‌ها از طریق کدگذاری بردار تک بعدی pandas برای مقوله بندی مکان‌ها.
  • استفاده از دسته بندی Panda بر اساس ستون مناطق و محاسبه میانگین بردار تک بعدی کدگذاری شده‎ی رسته‌ی مکان‌ها.
  • انتقال داده‌ها از گام دوم و مرتب سازی آنها به صورت نزولی.

تکه-کدهای زیر را در نظر بگیرید:

علم داده

خروجی این کدها پنج مکان پرتردد درهریک از مناطق را نشان می دهد.

علم داده

از میان چندین چارچوب داده‌ای که می بایستی برای تحلیل اکتشافی داده‌ها ایجاد می کردم، یک مورد را انتخاب نمودم تا نشان دهم کدام مناطق دارای پربازدیدترین رستوران‌ها هستند و ناگاتاچو در حوزه چیودا با ۵۶ رستوران پرتردد در صدر فهرست قرار گرفت.

علم داده

تعداد رستوران‌های پربازدید در نواحی پنج گانه توکیو.

همچنین می‎توانیم به نمودارهای ویولنی رجوع کنیم که مبین داده‌های رسته‌ای هستند. برای نمایش توزیعِ چهار نوع رستوران اصلی در مناطق مختلف از کتابخانه seaborn استفاده نمودم.

علم داده

پس از دریافت دیدگاهی نسبتاً کلی درباره انواع مختلف مکان‌ها به ویژه رستوران‌ها در پنج حوزه اصلی توکیو، زمان آن فرا می‎رسد که مناطق را با کمک K-Mean خوشه بندی کنیم.

  1. خوشه‌بندی منطقه

در آخر این پنج حوزه را بر اساس رسته‌های مکان‎‌ها و با استفاده از خوشه‌بندی K-Mean خوشه‎بندی می‏کنیم. لذا، پیش‎بینی‎های ما مبتنی بر آن دسته از شباهت‌هایِ بین رسته‌های مکان‌ است که این مناطق بر اساس آنها خوشه بندی شده اند. برای این منظور تکه-کد زیر را مورد استفاده قرار دادم:

علم داده

پنج حوزه اصلی توکیو بر اساس مکان‌های پرتردد بدست آمده از داده‌های Foursquare به سه خوشه تقسیم شدند.
همانند زیر می‎توانیم با کمک کتابخانه Folium این سه خوشه اصلی را در یک leaflet map نمایش دهیم:

علم داده

پنج حوزه اصلی توکیو براساس پربازدیدترین مکان‌ها به سه خوشه تقسیم شدند. اندازه دایره‌ها نشان دهنده‌ی تعداد رستوران‌های پربازدید در هر منطقه است. همانطور که در تصویر ۴ مشاهده نمودید بیشترین آنها در ناگاتاچو و کمترین آنها در شیبویا واقع شده‌اند.

۴. بحث و نتیجه گیری

به پایان تحلیل رسیدیم و اکنون باید نگاهی به پنج حوزه‌ی اصلی توکیو بیاندازیم. به دلیل اینکه مسئله کسب‌وکار این پژوهش درباره‌ی فواید و مضرات افتتاح رستورانِ سرو ناهار در یکی از پُر رفت و آمدترین مناطق شهر بود، تحلیل اکتشافی داده‌ها عمدتاً مبتنی بر رستوران‌ها صورت گرفت. برای تبیین واقع گرایانه‎ی تحلیل داده‌ها، اطلاعات منابع مختلف از جمله ویکی‌پدیا، کتابخانه‌های پایتون مثل Geopy، و واسط برنامه نویسی کاربردی Foursquare را مورد استفاده قرار دادیم. در نتیجه‎ی پژوهش حاضر نتایج زیر حاصل شد:

  • رستوران‏های رامن در صدر فهرست مکان‌های پرتردد پنج منطقه انتخابی قرار داشتند.
  • منطقه ناگاتاچو در حوزه‌ی چیودا و منطقه نیهومباشی در حوزه‌ی چو، مناطقی هستند که مکان پرتردد آنها رستوران است درحالی که در نواحی شیبویا وشینجوکو میکده‌ها، میخانه‌ها، و کافی شاپ‌ها مکان‌های پرتردد محسوب می‎شوند.
  • بیشترین تعداد رستوران‌ها و پرترددترین مکان‌ها در منطقه ناگاتاچو واقع شده است در حالی که کمترین تعداد رستوران‌ها در منطقه شیبویا هستند.
  • به دلیل اینکه خوشه‌بندی مبتنی بر پرترددترین مکان‌های هر منطقه صورت گرفته‌است، دو منطقه‌ی شینجوکو و شیبویا در یک خوشه و دو منطقه‌ی ناگاتاچو و نیهومباشی در یک خوشه قرار گرفتند. و به دلیل اینکه در منطقه‌ی شیناگاوا خواربارفروشی‌ها پرترددترین مکان‌ها بودند، این منطقه از دو خوشه دیگر مجزا ماند.

بنابراین تحلیل، خواربارفروشی‌ها پرترددترین مکان‌ها در ناحیه‌ی شیناگاوا هستند و فراوانی رستوران‌های پرتردد در این ناحیه در مقایسه با دو خوشه دیگر بسیار کم است، لذا رستورانِ تازه تاسیسِ سِرو ناهار در ناحیه‌ی شیناگاوا با کمترین رقابت مواجه خواهد شد. به علاوه، همانطور که در داده‌های داده‌کاوی شده‌ی تحت وب مشاهده نمودیم، میانگین قیمت زمین در منطقه شیناگاوا و نواحی اطراف آن در مقایسه با بخش‎های نزدیکِ مرکزِ توکیو بسیار کم‌تر است. بنابراین، به طور قطع منطقه‌ی شیناگاوا مکان بسیار مناسبی برای تاسیس رستورانی باکیفیت خواهد بود. ایراد تحلیل حاضر این است که خوشه‌بندی صرفاً مبتنی بر اطلاعات بدست آمده از داده‌های Foursquare درباره‌ی پرترددترین مکان‌ها صورت گرفته است. البته با در نظر گرفتن قیمت زمین، فاصله مکان‌ها از نزدیکترین ایستگاه، تعداد مشتریان احتمالی، مزایا و معایب منطقه بندری شیناگاوا و نقش و تاثیرگذاری همه این موارد در کسب‌وکارهای این منطقه، مسلماً تحلیل پیش رو، تحلیل قطعی و متقن نیست. با این وجود، این تحلیل اطلاعات اولیه بسیار مهمی درباره‌ی امکان تاسیس رستوران در مناطق اصلی توکیو در اختیار ما قرار می‎دهد. به علاوه، لحاظ کردنِ تنها یک منطقه‌ی اصلی در هر کدام از حوزه‎های توکیو، ایراد دیگر این تحلیل به شمار می‎رود. با در نظر گرفتنِ تمام نواحی تحت پوشش هر یک از این حوزه‎های پنج گانه می‏توان تحلیلی واقع گرایانه‌تر بدست آورد. به علاوه، در صورت اتخاذ تکنیک خوشه‎بندی متفاوتی مثل DBSCAN به احتمال زیاد نتایج متفاوت نیز متفاوت خواهند شد.

۵. نتیجه گیری

در مجموع این پژوهش برداشتی کلی درباره‎ی پروژه‌های علم اطلاعات در دنیای واقعی در اختیار ما قرار داد. در این پروژه برای داده‎کاوی دادهای تحت وب از برخی از کتابخانه‌های متداول پایتون استفاده نمودم، برای شناسایی مناطق اصلی توکیو واسط برنامه نویسی کاربردی Foursquare را به کار گرفتم و نتایج تقسیم بندی مناطق را با leaflet map فولیوم به نمایش گذاشتم. درباره‌ی  قابلیت به کارگیری این گونه تحلیل‌ها در مسئله‌های کسب‌وکار دنیای واقعی نیز به تفضیل بحث کردیم. همچنین برخی از ایرادها و فرصت‎های بهبود و اصلاح آنها را  به منظور ارائه تصویری واقع گرایانه‌تر مطرح نمودیم. نهایتاً، به دلیل اینکه تحلیل این پژوهش بر امکانِ تاسیس رستوران در مناطقی متمرکز بود که بیشتر کارمندان رفت‌وآمد می‎کردند، برخی از نتایج با انتظارات من  به عنوان فردی که ۵ سال در توکیو زندگی کرده است منطبق است. من به ویژه به چشم خودم شاهد این هستم که در اطراف شینجوکو و شیبویا کافی‎شاپ‎ها، میکده و میخانه‌ها و در اطرافِ نیهومباشی و ناگاتانچو رستوران‎های ژاپنی مکان‎هایی پرتردد هستند. امیدواریم این گونه تحلیل‌ها راهنمای اولیه‎ای باشند برای افرادی که می‎خواهند با کمک علم اطلاعات چالش‎های حقیقی بیشتری را مورد بررسی قرار دهند.

لینک کدها در Github

با هوش مصنوعی صحبت کنید

مقاله قبلی

ثبت‌ نام اولین دوره کالج تخصصی هوش مصنوعی پارت آغاز شد: شکارچی پایتون

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *