
رمزگشایی و بازسازی دیجیتالی ذهن انسان
امروزه، با پیشرفتهای چشمگیر در حوزه هوش مصنوعی و ترکیب آن با علم ژنتیک، این رویا بیش از هر زمان دیگری به واقعیت نزدیک شده است.
بهواسطه پیشرفت تکنولوژی، بشر شاهد رشد انفجاری در تولید داده میباشد که نیازهایی جهت گردآوری و ذخیرهسازی آن ایجاب میکند. این حجم عظیم دادگان از طریق انسان به راحتی قابل تحلیل و ارزیابی نیستند. به همین دلیل الگوریتمهای دادهکاوی به کار گرفته شدهاند تا به فرآیندهای تصمیمگیری و بهبود کسب و کار کمک کنند.
فرآیند دادهکاوی را تحت عنوان «کشف دانش از داده» میشناسند. به بیانی دیگر، دادهکاوی به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، اطلاق میشود…درباره داده کاوی بیشتر بخوانید
امروزه، با پیشرفتهای چشمگیر در حوزه هوش مصنوعی و ترکیب آن با علم ژنتیک، این رویا بیش از هر زمان دیگری به واقعیت نزدیک شده است.
عدادی از استارتاپهای علم داده با بهرهگیری از فناوریها و راهحلهای نوین، در حال ایجاد تحولات قابل توجهی هستند. این شرکتها قصد دارند با استفاده از دادهها، تغییرات بنیادینی در حوزههایی نظیر بهداشت و درمان و مالی به وجود آورند.
معرفی 10 دوره رایگان عبوم داده که میتواند به صورت آنلاین شرکت کنید.
بررسی نحوه تاثیر دادههای با کیفیت بر بهبود نتایج بیماران، ایجاد نوآوری در فناوری سلامت و ارتقای کارایی سیستمهای هوش مصنوعی اختصاص یافت.
کاوش شبکه های اجتماعی و بیرون کشیدن اطلاعات مناسب کسبوکارها با استفاده از دادهکاوی چند سالی است که جایش را در میان شرکتهای بزرگ و کوچک باز کرده است. البته کاربرد تحلیل شبکه های اجتماعی محدود به استخراج اطلاعات مناسب برای کسبوکارها نمیشود و امروز گستره وسیعی را شامل میشود.
تحلیل پیشرفته Advanced Analytics یکی از روشهای تحلیل داده است که با تکیه بر مدلسازی پیشبین Predictive modelling، الگوریتمهای یادگیری ماشینی، یادگیری عمیق، خودکارسازی فرآیندهای کاری و سایر روشهای آماری، اطلاعات به دست آمده از منابع گوناگون را تجزیه و تحلیل میکند. تحلیل پیشرفته از روشهای سنتی هوش تجاری (BI) فراتر
برای رسیدن به موقعیت کنونی چه مسیری را طی کردهایم؟ در این مسیر به چه قابلیتهایی دست پیدا کردهایم؟ و چه پیشرفتهایی در انتظار ما است؟ برای پاسخ به این سؤالات باید تاریخچه داده را مطالعه کنیم.
در این نوشتار، پروژه یکپارچهای که در رقابتهای Kaggle با موضوع تکنیکهای پیشرفتهی رگرسیون انجام دادم را، به صورت گام به گام، برای مخاطبان توضیح خواهم داد. قرار است مخاطبان بتوانند از این مقاله به عنوان یک دوره آموزشی مختصر در مورد یادگیری ماشین استفاده کنند.
سؤالاتی از این دست که، محبوبترین ابزار مورد استفاده در داده کاوی چیست؟ یا کدام الگوریتم برای دادهکاوی بهتر است؟ ما را به سمت زبان برنامهنویسی به نام پایتون سوق میدهد، که به صورت خاص آن را برای تجزیه و تحلیل دادهها توسعه دادهاند. قوانین تولیدشده توسط دادهکاوی برای یافتن
مقدمات یادگیری ماشینی: قسمت سوم در این نوشتار، به پیادهسازی معادله نرمالNormal equation میپردازیم که یک راهکار فرمبستهClosed-form solution برای الگوریتم رگرسیون خطی است. با استفاده از معادلات نرمال، میتوانیم مقدار بهینه theta را تنها طی یک مرحله و بدون استفاده از الگوریتم گرادیان کاهشیGradient descent محاسبه کنیم. در ابتدا
در این نوشتار، با پیادهسازی یک الگوریتم غیرپارامتری به نام رگرسیون خطی وزنی محلی آشنا میشویم. بدین منظور، ابتدا نگاهی به تفاوت بین الگوریتمهای یادگیری پارامتری و غیرپارامتری خواهیم انداخت. سپس تابع وزندهی و تابع پیشبینی را توضیح خواهیم داد. در انتها، پیشبینیهای تولیدشده را با استفاده از کتابخانههای NumPy
مقدمات یادگیری ماشینی: قسمت اول در این نوشتار، قصد داریم ابتداییترین مدل یادگیری ماشینی یعنی رگرسیون خطی را بسازیم و آن را تنها با استفاده از کتابخانه Numpy پایتون اجرا کنیم. بدین منظور، ابتدا نگاهی به دیتاست خواهیم انداخت، سپس در خصوص فرایند الگوریتم عمومی یادگیری نظارتشده صحبت خواهیم کرد
مهمترین سرفصل های علوم داده چیستند؟ این سرفصلها در هر دوره مرتبط با علم داده تدریس میشوند و برای یادگیری این علم، آشنایی با آنها ضرورت دارد؛ نهتنها تحلیلگران داده و متخصصان هوش تجاری، هدفشان ارتقای مهارتها و دانش دادههای خود است، بلکه بازاریابان، مدیران سطح C، سرمایهداران و غیره
سراسر علم نجوم، حول محور دادهها میچرخد. با گسترش جهان هستی، اطلاعات ما درباره آن نیز بسط مییابد. با این حال، بزرگترین چالشی که نسل آینده علم نجوم با آن روبهرو خواهد بود نیز مربوط به مطالعه این حجم داده است و اینجاست که نقش هوش مصنوعی در علم نجوم
«استنتاج» و «استدلال» از جمله مفاهیمی است که تا مدتها، منحصراً در حیطه دانش انسانی طبقهبندی میشد و تصور آنکه روزی ماشینها بتوانند گزارههای متعدد را کنار یکدیگر قرار دهند و از این عمل به نتیجه معقولی و منطقی برسند، دشوار بود. با پیشرفت روزافزون فناوری کامپیوترها، امکان استدلال توسطs
اگر مدل آموزشی از تعداد نمونههای بیشتری برخوردار باشد، مدل علم داده بهتری به دست میآید، اما این کار در خصوص برخی از ویژگیها صدق نمیکند. دیتاست حقیقی ویژگیهای گوناگونی دارد و برخی از آنها نقش مفیدی در آموزش مدل علم داده قوی دارند. ویژگیهای حشو یا تکراری نیز بر
خوشه بندی در داده کاوی به عنوان یکی از ابزارهای قدرتمند گروهبندی داده شناخته شده که جهت تشخیص الگوهای نهفته در بین دادهها مورد استفاده قرار میگیرد. از منظر ارتباط با هوش مصنوعی، خوشهبندی نوعی یادگیری بدون نظارت است که بدون وجود دانشی در مورد برچسب دادهها و متغیر هدف،
در پروژه اخیرم، موفق شدم اندازه خوشه cluster را بر اساس پیشبینی بار بهصورت فعال مدیریت کنم. در این نوشتار، پروژه مذکور را توضیح میدهیم، قابلیتهای داخلی موجود در AWS را بهصورت دقیق مورد بررسی قرار میدهیم، دلایل استفاده از FBProhphet را مرور میکنیم و نحوه پیادهسازی این راهکار را
جیم گری، برنده جایزه تورینگ، دیتاساینس یا علم داده را بهعنوان «پارادایم چهارم» علم (تجربی، نظری، محاسباتی و اکنون مبتنی بر داده) تصور کرد و اظهار داشت که همه چیز در مورد علم به دلیل تأثیر فناوری اطلاعات و سیل دادهها در حال تغییر است. این پیشبینی چنان در حال
در این مطلب به پرکاربردترین آزمونهای آماری خواهیم پرداخت. تحلیل تجاری و علوم داده محصول مشترک چندین حوزه تخصصی هستند. متخصصان حوزههای گوناگون با پیشزمینههای تحصیلی متفاوت وارد عرصه تحلیلگری میشوند، به این امید که روزی در حوزه علوم داده بهعنوان متخصص شروع به کار کنند (شناخته شوند). شاید بتوان متخصصان
برای آموزش شبکههای عصبی یادگیری عمیق، از الگوریتم بهینهسازی گرادیان نزولی تصادفی استفاده میشود. برآورد مکرر خطای مدل یکی از مراحل الگوریتم بهینهسازی است. بدین منظور باید یک تابع خطا یا تابع زیان انتخاب کرد. وزنهای مدل بر اساس زیان برآوردشده توسط این تابع، به روزرسانی میشوند و بدین طریق در
برای اینکه به قدرت سیستم توصیه گر Recommendation System پی ببرید، کافی است به سرویس رسانهایِ «نِتفیلیکس» توجه کنید؛ سیستم توصیه گر نوین این شرکت، برای چندین ساعت ما را پای تلویزیون میخکوب میکنند.
در این مقاله به سؤالات زیر در خصوص سری های زمانی پاسخ میدهیم: سریزمانی چیست؟ هدف اصلی سریزمانی چیست؟ سریزمانی چه تفاوتی با رگرسیون دارد؟ چگونه به صورت ریاضیاتی سری زمانی را مدل کنیم؟ چرا باید سریزمانی مانا باشد؟ مدلسازی ARIMA چیست؟ سری زمانی چیست؟ به دنبالهای از دادهها که
بی شک استفاده سیستم پیشنهاددهنده Recommendation system یکی از بهترین روشها برای بهبود تجربه کاربری در سامانههای مختلف و دروازه ورودی است به دنیای یادگیری ماشین. بسیاری از شرکتها در حال حاضر از سیستمهای پیشنهاددهنده یا بخش «پیشنهادات شما» استفاده میکنند. اخیراً محبوبیت سیستمهای پیشنهاددهنده به لطف شرکتهایی مثل آمازون
بهترین راه برای دستیابی به ابزارها و تکنیکهای هوش مصنوعی، استفاده از چیت شیت هوش مصنوعی و علم داده است. چیت شیت هوش مصنوعی و علم داده زیادی از جمله کراس، NumPy، پانداها، چیت شیت مبتنی بر مورد استفاده، Scikit- Learn، ژوپیتر، پردازش زبان طبیعی، تجسم، Matplotlib، آمار و… وجود
در مقالات قبلی این مجموعه، تکنیکهایی را معرفی کردیم که برای مدیریت دیتاست های نامتوازن در مسائل ردهبندی دودویی به کار میروند. در قسمت اول برخی از روشهای بازنمونهگیری توضیح داده شد و قسمت دوم بر اصلاح الگوریتم از طریق تغییر مقدار آستانهای (نقطهبرش) تمرکز داشت. (لینک قسمتهای قبل در
در این نوشتار، مروری بر الگوریتم رگرسیون چندجملهای خواهیم داشت. این الگوریتم با تغییر تابع فرضیه و افزودن چند ویژگی جدید به ورودیها، برای برازش دادههای غیرخطی به کار میرود. رگرسیون چندجملهای نسخهای از رگرسیون خطی استاندارد است. در بخش اول که مربوط به معرفی نمادهاست، نسبت به قسمتهای قبلی،
هر برنامه اقتصادی با کاربردهای داده کاوی در مدیریت در ارتباط است؛ مفهوم دادهکاوی از مدتها قبل از عصر دیجیتال با ما بوده است. ایده بهکارگیری دادهها در کشف دانش، قرنهاست که با فرمولهای دستی برای مدلسازی آماری و تحلیل رگرسیون شروع شده است. در دهه 1930، آلن تورینگ ایده
در فرایند اکتشاف دادهها و ساخت مدل، روشهای گوناگونی برای انجام مسائل وجود دارند که انتخاب و کاربردشان به هدف و تجربه متخصص بر میگردد. برای نمونه، نرمالسازی داده را میتوان با روش L1 (معیار فاصله منهتن Manhattan distance )، L2 (معیار فاصله اقلیدسی Euclidean distance ) یا ترکیبی از
تشخیص ناهنجاری Anomaly Detection به فرایند تشخیص آیتمها یا رویدادهای غیرمنتظرهای اشاره دارد که با نُرم موجود در دیتاستها تفاوت دارند. تشخیص ناهنجاری اغلب روی دادههای بدون برچسب اجرا میشود و به همین دلیل با نام تشخیص ناهنجاری غیرنظارتشده شناخته میشود. تشخیص ناهنجاری دو پیشفرض دارد: دادهها بهندرت ناهنجاری دارند. ویژگی
اگر فکر میکنید که نقش هوش مصنوعی و یادگیری ماشین در فروشگاه های آنلاین هنوز در مراحل اولیه خود است، به نحوه عملکرد شرکت آمازون نگاه کنید. به یاد دارید که چگونه این پلتفرم آنچه را که ممکن است دوست داشته باشید بخرید به شما پیشنهاد میدهد؟ یا چگونه آنچه
یادگیری ماشین را میتوان در دیتاستهای سری زمانی Time series datasets پیادهسازی و اجرا کرد. پیشبینی مقادیر عددی و دستهای Numeric and categorical value دشوار است اما ردیفهای داده بر اساس زمان مرتب میشوند. یکی از مشکلاتی که در هنگام پیشبینی سریهای زمانی Time series forecasting با یادگیری ماشین با
از اصول مهم علوم داده این است که با استفاده از دادههای آموزشی بیشتر میتوان مدل یادگیری ماشین بهتری به دست آورد. شاید بتوان در خصوص نمونهها چنین چیزی گفت، اما این نکته درباره تعداد ویژگیها صدق نمیکند. دیتاستهای دنیای واقعی، ویژگیهای زائد فراوانی دارند که میتوانند بر عملکرد مدل
در قسمت اول (لینک آن در ادامه مطلب قرار دارد) از این مجموعه، مشکل عدم توازن کلاسی در مسائل ردهبندی دودویی Binary classification را توضیح دادیم و برخی از راهکارهایی را نیز که برای حل آن وجود دارد، بررسی کردیم؛ آن روشها با مداخله مستقیم بر روی خود دیتاست و به
بسیاری از نیروهای پلیس که در کشتار افراد تحت بازداشت دست داشتهاند، تبرئه میشوند و این روند طی سالهای اخیر، سیر صعودی داشته است. ماه ژوئن امسال، خبر کشته شدن پدر و پسری در جریان بازداشت و شکنجه آنها از سوی نیروهای پلیس، سراسر هندوستان را در شوک فرو برد.
هر گاه بخواهیم مسئلهای را برای یک مدل یادگیری ماشین تعریف کنیم، اولین قدم، تجزیه و تحلیل دادههاست؛ از این دادهها برای آموزش و آزمایش مدل استفاده میشود و مدل بر اساس آنها استدلال انجام میدهد. در غالب موارد، قبل از شروع کار، لازم است دیتاست را بازطراحی کنیم یا
کتابخانه Pandas محبوبترین کتابخانه مورداستفاده در فعالیتهای تحلیلی و اصلاحی است. به کمک توابع متنوع این کتابخانه میتوان تحلیل دادهها را بدون مشکل و به سرعت انجام داد. علاوه بر این، دستورالعملهای آن بسیار ساده و قابلفهم میباشند. در این مقاله، تمرکز ما تنها بر روی یکی از توابع Pandas
یکی از باورهای مشترک در دنیای امروز و در حوزه کسب و کار این است که هوش مصنوعی قدرت ارائه مزایای رقابتی تعیینکنندهای دارد. در واقع 91% از مدیران سطح C که از هفتصد شرکت در نظرسنجی Forbes Insights شرکت کردند، موافقند که استفاده از هوش مصنوعی در کنار زدن
قضیه حد مرکزی Central Limit Theorem در کانون استنباط آماری Statistical inference قرار دارد که متخصصین علوم داده و تحلیلگران داده هر روز با آن سر و کار دارند. در مقاله پیشرو به مطالعه و بررسی قضیه حد مرکزی و چیستی آن میپردازیم؟ دلایل اهمیت آن چیست؟ قضیه حد مرکزی
نرخ دقت (Accuracy) معیار مهمی برای ارزیابی عملکرد مدل است، اما کافی نیست. از این روی، معیارهای دیگری برای ارزیابی عملکرد مدل و مسائل طبقه بندی معرفی شدهاند که به کمک آنها میتوانیم درک جامعتر و کلیتری نسبت به عملکرد مدل داشته باشیم. برخی از این معیارها عبارتند از: صحت،
هوشیو رسانهای تخصصی در حوزه هوش مصنوعی است که با هدف ایجاد محیطی فراگیر و پویا به ترویج و ارتقای این دانش میپردازد. ما تلاش میکنیم تا علاقهمندان به این حوزه درک عمیقتری از هوش مصنوعی پیدا کنند، از جدیدترین تحولات آن در ایران و جهان مطلع شوند و فعالان و پیشروان این صنعت را بشناسند. هوشیو با تمرکز بر تولید محتوای چندرسانهای شامل ویدئوکست، پادکست، موشنگرافیک و … تجربهای جذاب و آموزنده برای مخاطبان فراهم میکند. همچنین، هوشیو با پوشش رسانهای گسترده رویدادهای هوش مصنوعی در ایران و جهان، بستری را برای اطلاعرسانی و تعامل میان فعالان و علاقهمندان این حوزه ایجاد کرده است.