گوگل مدعی تولید ابررایانههای هوش مصنوعی سریعتر و سبزتر از تراشه A100 انویدیا
گوگل روز سهشنبه جزئیات جدیدی در مورد ابررایانههایی که برای آموزش مدلهای هوش مصنوعی خود استفاده میکند منتشر کرده و گفته، این سیستمها سریعتر و کارآمدتر از سایر سیستمهای مشابه ساختهشده توسط Nvidia هستند. این اطلاعات را خبرگزاری رویترز منتشر کرده است.
به گزارش هوشیو، گوگل تراشه کامپیوتری تخصصی خود را به نام واحد پردازش تنسور یا TPU طراحی کرده که بهطور خاص برای انجام وظایف یادگیری ماشینی و تسریع محاسبات بهینه گردیده است. گوگل از این تراشهها در بیش از 90 درصد پروژههای آموزشی هوش مصنوعی خود استفاده میکند. این آموزش مستلزم تغذیه دادهها به مدلهای یادگیری ماشینی است که به آنها امکان یادگیری و بهبود میدهد. این فرایند برای ساخت مدلهایی که میتوانند بهعنوانمثال، متن یا تصویری شبیه انسان تولید کنند، بسیار مهم است. با استفاده از این TPU های طراحی شده سفارشی، گوگل میتواند مدلهای یادگیری ماشینی خود را سریعتر و کارآمدتر از تراشههای کامپیوتری همهمنظوره آموزش دهد.
Google TPU اکنون در نسل چهارم خود قرار دارد. در مقالهای که روز سهشنبه منتشر شد، گوگل توضیح میدهد که برای دستیابی به این سرعت چگونه بیش از ۴۰۰۰ تراشه را با استفاده از سوئیچهای نوری سفارشی خود متصل کرده، تا به اتصال ماشینهای جداگانه در یک ابر رایانه کمک کند. این موضوع امکان برقراری ارتباط سریعتر میان تراشهها را فراهم میکند و به ابررایانه این امکان را میدهد تا محاسبات یادگیری ماشین را بسیار سریعتر از یک رایانه معمولی انجام دهد.
بهبود این «ارتباطات» میان اجزای مختلف در این ابررایانهها، به نقطه کلیدی رقابت در میان شرکتهایی تبدیل شده که ابررایانههای هوش مصنوعی میسازند. این به این دلیل است که مدلهای زبان بزرگ، مانند Bard Google یا ChatGPT OpenAI، از نظر اندازه بسیار بزرگتر شدهاند و این موضوع ذخیره آنها بر روی یک تراشه کامپیوتری را دشوار میسازد. در واقع، شرکتهایی که ابررایانههای هوش مصنوعی میسازند، برای بهبود ارتباطات میان اجزای مختلف درون ابررایانهها رقابت میکنند، تا بتوانند حجم زیادی از دادههایی که این مدلهای زبانی نیاز دارند را مدیریت نمایند.
فرایند آموزش یک مدل زبان بزرگ به این صورت است که مدلها باید بین هزاران تراشه تقسیم شوند و هفتهها یا بیشتر با هم کار کنند تا مدل را آموزش دهند. در واقع، مدل باید به قسمتهای کوچکتری تقسیم شده و هر کدام بر روی تراشههای جداگانه آموزش داده شوند. مدل پالم گوگل، بزرگترین مدل زبانی است که تا به امروز بهصورت عمومی فاش گردیده و با تقسیم در دو ابررایانه متشکل از 4000 تراشه، در طی 50 روز آموزش داده شده است.
گوگل گفته است که ابررایانههایش توانایی پیکربندی مجدد اتصالات میان تراشهها را دارند که این امر به جلوگیری از بروز مشکلات و بهبود عملکرد کمک میکند. براین اساس، ابررایانهها میتوانند بهصورت موثر برای آموزش مدلهای زبانی بزرگ استفاده شوند و اینکار را با متعادل کردن حجم کار در بسیاری از تراشهها و اطمینان از اجرای روان فرایند آموزش انجام میدهند.
یکی از مدیران گوگل به نام Norm Jouppi و مهندس برجسته گوگل David Patterson در یک پست وبلاگی در مورد این سیستم نوشتند:«سوئیچینگ مدار، مسیریابی در اطراف اجزای خراب را آسان میکند. این انعطافپذیری حتی به ما اجازه میدهد تا ساختار اتصال ابررایانه را به منظور بهبود عملکرد یک مدل ML (یادگیری ماشین) تغییر دهیم.» سوئیچینگ مدار در واقع وسیلهای برای مسیریابی دادهها از طریق شبکه کامپیوتری است و یک روش ارتباطی است که در آن یک کانال اختصاصی قبل از انتقال داده ایجاد میشود. چنانچه یک مؤلفه در شبکه از کار بیافتد، کانال میتواند بهراحتی به یک مؤلفه فعال تغییر مسیر دهد و امکان ادامه ارتباط بدون وقفه را فراهم میسازد. اساساً سوئیچینگ مدار درجه بالایی از انعطافپذیری را در یک شبکه کامپیوتری فراهم میکند، که این امر بهویژه هنگام برخورد با سیستمهای پیچیدهای مانند ابررایانهها سودمند است.
گوگل درشرایطی جزئیات مربوط به ابررایانه خود را منتشر میکند که از سال 2020 در یک مرکز داده در شهرستان مایز، اوکلاهاما، در حال استفاده از این ابر رایانه بوده است. گوگل گفته، استارتاپ Midjourney از این سیستم برای آموزش مدل خود استفاده کرده است. در این حالت، مدل چند کلمه متن را به عنوان ورودی میگیرد و تصاویر تازهای را به عنوان خروجی تولید میکند. برایناساس، ابررایانه گوگل قادر به انجام وظایف پیچیده یادگیری ماشینی مانند تولید تصویر است که این امر به قدرت محاسباتی قابلتوجهی نیاز دارد.
در این مقاله، گوگل ادعا میکند که برای سیستمهایی با اندازه مشابه، تراشههای TPU این شرکت تا 1.7 برابر سریعتر و 1.9 برابر بازده انرژی بیشتری نسبتبه تراشههای Nvidia A100 دارند که همزمان با نسل چهارم TPU در بازار بودهاند.
سخنگوی انویدیا از اظهارنظر در مورد این ادعاها خودداری کرد.
گوگل همچنین گفته، تراشه نسل چهارم خود را با تراشه H100، پرچمدار فعلی انویدیا مقایسه نکرده است، زیرا H100 بعد از تراشه گوگل به بازار آمده و با فناوری جدیدتری ساخته شده است.