نگاهی به قابلیتهای تازه معماری مکسول 2 انویدیا (آنچه که باید درباره معماری جدید انویدیا بدانید)
نگاهی به قابلیتهای تازه معماری مکسول 2 انویدیا (آنچه که باید درباره معماری جدید انویدیا بدانید)
اگرچه این مقاله قرار است به شرکت انویدیا و فناوریهای گرافیکی آن بپردازد، اما میخواهیم آن را با شرکت تایوانی دیگری آغاز کنیم! شرکت TSMC یکی از بزرگترین تولیدکنندگان ویفرهای سیلیکونی است که میتوانیم در لیست مشتریان آن شرکتهایی چون اپل، انویدیا و AMD را بیابیم. در واقع اصلیترین بخش از محصولات این شرکتها که همان چیپست مرکزی است که توسط TSMC تولید میشود. برای نمونه میتوانیم به چیپست Apple A8 اشارهکنیم که شاهراه پردازشی گوشی آیفون 6 بوده یا پردازندههای گرافیکی انویدیا و AMD را در نظر آوریم. TSMC عادت دارد هر دو سال یکبار فناوری ساخت خود را تغییر داده و به ابعاد نانومتری کوچکتر کوچ کند، اما اکنون بالغبر سه سال است که هیچ تغییری در روند خود نداده و همچنان به فناوری 28 نانومتری اکتفا کرده است. با توجه به اینکه مهاجرت به 20 نانومتر بهتازگی و صرفا برای چیپهای SoC در دستور کار این شرکت جای گرفته، به احتمال بالا فناوری 28 نانومتری برای کارتهای گرافیک وارد چهارمین سال حیات خود میشود.
اهمیت دانستن این موارد از این بابت است که عملکرد سازندگان پردازندههای گرافیکی را بهتر درک کنیم. دنیای بازیهای کامپیوتری دنیای پرهیاهویی است و سود سرشاری در آن جریان دارد. در این دنیا برای توان پردازش گرافیکی سیکلی دوساله وجود داشته و با هر سیکل این توان دو برابر میشود. از این رو سازندگان سختافزار نمیتوانند منتظر حرکت نانومترها بمانند و باید مسیری را بیابند که با همان فناوری قبلی به کارآیی بالاتری دست یابند و این هم ممکن نیست مگر با تغییر و توسعه معماری چیپهای گرافیکی.حال با مقدمهای که ازنظر گذشت، به سراغ انویدیا میرویم. این شرکت تقریبا هر دو سال عادت به تغییر معماری داشته و ازآنجاکه معماری Kepler در سال 2012 معرفی شد، دیگر به بازنشستگی آن نزدیک میشویم. اوایل امسال بود که بخش اول معماری Maxwell (یا همان مکسول 1) با کارت گرافیک Geforce GTX 750 و قلب تپنده GM107 وارد بازار شد و در همان زمان پیشرفت خوبی را در قیاس با کپلر نشان داد. انویدیا توانسته بود توان پردازشی بیشتر را با مصرف انرژی کمتر همراه کند، در حالی که همان فناوری 28 نانومتری کپلر را در ساخت آن بهکاربرده بود. البته این تازه ابتدای ماجرا بود، زیرا انویدیا در یک تغییر استراتژی و برخلاف همیشه، ابتدا اقدام به معرفی محصول ردهپایین خود کرده و در کنار آن خبر از عرضه ویرایش دوم مکسول (مکسول 2) در دومین نیمه 2014 داده بود. پس از گذشت هفت ماه و در ابتدای پاییز، مکسول 2 با چیپ گرافیکی GM204 از راه رسید. GM204 تمام آنچه را که در GM107 دوست داشتیم در خود دارد و در کنار آن بهبودهای بسیاری را در ساختار خود وارد کرده که آن را بهخوبی شایسته دریافت عنوان «دومین نسل مکسول» میکند.چیپ GM204 را میتوانیم درون کارتهای گرافیک GTX 980 و GTX 970 و همینطور همتای موبایلشان بیابیم (تصویر 1).
نگاهی گذرا به مکسول 1
انویدیا در مکسول 1 توان بسیاری را روی بهینهسازی مصرف انرژی نهاده بود و تمرکز چندانی بر تغییر ساختار معماری نسل قبل نداشت. برخلاف پردازندههای مرکزی (CPU)، این راهکار در دنیای پردازندههای گرافیکی (GPU) روش موثری حتی برای افزایش کارآیی است، زیرا پردازندههای گرافیکی ساختاری موازی داشته و زمانی که بخش کوچکی از آنها ساخته شود، میتوان با تکثیر آن به کارآیی بالاتری دستیافت. نتیجه اینکه در اولین نسل با ساختاری کپلر گونه روبهرو بودیم که بهینهسازیهای کوچک بسیاری برای بازده مصرفی بهتر به درون آن تزریقشده بود. به لطف همین بهینهسازیها، کارآیی دوبرابری را نسبت به میزان وات مصرفی و در مقایسه با کپلر شاهد هستیم.
قابلیتهای تازه Maxwell 2
زمانی که انویدیا نخستینبار معماری مکسول 1 را به همراه کارت گرافیک GTX 750 و چیپ گرافیکی GM107 ارائه کرد، یکی از وجوه غیرمنتظره آن عرضه این معماری نه در قالب یک سری نو که در درون سری 700 بود که مدتی از حیات آن میگذشت. بههرحال، با نگاهی به ویژگیهای آن مشخص شد که تفاوت آنچنانی بین مکسول 1 و کپلر وجود ندارد؛ اما مکسول 2 چیزی بیش از یک بهروزرسانی ساده بر نسخه اول خود بوده و در کنار تغییرهایی که در بعد سختافزاری آن روی داده، مجموعهای از قابلیتهای تازه را با خود میآورد که آن را در قامت نیم نسل ارتقا قرار میدهد.
Direct3D 11.2/11.3
مهمترین و ارزشمندترین ویژگی جدیدی که به مکسول 2 افزودهشده، پشتیبانی کامل آن از Direct3D 11.2/11.3 است. پیشتر کپلر و مکسول 1 از دایرکت ایکس نسخه 11.0 کاملا پشتیبانی کرده و در کنار آن بیشتر قابلیتهای نسخه 11.1 را هم در اختیار قرار میدادند. در مکسول 2، انویدیا سرانجام نسخه 11.1 را به طور کامل در ساختار آن پیادهسازی کرده و فراتر از آن، معماری پردازنده گرافیکی را برای پشتیبانی از 16x raster coverage sampling بهروز کرده است. در دایرکت ایکس 11.2 مهمترین ویژگی پشتیبانی شده Tier 2 tiled resources است که در واقع همان قابلیتی است که مدتها پیش توسط AMD و به نام Partially Resident Texture پیادهسازی شده بود و اکنون انویدیا بانام Tier 2 tiled resources آن را به انجام رسانده است. پس از آن به دایرکت ایکس 11.3 میرسیم که زیربنا و شالوده آن را قابلیتهایی شکل میدهند که شامل مواردی همچون Rasterizer Ordered Views، Typed UAV Load، Volume Tiled Resources و Conservative Rasterization میشوند. در میان این لیست دو قابلیت Conservative Rasterization و Volume Tiled Resources از اهمیت ویژهای برخوردارند، چرا که انویدیا برخی از فناوریهای تصویری خود را از دل آنها بیرون میآورد. Volume Tiled Resources گونهای پیادهسازی سهبعدی از الگوریتم tiled resources است. خواستگاه ابتدایی بهکارگیری آن برای پیکسلهای حجمی/سهبعدی یا voxel ها بوده و به کمک آن بخشهایی از حجم مورد پردازش که در تصویر دیده نشده و صرفا پرکننده حافظه به حساب میآید، نادیده گرفته میشود (تصویر 2).
قابلیت دوم یا Conservative Rasterization راهحلی است با دقت و البته حجم محاسباتی بالا برای فهمیدن اینکه آیا یک چندضلعی بخشی از یک پیکسل را پوشش میدهد یا خیر. بهجای اجرای یک تست سریع برای بررسی قرار گرفتن مرکز یک پیکسل در درون چندضلعی مورد بحث، Conservative Rasterization با آزمودن موقعیت چندضلعی نسبت به گوشههای پیکسل، این مساله را کنکاش میکند. نتیجه اینکه این روش موردهایی را که در آن چندضلعی مرکز پیکسل را پوشش نمیدهد از دست نداده و خروجی دقیقتری را ارائه میدهد، اما حجم محاسباتی را هم به همان نسبت بالا میبرد. ازآنجاکه Conservative Rasterization در لایه سختافزاری مکسول 2 پیادهسازی شده، اجرای آن با سرعت و دقت مطلوبی انجامگرفته و با دقتی که دارد و با ورود آن در محاسبات ایجاد voxel ها میتوان به شکلگیری ساختاری دقیقتر و موثرتر دستیافت (تصویر 3).
VXGI
ورای قابلیتهایی که با ورود دایرکت ایکس 11.3 به این سری ممکن میشوند، انویدیا نیز با افزودن برخی امکانات جدید به آن، به قابلیتی نو به نام VXGI یا Voxel Accelerated Global Illumination زندگی بخشیده است. به زبان ساده، VXGI گونهای از پیادهسازی بیوقفه و همزمان با اجرای بازی سیستم نورپردازی Global Illumination یا به اختصار GI بوده که بر پایه بهکارگیری voxel ها (همان گرههای حجمی) بنانهاده شده است. نورپردازی دقیق فیزیکی بر مبنای GI و بهصورت real time ارزش بسیاری دارد و میتواند صحنههایی بسیار نزدیک به واقعیت را با شبیهسازی رفتار نور در دنیای مجازی ارائه دهد، اما درعینحال محاسبات آن بسیار سنگین بوده و به منابع پردازشی بسیاری نیازمند است.به همین دلیل توسعهدهندگان بازیهای کامپیوتری همیشه با این قابلیت به گونهای تعامل میکنند تا محیط بازی را به شکلی که انگار GI در آن حضور دارد درآورند. اکنون انویدیا میخواهد به کمک VXGI و با ترکیبی از سختافزار و نرمافزار مساله GI را حل کند. VXGI در ذات خود راهکاری نرمافزاری بوده و بر مبنای الگوریتمی است که انویدیا سالهاست روی تحقیق و توسعه آن وقت نهاده و اکنون در قالب VXGI آن را معرفی کرده است. این قابلیت هماکنون درون آخرین نسخه از موتورهای بازی همچون Unreal Engine 4 تزریق شده و به خاطر ماهیت نرمافزاری که دارد، میتوان آن را برای طیف گستردهای از سختافزارهای موجود بهکار برد. البته کارتهای گرافیک مبتنی بر معماری ماکسول 2 به دلیل بهینهسازیهای سختافزاری که در معماری آنها صورت گرفته، میتوانند باکیفیت و دقت بالاتر و سرعت بیشتری آن را اجرا کنند (تصویر 4).
Dynamic Super Resolution
همراه با رونمایی مکسول 2، انویدیا از دو فناوری تازه خود پرده برداشت که یکی از آنها (Dynamic Super Resolution (DSR نام داشته و هدف آن بازیهایی است که یا anti-aliasing واقعی را پشتیبانی نکرده یا پشتیبانی خوبی از آن ارائه نمیدهند (تصویر 5).
در DSR، ابتدا فریم در وضوحی بالاتر از نمایشگر کاربر پرداخت یا رندر شده و پس از آن بهوضوح نمایشگر کاهش ابعاد داده میشود. این فرآیند رندرگیری در وضوح بالاتر و سپس کاستن آن و مخلوط کردن پیکسلها به وضوحی پایینتر به تصویری باکیفیتتر منتهی میشود که به لطف جزئیات بالاتر فریم اولیه، پلگی یا aliasing آن کمتر است. اگرچه انویدیا اولین شرکتی است که DSR را با مکسول 2 معرفی کرده، اصل تکنیک مدتهاست که وجود داشته و به down sampling معروف است. البته دستیابی به down sampling واقعا دشوار است، زیرا علاوهبر پیچیدگیهای ذاتی خود، نیازمند بهینهسازیهایی در سمت نمایشگر، درایور و البته بازی است. ازاینرو کار انویدیا واقعا ارزشمند بوده و حالا این تکنیک در اختیار همگان است و با وجودی که برخی بازیها همچون Battlefield 4 و Company of Heroes آن را بهنوعی درون خود پیادهسازی کردهاند، اما اکنون تمامی بازیها به آن دست مییابند.
Multi-Frame sampled Anti-Aliasing
فناوری دیگری که انویدیا معرفی کرده (Multi-Frame sampled Anti-Aliasing (MFAA نام داشته و مانند DSR با anti-aliasing رابطه دارد، منتها در جهتی شاید معکوس با آن! در حالی که تمرکز DSR برافزایش کیفیت تصویر نهایی است، MFAA گونهای بهینه از (Multisample Anti-Aliasing (MSAA بوده و سعی دارد کیفیتی مشابه آن را با نصف همان میزان بار پردازشی ارائه دهد. لازم به ذکر است که DSR پیادهسازی در سطح نرمافزار بوده، اما MFAA به سختافزار مکسول 2 نیازمند است و بر اساس توانایی تازهای که در واحد ROP پردازنده گرافیکی تعریفشده بنانهاده شده است. این توانایی تازه و پیادهسازی سختافزاری به انویدیا امکان میدهد تا به گونهای انعطافپذیر الگوی نمونهبرداری (sampling) درون پیکسلها را بههنگام پردازش MSAA تغییر دهد که همان قابلیت کلیدی است که MFAA را ممکن میسازد. بهعبارتدیگر، MFAA بر مبنای تغییر الگوی نمونهبرداری در هر فریم استوار بوده و در عمل از 2x MSAA (2x به معنای 2 نمونه یا sample است) استفاده کرده و نتایج حاصل از آن را در چند فریم متوالی پیشین به گونهای وارد فریم فعلی کرده و در آن ترکیب میکند که گویا بر آن فریم 4x MSAA اعمالشده باشد. اگر همهچیز بهدرستی پیش رود، ما باید نتیجهای بسیار نزدیک به 4x MSAA را با بار پردازشی 2x MSAA بهدست آوریم (تصویر 6).
مانند فناوری DSR که پیش از انویدیا هم گونهای از آن وجود داشت و عدهای به آن دستیافته بودند، MFAA هم به شکلی نصفهونیمه و در سال 2004 توسط ATI (و اکنون AMD) در قالب فناوری Temporal Anti-Aliasing پیادهسازی شده بود. این فناوری از مفهومی مشابه برای نمونهبرداری استفاده میکرد، اما مرحله ترکیب فریمها در آن وجود نداشت. Temporal AA کاربرد چندانی نیافت و سرانجام AMD آن را به کناری نهاد. آنچه که باعث شده انویدیا معتقد باشد شیوهاش برخلاف AMD به بنبست نخواهد خورد، راهکار temporal projection یا به تعبیر این شرکت temporal synthesis filter است. در این راهکار پیکسلهایی از فریم قبلی به درون فریم حاضر آورده شده و از آن در پردازش پیکسلهای فعلی استفاده میشود. البته مسلما تمامی پیکسلها قابل انتقال نیستند، زیرا تصویر نهایی بههمریخته یا تارشدگی حرکتی آن از حد میگذرد. به این شکل و در ایدهآلترین حالت خود، زمانی که تصویر ثابت باشد نتیجه کار دقیقا مانند 4x MSAA میشود، چرا که پیکسلها با تغییر فریم تفاوتی نکرده و میتوان از آنها بیهیچ تغییری استفاده کرد. همانطور که تا به اینجا متوجه شدهایم، درصحنههای متحرک، کیفیت عملکرد MFAA کاسته شده تا جایی که در بدترین حالت خود با فعال بودن MFAA و برای 4X MSAA، کیفیتی مشابه با 2X MSAA را به همراه تارشدگی مضاعف بهدست خواهیم آورد (تصویر 7).
قابلیتهای مرتبط با نمایشگر
خوشبختانه انویدیا تنها در پی بهبود معماری و افزودن قابلیتهای پردازش گرافیکی ویژه به سختافزار جدید خود نبوده و تعدادی امکان تازه را در رابطه با نمایشگر و خروجی ویدئویی به مکسول 2 افزوده است. در پی ورود این امکانات، تواناییهای کدگذاری ویدئویی و ورودی-خروجی نمایشگر بهروز شده و حتی امکان استفاده از هدستهای واقعیت مجازی مانند Oculus Rift هم فراهم گشته است. HDMI 2.0: کار خود را با ورودی / خروجی نمایشگر آغاز میکنیم. علاقهمندان به رابط HDMI خوشحال میشوند اگر بدانند که انویدیا پشتیبانی از HDMI 2.0 را در درون کارتهای گرافیک GM204 نهاده و ازاینپس میتوانند خروجی تصویر 4K را در فرکانس 60 هرتز و بدون کمترین افت کیفیتی روی تلویزیونهای (4K (3840x2160 پیکسل داشته باشند. علاوه بر مورد عنوانشده، HDMI 2.0 از الگوریتمهای نمونهبرداری ویدئویی همچون YCbCr 4:4:4 و صفحهنمایشهای عریض با نسبت تصویر 21:9 پشتیبانی میکند. در اینجا اشاره به این نکته ضروری است که در معماریهای گذشته چون کپلر و مکسول 1 هم خروجی تصویر 4K با فرکانس 60 هرتز را میتوانیم ببینیم، اما آن خروجی بر مبنای پهنای باند محدود HDMI 1.4 پیادهسازی شده و نمونهبرداری ویدئویی 4:2:0 برای آن اعمال میشود که کیفیت و گستره رنگ تصویر خروجی را نسبت به HDMI 2.0 به گونهای واضح کاهش میدهد. (تصویر 8)
در کنار HDMI 2.0، انویدیا تغییر دیگری را هم در کنترلر ویدئویی وارد کرده که باید برای کاربران چند مانیتوری جالب باشد. به همراه مکسول 2، یک کنترلر ویدئویی واحد میتواند همزمان چندین جریان یکسان از نوع MST یا Multi-Stream Transport را کنترل و پردازش کرده و برخلاف گذشته دیگر برای هر جریان به کنترلری مجزا نیاز نخواهد بود. این ویژگی به طور ویژه برای فناوری Tiled Monitor سودمند خواهد بود که آن را امروزه در بسیاری از نمایشگرهای 4K میبینیم. این نمایشگرها در واقع متشکل از دو پنل یکسان هستند که در مجاورت یکدیگر نصبشدهاند. نتیجه اینکه کاربران میتوانند نمایشگرهای بیشتری را با وضوح 4K و در مقایسه با معماری کپلر به یک کارت گرافیک وصل کرده یا تولیدکنندگان میتوانند نمایشگرهایی عریضتر و با پنلهای بیشتر بسازند.
HEVC و کدگذاری 4K
انویدیا در مکسول 1 نمونهای بهروز شده از موتور کدگشایی و کدگذاری ویدئویی خود را ارائه کرد. در این بهروزرسانی، سرعت کدگشای جدید VP6 در مقایسه با نسخه قدیمیتر VP5 افزایش یافت تا فایلهای ویدئویی H.264 تا وضوح تصویر 4K و نرخ 60 تصویر در ثانیه قابلیت نمایش یابند. همزمان با آن، کدگذار ویدئویی NVENC افزایش سرعت مشابهی را دریافت کرد که عملکرد آن را نسبت به کپلر تا دو برابر افزایش میداد. پس از گذشت هفت ماه از عرضه مکسول 1، انویدیا یکبار دیگر NVENC را به شکلی فراوان تغییر داده و پشتیبانی کاملی از کدگذار ویدئویی HEVC (H.265) را به آن افزوده است؛ مانند HDMI 2.0، GM204 اولین چیپ گرافیکی است که از کدگذاری ویدئویی در این سطح پشتیبانی میکند. البته فعلا با کدگذار HEVC درون مکسول 2 نمیتوانیم کار چندانی انجام دهیم، چرا که سختافزار یا نرمافزاری که از قابلیتهای آن بهره ببرد هنوز به طور عمومی وارد بازار نشده، اما انویدیا میخواهد زمینه لازم را فراهم کرده و پیشاپیش آماده باشد.
VR Direct: مورد پایانی که در لیست فناوریهای تصویری انویدیا به آن میپردازیم، خانوادهای از قابلیتهاست که بر مجموعه آنها عنوان VR Direct نهاده شده است (تصویر 9).
بهاختصار، VR Direct مجموعهای است از فناوریهای سختافزاری و نرمافزاری متنوع که سعی دارند تا تجربه کاربری و عملکرد هدستهای واقعیت مجازی (VR) همچون Oculus Rift را ارتقا دهند. انویدیا هماکنون در زمینه استریوسکوپی و خلق دید سهبعدی تجربیات متعددی را با پروژه 3D Vision خود کسب کرده و وارد کردن سری Geforce به دنیای VR با توجه به پتانسیلهای بالای این بازار، میتواند سود سرشاری را برای این شرکت به همراه داشته باشد. از منظر تکنیکی، بزرگترین چیزی که سازندگان هدستهای VR از تولیدکنندگان GPU همچون انویدیا و AMD میخواهند، کاهش دادن وقفهای است که بین واکنش کاربر و تغییر تصویر بر اساس این واکنش وجود دارد. اگرچه حذف این وقفه به دلیل نیاز به پردازش فریم ممکن نیست، اما وقفه طولانیتر به قیمت تجربه کاربری ضعیفتری تمام میشود. به خاطر اهمیت این تاخیر، انویدیا به شیوههای مختلف بر کاهش آن تمرکز کرده است. یکی از مهمترین اقدامهای صورت گرفته، کاهش زمانی است که طول میکشد تا یک فریم توسط درایور و سیستمعامل فراهم شود.همانطور که در تصویر 10 میبینیم، زمان مورد نیاز سیستمعامل به میزان 10 میلیثانیه کاهشیافته و تاخیر 50 میلیثانیهای به میزان 20 درصد کم شده است.
کاهش قابلملاحظه دیگر با پشتیبانی از قابلیت ویژهای به نام Asynchronous Wrap فراهم میشود. این قابلیت که توسعهدهندگان Oculus عنوان Time Wrap را بر آن نهادهاند، یک فریم را رندر کرده و در آخرین لحظات ممکن آن را با آخرین تغییرات سر کاربر بهروز میکند؛ به این شکل که پیش از آنکه پرداخت فریم کاملا پایان یابد، دادههای تغییر مکان سر کاربر دریافت شده و با مقایسه آن با دادههای شروع پردازش فریم، تغییرات لازم را به گونهای در پردازش آن وارد میکند که گویی فریم بیوقفه رندر شده باشد. سومین بهینهسازی بیش از آنچه که به VR مربوط باشد، از وجود فناوری تازه انویدیا بهنام MFAA یا Multi-Frame sampled Anti-Aliasing سود میجوید. MFAA کیفیتی معادل با 4x MSAA را با سرعت پردازش 2x MSAA ارائه میدهد و همین میتواند چند میلیثانیهای از زمان پردازش فریمها بکاهد. VR SLI آخرین موردی است که در لیست VR Direct به آن میپردازیم و همانطور که از نام آن پیداست، به استفاده از امکان SLI در پردازش VR ارتباط دارد. VR SLI بار پردازشی هر چشم را به طور جداگانه بهسوی یک پردازنده گرافیکی فرستاده و با تقسیم آن بین دو پردازنده، زمان پردازش فریم و در نتیجه وقفه را کاهش میدهد.
کاهش فاصله میان لپتاپ و دسکتاپ
هرساله انویدیا دستهای تازه از تولیدات خود را عرضه میکند که البته همگی در کیفیت به یکشکل نیستند، اما همیشه پرداختن به آنها جالب است. ابتدای پاییز بود که نمونههای دسکتاپ مکسول 2 با پردازنده قدرتمند GM204 از راه رسیدند و یک ماه پس از آن گونههای لپتاپ هم رونمایی شدند. آنچه که تا به این لحظه از امکانات و قابلیتهای تازه درون مکسول 2 دیدیم، میان گونه دسکتاپ و لپتاپ آن مشترک است. البته در سمت لپتاپ ویژگیهایی چون Optimus و BatteryBoost را میبینیم که حضور آنها تنها روی سیستمهای همراه هچون لپتاپها معنی میدهد و نیازی به ورودشان به دنیای دسکتاپ نیست. انویدیا همراه با رونمایی از کارتهای گرافیک مکسول 2 ادعای بزرگی را مطرح کرده و آن ناچیز کردن شکاف میان عملکرد کارتهای گرافیک لپتاپ (منظور مدل GTX 980M) با همتای دسکتاپی آنهاست. اینکه این ادعا تا چه اندازه صحت دارد بیشتر با بررسی عملی قابلسنجش بوده و البته از نگاه مشخصات سختافزاری هم میتوان آن را ارزیابی کرد.اگر در میان GPU های انویدیا چند نسلی را بهعقب بازگردیم، به سال 2010 و عرضه GTX 480 با 480 هسته CUDA و فرکانس 700 مگاهرتز میرسیم که با رابط حافظه 384 بیتی و حافظه GDDR5 با فرکانس 3,7 گیگاهرتز موثر، پهنای باندی برابر با 177,4 گیگابایت در ثانیه داشت. چند ماه پس از آن، همتای موبایلش GTX 480M معرفی شد که 352 هسته CUDA در فرکانس 425 مگاهرتز و با رابط حافظه 256 بیتی داشت و فرکانس RAM آن سه گیگاهرتز موثر بود. در مقایسه عملکرد، میان آنها 40 تا 45 درصد افت کارآیی وجود داشت. این تفاوت ادامه یافت و در سری GTX 500، نسخه موبایل به 50 درصد کارآیی نسخه دسکتاپ و در سری GTX 600 به 60 درصد رسید. سری GTX 700 نیز در همان 60 درصد باقی ماند. بهاینترتیب همیشه شکافی فراوان بین این دودسته وجود داشته که البته به دلیل مباحث مدیریت انرژی مصرفی، قابل اجتناب هم نبوده و نیست. بههرحال با سری GTX900، انویدیا ادعا میکند که توانسته میزان کارآیی نسخه موبایل را به 75 درصد کارآیی نسخه دسکتاپ برساند (تصویر 11).
باهم نگاهی به ویژگیهای پردازندههای گرافیکی موبایل مکسول 2 میاندازیم.
پردازندههای گرافیکی سری Geforce GTX 900M | ||
|
GTX 980M |
GTX 970M |
تعداد هستههای CUDA |
1536 |
1280 |
فرکانس پردازنده گرافیکی (GPU) |
1038 MHz |
924 MHz |
فرکانس حافظه GDDR5 |
5 GHz |
5 GHz |
رابط حافظه |
256-بیتی |
192-بیتی |
حافظه قابل پشتیبانی |
4 تا 8 گیگابایت |
3 تا 6 گیگابایت |
حداکثر وضوح تصویر رابط DP |
3840x2160 پیکسل |
|
حداکثر وضوح تصویر رابط VGA |
2048x1536 پیکسل |
در ساختار GTX 980M تعداد 1536 هسته CUDA میبینیم که با غیرفعال کردن تعدادی از واحدهای پردازش جریانی چیپ GM204 حاصلشده و در نهایت 75 درصد هستههای GTX 980 را داشته و فرکانس حافظه آنهم حدود 29 درصد کاهشیافته است. اینکه این اختلاف در مشخصات به همان 25 درصد اختلاف کارآیی ختم میشود یا نه چیزی نیست که صرفا وابسته به تعداد اجزا باشد و به موارد دیگری چون عملکرد واحد سایهزنی، توان پردازشی CPU، وضوح نمایشگر، تنظیمات و خود بازی هم وابسته است.در بهترین حالت، 980M میتواند به خروجی ای حتی ورای 75 درصد توان GTX 980 هم دست یابد و در دیگر موارد به 70 درصد یا کمتر از آن اکتفا خواهد کرد. در سمت دیگر و برای GTX 970M، مانند برادر بزرگترش همان چیپست GM204 را داریم که باز هم واحدهای پردازش جریانی بیشتری در آن از مدار خارجشده که در نتیجه آن تعداد هستههای CUDA به 1280 عدد کاسته شده و رابط حافظه هم 192 بیتی شده است. با این کاهش مسلما دیگر به آن میزان حافظه RAM پشتیبانی شده در 980M نیازی نبوده و حداقل به 3 گیگابایت میرسد. مساله دیگر اینکه تفاوت میان قدرت پردازشی 970M با GTX 970 دیگر آن عدد 75 درصد نبوده و نهایتا به 65 درصد میرسد. در نهایت به مقایسه دو برادر با یکدیگر میرسیم. با ضرب تعداد هستهها در فرکانس پردازنده میتوانیم توان محاسباتی را برای هر یک بهدست آورده که بر این اساس، 980M بین 30 تا 35 درصد بالاتر از 970M قرار میگیرد.تا به اینجا تمامی مباحث در حد تئوری و روی کاغذ بود و به اعداد و ارقام کاغذی هم اعتباری نیست! در زمان تهیه این مقاله لپتاپی از سری گیمینگ شرکتها در اختیار ما نبود که بتوانیم شخصا کموکیف بحثهای رفته را ارزیابی کنیم. با این وجود در تستهای اولیهای که روی اینترنت منتشرشده میتوانیم ببینیم که ادعای انویدیا چندان هم بیراه نبوده و GTX 980M قدرتی نزدیک به سهچهارم GTX 980 را به کاربر تقدیم میکند (تصویر 12).