NPU प्रदर्शन कैलकुलेटर

यह मुफ़्त NPU प्रदर्शन कैलकुलेटर MAC ऐरे साइज़ और क्लॉक फ़्रीक्वेंसी से TOPS (Tera Operations Per Second) की गणना करता है, YOLOv8 और LLaMA जैसे AI मॉडलों के लिए वास्तविक अनुमान विलंबता का अनुमान लगाता है, और Qualcomm Hexagon, Apple Neural Engine, AMD XDNA, और Intel NPU सहित 8+ NPU की तुलना करने वाले इंटरैक्टिव SVG बार चार्ट प्रदान करता है।

NPU में Multiply-Accumulate यूनिट की संख्या

NPU ऑपरेटिंग फ़्रीक्वेंसी

कम प्रिसिज़न = अधिक TOPS लेकिन कम सटीकता

सामान्य वास्तविक उपयोग 50-80% है

पीक TOPS

4.10 TOPS

प्रभावी TOPS

2.87 TOPS

समतुल्य GFLOPS

4.1 TFLOPS

कोई सुझाव है?

नया टूल अनुरोध करें या सुधार सुझाएं — हमारे Slack समुदाय में शामिल हों!

Slack पर फीडबैक दें

NPU प्रदर्शन कैलकुलेटर क्या है?

NPU (Neural Processing Unit) प्रदर्शन कैलकुलेटर समर्पित AI एक्सेलरेटर चिप्स के सैद्धांतिक और वास्तविक प्रदर्शन का अनुमान लगाता है। यह चिप के MAC (Multiply-Accumulate) ऐरे साइज़ और क्लॉक फ़्रीक्वेंसी से TOPS (Tera Operations Per Second) की गणना करता है, जिसमें INT8, FP16 और FP32 जैसी विभिन्न संख्यात्मक प्रिसिज़न को ध्यान में रखा जाता है। जैसे-जैसे AI PC और एज AI डिवाइस मुख्यधारा बन रहे हैं — 2026 तक बाज़ार में पहुँच 59% तक पहुँचने का अनुमान है — NPU क्षमताओं को समझना डेवलपर्स, हार्डवेयर इंजीनियरों और सिस्टम आर्किटेक्ट्स के लिए आवश्यक है जिन्हें यह मूल्यांकन करना होता है कि कोई NPU उनके AI मॉडल को स्वीकार्य विलंबता और बिजली बजट पर चला सकता है या नहीं।

NPU प्रदर्शन कैलकुलेटर का उपयोग कैसे करें

  1. MAC यूनिट, क्लॉक फ़्रीक्वेंसी और प्रिसिज़न (INT8/FP16/FP32) से कच्चा NPU प्रदर्शन गणना करने के लिए TOPS कैलकुलेटर टैब खोलें
  2. वास्तविक प्रभावी TOPS का अनुमान लगाने के लिए उपयोग स्लाइडर (आमतौर पर 50-80%) समायोजित करें
  3. NPU प्रीसेट और AI मॉडल प्रीसेट चुनने के लिए अनुमान एस्टीमेटर टैब पर जाएँ
  4. विज़न मॉडल के लिए अनुमानित अनुमान विलंबता (ms), FPS, या LLM के लिए टोकन/s देखें
  5. कई NPU चुनने और साथ-साथ तुलना चार्ट बनाने के लिए NPU तुलना टैब का उपयोग करें
  6. विभिन्न NPU आर्किटेक्चर में TOPS और TOPS/W (बिजली दक्षता) की तुलना करें
  7. प्रीसेट डेटाबेस में शामिल न होने वाले NPU के विनिर्देश दर्ज करने के लिए कस्टम इनपुट का उपयोग करें

अक्सर पूछे जाने वाले प्रश्न

TOPS का क्या मतलब है और इसकी गणना कैसे की जाती है?

TOPS का मतलब Tera Operations Per Second है — यह मापता है कि एक AI एक्सेलरेटर प्रति सेकंड कितने ट्रिलियन ऑपरेशन कर सकता है। इसकी गणना इस प्रकार की जाती है: TOPS = MAC यूनिट × क्लॉक फ़्रीक्वेंसी (GHz) × 2। ×2 कारक इसलिए है क्योंकि प्रत्येक MAC यूनिट प्रति क्लॉक साइकिल एक गुणा और एक जोड़ करती है। उदाहरण के लिए, 1 GHz पर चलने वाली 2048 MAC वाली NPU INT8 प्रिसिज़न पर 4.096 TOPS देती है।

प्रिसिज़न (INT8 बनाम FP16 बनाम FP32) NPU प्रदर्शन को क्यों प्रभावित करती है?

NPU INT8 प्रिसिज़न पर अधिकतम TOPS प्राप्त करते हैं क्योंकि 8-बिट इंटीजर को प्रति ऑपरेशन कम ट्रांज़िस्टर की आवश्यकता होती है, जिससे अधिक समानांतर गणनाएँ संभव होती हैं। FP16 (हाफ़-प्रिसिज़न फ़्लोट) आमतौर पर INT8 का आधा TOPS देता है, जबकि FP32 एक-चौथाई देता है। अधिकांश अनुमान कार्यभार न्यूनतम सटीकता हानि के साथ INT8 या FP16 क्वांटाइज़्ड मॉडल का उपयोग करते हैं, जिससे INT8 TOPS सबसे आम उद्धृत विनिर्देश है।

अनुमान समय के अनुमान कितने सटीक हैं?

अनुमान पीक TOPS और मॉडल FLOPS पर आधारित सैद्धांतिक हैं। वास्तविक प्रदर्शन मेमोरी बैंडविड्थ, डेटा ट्रांसफ़र ओवरहेड, मॉडल ऑप्टिमाइज़ेशन (क्वांटाइज़ेशन, प्रूनिंग) और सॉफ़्टवेयर फ़्रेमवर्क दक्षता पर निर्भर करता है। सामान्य वास्तविक उपयोग पीक TOPS का 50-80% है। उपयोग स्लाइडर आपको अधिक यथार्थवादी अनुमान प्राप्त करने के लिए इन कारकों को समायोजित करने देता है।

स्थानीय रूप से LLM चलाने के लिए कौन सा NPU सबसे अच्छा है?

स्थानीय LLM अनुमान के लिए, आपको उच्च TOPS और बड़ी मेमोरी बैंडविड्थ की आवश्यकता है। 2024 तक, AMD XDNA 2 (50 TOPS), Intel NPU 4 (48 TOPS), और Qualcomm Hexagon (45 TOPS) PC NPU बाज़ार में अग्रणी हैं। हालाँकि, अकेले TOPS LLM प्रदर्शन निर्धारित नहीं करता — मेमोरी बैंडविड्थ और सॉफ़्टवेयर ऑप्टिमाइज़ेशन समान रूप से महत्वपूर्ण हैं। NPU में विशिष्ट मॉडलों की तुलना करने के लिए अनुमान एस्टीमेटर टैब का उपयोग करें।

संबंधित टूल