مقدمه
در عصر حاضر، حجم بسیار زیادی از دادههای بصری تولید میشود — عکس، اسکن، ویدیو — و استخراج معنا و اطلاعات از این نوع دادهها برای کسبوکارها، استارتاپها، و توسعه دهندگان امری مهم است. سرویس ویژن Vision API از گوگل، بخشی از مجموعه خدمات هوش مصنوعی و ماشین لرنینگ Google Cloud است که این امکان را میدهد تا این دادههای بصری را با مدلهای از پیش آموزشدیده تحلیل کنیم.
در این مقاله، ابتدا قابلیتهای کلیدی را مرور میکنیم، سپس به هزینهها و نحوهی محاسبه آن میپردازیم، و در نهایت چند پروژهی عملی برای اجرا پیشنهاد میدهیم.

قابلیتها و ویژگیها
در زیر فهرستی از امکانات مهم Vision API آورده شده است:
تشخیص برچسب (Label Detection): تصویر را آنالیز میکند و برچسبهایی مثل «سگ»، «پارک»، «خودرو» و … به آن اختصاص میدهد.
تشخیص متن (OCR) – شامل Text Detection برای نواحی متن پراکنده، و Document Text Detection برای اسکنها/PDFها/دستنویسها.
تشخیص چهره (Face Detection): شناسایی چهرهها، مختصات، و گاهی صفات عاطفی. ikomia.ai
تشخیص مکانهای شاخص (Landmark Detection): مثلا برج ایفل، تاجمحل، و …
تشخیص لوگو (Logo Detection): برندها/لوگوها را در تصویر تشخیص میدهد.
تشخیص ویژگیهای تصویر (Image Properties): مانند رنگ غالب، روشنایی، ترکیب رنگ.
تشخیص محتوای نامناسب (SafeSearch Detection): برای شناسایی محتوای بزرگسالان، خشونت، و …
تشخیص اشیاء و موقعیت آنها (Object Localization): چند اشیاء در تصویر با مختصاتشان.
تشخیص از طریق وب (Web Detection): یافتن تصاویر مشابه، تشخیص منبع، تشخیص موجودیتهای وب.
همچنین این سرویس به راحتی با سایر خدمات Google Cloud مثل AutoML Vision، Document AI، BigQuery و غیره یکپارچه میشود.
هزینهها و ساختار قیمتگذاری
مدل پرداخت: «پرداخت بهازای-استفاده» (pay-as-you-go)؛ یعنی فقط به ازای واحدهایی که استفاده میکنی، پرداخت میکنی.
هر «ویژگی» (feature) که روی یک تصویر اجرا شود، یک واحد صورتحساب میشود. مثلاً اگر هم Label Detection و هم Face Detection را روی یک تصویر اجرا کنی، دو واحد محاسبه میشود.
برای مثال: در نسخهی انگلیسی، تا ۱۰۰۰ واحد در ماه رایگان است. سپس برای ۱٬۰۰۱ تا ۵٬۰۰۰٬۰۰۰ واحد قیمت شروع میشود مثلا برای Label Detection ~ ۱٫۵ دلار به ازای هر ۱۰۰۰ واحد در بعضی بلاکها.
مثال ساده: اگر در یک ماه ۴٬۳۰۰ درخواست برای Landmark Detection داشته باشی — طبق مستندات، به حدود ۱۰ دلار هزینه خواهد داشت که ممکن است به دلایل تحریم و پرداخت ریالی هزینه بیشتری داشته باشد..
نکته: ممکن است هزینههای اضافی از دیگر منابع مانند ذخیرهسازی (Cloud Storage)، محاسبه (Compute) و انتقال داده وجود داشته باشد.
پروژههای عملی پیشنهادی
در ادامه چند پروژهای که میتوان با Vision API انجام داد را آوردهام. هر پروژه شامل کاربرد، نیازمندیها و نکتههای پیادهسازی است.
پروژه ۱: مدیریت خودکار موجودی با تشخیص تصویر
کاربرد: در فروشگاه آنلاین یا انبار، عکس محصول گرفته میشود، سرویس تشخیص میدهد چه محصولی است، آیا برچسب دارد؟ آیا شرایط ظاهراً سالم است؟
نیازمندیها: سرویس Label Detection + Logo Detection (اگر برندها مهم باشند). ذخیره تصاویر در Cloud Storage، و پایگاه داده برای ثبت نتایج.
نکات:
قبل از اجرا، API را فعال کن و کلید/Service Account تنظیم کن.
تصاویر را ممکن است نیاز شود پیشپردازش کنی (مثلاً اصلاح نور/زاویه) για دقت بهتر.
برای پایش هزینه: تعداد تصاویر × واحدهای استفاده شده × قیمت هر هزار واحد را محاسبه کن.
پروژه ۲: رصد محتوای کاربران (محتوای نامناسب)
کاربرد: در اپلیکیشن اجتماعی یا پلتفرم اشتراک عکس، باید مطمئن شوی عکسهایی که کاربران آپلود میکنند، محتوای نامناسب ندارند.
نیازمندیها: SafeSearch Detection + Label Detection. ذخیره لاگ و احتمال کار با Cloud Functions برای واکنش سریع.
نکات:
سیاستهای حریم خصوصی و کسبوکار را حتماً رعایت کن.
دقت کن که عکسهایی با کیفیت پایین ممکن است نتایج اشتباه بدهند.
هزینهها: تعداد عکس × ویژگیها (مثلاً فقط SafeSearch) را در نظر بگیر.
پروژه ۳: استخراج متن از تصاویر اسکنشده (OCR)
کاربرد: برای شرکتهایی که اسناد و فرمهای اسکنشده دارند، استفاده از OCR میتواند متن را استخراج کند و آن را تحلیل یا ذخیره کند.
نیازمندیها: Document Text Detection برای اسکنها یا Dense متنها. ذخیره نتایج در BigQuery یا پایگاه داده.
نکات:
فرمت فایلهایی مثل PDF/TIFF پشتیبانی میشوند. Google Cloud Documentation
ممکن است بخواهی خطوط یا فرمها را شناسایی کنی، در این صورت باید بعد از OCR پردازشی اضافه بنویسی.
برای کاهش هزینه: اگر لازم نیست، فقط بخشهایی از تصویر را ارسال کن یا کیفیت را مناسب تنظیم کن.
پروژه ۴: جستجوی بصری در فروشگاه آنلاین
کاربرد: کاربر عکس کالایی میگیرد (مثلاً کفش) و سیستم مشابه آن را در کاتالوگ پیدا میکند.
نیازمندیها: Object Localization + Label Detection یا Web Detection. نگهداری دیتاستی از محصولات خود.
نکات:
این پروژه ممکن است نیاز به ترکیب با سیستمهای کاتالوگ و پایگاه داده داشته باشد.
دقت مدل برای تشخیص دستهبندی و تطبیق مهم است.
هزینه: ویژگیها و تعداد درخواستها را تخمین بزن.
پروژه ۵: آنالیز تصویر برای مانیتورینگ کیفیت تولید
کاربرد: در کارخانه یا خط تولید، دوربین عکس میگیرد، سیستم میفهمد آیا محصول خطا دارد، لکه دارد، یا استانداردها را رعایت کرده است.
نیازمندیها: Label Detection و Object Localization یا حتی مدل سفارشی (AutoML Vision) اگر بخواهی ویژگی خاصی را تشخیص دهی.
نکات:
اگر ویژگی بسیار خاصی بخواهی، ممکن است نیاز به آموزش مدل داشته باشی (AutoML).
زمان حقیقی (real-time) ممکن است نیاز به معماری با Streaming، Pub/Sub، Cloud Functions داشته باشد.
هزینه و مقیاس را از ابتدا تخمین بزن.
آموزش سریع استفاده
در اینجا مراحل کلی برای شروع با Vision API آورده شده:
در کنسول Google Cloud، پروژه بساز، سرویس Vision API را فعال کن.
یک Service Account یا API Key ایجاد کن و دسترسیهای مناسب بده.
یک تصویر آماده کن (مثلاً فایل JPEG یا PNG) یا از Cloud Storage استفاده کن.
با یکی از زبانهای کلاینت (مثل Python، Node.js، Java) درخواست ارسال کن.
مثال پایتون:
(منابع کلی: مستندات رسمی) Google Cloud Documentation
خروجی را تحلیل کن، ذخیره کن، و بر اساس آن اقدام لازم انجام بده (مثلاً ذخیره در BigQuery، ترایگر، هشدار).
هزینه و محدودیتها را نظارت کن: در صفحه Pricing و Quotas. Google Cloud
نکات فنی و بهترین شیوهها
کیفیت تصویر مهم است: تصویر تار یا با نویز زیاد ممکن است تشخیص را سخت کند.
پیشپردازش (crop, rotate, نور) میتواند دقت را بهبود دهد.
اگر تعداد زیادی تصویر داری، دستهبندی (batch) را در نظر بگیر.
هزینهها را از ابتدا براورد کن تا هزینه غیرمنتظره نداشته باشی.
اگر نیاز به تشخیص بسیار خاص داری (مثلاً محصول خاص یا خطای تولید)، مدل سفارشی (AutoML Vision) ممکن است گزینه بهتر باشد.
به مسائل حریم خصوصی و اخلاق توجه کن، به ویژه وقتی که تشخیص چهره یا محتوای حساس هست.
محدودیتهای نرخ (quota) را چک کن تا سرویس دچار قطعی نشود.








