Полное руководство по API Google Cloud Vision: функции, цены и практические проекты
Полное руководство по API Google Cloud Vision: функции, цены и практические проекты

Полное руководство по API Google Cloud Vision: функции, цены и практические проекты

В наши дни мы генерируем огромный объём визуальных данных — фотографий, сканов, видео, — и извлечение смысла и информации из этих данных важно для компаний, стартапов и разработчиков. Google Vision API, входящий в пакет сервисов искусственного интеллекта и машинного обучения Google Cloud, позволяет нам анализировать эти визуальные данные с помощью предварительно обученных моделей. 
0 Акции
0
0
0
0

Введение

В наши дни мы генерируем огромный объём визуальных данных — фотографий, сканов, видео, — и извлечение смысла и информации из этих данных важно для компаний, стартапов и разработчиков. Google Vision API, входящий в пакет сервисов искусственного интеллекта и машинного обучения Google Cloud, позволяет нам анализировать эти визуальные данные с помощью предварительно обученных моделей. 
В этой статье мы сначала рассмотрим основные возможности, затем рассмотрим затраты и способы их расчета, а затем предложим несколько практических проектов для реализации.

Google-GCP-Vision-API
API Google GCP Vision

Возможности и особенности

Ниже приведен список важных функций Vision API:

  • Распознавание меток: анализирует изображение и присваивает ему метки, например, «собака», «парк», «автомобиль» и т. д.

  • Распознавание текста (OCR) — включает обнаружение текста в разрозненных текстовых областях и обнаружение текста в документах для сканированных изображений/PDF-файлов/рукописей.

  • Распознавание лиц: идентификация лиц, координат, а иногда и эмоциональных черт. ikomia.ai

  • Обнаружение достопримечательностей: например, Эйфелева башня, Тадж-Махал и т. д.

  • Распознавание логотипов: обнаруживает бренды/логотипы на изображении. 

  • Определение свойств изображения: таких как доминирующий цвет, яркость, цветовая композиция. 

  • Обнаружение SafeSearch: для выявления контента для взрослых, насилия и т. д. 

  • Локализация объекта: несколько объектов на изображении с их координатами. 

  • Веб-детектирование: поиск похожих изображений, обнаружение источника, обнаружение веб-сущностей. 

Этот сервис также легко интегрируется с другими сервисами Google Cloud, такими как AutoML Vision, Document AI, BigQuery и т. д. 


Структура затрат и ценообразования

  • Модель оплаты: «оплата по мере использования» — то есть вы платите только за использованные единицы. 

  • Каждая «функция», выполненная с изображением, оценивается как одна единица. Например, если вы выполняете на изображении и распознавание меток, и распознавание лиц, вам будет выставлен счет как две единицы. 

  • Например: в английской версии до 1000 единиц в месяц предоставляются бесплатно. Далее цена начинается с 1001 до 5 000 000 единиц, например, для Label Detection ~ 1,5 доллара за 1000 единиц В некоторых блоках.

  • Простой пример: если у вас есть 4300 запросов на обнаружение достопримечательностей в месяц — согласно документации, это примерно 10 долларов Будет взиматься плата, которая может быть выше из-за санкций и оплаты в риалах.

  • Примечание: могут взиматься дополнительные расходы из других источников, таких как облачное хранилище, вычисления и передача данных. 


Предлагаемые практические проекты

Ниже представлено несколько проектов, которые можно реализовать с помощью Vision API. Каждый проект включает в себя описание использования, требования и советы по внедрению.

Проект 1: Автоматизированное управление запасами с помощью распознавания изображений

Приложение: В интернет-магазине или на складе делается фотография товара, сервис распознаёт, что это за товар, есть ли у него этикетка? Состояние товара выглядит здоровым?
Требования: Сервис распознавания этикеток и логотипов (если важны бренды). Сохраняйте изображения в облачном хранилище и базе данных для записи результатов.
Советы:

  • Перед запуском включите API и настройте ключ/учетную запись службы.

  • Для большей точности вам может потребоваться предварительная обработка изображений (например, коррекция освещения/угла).

  • Для отслеживания затрат: рассчитайте количество изображений × использованные единицы × цену за тысячу единиц.

Проект 2: Мониторинг пользовательского контента (неприемлемый контент)

Приложение: В социальном приложении или на платформе обмена фотографиями вам необходимо убедиться, что загружаемые пользователями фотографии не содержат неприемлемого контента.
Требования: Обнаружение SafeSearch + Обнаружение меток. Хранение журналов и возможность работы с Cloud Functions для быстрого реагирования.
Советы:

  • Обязательно соблюдайте политику конфиденциальности и ведения бизнеса.

  • Имейте в виду, что фотографии низкого качества могут дать вводящие в заблуждение результаты.

  • Затраты: учитывайте количество фотографий × функции (например, только SafeSearch).

Проект 3: Извлечение текста из отсканированных изображений (OCR)

Приложение: Для компаний, у которых есть отсканированные документы и формы, использование OCR может извлечь текст, проанализировать или сохранить его.
Требования: Распознавание текста в документах для сканирования или плотного текста. Сохранение результатов в BigQuery или базе данных.
Советы:

  • Поддерживаются такие форматы файлов, как PDF/TIFF. Документация Google Cloud

  • Возможно, вам потребуется распознавать линии или фигуры, в этом случае вам потребуется выполнить дополнительную обработку после OCR.

  • Чтобы сократить расходы: Если нет необходимости, отправьте только часть изображения или соответствующим образом настройте качество.

Проект 4: Визуальный поиск в интернет-магазине

Приложение: Пользователь фотографирует товар (например, обувь), и система находит аналогичный товар в каталоге.
Требования: Локализация объектов + обнаружение этикеток или веб-детекторов. Ведите набор данных о ваших продуктах.
Советы:

  • Для этого проекта может потребоваться интеграция с системами каталогов и баз данных.

  • Точность модели важна для классификации и распознавания соответствий.

  • Стоимость: Оцените возможности и количество запросов.

Проект 5: Анализ изображений для контроля качества продукции

Приложение: На заводе или производственной линии камера делает снимок, и система понимает, есть ли в продукте дефекты, пятна или он соответствует стандартам.
Требования: Обнаружение меток и локализация объектов или даже пользовательская модель (AutoML Vision), если вы хотите распознать определенный объект.
Советы:

  • Если вам нужна очень конкретная функция, вам может потребоваться обучить модель (AutoML). 

  • Для работы в режиме реального времени может потребоваться архитектура с функциями потоковой передачи, публикации/подписки и облака.

  • Оцените стоимость и масштаб с самого начала.


Краткое руководство

Вот общие шаги для начала работы с Vision API:

  1. В консоли Google Cloud создайте проект, включите службу Vision API. 

  2. Создайте учетную запись службы или ключ API и предоставьте соответствующие разрешения.

  3. Подготовьте изображение (например, файл JPEG или PNG) или воспользуйтесь облачным хранилищем.

  4. Отправьте запрос на одном из языков клиента (например, Python, Node.js, Java).

    • Пример на Python:

      from google.cloud import vision
      client = vision.ImageAnnotatorClient()
      with open("image.jpg", "rb") as f:
      content = f.read()
      image = vision.Image(content=content)
      response = client.label_detection(image=image)
      for label in response.label_annotations:
      print(label.description, label.score)
      

      (Общие источники: официальная документация) Документация Google Cloud

  5. Проанализируйте выходные данные, сохраните их и примите меры на их основе (например, сохраните в BigQuery, запустите триггер, отправьте оповещение).

  6. Мониторинг расходов и лимитов: на странице «Цены и квоты». Google Cloud


Технические советы и передовой опыт

  • Качество изображения имеет важное значение: размытое или зашумленное изображение может затруднить обнаружение.

  • Предварительная обработка (кадрирование, поворот, освещение) может повысить точность.

  • Если у вас большое количество изображений, рассмотрите возможность пакетной обработки.

  • Оцените расходы с самого начала, чтобы избежать непредвиденных трат.

  • Если вам требуется очень специфическое обнаружение (например, конкретная ошибка продукта или производства), лучшим вариантом может оказаться специальная модель (AutoML Vision).

  • Обращайте внимание на вопросы конфиденциальности и этики, особенно когда речь идет о распознавании лиц или конфиденциальном контенте.

  • Проверьте лимиты квот, чтобы избежать перебоев в обслуживании. 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Вам также может понравиться

Облачное пространство

Что такое облачное пространство и представляем лучшие облачные хранилища в 2020 году? Учитывая растущую популярность облачного пространства, в этом…