Научно-технический вебинар «Open Images датасет: один датасет для многочисленных задач компьютерного зрения»

26 января 2021, 13:00 MCK

О вебинаре

  • Спикер

    Алина Кузнецова, Senior Software Engineer, Google, Цюрих, Швейцария

  • Тема

    Научно-технический вебинар «Open Images датасет: один датасет для многочисленных задач компьютерного зрения»

  • Подробнее про вебинар

    Open Images — это очень большой датасет с унифицированными аннотациями для тренировки моделей для различных задач компьютерного зрения. Во-первых, он охватывает классические задачи компьютерного зрения: классификацию изображений, детектирование объектов, сегментацию объектов и детектирования взаимосвязей между объектами. Размер датасета имеет свои преимущества, но также и проблемы, о которых я расскажу в своей презентации. В версии датасета V6 мы добавили новый тип аннотаций — мультимодальные аннотации, состоящие из синхронизированного голоса, транскрипта и движения компьютерной мышки для описании картинки. Мы надеемся, что эти новые аннотаций будут содействовать исследованиям и инновациям в различных мультимодальных задачах.

    Open Images is a very large-scale dataset that provides unified annotations for many computer vision tasks. Firstly, it covers the classical tasks of computer vision: image classification, object detection, instance segmentation and visual relationship detection. The scale of the dataset brings its advantages as well as its challenges, which I will discuss during the talk. Further, in the V6 version of the dataset we added a new type of annotation — multimodal annotations consisting of synchronized voice, textual caption, and mouse traces over the objects being described. We hope that those new types of annotations will support the research and innovation in various computer vision and multimodal tasks.

    Материалы:

    Сайт Open Images dataset: https://storage.googleapis.com/openimages/web/index.html

    Сайт Open Images challenge: https://storage.googleapis.com/openimages/web/challenge_overview.html

     

    Публикация по Open Images:

    «The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale»

    https://arxiv.org/abs/1811.00982

    «Large-scale interactive object segmentation with human annotators.»

    https://arxiv.org/abs/1903.10830

    «Connecting Vision and Language with Localized Narratives.»

    https://arxiv.org/abs/1912.03098

    Data: https://google.github.io/localized-narratives/

     

    Модели для детекции объектов опубликованные на TF-Hub и колаб с примером использования:

    https://tfhub.dev/google/faster_rcnn/openimages_v4/inception_resnet_v2/1

    https://tfhub.dev/google/openimages_v4/ssd/mobilenet_v2/1

    https://colab.sandbox.google.com/github/tensorflow/hub/blob/master/examples/colab/object_detection.ipynb