Российская компания Smart Engines анонсировала запуск масштабного датасета MIDV-DM, включающего 8 тысяч изображений поддельных удостоверений личности из России, стран СНГ и других государств. Этот набор данных создан для обучения и усовершенствования систем искусственного интеллекта, направленных на борьбу с мошенничеством.
MIDV-DM стал первым публичным набором данных, систематизировавшим ключевые способы подделки документов. Датасет основан на тысяче изображений из ранее существующего набора MIDV-2020, который включает внутренние паспорта России, а также национальные паспорта и ID-карты таких стран, как Азербайджан, Латвия, Эстония и Финляндия. В процессе создания специалисты применили различные манипуляции, включая вставку текста или фотографий из других документов, закрашивание полей, склейку фрагментов и добавление посторонних элементов, таких как эмблемы и голограммы.
Данный шаг инициирован на фоне растущего числа случаев мошенничества с документами. Согласно исследованию, проведенному Smart Engines совместно с юридической фирмой INTELLECT, в 2024 году количество уголовных дел по фальсификации поддельных документов в России увеличилось на 34%, достигнув 3,9 тысячи. По словам генерального директора Smart Engines, доктора технических наук Владимира Арлазарова, создание MIDV-DM позволяет разработчикам повысить точность решений для борьбы с мошенничеством и учить системы искусственного интеллекта не только выявлять замененные имена, но и распознавать сложные структурные несоответствия в документах.
Среди недавних схем мошенничества отмечается массовая рассылка смс-сообщений, маскирующихся под уведомления от антифрод-систем. В дальнейшем Smart Engines планирует расширять свою антифрод-систему «Шерлок 2о», которая будет проверять документы по 600 параметрам, включая изображения из разных спектров и данные NFC-чипов.