На нашем маркетплейсе ежедневно появляются сотни новых товаров. Однако, проверить правильность заполнения информации обо всех товарах сразу невозможно. Неверно определенная категория зачастую приводит к потенциально упущенной прибыли как со стороны продавца, так и со стороны маркетплейса. Мы хотим научиться предсказывать категорию на основе описания, картинки и других параметрах товаров.
train.parquet - pandas.DataFrame
с товарами на маркетплейсе. У каждого товара есть:
- product_id - идентификатор товара
- text_fields - строка-словарь со следующими полями:
- title - заголовок
- description - описание
- attributes - на сайте они находятся в карточке товара
- custom_characteristics, defined_characteristics, filters - вложенные словари с ключами – названиями полей-признаков и значениями – возможными значениями этих признаков (например, Цвет: Белый / Черный)
- rating - средний рейтинг товара
- sale - флаг, обозначающий находится ли товар в распродаже
- shop_id (seller_id) - id магазина (id-продавца)
- shop_title - название магазина
- category_id - категория товара (таргет)
- category_name - название категории товара с точки зрения дерева категорий KazanExpress
test.parquet - файл, идентичный train.parquet, ****но без реального category_id, именно его вам и предстоит предсказать.