特征平台网页操作

特征平台目前在配置中心中,开通配置中心后,可以拿到配置中心链接。 配置中心初始账号密码默认 admin/admin , 第一次登录,会要求修改密码 可以先熟悉配置中心文档

1. 数据源配置

数据源配置也可以见配置中心文档

特征平台需要在线数据源 (hologres, igraph, redis) 和 离线数据源 (maxcompute, datascience) , 需要先在配置中心的数据源配置中配置好。目前是为了避免敏感信息 ak 的泄露。 首先把拿到的 ak 存储在 配置中心-基础配置-AK 管理中:

image.png

然后在数据源管理中配置好所需要的在线数据源和离线数据源:

image.png

2. 项目空间 (Project)

project 表示项目空间,每个项目空间是独立的。project 里会配置基本的信息,每个 project 会对应一个 offlinestore 和 onlinestore。 项目空间表示所有的表都在同一个项目空间内共享。

可按下图所示新增项目空间:

image.png

其中离线数据源和在线数据源都是从数据源配置中选取。

image.png

填好后如下图所示:

image.png

点击确定,就可以在项目管理中看到新建的项目空间。 image.png

3. 特征实体 (Feature Entity)

特征实体 (FeatureEntity) 描述了一组相关的特征集合。多个 特征视图 (FeatureView) 可以关联一个 FeatureEntity。 每个Entity 都会有一个 Entity JoinId , 通过 JoinId 可以关联多个 FeatureView 特征。每一个 FeatureView 都有一个主键(索引键)来获取其下面的特征数据,但是这里的索引键可以和 JoinId 定义的名称不一样。

上面的描述可能过于抽象,具体对于推荐场景来说,可以只设置两个特征实体 user 和 item, 因为所有的表特征要么属于 user 侧,要么属于 item 侧。而 join_id 则可以认为是 user 表 和 item 表中的主键,主要是关联的时候使用。

可以按下图所示新增特征实体 image.png

然后填入名称后创建特征实体。 image.png

其中项目名称只能从已经创建的里面选。特征实体可以填 user 或者 item, join_id 可以填 user 表主键 user_id 或者 item 表主键 item_id 。

如下图所示:

下图是 user entity 填写

image.png

其中 join_id 为 user 表主键。

下图是 item entity 填写:

image.png

其中 join_id 为 item 表主键 item_id。填好后点击确认,可以看到新增的两个特征实体。

image.png

4. 特征视图 (Feature View)

当外部的数据进入到特征平台中, 需要通过 特征视图 (FeatureView)。 FeatureView 指定了数据从哪里来(DataSource), 数据进入FS 需要哪些转换(特征工程/Transformation), 特征 schema (特征名称+类型),数据需要放到哪里(OnlineStore/OfflineStore)、特征meta(主键、事件时间、分区键, FeatureEntity, ttl )。

FeatureView 会分为两种类型, BatchFeatureView 和 StreamFeatureView 。 BatchFeatureView 可以把离线数据注入到 FS 中, StreamFeatureView 支持实时特征的写入。 BatchFeatureView 会把数据管理到 OfflineStore 里, 然后可以选择同步到 OnlineStore 里。StreamFeatureView 支持实时读取 OnlineStore 内容。

可以按下图所示创建特征视图:

image.png

一般一个推荐模型至少有三个表组成,user 表,item 表,label 表。其中 user 表 和 item 表就注册为特征视图,label 表注册为目标表。以下展示 user 表和 item 表的注册过程。

创建 user 表:

image.png

其中注册表名称填好后,选择导入,会自动导入选中表的 schema, 然后在导入的 schema 中选择 user_id 为主键.

image.png

如果改表需要用在在线取特征,就在同步在线特征表选择 是,特征实体选择新建的 user, 填好后点击确定。 确定后可以看到创建好的特征视图:

image.png

接下来我们以类似的方式,导入注册 item 特征表。

image.png

如上所示,其中导入表后,选择 item_id 为主键。

image.png

特征实体选择 item 后,点击确定后,可以看到如下图所示:

image.png

以上操作完成的含义是:

将 user 特征表:rec_sln_demo_user_table_preprocess_all_feature_v1 注册进特征平台。

将 item 特征表:rec_sln_demo_item_table_preprocess_all_feature_v1 注册进特征平台。

5. 目标表 (Label Table)

目标表是训练时的 label 所在的表,在推荐场景中一般是由行为表通过 group by user_id, item_id, request_id 等操作得到。

目标表可以按以下步骤新增:

image.png

然后填写下面字段,确定后就可以注册目标表。

image.png

其中,项目名称只能在已创建的项目中选择,Label 表所在的数据源只能在已创建的数据源中选择。填写完 Label 表名称后,选择导入,就会自动将 max compute 中的字段导入:

image.png

点击确定,就可以将 label 表导入。导入后,可以在 label 表看到如下记录:

image.png

6. 模型 (model)

特征平台中的模型实际是指定了训练上线过程中所使用的特征的集合,选择好特征创建模型后,会在 max compute 中创建一张 train set 表,用于离线训练。在 EAS config 和 PAIREC config 指定特征平台 model, 也能用于自动拉取 item 侧 和 user 侧的特征。后续具体 config 配置可以参考:特征平台支持推荐模型上线

下面描述在网页中选择特征创建模型的过程。

首先在模型管理中选择创建:

image.png

选择创建后,填入项目名称,模型名称,创建人,然后选择特征:

image.png

有全选按钮,可以将表内特征全选。

image.png

其中,Label 表选择方式,选择使用预定义 label 表,然后在 Label 表名称中选择刚才步骤 5 中创建的目标表,在导出表名称中选择自动创建表,然后点击一键建表,可以预览建表语句,如下图所示:

image.png

预览建表语句没有问题后,点击确定,可以看到建表的表名:

image.png

然后点击确定,就可以创建好模型。如下图所示:

image.png 至此网页操作完成。

7. 后续

如果需要导出数据到 train set, 需要使用 python sdk, 详细可以见:特征平台 Python SDK 操作

如果已有模型,需要上线,详细可以见上线操作:特征平台支持推荐模型上线