[bugfix] support remove bucketizer for sequence feature and add tests (#215)

tiankongdeguiji · web-flow · commit 8f79e78302af · 2025-07-24T10:33:55.000+08:00
diff --git a/tzrec/features/feature.py b/tzrec/features/feature.py
@@ -813,8 +813,21 @@ def _copy_assets(
     return feature
 
 
+def _remove_one_feature_bucketizer(fg_json: Dict[str, Any]) -> Dict[str, Any]:
+    fg_json.pop("hash_bucket_size", None)
+    fg_json.pop("vocab_dict", None)
+    fg_json.pop("vocab_list", None)
+    fg_json.pop("boundaries", None)
+    fg_json.pop("num_buckets", None)
+    if fg_json["feature_type"] != "tokenize_feature":
+        fg_json.pop("vocab_file", None)
+    return fg_json
+
+
 def create_fg_json(
-    features: List[BaseFeature], asset_dir: Optional[str] = None
+    features: List[BaseFeature],
+    asset_dir: Optional[str] = None,
+    remove_bucketizer: bool = False,
 ) -> Dict[str, Any]:
     """Create feature generate config for features."""
     results = []
@@ -835,10 +848,14 @@ def create_fg_json(
                 )
                 seq_to_idx[feature.sequence_name] = len(results) - 1
             fg_json = feature.fg_json()
+            if remove_bucketizer:
+                fg_json = [_remove_one_feature_bucketizer(x) for x in fg_json]
             idx = seq_to_idx[feature.sequence_name]
             results[idx]["features"].extend(fg_json)
         else:
             fg_json = feature.fg_json()
+            if remove_bucketizer:
+                fg_json = [_remove_one_feature_bucketizer(x) for x in fg_json]
             results.extend(fg_json)
     return {"features": results}
 
diff --git a/tzrec/features/feature_test.py b/tzrec/features/feature_test.py
@@ -14,6 +14,7 @@
 import shutil
 import tempfile
 import unittest
+from collections import OrderedDict
 
 import numpy as np
 import pyarrow as pa
@@ -238,23 +239,27 @@ def _create_test_feature_cfgs(self):
         return [
             feature_pb2.FeatureConfig(
                 id_feature=feature_pb2.IdFeature(
-                    feature_name="cat_a", expression="item:cat_a", hash_bucket_size=100
+                    feature_name="cat_a", expression="item:cat_a", num_buckets=100
                 )
             ),
             feature_pb2.FeatureConfig(
                 raw_feature=feature_pb2.RawFeature(
-                    feature_name="int_a", expression="item:int_a"
+                    feature_name="int_a", expression="item:int_a", boundaries=[1, 2, 3]
                 )
             ),
             feature_pb2.FeatureConfig(
                 combo_feature=feature_pb2.ComboFeature(
                     feature_name="combo_c",
                     expression=["user:combo_uc", "item:combo_ic"],
+                    hash_bucket_size=1000,
                 )
             ),
             feature_pb2.FeatureConfig(
                 lookup_feature=feature_pb2.LookupFeature(
-                    feature_name="lookup_d", map="user:map_d", key="item:key_d"
+                    feature_name="lookup_d",
+                    map="user:map_d",
+                    key="item:key_d",
+                    vocab_list=["a", "b", "c"],
                 )
             ),
             feature_pb2.FeatureConfig(
@@ -263,13 +268,15 @@ def _create_test_feature_cfgs(self):
                     nested_map="user:nested_map",
                     pkey="item:key_e",
                     skey="item:key_f",
+                    vocab_dict={"e": 2, "f": 3, "g": 4},
                 )
             ),
             feature_pb2.FeatureConfig(
                 expr_feature=feature_pb2.ExprFeature(
                     feature_name="expr_f",
                     expression="int_g+int_h",
                     variables=["item:int_g", "item:int_h"],
+                    boundaries=[4, 5, 6],
                 )
             ),
             feature_pb2.FeatureConfig(
@@ -285,6 +292,8 @@ def _create_test_feature_cfgs(self):
                     expression="item:click_seq_cat_simple",
                     sequence_length=50,
                     sequence_delim=";",
+                    vocab_file="data/test/id_vocab_list_0",
+                    default_bucketize_value=0,
                 )
             ),
             feature_pb2.FeatureConfig(
@@ -304,12 +313,16 @@ def _create_test_feature_cfgs(self):
                     features=[
                         feature_pb2.SeqFeatureConfig(
                             id_feature=feature_pb2.IdFeature(
-                                feature_name="cat_a", expression="item:cat_a"
+                                feature_name="cat_a",
+                                expression="item:cat_a",
+                                hash_bucket_size=10,
                             )
                         ),
                         feature_pb2.SeqFeatureConfig(
                             raw_feature=feature_pb2.RawFeature(
-                                feature_name="int_a", expression="item:int_a"
+                                feature_name="int_a",
+                                expression="item:int_a",
+                                boundaries=[7, 8, 9],
                             )
                         ),
                     ],
@@ -321,10 +334,12 @@ def _create_test_feature_cfgs(self):
     def test_create_fg_json(self, with_asset_dir=False):
         asset_dir = None
         token_file = "data/test/tokenizer.json"
+        vocab_file = "data/test/id_vocab_list_0"
         if with_asset_dir:
             self.test_dir = tempfile.mkdtemp(prefix="tzrec_", dir="./tmp")
             asset_dir = self.test_dir
             token_file = "tokenizer_b2faab7921bbfb593973632993ca4c85.json"
+            vocab_file = "id_vocab_list_0_583794bd44eb2c6d83336c71258521e8"
         feature_cfgs = self._create_test_feature_cfgs()
         features = feature_lib.create_features(feature_cfgs, fg_mode=FgMode.FG_DAG)
         fg_json = feature_lib.create_fg_json(features, asset_dir=asset_dir)
@@ -340,15 +355,16 @@ def test_create_fg_json(self, with_asset_dir=False):
                         "expression": "item:cat_a",
                         "value_type": "string",
                         "need_prefix": False,
-                        "hash_bucket_size": 100,
                         "value_dim": 0,
+                        "num_buckets": 100,
                     },
                     {
                         "feature_type": "raw_feature",
                         "feature_name": "int_a",
                         "default_value": "0",
                         "expression": "item:int_a",
                         "value_type": "float",
+                        "boundaries": [1.0, 2.0, 3.0],
                     },
                     {
                         "feature_type": "combo_feature",
@@ -358,17 +374,21 @@ def test_create_fg_json(self, with_asset_dir=False):
                         "value_type": "string",
                         "need_prefix": False,
                         "value_dim": 0,
+                        "hash_bucket_size": 1000,
                     },
                     {
                         "feature_type": "lookup_feature",
                         "feature_name": "lookup_d",
                         "map": "user:map_d",
                         "key": "item:key_d",
                         "default_value": "0",
-                        "value_type": "float",
-                        "needDiscrete": False,
+                        "value_type": "string",
+                        "needDiscrete": True,
                         "needKey": False,
-                        "combiner": "sum",
+                        "combiner": "",
+                        "value_dim": 1,
+                        "vocab_list": ["0", "<OOV>", "a", "b", "c"],
+                        "default_bucketize_value": 1,
                     },
                     {
                         "feature_type": "match_feature",
@@ -378,10 +398,159 @@ def test_create_fg_json(self, with_asset_dir=False):
                         "item": "item:key_f",
                         "matchType": "hit",
                         "default_value": "0",
+                        "value_type": "string",
+                        "needDiscrete": True,
+                        "show_category": False,
+                        "show_item": False,
+                        "value_dim": 1,
+                        "vocab_dict": OrderedDict(
+                            [("e", 2), ("f", 3), ("g", 4), ("0", 0)]
+                        ),
+                        "default_bucketize_value": 1,
+                    },
+                    {
+                        "feature_name": "expr_f",
+                        "feature_type": "expr_feature",
+                        "expression": "int_g+int_h",
+                        "variables": ["item:int_g", "item:int_h"],
+                        "default_value": "0",
+                        "value_type": "float",
+                        "boundaries": [4.0, 5.0, 6.0],
+                    },
+                    {
+                        "feature_name": "token_g",
+                        "feature_type": "tokenize_feature",
+                        "expression": "item:token_g",
+                        "output_delim": "\x03",
+                        "output_type": "word_id",
+                        "tokenizer_type": "bpe",
+                        "vocab_file": token_file,
+                        "default_value": "",
+                    },
+                    {
+                        "feature_name": "click_seq_cat_simple",
+                        "feature_type": "sequence_id_feature",
+                        "sequence_delim": ";",
+                        "sequence_length": 50,
+                        "expression": "item:click_seq_cat_simple",
+                        "default_value": "0",
+                        "need_prefix": False,
+                        "value_type": "string",
+                        "value_dim": 1,
+                        "vocab_file": vocab_file,
+                        "default_bucketize_value": 0,
+                    },
+                    {
+                        "feature_name": "click_seq_int_simple",
+                        "feature_type": "sequence_raw_feature",
+                        "sequence_delim": ";",
+                        "sequence_length": 50,
+                        "expression": "user:click_seq_int_simple",
+                        "default_value": "0",
+                        "value_type": "float",
+                    },
+                    {
+                        "sequence_name": "click_seq",
+                        "sequence_length": 50,
+                        "sequence_delim": ";",
+                        "sequence_pk": "user:click_seq",
+                        "features": [
+                            {
+                                "feature_type": "id_feature",
+                                "feature_name": "cat_a",
+                                "default_value": "0",
+                                "expression": "item:cat_a",
+                                "value_type": "string",
+                                "need_prefix": False,
+                                "value_dim": 1,
+                                "hash_bucket_size": 10,
+                            },
+                            {
+                                "feature_type": "raw_feature",
+                                "feature_name": "int_a",
+                                "default_value": "0",
+                                "expression": "item:int_a",
+                                "value_type": "float",
+                                "boundaries": [7.0, 8.0, 9.0],
+                            },
+                        ],
+                    },
+                ]
+            },
+        )
+        if with_asset_dir:
+            self.assertTrue(os.path.exists(os.path.join(asset_dir, token_file)))
+
+    @parameterized.expand([[False], [True]])
+    def test_create_fg_json_remove_bucketizer(self, with_asset_dir=False):
+        asset_dir = None
+        token_file = "data/test/tokenizer.json"
+        if with_asset_dir:
+            self.test_dir = tempfile.mkdtemp(prefix="tzrec_", dir="./tmp")
+            asset_dir = self.test_dir
+            token_file = "tokenizer_b2faab7921bbfb593973632993ca4c85.json"
+        feature_cfgs = self._create_test_feature_cfgs()
+        features = feature_lib.create_features(feature_cfgs, fg_mode=FgMode.FG_DAG)
+        fg_json = feature_lib.create_fg_json(
+            features, asset_dir=asset_dir, remove_bucketizer=True
+        )
+        self.maxDiff = None
+        self.assertEqual(
+            fg_json,
+            {
+                "features": [
+                    {
+                        "feature_type": "id_feature",
+                        "feature_name": "cat_a",
+                        "default_value": "",
+                        "expression": "item:cat_a",
+                        "value_type": "string",
+                        "need_prefix": False,
+                        "value_dim": 0,
+                    },
+                    {
+                        "feature_type": "raw_feature",
+                        "feature_name": "int_a",
+                        "default_value": "0",
+                        "expression": "item:int_a",
                         "value_type": "float",
-                        "needDiscrete": False,
+                    },
+                    {
+                        "feature_type": "combo_feature",
+                        "feature_name": "combo_c",
+                        "default_value": "",
+                        "expression": ["user:combo_uc", "item:combo_ic"],
+                        "value_type": "string",
+                        "need_prefix": False,
+                        "value_dim": 0,
+                    },
+                    {
+                        "feature_type": "lookup_feature",
+                        "feature_name": "lookup_d",
+                        "map": "user:map_d",
+                        "key": "item:key_d",
+                        "default_value": "0",
+                        "value_type": "string",
+                        "needDiscrete": True,
+                        "needKey": False,
+                        "combiner": "",
+                        "value_dim": 1,
+                        "default_bucketize_value": 1,
+                    },
+                    {
+                        "feature_type": "match_feature",
+                        "feature_name": "match_e",
+                        "user": "user:nested_map",
+                        "category": "item:key_e",
+                        "item": "item:key_f",
+                        "matchType": "hit",
+                        "default_value": "0",
+                        "value_type": "string",
+                        "needDiscrete": True,
                         "show_category": False,
                         "show_item": False,
+                        "value_dim": 1,
+                        "default_bucketize_value": 1,
                     },
                     {
                         "feature_name": "expr_f",
@@ -411,6 +580,7 @@ def test_create_fg_json(self, with_asset_dir=False):
                         "need_prefix": False,
                         "value_type": "string",
                         "value_dim": 1,
+                        "default_bucketize_value": 0,
                     },
                     {
                         "feature_name": "click_seq_int_simple",
@@ -458,10 +628,12 @@ def test_create_feauture_configs(self, with_asset_dir=False):
 
         asset_dir = None
         token_file = "data/test/tokenizer.json"
+        vocab_file = "data/test/id_vocab_list_0"
         if with_asset_dir:
             self.test_dir = tempfile.mkdtemp(prefix="tzrec_", dir="./tmp")
             asset_dir = self.test_dir
             token_file = "tokenizer_b2faab7921bbfb593973632993ca4c85.json"
+            vocab_file = "id_vocab_list_0_583794bd44eb2c6d83336c71258521e8"
 
         again_feature_cfgs = feature_lib.create_feature_configs(
             features, asset_dir=asset_dir
@@ -470,6 +642,8 @@ def test_create_feauture_configs(self, with_asset_dir=False):
         if with_asset_dir:
             feature_cfgs[6].tokenize_feature.vocab_file = token_file
             feature_cfgs[6].tokenize_feature.asset_dir = asset_dir
+            feature_cfgs[7].sequence_id_feature.vocab_file = vocab_file
+            feature_cfgs[7].sequence_id_feature.asset_dir = asset_dir
             self.assertTrue(os.path.exists(os.path.join(asset_dir, token_file)))
         self.assertEqual(repr(feature_cfgs), repr(again_feature_cfgs))
 
diff --git a/tzrec/tools/create_fg_json.py b/tzrec/tools/create_fg_json.py
@@ -9,9 +9,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-
 import argparse
-import copy
 import json
 import os
 import shutil
@@ -91,17 +89,9 @@
         _ = next(iterator)
 
     tmp_dir = tempfile.mkdtemp(prefix="tzrec_")
-    fg_json = create_fg_json(features, asset_dir=tmp_dir)
-    if args.remove_bucketizer:
-        fg_json = copy.copy(fg_json)
-        for feature in fg_json["features"]:
-            feature.pop("hash_bucket_size", None)
-            feature.pop("vocab_dict", None)
-            feature.pop("vocab_list", None)
-            feature.pop("boundaries", None)
-            feature.pop("num_buckets", None)
-            if feature["feature_type"] != "tokenize_feature":
-                feature.pop("vocab_file", None)
+    fg_json = create_fg_json(
+        features, asset_dir=tmp_dir, remove_bucketizer=args.remove_bucketizer
+    )
 
     if args.reserves is not None:
         reserves = []