FlagOpen · hanhainebula · Apr 10, 2025 · Mar 17, 2025 · Apr 10, 2025 · Apr 10, 2025
diff --git a/FlagEmbedding/inference/embedder/decoder_only/base.py b/FlagEmbedding/inference/embedder/decoder_only/base.py
@@ -225,7 +225,7 @@ def encode_single_device(
         # tokenize without padding to get the correct length
         all_inputs = []
         for start_index in trange(0, len(sentences), batch_size, desc='pre tokenize',
-                                  disable=len(sentences) < 256):
+                                  disable=len(sentences) < batch_size):
             sentences_batch = sentences[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer(
                 sentences_batch,
@@ -263,7 +263,7 @@ def encode_single_device(
         # encode
         all_embeddings = []
         for start_index in tqdm(range(0, len(sentences), batch_size), desc="Inference Embeddings",
-                                disable=len(sentences) < 256):
+                                disable=len(sentences) < batch_size):
             inputs_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer.pad(
                 inputs_batch,

diff --git a/FlagEmbedding/inference/embedder/decoder_only/icl.py b/FlagEmbedding/inference/embedder/decoder_only/icl.py
@@ -368,7 +368,8 @@ def encode_queries_single_device(
 
         # tokenize without padding to get the correct length
         all_inputs = []
-        for start_index in trange(0, len(input_texts), batch_size, desc='pre tokenize'):
+        for start_index in trange(0, len(input_texts), batch_size, desc='pre tokenize',
+                                  disable=len(input_texts) < batch_size):
             sentences_batch = input_texts[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer(
                 sentences_batch,
@@ -417,7 +418,7 @@ def encode_queries_single_device(
         # encode
         all_embeddings = []
         for start_index in tqdm(range(0, len(sentences_sorted), batch_size), desc="Inference Embeddings",
-                                disable=len(sentences_sorted) < 256):
+                                disable=len(sentences_sorted) < batch_size):
             inputs_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer.pad(
                 inputs_batch,
@@ -489,7 +490,7 @@ def encode_single_device(
         # tokenize without padding to get the correct length
         all_inputs = []
         for start_index in trange(0, len(sentences), batch_size, desc='pre tokenize',
-                                  disable=len(sentences) < 256):
+                                  disable=len(sentences) < batch_size):
             sentences_batch = sentences[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer(
                 sentences_batch,
@@ -527,7 +528,7 @@ def encode_single_device(
         # encode
         all_embeddings = []
         for start_index in tqdm(range(0, len(sentences), batch_size), desc="Inference Embeddings",
-                                disable=len(sentences) < 256):
+                                disable=len(sentences) < batch_size):
             inputs_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer.pad(
                 inputs_batch,

diff --git a/FlagEmbedding/inference/embedder/encoder_only/base.py b/FlagEmbedding/inference/embedder/encoder_only/base.py
@@ -206,7 +206,7 @@ def encode_single_device(
         # tokenize without padding to get the correct length
         all_inputs = []
         for start_index in trange(0, len(sentences), batch_size, desc='pre tokenize',
-                                  disable=len(sentences) < 256):
+                                  disable=len(sentences) < batch_size):
             sentences_batch = sentences[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer(
                 sentences_batch,
@@ -244,7 +244,7 @@ def encode_single_device(
         # encode
         all_embeddings = []
         for start_index in tqdm(range(0, len(sentences), batch_size), desc="Inference Embeddings",
-                                disable=len(sentences) < 256):
+                                disable=len(sentences) < batch_size):
             inputs_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer.pad(
                 inputs_batch,

diff --git a/FlagEmbedding/inference/embedder/encoder_only/m3.py b/FlagEmbedding/inference/embedder/encoder_only/m3.py
@@ -370,7 +370,7 @@ def _process_colbert_vecs(colbert_vecs: np.ndarray, attention_mask: list):
         # tokenize without padding to get the correct length
         all_inputs = []
         for start_index in trange(0, len(sentences), batch_size, desc='pre tokenize',
-                                  disable=len(sentences) < 256):
+                                  disable=len(sentences) < batch_size):
             sentences_batch = sentences[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer(
                 sentences_batch,
@@ -412,7 +412,7 @@ def _process_colbert_vecs(colbert_vecs: np.ndarray, attention_mask: list):
         # encode
         all_dense_embeddings, all_lexical_weights, all_colbert_vecs = [], [], []
         for start_index in tqdm(range(0, len(sentences), batch_size), desc="Inference Embeddings",
-                                disable=len(sentences) < 256):
+                                disable=len(sentences) < batch_size):
             inputs_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs_batch = self.tokenizer.pad(
                 inputs_batch,
@@ -652,7 +652,7 @@ def _tokenize(texts: list, max_length: int):
             'colbert+sparse+dense': []
         }
         for start_index in tqdm(range(0, len(sentence_pairs), batch_size), desc="Compute Scores",
-                                disable=len(sentence_pairs) < 128):
+                                disable=len(sentence_pairs) < batch_size):
             sentences_batch = sentence_pairs[start_index:start_index + batch_size]
 
             queries_batch = [pair[0] for pair in sentences_batch]

diff --git a/FlagEmbedding/inference/reranker/decoder_only/base.py b/FlagEmbedding/inference/reranker/decoder_only/base.py
@@ -310,7 +310,7 @@ def compute_score_single_gpu(
         all_queries_inputs = []
         all_passages_inputs = []
         for start_index in trange(0, len(sentence_pairs), batch_size, desc="pre tokenize",
-                                  disable=len(sentence_pairs) < 128):
+                                  disable=len(sentence_pairs) < batch_size):
             sentences_batch = sentence_pairs[start_index:start_index + batch_size]
             queries = [s[0] for s in sentences_batch]
             passages = [s[1] for s in sentences_batch]

diff --git a/FlagEmbedding/inference/reranker/decoder_only/layerwise.py b/FlagEmbedding/inference/reranker/decoder_only/layerwise.py
@@ -192,7 +192,7 @@ def compute_score_single_gpu(
         all_queries_inputs = []
         all_passages_inputs = []
         for start_index in trange(0, len(sentence_pairs), batch_size, desc="pre tokenize",
-                                  disable=len(sentence_pairs) < 128):
+                                  disable=len(sentence_pairs) < batch_size):
             sentences_batch = sentence_pairs[start_index:start_index + batch_size]
             queries = [s[0] for s in sentences_batch]
             passages = [s[1] for s in sentences_batch]

diff --git a/FlagEmbedding/inference/reranker/decoder_only/lightweight.py b/FlagEmbedding/inference/reranker/decoder_only/lightweight.py
@@ -263,7 +263,7 @@ def compute_score_single_gpu(
         all_queries_inputs = []
         all_passages_inputs = []
         for start_index in trange(0, len(sentence_pairs), batch_size, desc="pre tokenize",
-                                  disable=len(sentence_pairs) < 128):
+                                  disable=len(sentence_pairs) < batch_size):
             sentences_batch = sentence_pairs[start_index:start_index + batch_size]
             queries = [s[0] for s in sentences_batch]
             passages = [s[1] for s in sentences_batch]

diff --git a/FlagEmbedding/inference/reranker/encoder_only/base.py b/FlagEmbedding/inference/reranker/encoder_only/base.py
@@ -122,7 +122,7 @@ def compute_score_single_gpu(
         # tokenize without padding to get the correct length
         all_inputs = []
         for start_index in trange(0, len(sentence_pairs), batch_size, desc="pre tokenize",
-                                  disable=len(sentence_pairs) < 128):
+                                  disable=len(sentence_pairs) < batch_size):
             sentences_batch = sentence_pairs[start_index:start_index + batch_size]
             queries = [s[0] for s in sentences_batch]
             passages = [s[1] for s in sentences_batch]
@@ -174,7 +174,7 @@ def compute_score_single_gpu(
 
         all_scores = []
         for start_index in tqdm(range(0, len(all_inputs_sorted), batch_size), desc="Compute Scores",
-                                disable=len(all_inputs_sorted) < 128):
+                                disable=len(all_inputs_sorted) < batch_size):
             sentences_batch = all_inputs_sorted[start_index:start_index + batch_size]
             inputs = self.tokenizer.pad(
                 sentences_batch,