GenerTeam
/

GENERator-eukaryote-1.2b-base

Text Generation

text-generation-inference

Model card Files Files and versions

GenerTeam commited on Jun 8

Commit

3be4abf

·

verified ·

1 Parent(s): 9f6e787

Update README.md

Files changed (1) hide show

README.md +20 -2

README.md CHANGED Viewed

@@ -43,14 +43,32 @@ config = model.config
 max_length = config.max_position_embeddings
 # Define input sequences.
-# The input sequence length should be a
 sequences = [
     "ATGAGGTGGCAAGAAATGGGCTAC",
     "GAATTCCATGAGGCTATAGAATAATCTAAGAGAAAT"
 ]
 # Process the sequences
-sequences = [tokenizer.bos_token + sequence for sequence in sequences]
 # Tokenize the sequences
 tokenizer.padding_side = "left"

 max_length = config.max_position_embeddings
 # Define input sequences.
 sequences = [
     "ATGAGGTGGCAAGAAATGGGCTAC",
     "GAATTCCATGAGGCTATAGAATAATCTAAGAGAAAT"
 ]
+def left_padding(sequence, padding_char='A', multiple=6):
+    remainder = len(sequence) % multiple
+    if remainder != 0:
+        padding_length = multiple - remainder
+        return padding_char * padding_length + sequence
+    return sequence
+def left_truncation(sequence, multiple=6):
+    remainder = len(sequence) % multiple
+    if remainder != 0:
+        return sequence[remainder:]
+    return sequence
+# Apply left_padding to all sequences
+# padded_sequences = [left_padding(seq) for seq in sequences]
+# Apply left_truncation to all sequences
+truncated_sequences = [left_truncation(seq) for seq in sequences]
 # Process the sequences
+sequences = [tokenizer.bos_token + sequence for sequence in truncated_sequences]
 # Tokenize the sequences
 tokenizer.padding_side = "left"