Spaces:
Sleeping
Sleeping
Commit
·
5904df8
1
Parent(s):
76f084f
regex hindi trial
Browse files- BPE.py +1 -1
- decoded_output.txt +3 -1
- encode_decode.py +3 -3
- encode_input.txt +3 -1
BPE.py
CHANGED
@@ -3,7 +3,7 @@ import regex as re
|
|
3 |
from tqdm import tqdm
|
4 |
|
5 |
# Read text from a file
|
6 |
-
with open('
|
7 |
text = file.read()
|
8 |
|
9 |
# Define the GPT-2 regex pattern
|
|
|
3 |
from tqdm import tqdm
|
4 |
|
5 |
# Read text from a file
|
6 |
+
with open('text_file.txt', 'r', encoding='utf-8') as file:
|
7 |
text = file.read()
|
8 |
|
9 |
# Define the GPT-2 regex pattern
|
decoded_output.txt
CHANGED
@@ -1 +1,3 @@
|
|
1 |
-
|
|
|
|
|
|
1 |
+
अम जद क े पर ि व ा र क ी त ी न प ी ढ ़ि य ां च ां दन ी च ौ क न ि र ् व ा चन क ् ष े त ् र म ें हव े ल ी आज ़ म ख ां क े न ा म स े पहच ा न े ज ा न े व ा ल े एक दम स ट कर बन े घर ों क े झ ु ण ् ड म ें रहत ी ह ैं. यह इल ा क ा द ि ल ् ल ी क ी ऐ त ि ह ा स ि क ज ा म ा मस ् ज ि द स े प ै दल क ी द ू र ी पर ह ै, और इस पर ि व ा र क े 23 सदस ् य मतद ा न क ें द ् र 10 पर प ं ज ी क ृ त मतद ा त ा ह ैं. ल े क ि न प ि छल े स ा ल ल ो कसभ ा च ु न ा व ों क े द ौ र ा न अम जद क ो पत ा चल ा क ि वह अपन े पर ि व ा र क े उन 20 ल ो ग ों म ें स े एक ह ैं, ज ि नक ा न ा म मतद ा त ा स ू च ी स े इस वजह स े क ा ट द ि य ा गय ा क ि उन ् ह ों न े अपन ा घर बदल ल ि य ा ह ै.
|
2 |
+
|
3 |
+
5 5 वर ् ष ी य अम जद न े न ् य ू ज ़ ल ॉ न ् ड ् र ी क ो बत ा य ा, " हम ा र े स ा मन े य े पहल ी ब ा र ह ु आ ह ै. ल े क ि न न ा म क टन े क े ब ा र े म ें सबस े ज ् य ा द ा न ि र ा श ा जन क ब ा त य े थ ी क ि इसक ा पत ा मतद ा न क े द ि न ह ी चल ा. जब हम पहल ी ब ा र ब ू थ 10 पर गए त ो उन ् ह ों न े हम ें बत ा य ा क ि उन ् ह ें मतद ा त ा स ू च ी म ें हम ा र ा न ा म नह ीं म ि ल ा. इसल ि ए हम ें ज ा म ा मस ् ज ि द म ें क ि स ी द ू सर े ब ू थ पर ज ा कर द े खन ा च ा ह ि ए . वह ां स े हम ें द ू सर े ब ू थ पर भ े ज द ि य ा गय ा. इस तरह हमन े प ां च स े छह ब ू थ ों क ा द ौ र ा क ि य ा. और फ ि र अ ं त म ें हम ें ज ो क ा रण बत ा य ा गय ा, व ो यह थ ा क ि श ा यद घर - घर ज ा कर सर ् व े क ् षण क े द ौ र ा न ब ी एल ओ ( ब ू थ ल े वल ऑफ ि सर ) क ो हम घर पर नह ीं म ि ल े इसल ि ए उन ् ह ों न े हम ा र े न ा म क ा ट द ि ए . ”
|
encode_decode.py
CHANGED
@@ -27,7 +27,7 @@ def decode(ids):
|
|
27 |
return text
|
28 |
|
29 |
# Example: Decode a list of IDs
|
30 |
-
set_of_ids = [
|
31 |
decoded_text = decode(set_of_ids) # Pass the list of IDs
|
32 |
print(decoded_text)
|
33 |
|
@@ -61,5 +61,5 @@ def encode():
|
|
61 |
return final_tokens
|
62 |
|
63 |
# Example: Encode text from a file
|
64 |
-
encoded_tokens = encode()
|
65 |
-
print(encoded_tokens)
|
|
|
27 |
return text
|
28 |
|
29 |
# Example: Decode a list of IDs
|
30 |
+
set_of_ids = [1044, 1283, 262, 260, 314, 266, 284, 259, 261, 262, 263, 308, 263, 267, 279, 263, 410, 660, 275, 318, 319, 318, 544, 263, 319, 338, 269, 286, 266, 261, 265, 284, 259, 533, 262, 265, 320, 260, 271, 265, 261, 277, 282, 916, 260, 270, 263, 507, 322, 278, 336, 318, 262, 260, 286, 259, 278, 273, 260, 1097, 259, 267, 260, 291, 259, 267, 260, 298, 259, 270, 260, 343, 557, 273, 287, 341, 372, 260, 592, 296, 262, 260, 571, 280, 342, 265, 301, 277, 282, 798, 263, 274, 344, 369, 603, 259, 269, 259, 292, 266, 270, 265, 270, 263, 262, 263, 417, 271, 266, 276, 259, 272, 266, 269, 291, 259, 278, 259, 833, 265, 290, 266, 283, 273, 260, 279, 281, 569, 262, 263, 292, 300, 261, 263, 314, 274, 421, 313, 328, 314, 266, 284, 259, 261, 262, 260, 1277, 827, 265, 275, 924, 259, 267, 262, 282, 283, 265, 261, 545, 314, 279, 264, 290, 263, 269, 415, 271, 924, 259, 271, 259, 274, 344, 294, 260, 269, 266, 267, 279, 266, 572, 260, 273, 259, 270, 294, 268, 622, 259, 319, 280, 267, 259, 284, 296, 262, 260, 292, 338, 261, 259, 267, 506, 1283, 262, 268, 462, 259, 437, 259, 262, 266, 380, 367, 260, 314, 266, 284, 259, 261, 262, 260, 340, 376, 294, 268, 289, 296, 277, 282, 273, 260, 343, 274, 489, 291, 266, 526, 259, 286, 259, 278, 924, 259, 271, 259, 273, 300, 305, 263, 273, 260, 328, 651, 273, 260, 262, 259, 287, 292, 266, 275, 259, 361, 259, 262, 266, 340, 265, 276, 296, 267, 260, 367, 259, 592, 766, 294, 266, 275, 259, 274, 312, 10, 10, 53, 53, 483, 265, 320, 263, 275, 506, 1283, 286, 260, 286, 265, 275, 300, 290, 322, 270, 353, 267, 265, 301, 265, 261, 263, 262, 268, 413, 259, 275, 366, 32, 34, 519, 259, 261, 260, 273, 259, 440, 260, 321, 260, 379, 263, 285, 259, 261, 274, 280, 357, 274, 312, 294, 260, 269, 266, 267, 286, 259, 278, 262, 476, 260, 262, 260, 285, 259, 261, 260, 277, 282, 540, 260, 291, 265, 275, 259, 283, 259, 286, 266, 261, 259, 302, 259, 389, 269, 285, 259, 271, 321, 260, 323, 263, 262, 266, 419, 259, 462, 259, 924, 259, 267, 262, 260, 292, 266, 267, 274, 263, 437, 330, 433, 375, 379, 263, 285, 259, 261, 285, 300, 329, 545, 314, 431, 308, 268, 340, 265, 276, 296, 267, 260, 375, 282, 413, 259, 275, 259, 262, 266, 340, 265, 276, 282, 924, 259, 271, 259, 273, 300, 305, 263, 277, 282, 375, 259, 261, 259, 286, 259, 278, 345, 335, 277, 266, 270, 330, 792, 266, 299, 375, 282, 291, 259, 278, 259, 833, 265, 290, 266, 283, 277, 282, 262, 266, 272, 263, 292, 300, 391, 260, 285, 300, 329, 314, 291, 259, 341, 292, 260, 607, 259, 319, 259, 276, 266, 299, 46, 380, 318, 273, 260, 375, 282, 292, 300, 391, 260, 285, 300, 329, 314, 310, 260, 290, 292, 266, 275, 259, 361, 330, 328, 513, 899, 260, 279, 318, 305, 273, 260, 1067, 285, 300, 329, 296, 262, 259, 292, 338, 261, 259, 262, 266, 275, 330, 313, 332, 266, 261, 297, 264, 271, 277, 282, 375, 282, 291, 268, 262, 259, 518, 413, 259, 275, 259, 361, 366, 298, 268, 369, 323, 259, 262, 266, 327, 259, 741, 592, 45, 1133, 291, 259, 341, 534, 265, 284, 260, 269, 265, 515, 262, 260, 292, 338, 261, 259, 267, 285, 263, 901, 399, 394, 295, 300, 329, 294, 260, 643, 626, 266, 391, 41, 262, 268, 375, 592, 314, 345, 335, 277, 266, 270, 260, 792, 266, 299, 340, 265, 276, 296, 267, 260, 375, 259, 261, 260, 286, 259, 278, 262, 259, 287, 292, 266, 299, 46, 1396]
|
31 |
decoded_text = decode(set_of_ids) # Pass the list of IDs
|
32 |
print(decoded_text)
|
33 |
|
|
|
61 |
return final_tokens
|
62 |
|
63 |
# Example: Encode text from a file
|
64 |
+
#encoded_tokens = encode()
|
65 |
+
#print(encoded_tokens)
|
encode_input.txt
CHANGED
@@ -1 +1,3 @@
|
|
1 |
-
|
|
|
|
|
|
1 |
+
अमजद के परिवार की तीन पीढ़ियां चांदनी चौक निर्वाचन क्षेत्र में हवेली आज़म खां के नाम से पहचाने जाने वाले एकदम सटकर बने घरों के झुण्ड में रहती हैं. यह इलाका दिल्ली की ऐतिहासिक जामा मस्जिद से पैदल की दूरी पर है, और इस परिवार के 23 सदस्य मतदान केंद्र 10 पर पंजीकृत मतदाता हैं. लेकिन पिछले साल लोकसभा चुनावों के दौरान अमजद को पता चला कि वह अपने परिवार के उन 20 लोगों में से एक हैं, जिनका नाम मतदाता सूची से इस वजह से काट दिया गया कि उन्होंने अपना घर बदल लिया है.
|
2 |
+
|
3 |
+
55 वर्षीय अमजद ने न्यूज़लॉन्ड्री को बताया, "हमारे सामने ये पहली बार हुआ है. लेकिन नाम कटने के बारे में सबसे ज्यादा निराशाजनक बात ये थी कि इसका पता मतदान के दिन ही चला. जब हम पहली बार बूथ 10 पर गए तो उन्होंने हमें बताया कि उन्हें मतदाता सूची में हमारा नाम नहीं मिला. इसलिए हमें जामा मस्जिद में किसी दूसरे बूथ पर जाकर देखना चाहिए. वहां से हमें दूसरे बूथ पर भेज दिया गया. इस तरह हमने पांच से छह बूथों का दौरा किया. और फिर अंत में हमें जो कारण बताया गया, वो यह था कि शायद घर-घर जाकर सर्वेक्षण के दौरान बीएलओ (बूथ लेवल ऑफिसर) को हम घर पर नहीं मिले इसलिए उन्होंने हमारे नाम काट दिए.”
|