atiwari751 commited on
Commit
5904df8
·
1 Parent(s): 76f084f

regex hindi trial

Browse files
Files changed (4) hide show
  1. BPE.py +1 -1
  2. decoded_output.txt +3 -1
  3. encode_decode.py +3 -3
  4. encode_input.txt +3 -1
BPE.py CHANGED
@@ -3,7 +3,7 @@ import regex as re
3
  from tqdm import tqdm
4
 
5
  # Read text from a file
6
- with open('text_file_eng.txt', 'r', encoding='utf-8') as file:
7
  text = file.read()
8
 
9
  # Define the GPT-2 regex pattern
 
3
  from tqdm import tqdm
4
 
5
  # Read text from a file
6
+ with open('text_file.txt', 'r', encoding='utf-8') as file:
7
  text = file.read()
8
 
9
  # Define the GPT-2 regex pattern
decoded_output.txt CHANGED
@@ -1 +1,3 @@
1
- There 'll be chan g es after the war . I ' ve never been more h o pe ful . I t 'd be a more pe ace ful world , people 'll be ha p p ier .
 
 
 
1
+ अम जद क े पर ि व ा र क ी त ी न ी ढ ़ि य ां ां दन ी च ौ क न ि र ् व ा चन क ् ष े त ् र ें हव आज ख ां क े न ा म े पहच ा न े ा न े ा ल े एक दम कर बन े घर ों क े झ ु ण ् ड म ें रहत ी ह ैं. यह इल ा क ा द ि ल ् ल ी क ी ऐ त ि ह ा स ि क ज ा म ा मस ् ज ि द स े प ै दल क ी द ू र ी पर ह ै, और इस पर ि व ा र क े 23 सदस ् य मतद ा न क ें द ् र 10 पर प ं ज ी क ृ त मतद ा त ा ह ैं. ल े क ि न प ि छल े स ा ल ल ो कसभ ा च ु न ा व ों क े द ौ र ा न अम जद क ो पत ा चल ा क ि वह अपन े पर ि व ा र क े उन 20 ल ो ग ों म ें स े एक ह ैं, ज ि नक ा न ा म मतद ा त ा स ू च ी स े इस वजह स े क ा ट द ि य ा गय ा क ि उन ् ह ों न े अपन ा घर बदल ल ि य ा ह ै.
2
+
3
+ 5 5 वर ् ष ी य अम जद न े न ् य ू ज ़ ल ॉ न ् ड ् र ी क ो बत ा य ा, " हम ा र े स ा मन े य े पहल ी ब ा र ह ु आ ह ै. ल े क ि न न ा म क टन े क े ब ा र े म ें सबस े ज ् य ा द ा न ि र ा श ा जन क ब ा त य े थ ी क ि इसक ा पत ा मतद ा न क े द ि न ह ी चल ा. जब हम पहल ी ब ा र ब ू थ 10 पर गए त ो उन ् ह ों न े हम ें बत ा य ा क ि उन ् ह ें मतद ा त ा स ू च ी म ें हम ा र ा न ा म नह ीं म ि ल ा. इसल ि ए हम ें ज ा म ा मस ् ज ि द म ें क ि स ी द ू सर े ब ू थ पर ज ा कर द े खन ा च ा ह ि ए . वह ां स े हम ें द ू सर े ब ू थ पर भ े ज द ि य ा गय ा. इस तरह हमन े प ां च स े छह ब ू थ ों क ा द ौ र ा क ि य ा. और फ ि र अ ं त म ें हम ें ज ो क ा रण बत ा य ा गय ा, व ो यह थ ा क ि श ा यद घर - घर ज ा कर सर ् व े क ् षण क े द ौ र ा न ब ी एल ओ ( ब ू थ ल े वल ऑफ ि सर ) क ो हम घर पर नह ीं म ि ल े इसल ि ए उन ् ह ों न े हम ा र े न ा म क ा ट द ि ए . ”
encode_decode.py CHANGED
@@ -27,7 +27,7 @@ def decode(ids):
27
  return text
28
 
29
  # Example: Decode a list of IDs
30
- set_of_ids = [1072, 415, 308, 1406, 103, 279, 999, 260, 550, 46, 301, 39, 299, 1076, 1172, 562, 284, 111, 414, 1460, 46, 301, 116, 373, 308, 259, 562, 798, 832, 1460, 1449, 44, 892, 415, 308, 311, 112, 112, 549, 46]
31
  decoded_text = decode(set_of_ids) # Pass the list of IDs
32
  print(decoded_text)
33
 
@@ -61,5 +61,5 @@ def encode():
61
  return final_tokens
62
 
63
  # Example: Encode text from a file
64
- encoded_tokens = encode()
65
- print(encoded_tokens)
 
27
  return text
28
 
29
  # Example: Decode a list of IDs
30
+ set_of_ids = [1044, 1283, 262, 260, 314, 266, 284, 259, 261, 262, 263, 308, 263, 267, 279, 263, 410, 660, 275, 318, 319, 318, 544, 263, 319, 338, 269, 286, 266, 261, 265, 284, 259, 533, 262, 265, 320, 260, 271, 265, 261, 277, 282, 916, 260, 270, 263, 507, 322, 278, 336, 318, 262, 260, 286, 259, 278, 273, 260, 1097, 259, 267, 260, 291, 259, 267, 260, 298, 259, 270, 260, 343, 557, 273, 287, 341, 372, 260, 592, 296, 262, 260, 571, 280, 342, 265, 301, 277, 282, 798, 263, 274, 344, 369, 603, 259, 269, 259, 292, 266, 270, 265, 270, 263, 262, 263, 417, 271, 266, 276, 259, 272, 266, 269, 291, 259, 278, 259, 833, 265, 290, 266, 283, 273, 260, 279, 281, 569, 262, 263, 292, 300, 261, 263, 314, 274, 421, 313, 328, 314, 266, 284, 259, 261, 262, 260, 1277, 827, 265, 275, 924, 259, 267, 262, 282, 283, 265, 261, 545, 314, 279, 264, 290, 263, 269, 415, 271, 924, 259, 271, 259, 274, 344, 294, 260, 269, 266, 267, 279, 266, 572, 260, 273, 259, 270, 294, 268, 622, 259, 319, 280, 267, 259, 284, 296, 262, 260, 292, 338, 261, 259, 267, 506, 1283, 262, 268, 462, 259, 437, 259, 262, 266, 380, 367, 260, 314, 266, 284, 259, 261, 262, 260, 340, 376, 294, 268, 289, 296, 277, 282, 273, 260, 343, 274, 489, 291, 266, 526, 259, 286, 259, 278, 924, 259, 271, 259, 273, 300, 305, 263, 273, 260, 328, 651, 273, 260, 262, 259, 287, 292, 266, 275, 259, 361, 259, 262, 266, 340, 265, 276, 296, 267, 260, 367, 259, 592, 766, 294, 266, 275, 259, 274, 312, 10, 10, 53, 53, 483, 265, 320, 263, 275, 506, 1283, 286, 260, 286, 265, 275, 300, 290, 322, 270, 353, 267, 265, 301, 265, 261, 263, 262, 268, 413, 259, 275, 366, 32, 34, 519, 259, 261, 260, 273, 259, 440, 260, 321, 260, 379, 263, 285, 259, 261, 274, 280, 357, 274, 312, 294, 260, 269, 266, 267, 286, 259, 278, 262, 476, 260, 262, 260, 285, 259, 261, 260, 277, 282, 540, 260, 291, 265, 275, 259, 283, 259, 286, 266, 261, 259, 302, 259, 389, 269, 285, 259, 271, 321, 260, 323, 263, 262, 266, 419, 259, 462, 259, 924, 259, 267, 262, 260, 292, 266, 267, 274, 263, 437, 330, 433, 375, 379, 263, 285, 259, 261, 285, 300, 329, 545, 314, 431, 308, 268, 340, 265, 276, 296, 267, 260, 375, 282, 413, 259, 275, 259, 262, 266, 340, 265, 276, 282, 924, 259, 271, 259, 273, 300, 305, 263, 277, 282, 375, 259, 261, 259, 286, 259, 278, 345, 335, 277, 266, 270, 330, 792, 266, 299, 375, 282, 291, 259, 278, 259, 833, 265, 290, 266, 283, 277, 282, 262, 266, 272, 263, 292, 300, 391, 260, 285, 300, 329, 314, 291, 259, 341, 292, 260, 607, 259, 319, 259, 276, 266, 299, 46, 380, 318, 273, 260, 375, 282, 292, 300, 391, 260, 285, 300, 329, 314, 310, 260, 290, 292, 266, 275, 259, 361, 330, 328, 513, 899, 260, 279, 318, 305, 273, 260, 1067, 285, 300, 329, 296, 262, 259, 292, 338, 261, 259, 262, 266, 275, 330, 313, 332, 266, 261, 297, 264, 271, 277, 282, 375, 282, 291, 268, 262, 259, 518, 413, 259, 275, 259, 361, 366, 298, 268, 369, 323, 259, 262, 266, 327, 259, 741, 592, 45, 1133, 291, 259, 341, 534, 265, 284, 260, 269, 265, 515, 262, 260, 292, 338, 261, 259, 267, 285, 263, 901, 399, 394, 295, 300, 329, 294, 260, 643, 626, 266, 391, 41, 262, 268, 375, 592, 314, 345, 335, 277, 266, 270, 260, 792, 266, 299, 340, 265, 276, 296, 267, 260, 375, 259, 261, 260, 286, 259, 278, 262, 259, 287, 292, 266, 299, 46, 1396]
31
  decoded_text = decode(set_of_ids) # Pass the list of IDs
32
  print(decoded_text)
33
 
 
61
  return final_tokens
62
 
63
  # Example: Encode text from a file
64
+ #encoded_tokens = encode()
65
+ #print(encoded_tokens)
encode_input.txt CHANGED
@@ -1 +1,3 @@
1
- There'll be changes after the war. I've never been more hopeful. It'd be a more peaceful world, people'll be happier.
 
 
 
1
+ अमजद के परिवार की तीन पीढ़ियां चांदनी चौक निर्वाचन क्षेत्र में हवेली आज़म खां के नाम से पहचाने जाने वाले एकदम सटकर बने घरों के झुण्ड में रहती हैं. यह इलाका दिल्ली की ऐतिहासिक जामा मस्जिद से पैदल की दूरी पर है, और इस परिवार के 23 सदस्य मतदान केंद्र 10 पर पंजीकृत मतदाता हैं. लेकिन पिछले साल लोकसभा चुनावों के दौरान अमजद को पता चला कि वह अपने परिवार के उन 20 लोगों में से एक हैं, जिनका नाम मतदाता सूची से इस वजह से काट दिया गया कि उन्होंने अपना घर बदल लिया है.
2
+
3
+ 55 वर्षीय अमजद ने न्यूज़लॉन्ड्री को बताया, "हमारे सामने ये पहली बार हुआ है. लेकिन नाम कटने के बारे में सबसे ज्यादा निराशाजनक बात ये थी कि इसका पता मतदान के दिन ही चला. जब हम पहली बार बूथ 10 पर गए तो उन्होंने हमें बताया कि उन्हें मतदाता सूची में हमारा नाम नहीं मिला. इसलिए हमें जामा मस्जिद में किसी दूसरे बूथ पर जाकर देखना चाहिए. वहां से हमें दूसरे बूथ पर भेज दिया गया. इस तरह हमने पांच से छह बूथों का दौरा किया. और फिर अंत में हमें जो कारण बताया गया, वो यह था कि शायद घर-घर जाकर सर्वेक्षण के दौरान बीएलओ (बूथ लेवल ऑफिसर) को हम घर पर नहीं मिले इसलिए उन्होंने हमारे नाम काट दिए.”